책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 컴퓨터공학/전산학 개론
· ISBN : 9791165920746
· 쪽수 : 332쪽
· 출판일 : 2021-06-29
책 소개
목차
Chapter 0. R 언어 소개
0.1 R 설치
> 0.1.1 Windows 버전 R 다운로드 <
> 0.1.2 mac OS 버전 R 다운로드 <
0.2 R 전용 통합 개발 환경(IDE) 설치
Chapter 1. 머신러닝이란 Machine Learning
1.1 머신러닝이 필요한 이유
> 1.1.1 머신러닝 학습시키기 <
> 1.1.2 손실 함수 <
> 1.1.3 머신러닝의 구분 <
1.2 딥러닝(Deep Learning)
> 1.2.1 딥러닝의 사례 <
Chapter 2. 딥러닝 Deep Learning
2.1 퍼셉트론(Perceptron)
2.2 Multi Layer Perceptron(MLP)
> 2.2.1 Feed Forward <
> 2.2.2 Back Propagation <
> 2.2.3 활성 함수(Activation Function) <
> 2.2.4 Gradient Descent Method <
> 2.2.5 Iteration & Batch Size <
> 2.2.6 딥러닝의 단점 및 극복 <
2.3 딥러닝(Deep Learning)
> 2.3.1 Universal Approximation Theorem <
> 2.3.2 Convolutional Neural Network(CNN) <
> 2.3.3 다양한 CNN 구조 <
> 2.3.4 Recurrent Neural Network(RNN) <
> 2.3.5 다양한 RNN 구조 <
> 2.3.6 GAN 학습 과정 - Feed Forward <
> 2.3.7 GAN 학습 과정 - Back Propagation <
2.4 R로 구현하는 신경망
> 2.4.1 Feed Forward <
> 2.4.2 Back Propagation <
Chapter 3. 강화학습 Reinforcement Learning
3.1 강화학습 정의 요소
> 3.1.1 상태(State) <
> 3.1.2 행동(Action) <
> 3.1.3 정책(Policy) <
> 3.1.4 보상(Reward) <
> 3.1.5 감가율과 감가 누적 보상(Discount factor and Return) <
> 3.1.6 상태 가치 함수(State Value Function) <
> 3.1.7 행동 가치 함수(Action Value Function) <
> 3.1.8 벨만 방정식(Bellman equation) <
> 3.1.9 몬테 카를로 학습(Monte-Carlo Learning, MC) <
> 3.1.10 시간 차 학습(Temporal Difference Learning, TD) <
> 3.1.11 정책 갱신 <
3.2 손으로 풀어보는 Q-Learning
Chapter 4. 심층 강화학습 Deep Reinforcement Learning
4.1 Deep Q-Learning with Experience Replay(DQN)
[예제 4-1] DQN으로 최적 경로 찾기
4.2 Prioritized Experience Replay (PerDQN)
[예제 4-2] PerDQN으로 최적 경로 찾기
4.3 Dueling DQN
4.4 Policy Gradient(PG)
> 4.4.1 REINFORCE Algorithm <
> 4.4.2 Actor-Critic <
4.5 Advantage Actor-Critic(A2C)
[예제 4-3] A2C로 최적 경로 찾기
4.6 Asynchronous Methods for Deep Reinforcement Learning(A3C)
4.7 강화학습의 발전 방향
> 4.7.1 다수의 에이전트(Multi Agent) <
> 4.7.2 희소 보상 문제(Sparse Reward Problem) <
4.8 Curiosity
> 4.8.1 Exploration Bonus <
> 4.8.2 Count-Based Exploration Bonus <
> 4.8.3 Curiosity의 개념 <
4.9 Self-Imitation Learning
[예제 4-4] SIL로 최적 경로 찾기(난이도 3)
4.10 Exploration by Random Network Distillation
[예제 4-5] RND로 최적 경로 찾기(난이도 3)
Chapter 5. 심층 강화학습을 이용한 프로젝트
5.1 1단계 프로젝트
> 5.1.1 Environment 소개 <
> 5.1.2 State 설계 <
> 5.1.3 Reward 설계 <
> 5.1.4 1단계 프로젝트 학습 코드 <
5.2 2단계 프로젝트
> 5.2.1 Environment 소개 <
> 5.2.2 State 설계 <
> 5.2.3 Reward 설계 <
> 5.2.4 2단계 프로젝트 학습 코드 <
5.3 3단계 프로젝트
> 5.3.1 Environment 소개 <
> 5.3.2 3단계 프로젝트 학습 코드 <
Chapter 6. 최신 강화학습 트렌드
6.1 Trust Region Policy Optimization(TRPO)
6.2 Proximal Policy Optimization(PPO)
6.3 Distributed Prioritized Experience Replay(Ape-X)
6.4 Never Give Up(NGU)
6.5 Rewarding Impact-Driven Exploration (RIDE)
6.6 BeBold
> 6.6.1 Episodic Restriction on Intrinsic Reward(ERIR) <
6.7 Surprise Minimizing Reinforcement Learning(SMiRL)
그림 출처
찾아보기
책속에서




























