책 이미지
책 정보
· 분류 : 국내도서 > 대학교재/전문서적 > 자연과학계열 > 수학
· ISBN : 9791199117105
· 쪽수 : 315쪽
· 출판일 : 2025-03-31
책 소개
목차
1. 마르코프 의사결정과정 (Markov decision process)
1-1. 마르코프 의사결정과정 (Markov decision process)
1-2. 상태전이분포 (state transition probability)
1-3. 정책 (policy)
1-4. 보상 (reward)
1-5. 상태전이도표 (state transition diagram)
1-6. 에피소드 (episode)
1-7. 반환값 (return)
1-8. 목적함수 (objective function) 및 정책의 순위
1-9. 최적정책 (optimal policy)
1-10. 마르코프 의사결정문제 (Markov decision problem)
1-11. 정상상태분포 (stationary state distribution)
1-12 온폴리시 분포 (on-policy distribution)
2. 가치함수와 Q함수 (value function and Q-function)
2-1. 가치함수 (value function)
2-2. Q함수 (Q-function)
2-3. 여러가지 중요한 관계식들
2-4. 이점함수 (advantage function)
2-5. 정책의 순위와 가치함수의 관계
3. 벨만등식과 벨만연산자 (Bellman equation and Bellman operator)
3-1. 연산자 (operator)
3-2. 벨만등식 (Bellman equation)
3-3. V-벨만등식 (V-Bellman equation)
3-4. Q-벨만등식 (Q-Bellman equation)
3-5. 최적 V-벨만등식 (optimal V-Bellman equation)
3-6. 최적 Q-벨만등식 (optimal Q -Bellman equation)
4. 동적계획법 (dynamic programming, DP)
4-1. 정책반복 (policy iteration, PI)
4-2. 최적 가치함수와 최적정책의 관계
4-3. 가치반복 (value iteration, VI)
5. 수학적 배경지식
5-1. 최적화 (optimization)
5-2. 경사하강법 또는 그레디언트 디센트 (gradient descent method)
5-3. 확률적 경사하강법 또는 확률적 그레디언트 디센트 (stochastic gradient descent method, SGD)
5-4. 회기문제 (regression problem)
6. 몬테카를로 학습 (Monte Calro learning, MC learning)
6-1. 강화학습이란?
6-2. 확률적 근사 (stochastic approximation)
6-3. 일괄처리방식 MC추정 (batch Monte Calro prediction, batch MC prediction)
6-4. MC추정에서 탐색문제 (exploration issue in MC prediction)
6-5. 순차처리방식 MC추정 (recursive Monte Calro prediction, recursive MC prediction)
6-6. 순차처리방식 MC추정의 회기문제 및 그레디언트 (regression and gradient)관점
6-7. Q함수 추정을 위한MC추정 (MC prediction for Q-function estimation)
6-8. MC추정에서 Q함수 추정시 발생하는 탐색문제
6-9. 함수 근사화기반 MC추정
6-10. 온폴리시 (on-policy) vs 오프폴리시 (off-policy) 학습 (정책평가시)
6-11. MC제어 알고리즘 (MC control)
6-12. 온폴리시 (on-policy) vs 오프폴리시 (off-policy) 학습 (최적정책설계시)
7. TD학습 (temporal difference learning, TD learning)
7-1. TD학습 개요 (introduction to TD learning)
7-2. TD추정 (temporal difference prediction, TD prediction)
7-3. TD추정의 직관적 이해
7-4. TD추정의 회기문제 및 확률적 그레디언트 관점
7-5. TD추정의 동적계획법 관점
7-6. 함수근사를 사용한 TD추정
7-7. 오프폴리시 TD추정
7-8. TD추정의 탐색문제
7-9. 잔차 학습법 (residual method)과 중복 샘플링 문제 (double sampling issue)
7-10. Q함수를 위한 TD추정 (SARSA)
7-11. 함수근사화 기반 SARSA 및 오프폴리시 SARSA
7-12. 기대값 SARSA (expected SARSA)
7-13. SARSA 제어 (SARSA control)
7-14 기대값 SARSA 제어 (expected SARSA control)
8. Q학습 (Q-learning)
8-1. Q학습 개요 (introduction to Q-learning)
8-2. Q학습의 MC학습기반 해석
8-3. Q학습의 회귀문제 관점
8-4. Q학습의 동적계획법 관점
8-5. 함수근사화를 이용한 Q학습
8-6. Q학습의 과대평가문제 (overestimation issue)
8-7. 더블 Q학습 (double Q-learning)
8-8. 잔차 학습법 (residual method)과 중복 샘플링 문제 (double sampling issue)
8-9. 심층 Q학습 (deep Q-learning 또는 deep Q-network, DQN)
8-10. 심층 더블 Q학습 (deep double Q-learning 또는 deep double Q-network, D2QN)
9. 정책 그레디언트 (Policy gradient, PG)
9-1. 정책 그레디언트 정리 (policy gradient theorem)
9-2. 정책 그레디언트의 확률적 근사화기법
9-3. 정책 그레디언트 알고리즘 (policy gradient algorithm)
9-4. 정책함수 매개변수화 (policy parameterization)
9-5. 정책 그레디언트 알고리즘의 직관적 이해
9-6. 기준선 (baseline) 기법
10. 행위자-비평자 (actor-critic) 알고리즘
10-1. Q함수 기반 행위자-비평자 (Q actor-critic) 알고리즘
10-2. 이점함수 기반 행위자-비평자 (advantage actor-critic) 알고리즘
10-3. 연속적인 행동공간에서 정책 그레디언트 (policy gradient with continuous action-space)
10-4. 확정적 정책 그레디언트 (deterministic policy gradient, DPG)
10-5. 심층 확정적 정책 그레디언트 (deep deterministic policy gradient, DDPG)




















