책 이미지

책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 인공지능
· ISBN : 9791165922450
· 쪽수 : 392쪽
· 출판일 : 2023-10-04
책 소개
목차
1. 환경 설정
1.1 윈도우 버전
1.2 리눅스 버전
2. 강화 학습을 위한 사전 지식
2.1 머신 러닝과 강화 학습
2.1.1 머신 러닝
2.1.2 강화 학습
2.2 기초 수학
2.2.1 기초 선형 대수
2.2.2 기초 미분과 적분
2.2.3 기초 확률 통계
2.3 최적화
2.3.1 뉴턴-랩슨법(Newton-Raphson method)
2.3.2 경사 하강법(Gradient descent method)
2.4 목적 함수
2.4.1 최소 제곱
2.4.2 확률 엔트로피와 쿨백-라이블러 발산
2.5 인공 신경망
2.5.1 신호 전·후 처리
2.5.2 순방향 전파
2.5.3 역방향 전파
2.6 초간단 파이토치 튜토리얼
2.6.1 MNIST
2.6.2 회귀 분석
2.7 매개 변수 탐색법
2.7.1 격자 탐색법(Grid search)
2.7.2 베이지안 탐색법(Bayesian optimization)
3. 마르코프 의사 결정과 동적 계획법 풀이 전략
3.1 마르코프 의사 결정
3.2 동적 계획법
3.3 [실습] 잭의 렌터카 업체 운영 전략 – 동적 계획법을 이용한 마르코프 의사 결정
4. 밸만 방정식부터 강화 학습까지
4.1 몬테-카를로 추정법
4.2 시간차 학습
4.2.1 TD(0)
4.2.2 TD(λ)
4.3 Monte-Carlo vs Temporal Difference
4.4 에이전트 학습
4.4.1 SARSA
4.4.2 Q-learning
4.4.3 실습
5. Q-함수는 신경망에 맡긴다 – DQN
5.1 DQN 208
5.1.1 이론 209
5.1.2 실습 219
5.2 파생 알고리즘 256
5.2.1 DDQN 256
5.2.2 PER 260
6. 즉각적인 학습이 필요할 때 – Policy gradient
6.1 Actor-Critic
6.1.1 이론
6.1.2 실습
6.2 파생 알고리즘
6.2.1 Asynchronous Advantage Actor-Critic
6.2.2 LSTM-Based Advantage Actor-Critic
6.2.3 [고급] Trust Region Policy Optimization
6.2.4 [고급] Proximal Policy Optimization
7. 탐험의 전략 – Model based learning
7.1 사전 지식 – 밴딧 모델
7.2 이론 – Monte-Carlo Tree Search
7.3 실습
7.3.1 CartPole
7.3.2 Tic-Tac-Toe
찾아보기