책 이미지
책 정보
· 분류 : 국내도서 > 대학교재/전문서적 > 공학계열 > 컴퓨터공학 > 알고리즘
· ISBN : 9791158087890
· 쪽수 : 252쪽
· 출판일 : 2025-12-15
책 소개
목차
제1장 REINFORCE-Monte Carlo Policy Gradient
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터 정의
5.손실 정의
6.파라미터 업데이트 함수
7.Main
8.코드 설명
9.전체 코드
10.부록
제2장 REINFORCE-Baseline
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터 정의
5.손실 정의
6.파라미터 업데이트 함수
7.Main
8.코드 설명
9.전체 코드
10.부록
제3장 Advantage Actor Critic(A2C)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터 정의
5.손실 정의
6.Main
7.전체 코드
8.부록
제4장 Asynchronous Advantage Actor Critic(A3C)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터 정의
5.손실 정의
6.train 함수
7.Main
8.코드 설명
9.전체 코드
10.부록
제5장 Deep Deterministic Policy Gradient(DDPG)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의와 노이즈 추가
4.학습데이터(replay memory) 정의
5.손실 정의
6.Main
7.코드 설명
8.전체 코드
9.부록
제6장 Twin Delayed Deep Deterministic Policy Gradient(TD3)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의와 노이즈 추가
4.학습데이터(replay memory) 정의
5.손실 정의
6.Main
7.전체 코드
8.부록
제7장 Trust Region Policy Optimization(TRPO)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터(replay memory) 정의
5.Critic 손실 정의와 actor 파라미터 업데이트 공식
6.Main
7.코드 설명
8.전체 코드
9.부록
제8장 Proximal Policy Optimization(PPO)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터(replay memory) 정의
5.손실 정의
6.Main
7.코드 설명
8.전체 코드
9.부록
제9장 Soft Actor Critic(SAC)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태가 입력되면 행동 출력) 정의
4.학습데이터(replay memory) 정의
5.손실 정의
6.Main(train 함수)
7.전체 코드
8.부록
저자소개
책속에서





















