강화학습 기본 완성과 PyTorch

책 이미지

eBook 미리보기

책 정보

· 제목 : 강화학습 기본 완성과 PyTorch
· 분류 : 국내도서 > 대학교재/전문서적 > 공학계열 > 컴퓨터공학 > 알고리즘
· ISBN : 9791158087890
· 쪽수 : 252쪽
· 출판일 : 2025-12-15

책 소개

강화학습 알고리즘을 코드 구현 중심으로 설명하고 실제 학습 가능한 코드를 제공하는 드문 시리즈의 세 번째 책이다. 정책 기반 강화학습을 본격적으로 다루며 구현과 학습 가능성을 핵심으로 삼는다.

제1장 REINFORCE-Monte Carlo Policy Gradient
1．용어 설명과 구성 요소
2．신경망 구조
3．정책(상태를 입력하면 행동 출력) 정의
4．학습데이터 정의
5．손실 정의
6．파라미터 업데이트 함수
7．Main
8．코드 설명
9．전체 코드
10．부록

제2장 REINFORCE-Baseline
1．용어 설명과 구성 요소
2．신경망 구조
3．정책(상태를 입력하면 행동 출력) 정의
4．학습데이터 정의
5．손실 정의
6．파라미터 업데이트 함수
7．Main
8．코드 설명
9．전체 코드
10．부록

제3장 Advantage Actor Critic(A2C)
1．용어 설명과 구성 요소
2．신경망 구조
3．정책(상태를 입력하면 행동 출력) 정의
4．학습데이터 정의
5．손실 정의
6．Main
7．전체 코드
8．부록

제4장 Asynchronous Advantage Actor Critic(A3C)
1．용어 설명과 구성 요소
2．신경망 구조
3．정책(상태를 입력하면 행동 출력) 정의
4．학습데이터 정의
5．손실 정의
6．train 함수
7．Main
8．코드 설명
9．전체 코드
10．부록

제5장 Deep Deterministic Policy Gradient(DDPG)
1．용어 설명과 구성 요소
2．신경망 구조
3．정책(상태를 입력하면 행동 출력) 정의와 노이즈 추가
4．학습데이터(replay memory) 정의
5．손실 정의
6．Main
7．코드 설명
8．전체 코드
9．부록

제6장 Twin Delayed Deep Deterministic Policy Gradient(TD3)
1．용어 설명과 구성 요소
2．신경망 구조
3．정책(상태를 입력하면 행동 출력) 정의와 노이즈 추가
4．학습데이터(replay memory) 정의
5．손실 정의
6．Main
7．전체 코드
8．부록

제7장 Trust Region Policy Optimization(TRPO)
1．용어 설명과 구성 요소
2．신경망 구조
3．정책(상태를 입력하면 행동 출력) 정의
4．학습데이터(replay memory) 정의
5．Critic 손실 정의와 actor 파라미터 업데이트 공식
6．Main
7．코드 설명
8．전체 코드
9．부록

제8장 Proximal Policy Optimization(PPO)
1．용어 설명과 구성 요소
2．신경망 구조
3．정책(상태를 입력하면 행동 출력) 정의
4．학습데이터(replay memory) 정의
5．손실 정의
6．Main
7．코드 설명
8．전체 코드
9．부록

제9장 Soft Actor Critic(SAC)
1．용어 설명과 구성 요소
2．신경망 구조
3．정책(상태가 입력되면 행동 출력) 정의
4．학습데이터(replay memory) 정의
5．손실 정의
6．Main(train 함수)
7．전체 코드
8．부록

저자소개

추상목 (지은이) 정보 더보기

서울대에서 이학사, 이학석사, 이학박사를 취득한 후, 울산대학교 수학과에 부임하여 현재까지 교수로 재임하면서 파이썬 프로그래밍, 수리통계학, 수리인공지능(빅데이터 분석, 순방향신경망, 언어 처리에 사용하는 순환신경망, 이미지 처리에 사용하는 합성곱신경망, 강화학습) 강의를 하고 있다.

펼치기