logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

강화학습 기본 완성과 PyTorch

강화학습 기본 완성과 PyTorch

추상목 (지은이)
자유아카데미
23,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
23,000원 -0% 0원
230원
22,770원 >
yes24 로딩중
교보문고 로딩중
11st 로딩중
영풍문고 로딩중
쿠팡 로딩중
쿠팡로켓 로딩중
G마켓 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
aladin 23,000원 -10% 1150원 19,550원 >

책 이미지

강화학습 기본 완성과 PyTorch
eBook 미리보기

책 정보

· 제목 : 강화학습 기본 완성과 PyTorch 
· 분류 : 국내도서 > 대학교재/전문서적 > 공학계열 > 컴퓨터공학 > 알고리즘
· ISBN : 9791158087890
· 쪽수 : 252쪽
· 출판일 : 2025-12-15

책 소개

강화학습 알고리즘을 코드 구현 중심으로 설명하고 실제 학습 가능한 코드를 제공하는 드문 시리즈의 세 번째 책이다. 정책 기반 강화학습을 본격적으로 다루며 구현과 학습 가능성을 핵심으로 삼는다.

목차

제1장 REINFORCE-Monte Carlo Policy Gradient
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터 정의
5.손실 정의
6.파라미터 업데이트 함수
7.Main
8.코드 설명
9.전체 코드
10.부록

제2장 REINFORCE-Baseline
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터 정의
5.손실 정의
6.파라미터 업데이트 함수
7.Main
8.코드 설명
9.전체 코드
10.부록

제3장 Advantage Actor Critic(A2C)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터 정의
5.손실 정의
6.Main
7.전체 코드
8.부록

제4장 Asynchronous Advantage Actor Critic(A3C)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터 정의
5.손실 정의
6.train 함수
7.Main
8.코드 설명
9.전체 코드
10.부록

제5장 Deep Deterministic Policy Gradient(DDPG)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의와 노이즈 추가
4.학습데이터(replay memory) 정의
5.손실 정의
6.Main
7.코드 설명
8.전체 코드
9.부록

제6장 Twin Delayed Deep Deterministic Policy Gradient(TD3)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의와 노이즈 추가
4.학습데이터(replay memory) 정의
5.손실 정의
6.Main
7.전체 코드
8.부록

제7장 Trust Region Policy Optimization(TRPO)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터(replay memory) 정의
5.Critic 손실 정의와 actor 파라미터 업데이트 공식
6.Main
7.코드 설명
8.전체 코드
9.부록

제8장 Proximal Policy Optimization(PPO)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태를 입력하면 행동 출력) 정의
4.학습데이터(replay memory) 정의
5.손실 정의
6.Main
7.코드 설명
8.전체 코드
9.부록

제9장 Soft Actor Critic(SAC)
1.용어 설명과 구성 요소
2.신경망 구조
3.정책(상태가 입력되면 행동 출력) 정의
4.학습데이터(replay memory) 정의
5.손실 정의
6.Main(train 함수)
7.전체 코드
8.부록

저자소개

추상목 (지은이)    정보 더보기
서울대에서 이학사, 이학석사, 이학박사를 취득한 후, 울산대학교 수학과에 부임하여 현재까지 교수로 재임하면서 파이썬 프로그래밍, 수리통계학, 수리인공지능(빅데이터 분석, 순방향신경망, 언어 처리에 사용하는 순환신경망, 이미지 처리에 사용하는 합성곱신경망, 강화학습) 강의를 하고 있다.
펼치기

책속에서



추천도서

이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책
9791158088163