logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

강화학습 기본과 PyTorch

강화학습 기본과 PyTorch

(2024년 세종도서 학술 부문 선정도서)

추상목 (지은이)
자유아카데미
22,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
알라딘 로딩중
yes24 로딩중
교보문고 로딩중
11st 로딩중
영풍문고 로딩중
쿠팡 로딩중
쿠팡로켓 로딩중
G마켓 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
aladin 22,000원 -10% 1100원 18,700원 >

책 이미지

강화학습 기본과 PyTorch
eBook 미리보기

책 정보

· 제목 : 강화학습 기본과 PyTorch (2024년 세종도서 학술 부문 선정도서)
· 분류 : 국내도서 > 대학교재/전문서적 > 공학계열 > 컴퓨터공학 > 알고리즘
· ISBN : 9791158085599
· 쪽수 : 264쪽
· 출판일 : 2023-11-30

책 소개

강화학습 기본을 다루는 안내서다. 비지도 학습과 지도 학습에 없는 환경과 에이전트를 이해하는 것이 강화학습의 첫걸음이다. 환경을 알 때의 강화학습은 1~4장에서 다루고 모를 때는 5~11장에서 다룬다. 신경망 사용 여부를 기준으로 하면, 1~6장에서는 사용하지 않고 7~11장에서는 사용한다.

목차

제1장 그림으로 이해하는 강화학습
PART I 강화학습 구성 요소
PART II 환경(env) 예제
PART III 에이전트(agent) 예제

제2장 벨만 방정식(Bellman equation)
PART I 보상과 평균 보상
PART II 할인율(discount rate)
PART III 정책 π
PART IV 정책 π로 행동할 때, 상태 s에서 평균 보상
PART V 정책 π로 행동할 때, 상태 가치(state value)
PART VI 정책 π로 행동을 선택할 때, 상태-행동 가치
PART VII 벨만 기대 방정식(Bellman expectation equation)
PART VIII 벨만 최적 방정식(Bellman optimality equation)

제3장 강화학습에 사용하는 기본 코드
PART I 환경 코드
PART II 정책 코드
PART III 환경-정책 상호작용 코드

제4장 동적 계획법(Dynamic programming)
PART I 벨만 기대 방정식의 해를 코딩으로 구하기
PART II 최적의 정책을 코딩으로 구하기: 정책 반복(policy iteration)
PART III 최적의 정책을 코딩으로 구하기: 가치 반복(value iteration)

제5장 몬테카를로(Monte Carlo, MC)
PART I 에피소드(episode)
PART II 처음 방문(first-visit) MC와 모든 방문(every-visit) MC
PART III 중요도 표본추출 MC(importance sampling MC)
부록 125

제6장 SARSA와 Q-learning
PART I SARSA 개요
PART II Q-learning 개요
PART III SARSA 업데이트 그림부터 코딩까지의 과정
PART IV Q-learning 업데이트 그림부터 코딩까지의 과정

제7장 깊은 Q-네트워크(Deep Q-Network, DQN)
PART I 환경 CartPole-v0 소개
PART II 학습데이터, 신경망 구조와 손실함수 소개
PART III 그림으로 이해하는 DQN(Deep Q-Network, DQN)
PART IV DQN 의사 코드
PART V DQN 코드 설명
PART VI DQN 전체 코드

제8장 Double DQN

제9장 Dueling DQN

PART I Advantage A(s,a)의 평균을 빼는 이유

제10장 Max-PER(Prioritized Experience Replay)
PART I 정책 신경망의 첫 번째 업데이트(Max-PER-DQN)
PART II 정책 신경망의 두 번째 업데이트(Max-PER-DQN)
PART III 정책 신경망의 세 번째 업데이트(Max-PER-DQN)
PART IV Max-PER-DQN 전체 코드
PART V Max-PER-DoubleDQN 전체 코드
PART VI Max-PER-DuelingDQN 전체 코드

제11장 SumTree-PER(Prioritized Experience Replay)
PART I 정책 신경망의 첫 번째 업데이트(SumTree-PER-DQN)
PART II 정책 신경망의 두 번째 업데이트(SumTree-PER-DQN)
PART III 정책 신경망의 세 번째 업데이트(SumTree-PER-DQN)
PART IV SumTree-PER-DQN 전체 코드
PART V SumTree-PER-DoubleDQN 전체 코드
PART VI SumTree-PER-DuelingDQN 전체 코드

저자소개

추상목 (지은이)    정보 더보기
서울대에서 이학사, 이학석사, 이학박사를 취득한 후, 울산대학교 수학과에 부임하여 현재까지 교수로 재임하면서 파이썬 프로그래밍, 수리통계학, 수리인공지능(빅데이터 분석, 순방향신경망, 언어 처리에 사용하는 순환신경망, 이미지 처리에 사용하는 합성곱신경망, 강화학습) 강의를 하고 있다.
펼치기

책속에서



이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책
9791158085834