logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

일간
|
주간
|
월간

실시간 검색어

검색가능 서점

도서목록 제공

심층 강화학습 인 액션

심층 강화학습 인 액션

(기본 개념부터 파이썬 기반의 최신 알고리즘 구현까지)

알렉스 짜이, 브랜던 브라운 (지은이), 류광 (옮긴이)
제이펍
30,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
27,000원 -10% 0원
1,500원
25,500원 >
27,000원 -10% 0원
카드할인 10%
2,700원
24,300원 >
yes24 로딩중
교보문고 로딩중
11st 로딩중
영풍문고 로딩중
쿠팡 로딩중
쿠팡로켓 로딩중
G마켓 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
aladin 21,000원 -10% 1050원 17,850원 >

책 이미지

심층 강화학습 인 액션
eBook 미리보기

책 정보

· 제목 : 심층 강화학습 인 액션 (기본 개념부터 파이썬 기반의 최신 알고리즘 구현까지)
· 분류 : 국내도서 > 컴퓨터/모바일 > 인공지능
· ISBN : 9791190665612
· 쪽수 : 440쪽
· 출판일 : 2020-11-17

책 소개

환경이 제공하는 직접적인 피드백에 기반해서 환경에 적응하고 자신을 개선해 나가는 에이전트의 구현 방법을 설명한다. 흐름이 있는 하나의 강좌 형태로 구성된 이 책에서 심층 강화학습의 기본 기법과 고급 기법을 미로 탈출이나 비디오 게임 플레이 같은 흥미로운 예제를 통해서 배우게 된다.

목차

PART I 기초 1
CHAPTER 1 강화학습이란? 3
1.1 심층 강화학습에서 '심층'의 의미 4
1.2 강화학습 6
1.3 동적 계획법과 몬테카를로 방법 9
1.4 강화학습의 틀 12
1.5 강화학습으로 할 수 있는 일 16
1.6 왜 심층 강화학습인가? 18
1.7 이 책의 주요 설명 수단: 끈 그림 21
1.8 앞으로의 여정 22
요약 24

CHAPTER 2 강화학습 문제의 모형화: 마르코프 결정 과정 25
2.1 끈 그림과 이 책의 교육 방식 25
2.2 여러 팔 강도 문제의 해법 30
2.3 여러 팔 강도 문제를 광고 배치 최적화에 적용 41
2.4 PyTorch로 신경망 만들기 43
2.5 문맥적 강도 문제의 해법 47
2.6 마르코프 성질 52
2.7 향후 보상의 예측: 가치와 정책 함수 55
요약 59

CHAPTER 3 가장 나은 동작의 선택: 심층 Q 신경망(DQN) 61
3.1 Q 함수 62
3.2 Q 학습 개요 64
3.3 파국적 망각 방지: 경험 재현 85
3.4 목표망을 이용한 안정성 개선 92
3.5 정리 99
요약 102

CHAPTER 4 정책 기울기 방법 103
4.1 신경망을 이용한 정책 함수 구현 104
4.2 좋은 동작의 강화: 정책 기울기 알고리즘 108
4.3 OpenAI Gym 다루기 114
4.4 REINFORCE 알고리즘 117
요약 125

CHAPTER 5 좀 더 어려운 문제 풀기: 행위자-비평자 모형 127
5.1 가치 함수와 정책 함수의 결합 129
5.2 분산 훈련 135
5.3 이익 행위자-비평자 141
5.4 N-단계 행위자-비평자 151
요약 157

PART I I 더 높은 곳을 향하여 159
CHAPTER 6 또 다른 최적화 방법: 진화 알고리즘 161
6.1 강화학습의 또 다른 접근 방식 162
6.2 진화를 이용한 강화학습 163
6.3 CartPole을 위한 유전 알고리즘 172
6.4 진화 알고리즘의 장단점 180
6.5 규모가변적 대안으로서의 진화 알고리즘 182
6.5.6 기울기 기반 접근 방식의 규모 확장 189
요약 189

CHAPTER 7 모든 가능성의 탐색: 분포 심층 Q 신경망 191
7.1 기댓값 Q 학습의 문제점 192
7.2 다시 살펴보는 확률과 통계 197
7.3 벨먼 방정식 204
7.4 분포 Q 학습 206
7.5 확률분포의 비교 219
7.6 가상의 데이터에 대한 분포 DQN 225
7.7 분포 DQN을 이용한 아타리 프리웨이 학습 231
요약 237

CHAPTER 8 호기심 주도 탐험 239
8.1 예측 부호화를 이용한 희소 보상 문제 해결 241
8.2 역방향 동역학 예측 244
8.3 슈퍼 마리오브라더스 환경 설정 247
8.4 Q 신경망 전처리 250
8.5 Q 신경망과 정책 함수 설정 253
8.6 ICM(내재적 호기심 모듈) 257
8.7 그 밖의 내재적 보상 메커니즘들 271
요약 274

CHAPTER 9 다중 에이전트 강화학습 277
9.1 단일 에이전트에서 다중 에이전트로 278
9.2 이웃 Q 학습 282
9.3 1차원 이징 모형 286
9.4 평균장 Q 학습과 2차원 이징 모형 298
9.5 혼합 협조-경쟁 게임 309
요약 323

CHAPTER 10 해석 가능한 강화학습: 주의 모형과 관계 모형 325
10.1 주의와 관계 편향을 이용한 기계학습 해석성 개선 326
10.2 주의 메커니즘을 이용한 관계 추론 330
10.3 MNIST 이미지 분류를 위한 자가 주의 모형 구현 342
10.4 다중 헤드 주의 모형과 관계 DQN 356
10.5 이중 Q 학습 365
10.6 훈련과 주의 시각화 367
요약 376

CHAPTER 11 결론: 돌아보기와 내다보기 379
11.1 핵심 정리 380
11.2 심층 강화학습 분야의 미개척 주제들 382
11.3 마치며 386

APPENDIX A 수학, 심층학습, PyTorch 387
A.1 선형대수 388
A.2 미적분 390
A.3 심층학습 396A.4 PyTorch 397

참고문헌 402
찾아보기 406

저자소개

브랜던 브라운 (엮은이)    정보 더보기
어려서부터 프로그래밍을 해왔고 대학 시절에는 파트타임으로 소프트웨어 개발 일도 했지만, 결국은 의학으로 진로를 잡았다. 보건 기술 분야의 소프트웨어 기술자로 일한 적도 있는 그는 현재 의사이며, 심층 강화학습에 영감을 얻은 계산 정신 의학(computational psychiatry)의 연구에 관심이 있다.
펼치기
알렉스 짜이 (지은이)    정보 더보기
심화 코딩 부트캠프인 Codesmith의 CTO를 역임했고, 현재는 기술 자문으로 일한다. 또한 그는 우버의 소프트웨어 기술자이자 Banjo와 아마존의 기계학습 공학자이며, 오픈소스 심층 강화학습 프레임워크인 아파치 MXNet에도 기여한다. 그리고 두 개의 기업을 공동 창업하기도 했는데, 그중 한 회사는 Y Combinator에 참여했다.
펼치기
류광 (옮긴이)    정보 더보기
IT 전문서를 주로 번역하는 전업 번역가로, 《컴퓨터 프로그래밍의 예술(The Art of Computer Programming)》 시리즈와 《Game Programming Gems》 시리즈, 《인공지능: 현대적 접근방식 제4판》, 《자바스크립트로 배우는 SICP》를 비롯해 90권 이상의 다양한 IT 전문서를 우리말로 옮겼다. 홈페이지 류광의 번역 이야기(https://occamsrazr.net)와 IT 및 게임 개발 정보 공유 사이트 GpgStudy(https://gpgstudy.com)를 운영한다.
펼치기

책속에서

이 책을 출간하는 시점에서 본문에 수록된 모든 예제 코드는 잘 작동함이 확인된 것이다. 그러나 심층학습 분야와 관련 라이브러리들이 빠르게 발전하는 만큼, 언제까지라도 예제 코드가 의도대로 작동하리라는 보장은 없다. 본문의 예제 코드는 또한 프로젝트가 돌아가는 데 필요한 최소한의 형태로만 작성된 것일 뿐이므로, 원서 깃허브 저장소 https://mng.bz/JzKp에 있는 좀 더 완전한(그리고 갱신된) 소스 코드를 참고하길 강력히 권한다.


이 책은 독자가 심층학습에 관한 기본 지식을 어느 정도 갖추고 있다고 가정하지만, 재미있고 유익한 강화학습 기법들을 배우는 과정에서 여러분의 심층학습 관련 기술도 더욱 제련될 것이다. 좀 더 어려운 프로젝트들을 해결하기 위해서는 심층학습의 최신 성과 몇 가지도 동원할 필요가 있다. 이를테면 GAN(생성 대립 신경망 또는 생성적 적대 신경망), 진화적 방법들, 메타 학습, 전이학습이 그런 예이다. 물론 이들은 모두 독자의 추후 학습 능력을 증진한다는 기본적인 목적하에서 언급되는 것일 뿐, 그런 최신 성과의 기술적인 세부 사항에 초점들을 두지는 않는다.


실망스럽지만 흥미로운 결과이다. 신경망이 선택한 이동 동작들을 자세히 살펴보기 바란다. 플레이어는 목표에서 오른 쪽으로 몇 타일 떨어진 곳에서 출발한다. 플레이어가 게임 플레이 방법을 정말로 알고 있다면 그냥 왼쪽으로 직진해서 목표에 도달했을 것이다. 그러나 플레이어는 정적 모드에서처럼 아래로 내려가기 시작한다. 이 결과를 보면 신경망이 훈련에 사용한 정적 모드의 게임 플레이를 그냥 암기했을 뿐, 배운 것을 일반화하지는 못했다고 봐야 할 것이다.


추천도서

이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책
9791190665902