logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

Stable Baselines를 이용한 강화학습

Stable Baselines를 이용한 강화학습

박유성 (지은이)
자유아카데미
27,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
27,000원 -0% 0원
810원
26,190원 >
yes24 로딩중
교보문고 로딩중
11st 로딩중
영풍문고 로딩중
쿠팡 로딩중
쿠팡로켓 로딩중
G마켓 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
알라딘 판매자 배송 4개 25,380원 >
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
로딩중

책 이미지

Stable Baselines를 이용한 강화학습
eBook 미리보기

책 정보

· 제목 : Stable Baselines를 이용한 강화학습 
· 분류 : 국내도서 > 대학교재/전문서적 > 공학계열 > 컴퓨터공학 > 알고리즘
· ISBN : 9791158083137
· 쪽수 : 314쪽
· 출판일 : 2021-08-05

책 소개

강화학습의 작동원리를 toy example을 통해 쉽게 이해할 수 있도록 집필한 교재다. Stable Baselines는 현재까지 총 15개의 강화학습법을 실행할 수 있다. 여기에 10개의 강화학습을 추가하여 25개의 강화학습법을 수록하였다.

목차

1장 강화학습의 이해
1.1 3×3 환경에서의 강화학습
1.2 MDP(Markov Decision Process)
1.3 가치함수와 Q 함수

2장 Bellman 방정식과 다이나믹 프로그래밍
2.1 Bellman 방정식
2.2 DP(Dynamic Programming)
2.3 DP 예제

3장 OpenAI Gym

4장 몬테카를로 추정방법

4.1 가치함수 및 Q 함수의 몬테카를로 추정
4.2 최적 policy 몬테카를로 추정
4.3 Blackjack 게임의 몬테카를로 학습
4.4 off-policy 몬테카를로

5장 TD와 action의 탐색
5.1 SARSA와 Q-학습
5.2 SARSA와 Q-학습의 응용
5.3 Action의 탐색과 선택

6장 Deep Q networks
6.1 DQN 모형
6.2 DQN의 응용
6.3 Double DQN
6.4 가중치를 가진 replay buffer
6.5 Dueling DQN

7장 정책기반 강화학습
7.1 Policy Gradient의 도출과 의미
7.2 정책기반 강화학습 알고리즘
7.3 REINFORCE의 응용

8장 Actor-Critic 강화학습
8.1 A2C
8.2 비동시성 A2C(A3C)
8.3 ACER

9장 Stable Baselines
9.1 DQN의 적용과 응용
9.2 A2C, A3C, ACER의 적용과 응용
9.3 Stable Baselines에서 지원하는 action space와 policy 아키텍처
9.4 맞춤형 Policy 만들기
9.5 Multiprocessing과 맞춤형 환경
9.6 시스템 주식거래를 위한 주식시장 환경구축

10장 TRPO, PPO, ACKTR
10.1 TRPO
10.2 PPO
10.3 ACKTR
10.4 Stable Baselines의 적용

11장 DDPG, TD3, SAC
11.1 DDPG
11.2 TD3
11.3 SAC
11.4 DDPG, TD3, SAC의 응용
11.5 HER

12장 모방학습과 역강화학습
12.1 DAgger
12.2 DQfD
12.3 IRL
12.4 GAIL
12.5 사전학습과 GAIL의 적용

13장 확률분포 강화학습
13.1 범주형 DQN
13.2 QR-DQN
13.3 D4PG

부록
1. 몬테카를로 정책 반복법
2. off-policy 몬테카를로 알고리즘
3. SARSA 알고리즘
4. Q-학습 알고리즘
5. DQN 알고리즘
6. REINFORCE 알고리즘
7. policy gradient with baseline 알고리즘
8. A2C 알고리즘
9. TRPO 알고리즘
10. PPO-clipped 알고리즘
11. PPO-penalty 알고리즘
12. DDPG 알고리즘
13. TD3 알고리즘
14. SAC 알고리즘
15. DAgger 알고리즘
16. DQfD 알고리즘
17. IRL 알고리즘
18. 범주형 DQN 알고리즘
19. D4PG 알고리즘

참고문헌

찾아보기

저자소개

박유성 (지은이)    정보 더보기
- 고려대학교 정경대학 통계학과 졸업 - 고려대학교 대학원 석사과정 졸업(통계학 전공) - 미국 조지아대학교 대학원 졸업(통계학 박사) - 현재 고려대학교 명예교수
펼치기
박유성의 다른 책 >
이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책