logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

  • 네이버책
  • 알라딘
  • 교보문고
"stable baselines"(으)로 1개의 도서가 검색 되었습니다.
9791158083137

Stable Baselines를 이용한 강화학습

박유성  | 자유아카데미
24,300원  | 20210805  | 9791158083137
이 책은 강화학습의 작동원리를 toy example을 통해 쉽게 이해할 수 있도록 집필되었으며, MDP와 Bellman 방정식을 일일이 구체적 수치로 계산한 후 통계적·수학적 수식으로 재표현하여 수식의 의미를 이해할 수 있도록 구성하였다. Stable Baselines는 현재까지 총 15개의 강화학습법을 실행할 수 있다. 이 책에는 10개의 강화학습을 추가하여 25개의 강화학습법을 수록하였다. 강화학습 발표 논문을 기반으로 강화학습법의 장단점과 원리를 충실하게 반영하였지만 상당한 수준의 수학적 배경을 요구하는 이론적 증명은 생략하였다. 코딩에 능숙한 독자가 직접 프로그래밍이 가능할 만큼 상세한 알고리즘을 제공하여 강화학습법의 원리와 구조를 충분하게 파악할 수 있도록 하였다. Stable Baselines의 사용법을 최대한 자세하게 수록하였고 출력 결과에 대한 해설도 충실하게 작성하였다. Stable Baselines에서 제공하지 않은 강화학습 중 일부는 해설과 함께 프로그램을 제공하였고 일부는 프로그램을 download 할 수 있는 주소를 제공하였다. 강화학습은 이론적으로 계층적 구조를 가지고 있다. 근본적으로 모든 강화학습 알고리즘은 MDP와 Bellman 방정식을 기초로 작성되어 있으므로 최근에 개발된 강화학습은 과거의 강화학습에서 개선된 형태라고 보면 된다. 참고할 수 있도록 머리말 마지막 부분에 강화학습 계보도를 실어 두었다. 이 책을 공부하면 자연스럽게 이 계보도를 이해할 수 있도록 책의 차례도 계보도의 순서로 구성하였으며 부록에 따로 실행 알고리즘을 정리해 놓았다. 강화학습의 계보도와 정리된 실행 알고리즘은 강화학습을 비교하고 특성을 파악하는 데 매우 간단하고 유용한 일종의 summary로 활용할 수 있다. 계보도에서 (off)는 해당 강화학습이 off-policy라는 의미이며 별도의 표식이 없는 강화학습은 on-policy 학습법임을 의미한다. 본문을 공부하면 onpolicy와 off-policy를 구분할 수 있겠지만 간단하게 구별하는 방법은 별도의 표본 저장공간으로부터 표본을 뽑아서 policy를 개선하면 이를 off-policy라고 생각하고, 그렇지 않으면 on-policy라고 생각하면 된다. 좋은 책을 위해 최선을 다했지만 부족한 부분이 있을 수 있다. 이 점은 양해를 바라며, 책에 나오는 실습 프로그램과 출간 후 나올 수 있는 수정사항 등은 자유아카데미 홈페이지(www.freeaca.com) 자료실을 통해 제공할 예정이니 참조하기를 바란다.
검색어 "stable baselines"와 유사한 도서추천 목록입니다.
1
최근 본 책