책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 언어 > 파이썬
· ISBN : 9791190665841
· 쪽수 : 184쪽
책 소개
목차
제1장 캐글 개요 1
1.1 캐글이란? 2
1.2 캐글에서 사용하는 머신러닝 5
1.3 캐글 계정 만들기 8
1.4 Competitions 페이지 개요 10
1.5 환경 구축을 따로 하지 않아도 되는 'Notebooks'의 사용 방법 14
1.6 1장 정리 19
제2장 Titanic 문제 23
2.1 일단 submit해 보기! 25
2.2 전체적인 흐름 파악하기: submit까지의 처리 흐름 살펴보기 33
2.3 탐색적 데이터 분석해 보기 40
2.4 가설을 기반으로 새로운 특징량 만들기 56
2.5 다양한 머신러닝 알고리즘 사용해 보기 61
2.6 하이퍼파라미터 조정하기 68
2.7 'Cross Validation'의 중요성 74
2.8 앙상블 학습해 보기 85
2.9 2장 정리 91
제3장 Titanic에서 더 나아가기 93
3.1 여러 테이블 다루기 94
3.2 이미지 데이터 다루기 99
3.3 텍스트 데이터 다루기 108
3.4 3장 정리 116
제4장 더 공부하려면 117
4.1 참가할 Competition을 선택하는 방법 118
4.2 초보자를 위한 도전 방법 121
4.3 분석 환경 선택 방법 127
4.4 4장 정리 130
부록 샘플 코드에 대한 자세한 설명 133
A.1 2장 Titanic 문제 134
A.2 3장 Titanic에서 더 나아가자 152
마지막으로 162
리뷰
책속에서
Competition 참가자는 데이터를 스스로 준비할 필요가 없으며, 상위권으로 입상하면 상금을 받을 수 있습니다(하위권이라고 손해를 보는 일은 따로 없습니다). submit을 했을 때 곧바로 채점되고, 순위를 확인할 수 있어서 컴퓨터 게임처럼 순위를 높이려는 동기 부여가 되므로 머신러닝을 재미있게 배울 수 있습니다.
그건 그런 것 같습니다. 캐글러들과 이야기할 때 '이것저것 다 해본다'라는 말을 많이 하는데요. 머신러닝 알고리즘이 효과가 있는지는 Dataset와 문제의 설정에 따라서 달라집니다. 그래서 머리로 '이것이 더 좋을 것이다'라고 생각하는 것보다는 일단 코드를 작성해서 실행해 보는 것이 중요한 것 같습니다. 만약 다른 사람의 해답을 보게 되더라도, 일단 손을 움직여서 한번 정도는 직접 submit해 보는 것이 좋다고 생각합니다. 이렇게 데이터의 사양, Competition의 특징을 파악하고 나서 해답을 보면 훨씬 잘 이해됩니다.
이번 절에서는 탐색적 데이터 분석으로 데이터의 개요를 확인해서, 특징량들과 목적 변수의 관계를 확인했습니다. 구체적인 예로 시각화를 통해 'Parch와 SibSp 모두를 더한 '가족 인원 수'라는 특징량을 새로 만들어서, 예측 성능을 높일 수도 있다'라는 가설을 만들었습니다.