머신러닝 인 액션

책 이미지

eBook 미리보기

책 정보

· 제목 : 머신러닝 인 액션 (기계 학습 알고리즘으로 데이터 마이닝하기)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 자료구조/알고리즘
· ISBN : 9788994506661
· 쪽수 : 480쪽
· 출판일 : 2013-06-26

책 소개

개발자를 위해 작성된 지침서. 통계자료 처리, 데이터 분석, 데이터 시각화 등을 업무에 바로 적용할 수 있도록 알고리즘 주요 부분을 재사용 가능한 코드로 사용하였다.

제1부 분류
1장 기계 학습 기초
1.1 기계 학습이란 무엇인가? 5
1.1.1 센서 및 데이터 홍수 6
1.1.2 기계 학습은 점점 더 중요해질 것이다 7
1.2 주요 전문용어 8
1.3 기계 학습의 주요 기술 11
1.4 올바른 알고리즘 선정 방법 12
1.5 기계 학습 응용 프로그램 개발 단계 14
1.6 왜 파이썬인가? 16
1.6.1 실행 가능한 의사코드 16
1.6.2 인기 좋은 파이썬 16
1.6.3 장점 17
1.6.4 단점 18
1.7 NumPy 라이브러리로 시작하기 19
1.8 요약 21

2장 k-최근접 이웃 알고리즘
2.1 거리 측정을 이용하여 분류하기 24
2.1.1 준비: 파이썬으로 데이터 불러오기 26
2.1.2 kNN 분류 알고리즘 실행하기 28
2.1.3 분류기 검사하기 30
2.2 예제: kNN을 이용하여 데이트 사이트의 만남 주선 개선하기 31
2.2.1 준비: 텍스트 파일의 데이터 구문 분석하기 32
2.2.2 분석: 매스플롯라이브러리로 scatter 플롯 생성하기 34
2.2.3 준비: 수치형 값 정규화하기 37
2.2.4 검사: 전체 프로그램으로 분류기 검사하기 39
2.2.5 사용: 모두에게 유용한 시스템 만들기 41
2.3 예제: 필기체 인식 시스템 42
2.3.1 준비: 이미지를 검사 벡터로 변환하기 43
2.3.2 검사: 필기체 번호에 kNN 적용하기 44
2.4 요약 46

3장 의사결정 트리: 한 번에 하나의 속성으로 데이터 집합 분할하기
3.1 트리 구조 50
3.1.1 정보 이득 52
3.1.2 데이터 집합 분할하기 56
3.1.3 재귀적으로 트리 만들기 59
3.2 매스플롯라이브러리 주석으로 파이썬에서 트리 플롯하기 63
3.2.1 매스플롯라이브러리 주석 64
3.2.2 주석 트리 구축하기 66
3.3 분류기 검사와 저장 72
3.3.1 검사: 분류를 위한 트리 사용 72
3.3.2 사용: 의사결정 트리 계속 유지하기 73
3.4 예제: 콘택트렌즈 유형 예측하기 74
3.5 요약 77

4장 나이브 베이스: 확률 이론으로 분류하기
4.1 베이지안 의사결정 이론으로 분류하기 79
4.2 조건부 확률 81
4.3 조건부 확률로 분류하기 82
4.4 나이브 베이스로 문서 분류하기 83
4.5 파이썬으로 텍스트 분류하기 85
4.5.1 준비: 텍스트로 단어 벡터 만들기 85
4.5.2 훈련: 단어 벡터로 확률 계산하기 88
4.5.3 검사: 실제 조건을 반영하기 위해 분류기 수정하기 91
4.5.4 준비: 중복 단어 문서 모델 94
4.6 예제: 스팸 이메일 분류하기 95
4.6.1 준비: 텍스트 토큰 만들기 95
4.6.2 검사: 나이브 베이스로 교차 검증하기 97
4.7 예제: 나이브 베이스를 사용하여 개인 광고에 포함된 지역 특색 도출하기 99
4.7.1 수집: RSS 피드 불러오기 100
4.7.2 분석: 지역적으로 사용되는 단어 표현하기 104
4.8 요약 105

5장 로지스틱 회귀
5.1 로지스틱 회귀와 시그모이드 함수로 분류하기: 다루기 쉬운 계단 함수 108
5.2 가장 좋은 회귀 계수를 찾기 위해 최적화 사용하기 110
5.2.1 기울기 상승 110
5.2.2 훈련: 기울기 상승을 사용하여 가장 좋은 매개변수 찾기 112
5.2.3 분석: 의사결정 경계선 플롯하기 115
5.2.4 훈련: 확률적인 기울기 상승 117
5.3 예제: 말의 배앓이 치사율 평가하기 122
5.3.1 준비: 데이터에서 누락된 값 다루기 123
5.3.2 검사: 로지스틱 회귀로 분류하기 125
5.4 요약 127

6장 지지 벡터 머신
6.1 최대 마진으로 데이터 분리하기 129
6.2 최대 마진 찾기 131
6.2.1 분류기 관점에서의 최적화 문제 구성하기 132
6.2.2 일반적인 기본 구조로 지지 벡터 머신에 접근하기 134
6.3 SMO 알고리즘으로 효율적인 최적화하기 134
6.3.1 플랫의 SMO 알고리즘 135
6.3.2 간략한 형태의 SMO로 적은 양의 데이터 집합 해결하기 135
6.4 전체 플랫 SMO를 이용해 최적화 속도 올리기 143
6.5 더 복잡한 데이터를 위해 커널 사용하기 151
6.5.1 고차원의 데이터를 커널을 이용해 매핑하기 151
6.5.2 반지름 성향 함수 152
6.5.3 검사를 위한 커널 사용 155
6.6 예제: 필기체 인식 예제 다시 적용하기 159
6.7 요약 162

7장 에이다부스트 메타 알고리즘으로 분류 개선하기
7.1 데이터 집합의 다양한 표본을 사용하는 분류기 165
7.1.1 배깅: 임의로 추출한 재표본 데이터로부터 분류기 구축하기 165
7.1.2 부스팅 166
7.2 훈련: 오류에 초점을 맞춘 분류기 개선 167
7.3 의사결정 스텀프로 약한 학습기 생성하기 169
7.4 전체 에이다부스트 알고리즘 구현하기 173
7.5 검사: 에이다부스트로 분류하기 177
7.6 예제: 에이다부스트에 복잡한 데이터 집합 적용하기 179
7.7 분류 불균형 182
7.7.1 또 다른 성능 측정 방법: 정확도, 재현율 그리고 ROC 182
7.7.2 비용 함수를 가진 분류기의 의사결정 다루기 187
7.7.3 분류 불균형이 있는 데이터를 처리하기 위한 데이터 샘플링 188
7.8 요약 189

제2부 회귀로 수치형 값 예측하기
8장 회귀: 수치형 값 예측하기
8.1 회귀로 최적선 찾기 194
8.2 지역적 가중치가 부여된 선형 회귀 201
8.3 예제: 전복 나이 예측하기 205
8.4 데이터를 이해하기 위한 축소 계수 207
8.4.1 능형 회귀 207
8.4.2 라소 210
8.4.3 전방향 단계별 회귀 211
8.5 성향 / 변화량 관계 215
8.6 예제: 레고 가격 예측하기 217
8.6.1 수집: 구글 쇼핑 API 사용 218
8.6.2 훈련: 모델 구축 220
8.7 요약 225

9장 트리 기반 회귀
9.1 지역적으로 복잡한 데이터 모델링하기 227
9.2 연속적이고 이산적인 속성으로 트리 구축하기 228
9.3 회귀를 위해 CART 사용하기 232
9.3.1 트리 구축하기 233
9.3.2 코드 실행하기 236
9.4 트리 가지치기 238
9.4.1 사전 가지치기 238
9.4.2 사후 가지치기 240
9.5 모델 트리 243
9.6 예제: 일반 회귀와 트리 방법 비교 246
9.7 파이썬에서 GUI를 생성하기 위해 Tkinter 사용하기 250
9.7.1 Tkinter에서 GUI 구축하기 251
9.7.2 매스플롯라이브러리와 Tkinter 접속하기 254
9.8 요약 257

제3부 비지도 학습
10장 k?평균 군집화: 항목 표시가 없는 아이템 그룹 짓기
10.1 k?평균 군집화 알고리즘 262
10.2 후처리로 군집 성능 개선하기 268
10.3 양분하는 k?평균 270
10.4 예제: 지도상의 지역점 군집화 274
10.4.1 야후! 위치찾기 API 275
10.4.2 지리적인 좌표 군집화 278
10.5 요약 281

11장 어프라이어리 알고리즘으로 연관 분석하기
11.1 연관 분석 284
11.2 어프라이어리 이론 286
11.3 어프라이어리 알고리즘으로 빈발 아이템 집합 찾기 288
11.3.1 후보 아이템 집합 생성 289
11.3.2 전체 어프라이어리 알고리즘 사용 292
11.4 빈발 아이템 집합으로 연관 규칙 마이닝하기 296
11.5 예제: 국회 투표 패턴 알아보기 301
11.5.1 수집: 국회 투표 기록에 대한 트랜잭션 데이터 집합 구축 302
11.5.2 검사: 국회 투표 기록의 연관 규칙 310
11.6 예제: 독버섯과 유사한 속성 찾기 312
11.7 요약 314

12장 FP-성장 알고리즘으로 빈발 아이템 집합 찾기
12.1 FP-트리: 데이터 집합을 부호화하는 효과적인 방법 316
12.2 FP-트리 구축하기 318
12.2.1 FP-트리 데이터 구조 생성하기 319
12.2.2 FP-트리 구축하기 320
12.3 FP-트리로 빈발 아이템 집합 마이닝하기 325
12.3.1 기본 패턴 조건 추출하기 326
12.3.2 FP-트리 조건 생성하기 328
12.4 예제: 트위터 피드에서 함께 발생하는 단어 찾기 331
12.5 예제: 뉴스 사이트에서 클릭 스트림 마이닝하기 336
12.6 요약 337

제4부 부가적인 도구들
13장 데이터 간소화를 위한 주요 구성요소 분석 사용하기
13.1 차원 축소 기술 342
13.2 주요 구성요소 분석 343
13.2.1 좌표 축 이동 343
13.2.2 NumPy에서 PCA 수행하기 345
13.3 예제: PCA로 반도체 제조 데이터 차원 축소하기 348
13.4 요약 352

14장 특이 값 분해로 데이터 간소화하기
14.1 SVD 응용 프로그램 355
14.1.1 잠재적 의미 색인 355
14.1.2 추천 시스템 356
14.2 행렬 인수분해 358
14.3 파이썬 SVD 359
14.4 협력적 여과 기반 추천 엔진 362
14.4.1 유사도 측정 362
14.4.2 아이템 기반 유사도와 사용자 기반 유사도 366
14.4.3 추천 엔진 평가하기 366
14.5 예제: 레스토랑 메뉴 추천 엔진 구축하기 367
14.5.1 맛보지 못한 음식 추천하기 367
14.5.2 SVD로 추천 개선하기 370
14.5.3 추천 엔진이 가지고 있는 과제 374
14.6 예제: SVD로 이미지 압축하기 375
14.7 요약 378

15장 빅 데이터와 맵 리듀스
15.1 맵 리듀스: 분산 컴퓨팅의 기본 구조 381
15.2 하둡 스트리밍 384
15.2.1 평균과 분산 매퍼 분산처리 385
15.2.2 평균과 분산 리듀서 분산처리 386
15.3 아마존 웹 서비스로 하둡 작업 실행하기 388
15.3.1 AWS에서 제공하는 서비스 388
15.3.2 아마존 웹 서비스 시작하기 389
15.3.3 EMR에서 하둡 작업 실행하기 390
15.4 맵 리듀스에서의 기계 학습 395
15.5 파이썬에서 mrjob을 사용한 맵 리듀스 자동화 397
15.5.1 EMR로 매끄러운 통합을 위해 mrjob 사용하기 398
15.5.2 mrjob에서 맵 리듀스 스크립트의 구조 398
15.6 예제: SVM 분산처리를 위한 페가소스 알고리즘 402
15.6.1 페가소스 알고리즘 403
15.6.2 훈련: mrjob으로 지지 벡터 머신 맵 리듀스 404
15.7 맵 리듀스, 정말로 필요한가? 410
15.8 요약 410

부록 A 파이썬 시작하기
A.1 파이썬 설치 412
A.1.1 윈도우 412
A.1.2 맥 OS X 413
A.1.3 리눅스 413
A.2 파이썬에 대한 간단한 소개 414
A.2.1 데이터 유형 414
A.2.2 구조 제어 416
A.2.3 함축 리스트 417
A.3 NumPy에 대한 간단한 소개 418
A.4 뷰티플 수프 423
A.5 Mrjob 423
A.6 스마트 투표 424
A.7 파이썬 트위터 425

부록 B 선형대수학
B.1 행렬 427
B.2 역행렬 430
B.3 표준 432
B.4 미분행렬 432

부록 C 확률 다시 보기
C.1 확률 434
C.2 결합 확률 435
C.3 확률의 기본 규칙 436

부록 D 리소스

저자소개

피터 해링턴 (지은이) 정보 더보기

전기 공학 분야의 학사 및 석사 학위를 가지고 있다. 캘리포니아와 중국에 있는 인텔 기업에서 7년간 일했으며, 다섯 개의 미국 특허를 보유하고 있다. 그의 논문은 세 개의 학술 저널에 게재되었고, 현재 질라바이트 주식회사(Zillabyte Inc.)의 수석 과학자이다. 질라바이트에 합류하기 전 2년간 기계 학습 소프트웨어 상담가로 일했었다. 현재는 프로그램 대회에 참가하기도 하고 3D 프린터를 만들기도 하면서 자유 시간을 보내고 있다.

펼치기

피터 해링턴의 다른 책 >

김영진 (옮긴이) 정보 더보기

로봇을 좋아하던 10살 소년의 막연한 꿈은 어느덧 열망이 되어 인공지능 분야에 입문하게 되었다. 단순한 작업을 위해 만들어진 기계가 아닌, 사람처럼 느끼고 생각하는 로봇을 만들겠다는 꿈을 이루기 위해서는 해야 할 연구의 크기가 만만치 않음을 실감하며 잠시 잠깐 후회한 적도 있으나, 꿋꿋이 꿈을 향해 가던 중 귀한 인연이 닿아 첫 번역서인 《머신러닝 인 액션》의 작업에 동참하게 되었다. 현재 숭실대학교 인공지능 연구실 BI팀 소속으로 배움을 쌓아가고 있다.

펼치기

리뷰

qKh**

★★★★☆(8)

([100자평]원서를 보기 불편하시다면 이것도 보기 좋다고 생각합니다...)

자세히

boo*****

★★★★☆(8)

([100자평]주요한 머신러닝의 개념을 쉽게 풀었으며, 파이썬이라는 ...)

자세히

조민*

★☆☆☆☆(2)

([100자평]원서는 훌륭하지만 번역은 마치 외국인이 한 듯 이해하기...)

자세히

책속에서

기계 학습은 컴퓨터 과학과 기술 그리고 통계학의 교차로에 놓여있으며, 때로는 다른 학문에서 사용되기도 한다. 나중에 보면 알 수 있겠지만, 이것은 정치에서 지구과학까지 많은 분야에서 응용될 수 있다. 이것은 다양한 문제들에 적용할 수 있는 도구이다. 데이터를 해석하고 실행해야 하는 분야에서 기계 학습 기술을 사용한다면 이득을 얻을 수 있다.

당신은 데이터를 파악하기 위해 얼마간의 시간을 보내게 될 것이며, 데이터에 대해 더 많은 것을 알아야만 성공적인 응용 프로그램을 구축할 수 있게 될 것이다. 데이터에 대해 알고자 하는 것은 다음과 같은 것이다. 속성이 명목형인가? 연속형인가? 속성 내에 누락된 값이 있는가? ... 데이터 내에 오류 데이터(outlier)가 있는가? 건초 더미에서 바늘을 찾는 것처럼 매우 드물게 발생하는 어떠한 것이 존재하는가? 이처럼, 데이터 속성에 대한 모든 것은 알고리즘 선택 과정의 폭을 좁히는 데 도움을 준다.