파이썬으로 데이터 마이닝 시작하기

책 이미지

eBook 미리보기

책 정보

· 제목 : 파이썬으로 데이터 마이닝 시작하기 (데이터의 수집, 로딩, 변환, 클러스터링, 예측까지)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 언어 > 파이썬
· ISBN : 9791161753669
· 쪽수 : 212쪽
· 출판일 : 2019-12-19

책 소개

요즘 가장 인기 있는 프로그래밍 언어인 파이썬을 활용한 데이터 마이닝 기법을 소개한다. 다양한 예제와 데이터 마이닝 기법으로 유용한 인사이트를 어떻게 얻어낼 수 있는지를 배운다. 파이썬 라이브러리를 사용한 데이터 시각화 기법도 함께 소개한다.

1장. 데이터 마이닝과 파이썬 도구 입문
__기술적, 예측적, 처방적 분석
__이 책에서 다루는 것과 다루지 않는 것
__추가적인 학습을 위한 추천 도서
__데이터 마이닝을 위한 파이썬 환경 설정
__아나콘다와 콘다 패키지 관리자 설치하기
____리눅스에 설치하기
____윈도우에서 설치하기
____맥 OS에서 설치하기
__스파이더 IDE 시작하기
__주피터 노트북 실행하기
__고성능 파이썬 설치하기
__추천 라이브러리와 설치 방법
__추천 라이브러리
__요약

2장. 기본 용어와 종합적 사례
__기본적 데이터 용어
__샘플 스페이스
__변수의 종류
__데이터 형태
__기본적 요약 통계량
__파이썬을 활용한 데이터 마이닝 예제
____데이터를 메모리에 로딩하기: pandas를 통해 데이터 보기와 데이터 관리하기
____데이터 플롯과 탐구: seaborn의 능력 체험하기
____데이터 변환: scikit-learn을 활용한 PCA와 LDA
____분리를 계량화하기: k-means 클러스터링과 실루엣 스코어
____의사 결정 혹은 예측
__요약

3장. 데이터의 수집, 탐구, 시각화
__데이터 소스의 형태와 pandas에 데이터 적재하기
____데이터베이스
____기본적 SQL 질의
____디스크
____웹 소스
____URL
____scikit-learn이나 seaborn에 포함된 데이터 사용
__pandas로 데이터 접근, 검색, 점검하기
__seaborn에서의 기본적 플롯
__데이터 시각화를 위한 인기 있는 형태의 플롯들
____스캐터 플롯
____히스토그램
____조인트 플롯
____바이올린 플롯
____페어플롯
__요약

4장. 분석을 위한 데이터 클리닝과 준비
__scikit-learn 변환 API
__입력 데이터 클리닝
____결측값
____결측값 찾기와 제거하기
____결측값을 대체하기 위한 임퓨팅
__특징 스케일링
____정규화
____표준화
__카테고리 데이터 처리
____순서적 인코딩
____원핫 인코딩
____레이블 인코딩
__고차원 데이터
__차원 감소
____특징 선택
____특징 필터링
____래퍼 기법
__변환
____PCA
____LDA
__요약

5장. 데이터의 그룹화와 클러스터링
__클러스터링 개념 소개
__그룹의 위치
____유클리디안 공간(센트로이드)
____비유클리디안 공간(메디오이드)
__유사성
____유클리디안 공간
____비유클리디안 공간
__종료 조건
____알려진 숫자의 그룹의 경우
____알려지지 않은 숫자의 그룹의 경우
____품질 스코어와 실루엣 스코어
__클러스터링 기법들
____평균 분리
____k-means
____계층적 클러스터링
____클러스터의 숫자를 찾기 위해 덴드로그램 재사용하기
____덴드로그램 그리기
__밀도 클러스터링
__스펙트럼 클러스터링
__요약

6장. 회귀와 분류를 이용한 예측
__scikit-learn 추정기 API
__예측 개념 소개
____예측 모델 표기법
__수학적 도구
____손실 함수
____기울기 하강
____품질 체계 적합하기
__회귀
____회귀 모델 예측 지표
____회귀 예제 데이터
____선형 회귀
____다변량 형태로 확장
____처벌 회귀를 활용한 규칙화
____규칙화 처벌
__분류
____분류 예제 데이터
____분류 모델 예측의 지표
____복수 클래스 분류
____로지스틱 회귀
____규칙화된 로지스틱 회귀
____서포트 벡터 머신
____C를 사용한 소프트 마진
____커널 트릭
____트리 기반 분류
____의사 결정 트리
____랜덤 포레스트
__예측 모델의 튜닝
____교차 검증
____검증 데이터 개론
____K-fold 기법을 이용한 복수의 검증 데이터셋
____초모수 튜닝을 위한 그리드 서치
__요약

7장. 고급 주제: 데이터 처리 파이프라인의 생성과 사용
__당신의 분석 파이프라인 생성
____scikit-learn의 파이프라인 객체
__모델 구현하기
____pickle 모듈을 통해 모델을 연속화하고 저장하기
____연속화된 모델을 로딩하고 예측하기
__파이썬에서의 구현 문제
__요약

저자소개

나단 그리넬치 (지은이) 정보 더보기

인텔 소속의 엔지니어로, 인공지능 컨설팅 부서에서 데이터 마이닝과 분석 전문가로 일하고 있다. 지난 10년 동안 스타트업과 제조 분야 대기업에서 파이썬 분석 업무를 해왔다. 분석 분야에 새로 입문한 신입 사원과 엔지니어를 정기적으로 멘토링하고 있으며, 인텔에서 수시로 강연을 통해 지식을 공유하고 있다. 일리노이주 에반스턴에 위치한 노스웨스턴 대학교에서 물리화학을 전공했으며, 작은 분자의 진동 신호 표면 향상을 주제로 박사 논문을 썼다. 미국 남동부에서 자랐으며, 가족의 반은 아칸소 출신이고 나머지 반은 플로리다 출신이다.

펼치기

나단 그리넬치의 다른 책 >

조종희 (옮긴이) 정보 더보기

데이터와 소프트웨어를 활용한 비즈니스 환경에서의 과학적인 의사결정 관련 업무를 주로 하고 있다. 포드자동차, JP모간 체이스, 빅토리아 시크릿 등의 세계적인 브랜드의 미국 내 마케팅 부서에서 17년간 분석적 마케팅 경력을 쌓으면서 클라우드 기반의 다양한 데이터 분석 소프트웨어를 사용했다. 카네기멜론대학교에서 분석적 마케팅 전공으로 MBA를 마쳤다. 〈하버드 비즈니스 리뷰 코리아〉에서 객원 번역가로 활동했으며, 미국 조지아대학교와 한양대학교에서 강의했다. 역서로는 《알고리즘 마케팅: 인공지능을 활용한 마케팅 자동화》와 《파이썬으로 데이터 마이닝 시작하기》가 있다.

펼치기

조종희의 다른 책 >