머신러닝을 이용한 데이터 분석 책 가격비교

책 이미지

책 정보

· 제목 : 머신러닝을 이용한 데이터 분석
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 언어 > 파이썬
· ISBN : 9791137252868
· 쪽수 : 446쪽

1절. 머신러닝 개요
1.1. 데이터 분석에서 가장 중요한 것은?
1.2. 데이터 분석을 잘 하려면?
1.3. 머신러닝 개념
1.4. 지도학습과 비지도학습
1.5. 데이터 분석 단계에서 머신러닝
1.6. Scikit-learn 패키지
2절. 데이터 탐색
2.1. 통계표
1) 통계 요약
2) 왜도와 첨도
3) 공분산과 상관계수
4) 기초통계량
2.2. 데이터 EDA 가속화
1) plot()
2) plot_correlation()
3) plot_missing()
2.3. 주피터 노트북 확장팩
3절. 데이터 전처리
3.1. 표준화(Standardization)
1) 표준화 함수들
2) scale()
3) robust_scale()
4) minmax_scale()
5) maxabs_scale()
6) 표준화 클래스
7) StandardScaler
3.2. 인코딩(Encoding)
1) 레이블 인코딩
2) 원-핫 인코딩
3) 평균값 인코딩(Mean Encoding)
3.3. 결측값 처리
1) 평균으로 채우기
2) 중앙값으로 채우기
3) 최빈값으로 채우기
3.4. 판다스를 이용한 결측치 처리
4절. 단순 데이터 분리
4.1. random.sample()
4.2. pandas.DataFrame.sample()
4.3. sklearn.model_selection.train_test_split()
4.4. 층화추출법
5절. 모형 생성, 예측, 평가
5.1. 모형 생성
5.2. 예측
5.3. 모형 평가
6절. 연습문제
6.1. 문제 풀이형
1) 문제
2) 정답
2장. 회귀분석 - 난 평균으로 돌아갈 거야~
1절. 회귀분석 개요
1.1. 회귀분석 정의
1.2. 회귀분석을 위한 전제 사항
1.3. 상관분석, 단순회귀분석, 다중회귀분석
2절. 분포와 추론
2.1. 표본과 실험
1) 모집단과 표본
2) 실험
2.2. 분포
1) 이산형 확률분포
2) 연속형 확률분포
2.3. 추정과 가설검정
1) 추정
2) 가설검정
3) 유의수준과 유의확률
3절. 상관분석
3.1. 피어슨 상관계수
3.2. 스피어만 상관계수
3.3. 상관계수 시각화
4절. 단순 회귀분석
4.1. 행렬을 이용한 회귀모형 구하기
4.2. 회귀모형과 예측
1) linregress()
2) polyfit()
5절. 포뮬러를 이용한 회귀식
6절. 정규화 선형회귀
6.1. 정규화 선형회귀모형
1) Lasso 회귀모형
2) Ridge 회귀모형
3) Elastic Net 회귀모형
6.2. statsmodels의 정규화 회귀모형
1) 정규화를 하지 않는 회귀모형
2) Lasso 회귀모형
3) Ridge 회귀모형
4) Elastic Net 회귀모형
6.3. Scikit-Learn의 정규화 회귀모형
1) LinearRegression을 이용한 일반 회귀모형
2) Lasso 회귀모형
3) Ridge 회귀모형
4) ElasticNet 회귀모형
6.4. Ridge 모형과 Lasso 모형의 차이
7절. 다중회귀분석
7.1. 다중 회귀의 변수 추정
7.2. 다중회귀분석 예
1) 데이터 준비하기
2) 회귀모형 만들기
3) 훈련 데이터셋을 이용한 평가
4) 예측하기
5) 검증 데이터셋을 이용한 평가
7.3. 다중회귀식의 추정방법
7.4. 상관계수와 결정계수
7.5. 회귀분석의 검증 요소들
1) 잔차의 독립성
2) 잔차의 정규성
7.6. 이상치 탐색
7.7. 다중공선성
1) 분산 확대 인자(VIF)
2) 공차한계
3) 다중공선성 의심 상황
4) VIF 확인하기
8절. 회귀모형 성능평가
8.1. 사이킷런의 모형 평가 방법
8.2. 회귀모형 평가를 위한 scoring 속성
8.3. K-폴드 교차 검증
8.4. 회귀모형 평가 함수
1) mean_squared_error
2) mean_absolute_error
3) explained_variance_score
4) r2_score
9절. 연습문제
9.1. 실습형
1) 문제
2) 정답
3장. 분류분석 - 이것은 콩! 저것은 돌!1
1절. 분류분석 개요
2절. 분류 모형
2.1. 분류분석 모형의 종류
2.2. 확률적 모형
2.3. 확률적 생성모형
1) QDA(이차 판별 분석)
2) 나이브베이즈 모형
2.4. 확률적 판별모형
1) 로지스틱회귀모형
2) 의사결정나무 모형
2.5. 판별함수 기반 모형
1) 퍼셉트론
2) 커널 SVM
2.6. 다중 클래스 분류
1) OvO(One-Vs-One)
2) OvR(One-vs-the-Rest)
3절. 인공신경망
3.1. 인공지능의 역사
3.2. 인공신경망에서의 뉴런
3.3. 활성화 함수
3.4. 인공신경망의 구조
3.5. 다층신경망
3.6. 인공신경만 모형의 파라미터
3.7. MLPClassifier
3.8. Scikit-learn MLPClassifier vs. Tensorflow DNNClassifier
4절. 분류 모형 성능평가
4.1. 사이킷런의 모형 평가 방법
4.2. 분류모형 평가를 위한 scoring 속성
4.3. Scikit-Learn에서 지원하는 성능평가 함수
4.4. Confusion Matirx 분류 결과표
1) 분류 결과표 Confusion Matrix
2) 이진 분류 결과표 Binary Confusion Matrix
4.5. 분류표 API
4.6. 혼동행렬을 이용한 평가 방법
1) Accuracy(정확도)
2) Precision(정밀도)
3) Recall(재현율)
4) Specificity(특이도)
5) Fall-Out(위양성율)
6) F(beta) score
7) classification_report
4.7. ROC와 AUC
1) ROC 커브
2) ROC 커브를 이용한 성능 비교
3) AUC(Area Under the Curve)
4) 다중 클래스의 ROC 커브
4.8. 분류 모형의 성능 비교
5절. 연습문제
5.1. 실습형
1) 문제
2) 정답
4장. 군집분석 - 모여라~ 모여라~ 모여라~1
1절. 군집 모델
1.1. 군집 모델
1) 중심 기반 클러스터링
2) 연결 기반 클러스터링
3) 밀도 기반 클러스터링
1.2. 싸이킷런의 군집 모델
2절. K-Means 클러스터링
2.1. sklearn.cluster.KMeans
2.2. K-Means 클러스터링
2.3. 회차별 군집 확인하기
2.4. iris 데이터 군집분석하기
2.5. K-Means 클러스터링의 한계와 극복
1) 크기가 다를 경우
2) 밀도가 다를 경우
3) 비 구형인 경우
3절. Hierarchical 클러스터링
3.1. 계층적 분석 방법
3.2. 계층 분석을 통한 군집의 수 결정
4절. DBSCAN 클러스터링
5절. 군집모형 성능평가
5.1. 사이킷런의 모형 평가 방법
5.2. 군집모형 평가를 위한 scoring 속성
5.3. 클러스터의 개수 및 소속을 알고 있는 경우
1) Adjusted Rand Index
2) Adjusted Mutual Information
3) Fowlkes-Mallows index
4) homogeneity, completeness, v-measure
5.4. 클러스터의 개수 및 소속을 모르고 있는 경우
1) 응집도와 분리도
2) 실루엣 계수(Silhouette Coefficient)
3) WSS와 엘보우
4) Calinski Harabasz Score
6절. 연습문제
6.1. 실습형
1) 문제
2) 정답
5장. 머신러닝 모형 최적화 - 더 빠르게, 더 정확하게~2
1절. 변수 선택과 차원 축소
1.1. 주성분 분석
1) 주성분 분석이란?
2) 주성분 계산
3) 주성분 분석의 활용
4) iris 데이터 주성분 분석 후 분류하기
5) PCA를 이용한 iris 데이터 주성분 분석
6) PCA를 이용해서 얼굴 주성분 분석하기
1.2. 특이값 분해
1) numpy.linalg.svd()
2) 특이값 분해의 계산
3) iris 데이터 특이값 분해
4) 좀 더 쉬운 방법
1.3. 분류모형의 변수 선택
1) 데이터 불러오기
2) 상관관계 확인하기
3) 분류모형의 Feature Importance
4) RFE(Recursive Feature Elimination) 방식
1.4. 회귀모형의 변수 선택
1) 데이터 표준화
2) 회귀계수(Logistic Regression)
1.5. SelectKBest
1.6. 평균값 인코딩의 과적합 해결방법
1) Smoothing
2) CV Loop
3) Expanding mean
2절. 파라미터 탐색
2.1. validation_curve
2.2. GridSearchCV
2.3. ParameterGrid
2.4. 병렬 처리
2.5. Pipeline과 GridSearchCV를 이용한 차원감소
3절. 자료 불균형 처리
3.1. 99% vs. 1% 샘플링
3.2. 언더샘플링과 오버샘플링
3.3. SMOTE를 이용한 오버샘플링
1) 전체 오버샘플링 후 데이터셋 분리
2) 계층적 샘플링 후 훈련 데이터셋 오버샘플링
3.4. 가중치 제어
4절. 앙상블 모형
4.1. 부트스트래핑과 0.632규칙