책 이미지

책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 네트워크/데이터 통신
· ISBN : 9791160502213
· 쪽수 : 320쪽
· 출판일 : 2017-08-17
책 소개
목차
1부 하둡을 활용한 데이터 과학의 개요
1장 데이터 과학
__1.1 데이터 과학이란 무엇인가?
__1.2 데이터 과학의 예: 검색 광고
__1.3 데이터 과학의 간략한 역사
____1.3.1 통계학과 머신 러닝
____1.3.2 인터넷 거인들이 가져온 혁신
____1.3.3 현대 기업의 데이터 과학
__1.4 데이터 과학자가 되는 길
____1.4.1 데이터 엔지니어
____1.4.2 응용과학자
____1.4.3 데이터 과학자로 전직하는 방법
____1.4.4 데이터 과학자가 갖춰야 할 소프트 스킬
__1.5 데이터 과학팀 구성하기
__1.6 데이터 과학 프로젝트의 생명 주기
____1.6.1 적절한 질문
____1.6.2 데이터 입수
____1.6.3 데이터 정제: 데이터 품질 관리
____1.6.4 데이터 탐색과 모델 특징 변수 설계
____1.6.5 모델 구축과 튜닝
____1.6.6 운영 시스템에 배포
__1.7 데이터 과학 프로젝트의 관리
__1.8 요약
2장 데이터 과학의 활용 사례
__2.1 빅데이터: 변화의 원동력
____2.1.1 규모: 더 많은 데이터의 활용
____2.1.2 다양성: 더 많은 데이터 유형
____2.1.3 속도: 더 빠른 데이터 유입
__2.2 비즈니스 활용 사례
____2.2.1 제품 추천
____2.2.2 고객 이탈 분석
____2.2.3 고객 세분화
____2.2.4 영업 리드 우선순위 결정
____2.2.5 감성 분석
____2.2.6 이상 거래 탐지
____2.2.7 유지 보수 예측
____2.2.8 장바구니 분석
____2.2.9 데이터 기반 의료 진단
____2.2.10 환자의 재입원 예측
____2.2.11 변칙 접근 탐지
____2.2.12 보험 위험 분석
____2.2.13 유정/가스정의 생산량 예측
__2.3 요약
3장 하둡과 데이터 과학
__3.1 하둡이란 무엇인가?
____3.1.1 분산 파일 시스템
____3.1.2 리소스 관리자와 스케줄러
____3.1.3 분산 데이터 처리 프레임워크
__3.2 하둡의 진화 과정
__3.3 데이터 과학용 하둡 도구
____3.3.1 아파치 스쿱
____3.3.2 아파치 플럼
____3.3.3 아파치 하이브
____3.3.4 아파치 피그
____3.3.5 아파치 스파크
____3.3.6 R
____3.3.7 파이썬
____3.3.8 자바 머신 러닝 패키지
__3.4 하둡이 데이터 과학자에게 유용한 이유
____3.4.1 저비용 스토리지
____3.4.2 스키마 온 리드
____3.4.3 비정형 데이터와 반정형 데이터
____3.4.4 다양한 언어 지원
____3.4.5 견고한 스케줄링과 리소스 관리
____3.4.6 분산 시스템 추상화 레벨
____3.4.7 대규모 데이터에 기반한 모델 구축
____3.4.8 대규모 데이터에 모델을 적용
__3.5 요약
2부 하둡을 활용한 데이터 준비와 시각화
4장 하둡을 활용한 데이터 입수
__4.1 하둡 데이터 레이크
__4.2 HDFS
__4.3 파일을 HDFS로 직접 전송하기
__4.4 파일을 하이브 테이블로 가져오기
____4.4.1 CSV 파일을 하이브 테이블로 가져오기
__4.5 스파크를 사용해 데이터를 하이브 테이블로 가져오기
____4.5.1 스파크를 사용해 CSV 파일을 하이브로 가져오기
____4.5.2 스파크를 사용해 JSON 파일을 하이브로 가져오기
__4.6 아파치 스쿱을 활용한 관계형 데이터 입수
____4.6.1 스쿱을 활용한 데이터 가져오기와 내보내기
____4.6.2 아파치 스쿱의 버전별 차이
____4.6.3 스쿱 버전 1을 사용한 기본 예제
__4.7 아파치 플럼을 활용한 데이터 스트림 입수
____4.7.1 플럼을 활용한 웹 로그 수집 예제
__4.8 아파치 우지를 활용한 하둡 작업 및 데이터 흐름 관리
__4.9 아파치 팔콘
__4.10 새로운 데이터 입수 도구
__4.11 요약
5장 하둡을 활용한 데이터 개조
__5.1 하둡이 데이터 개조 작업에 필요한 이유
__5.2 데이터 품질
____5.2.1 데이터 품질이란 무엇인가?
____5.2.2 데이터 품질 이슈 다루기
____5.2.3 하둡을 사용한 데이터 품질 관리
__5.3 특징 행렬
____5.3.1 적절한 특징 변수 선택하기
____5.3.2 샘플링: 인스턴스 선택
____5.3.3 특징 변수 생성
____5.3.4 텍스트 특징 변수
____5.3.5 시계열 특징 변수
____5.3.6 복잡한 데이터 유형에서 추출한 특징 변수
____5.3.7 특징 변수 조작
____5.3.8 차원 축소
__5.4 요약
6장 데이터 탐색과 시각화
__6.1 왜 데이터를 시각화하는가?
____6.1.1 동기 부여 예제: 네트워크 처리량 시각화하기
____6.1.2 애당초 없었던 혁신을 시각화하기
__6.2 데이터 차트 생성
____6.2.1 비교 차트
____6.2.2 구성 차트
____6.2.3 분포 차트
____6.2.4 관계 차트
__6.3 데이터 과학에서 사용하는 시각화 차트
__6.4 시각화 도구
____6.4.1 R
____6.4.2 파이썬: matplotlib, seaborn 등
____6.4.3 SAS
____6.4.4 MATLAB
____6.4.5 Julia
____6.4.6 기타 시각화 도구
__6.5 하둡을 활용한 빅데이터 시각화
__6.6 요약
3부 하둡을 활용한 데이터 모델링
7장 하둡을 활용한 머신 러닝
__7.1 머신 러닝 개요
__7.2 머신 러닝 용어
__7.3 머신 러닝 작업 유형
__7.4 빅데이터와 머신 러닝
__7.5 머신 러닝 도구
__7.6 머신 러닝과 인공지능의 미래
__7.7 요약
8장 예측 모델링
__8.1 예측 모델링 개요
__8.2 분류 vs 회귀
__8.3 예측 모델 평가
____8.3.1 분류 모델 평가
____8.3.2 회귀 모델 평가
____8.3.3 교차 검증
__8.4 지도 학습 알고리즘
__8.5 빅데이터를 활용한 예측 모델 솔루션 구축
____8.5.1 모델 학습
____8.5.2 일괄 예측
____8.5.3 실시간 예측
__8.6 예제: 감성 분석
____8.6.1 트윗 데이터셋
____8.6.2 데이터 준비하기
____8.6.3 특징 변수 생성
____8.6.4 분류 모델 구축
__8.7 요약
9장 군집화
__9.1 군집화 개요
__9.2 군집화 활용
__9.3 유사도 측정 방식 설계
____9.3.1 거리 함수
____9.3.2 유사도 함수
__9.4 군집화 알고리즘
__9.5 군집화 알고리즘의 예
____9.5.1 k - 평균 군집화
____9.5.2 잠재 디리클레 할당
__9.6 군집 평가와 군집 개수 선택
__9.7 빅데이터를 활용한 군집화 솔루션 구축
__9.8 예제: LDA를 활용한 주제 모델링
____9.8.1 데이터 입수
____9.8.2 특징 변수 생성
____9.8.3 LDA 실행
__9.9 요약
10장 하둡을 활용한 이상 탐지
__10.1 이상 탐지 개요
__10.2 이상 탐지 활용
__10.3 데이터 내 이상 현상 유형
__10.4 이상 탐지 기법
____10.4.1 규칙 기반 기법
____10.4.2 지도 학습 기법
____10.4.3 비지도 학습 기법
____10.4.4 준지도 학습 기법
__10.5 이상 탐지 시스템 튜닝
__10.6 하둡을 활용한 빅데이터 기반 이상 탐지 솔루션 구축
__10.7 예제: 네트워크 침입 탐지
____10.7.1 데이터 입수하기
____10.7.2 분류 모델 학습하기
____10.7.3 성능 평가하기
__10.8 요약
11장 자연어 처리
__11.1 자연어 처리
____11.1.1 자연어 처리의 역사
____11.1.2 자연어 처리의 활용 사례
____11.1.3 텍스트 분할
____11.1.4 품사 태깅
____11.1.5 개체명 인식
____11.1.6 감성 분석
____11.1.7 주제 모델링
__11.2 하둡의 자연어 처리 도구
____11.2.1 스몰 모델 NLP
____11.2.2 빅 모델 NLP
__11.3 텍스트 표현 모델
____11.3.1 Bag-of-Words
____11.3.2 Word2Vec
__11.4 감성 분석 예제
____11.4.1 스탠포드 CoreNLP
____11.4.2 스파크를 활용한 감성 분석
__11.5 요약
12장 하둡과 데이터 과학의 미래
__12.1 자동 데이터 탐색
__12.2 딥러닝
__12.3 요약
부록
__A.1 HDFS 퀵스타트
____A.1.1 퀵 명령
__A.2 참고 자료
____A.2.1 하둡과 스파크에 관한 일반적인 정보
____A.2.2 하둡과 스파크 설치 레시피
____A.2.3 HDFS
____A.2.4 맵리듀스
____A.2.5 스파크
____A.2.6 필수 도구
____A.2.7 머신 러닝
찾아보기