logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

일간
|
주간
|
월간

실시간 검색어

검색가능 서점

도서목록 제공

하둡과 스파크를 활용한 실용 데이터 과학

하둡과 스파크를 활용한 실용 데이터 과학

(대규모 데이터 분석을 위한 효율적 설계와 구축 가이드)

오퍼 멘델리비치, 케이시 스텔라, 더글라스 에드라인 (지은이), 이춘오 (옮긴이)
길벗
28,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
알라딘 로딩중
yes24 로딩중
교보문고 로딩중
11st 로딩중
영풍문고 로딩중
쿠팡 로딩중
쿠팡로켓 로딩중
G마켓 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
aladin 22,400원 -10% 1120원 19,040원 >

책 이미지

하둡과 스파크를 활용한 실용 데이터 과학
eBook 미리보기

책 정보

· 제목 : 하둡과 스파크를 활용한 실용 데이터 과학 (대규모 데이터 분석을 위한 효율적 설계와 구축 가이드)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 네트워크/데이터 통신
· ISBN : 9791160502213
· 쪽수 : 320쪽
· 출판일 : 2017-08-17

책 소개

데이터 엔지니어링 전 과정을 파악하고, 핵심 개념을 개괄적으로 배우고 실용적 구현 사례를 학습하도록 안내한다. 머신러닝, 감성 분석을 위한 예측 모델링, 문서 분석을 위한 군집화, 이상 탐지 그리고 자연어 처리에 이르는 다양한 응용 사례를 접할 수 있다.

목차

1부 하둡을 활용한 데이터 과학의 개요

1장 데이터 과학

__1.1 데이터 과학이란 무엇인가?
__1.2 데이터 과학의 예: 검색 광고
__1.3 데이터 과학의 간략한 역사
____1.3.1 통계학과 머신 러닝
____1.3.2 인터넷 거인들이 가져온 혁신
____1.3.3 현대 기업의 데이터 과학
__1.4 데이터 과학자가 되는 길
____1.4.1 데이터 엔지니어
____1.4.2 응용과학자
____1.4.3 데이터 과학자로 전직하는 방법
____1.4.4 데이터 과학자가 갖춰야 할 소프트 스킬
__1.5 데이터 과학팀 구성하기
__1.6 데이터 과학 프로젝트의 생명 주기
____1.6.1 적절한 질문
____1.6.2 데이터 입수
____1.6.3 데이터 정제: 데이터 품질 관리
____1.6.4 데이터 탐색과 모델 특징 변수 설계
____1.6.5 모델 구축과 튜닝
____1.6.6 운영 시스템에 배포
__1.7 데이터 과학 프로젝트의 관리
__1.8 요약

2장 데이터 과학의 활용 사례
__2.1 빅데이터: 변화의 원동력
____2.1.1 규모: 더 많은 데이터의 활용
____2.1.2 다양성: 더 많은 데이터 유형
____2.1.3 속도: 더 빠른 데이터 유입
__2.2 비즈니스 활용 사례
____2.2.1 제품 추천
____2.2.2 고객 이탈 분석
____2.2.3 고객 세분화
____2.2.4 영업 리드 우선순위 결정
____2.2.5 감성 분석
____2.2.6 이상 거래 탐지
____2.2.7 유지 보수 예측
____2.2.8 장바구니 분석
____2.2.9 데이터 기반 의료 진단
____2.2.10 환자의 재입원 예측
____2.2.11 변칙 접근 탐지
____2.2.12 보험 위험 분석
____2.2.13 유정/가스정의 생산량 예측
__2.3 요약

3장 하둡과 데이터 과학
__3.1 하둡이란 무엇인가?
____3.1.1 분산 파일 시스템
____3.1.2 리소스 관리자와 스케줄러
____3.1.3 분산 데이터 처리 프레임워크
__3.2 하둡의 진화 과정
__3.3 데이터 과학용 하둡 도구
____3.3.1 아파치 스쿱
____3.3.2 아파치 플럼
____3.3.3 아파치 하이브
____3.3.4 아파치 피그
____3.3.5 아파치 스파크
____3.3.6 R
____3.3.7 파이썬
____3.3.8 자바 머신 러닝 패키지
__3.4 하둡이 데이터 과학자에게 유용한 이유
____3.4.1 저비용 스토리지
____3.4.2 스키마 온 리드
____3.4.3 비정형 데이터와 반정형 데이터
____3.4.4 다양한 언어 지원
____3.4.5 견고한 스케줄링과 리소스 관리
____3.4.6 분산 시스템 추상화 레벨
____3.4.7 대규모 데이터에 기반한 모델 구축
____3.4.8 대규모 데이터에 모델을 적용
__3.5 요약


2부 하둡을 활용한 데이터 준비와 시각화

4장 하둡을 활용한 데이터 입수

__4.1 하둡 데이터 레이크
__4.2 HDFS
__4.3 파일을 HDFS로 직접 전송하기
__4.4 파일을 하이브 테이블로 가져오기
____4.4.1 CSV 파일을 하이브 테이블로 가져오기
__4.5 스파크를 사용해 데이터를 하이브 테이블로 가져오기
____4.5.1 스파크를 사용해 CSV 파일을 하이브로 가져오기
____4.5.2 스파크를 사용해 JSON 파일을 하이브로 가져오기
__4.6 아파치 스쿱을 활용한 관계형 데이터 입수
____4.6.1 스쿱을 활용한 데이터 가져오기와 내보내기
____4.6.2 아파치 스쿱의 버전별 차이
____4.6.3 스쿱 버전 1을 사용한 기본 예제
__4.7 아파치 플럼을 활용한 데이터 스트림 입수
____4.7.1 플럼을 활용한 웹 로그 수집 예제
__4.8 아파치 우지를 활용한 하둡 작업 및 데이터 흐름 관리
__4.9 아파치 팔콘
__4.10 새로운 데이터 입수 도구
__4.11 요약

5장 하둡을 활용한 데이터 개조
__5.1 하둡이 데이터 개조 작업에 필요한 이유
__5.2 데이터 품질
____5.2.1 데이터 품질이란 무엇인가?
____5.2.2 데이터 품질 이슈 다루기
____5.2.3 하둡을 사용한 데이터 품질 관리
__5.3 특징 행렬
____5.3.1 적절한 특징 변수 선택하기
____5.3.2 샘플링: 인스턴스 선택
____5.3.3 특징 변수 생성
____5.3.4 텍스트 특징 변수
____5.3.5 시계열 특징 변수
____5.3.6 복잡한 데이터 유형에서 추출한 특징 변수
____5.3.7 특징 변수 조작
____5.3.8 차원 축소
__5.4 요약

6장 데이터 탐색과 시각화
__6.1 왜 데이터를 시각화하는가?
____6.1.1 동기 부여 예제: 네트워크 처리량 시각화하기
____6.1.2 애당초 없었던 혁신을 시각화하기
__6.2 데이터 차트 생성
____6.2.1 비교 차트
____6.2.2 구성 차트
____6.2.3 분포 차트
____6.2.4 관계 차트
__6.3 데이터 과학에서 사용하는 시각화 차트
__6.4 시각화 도구
____6.4.1 R
____6.4.2 파이썬: matplotlib, seaborn 등
____6.4.3 SAS
____6.4.4 MATLAB
____6.4.5 Julia
____6.4.6 기타 시각화 도구
__6.5 하둡을 활용한 빅데이터 시각화
__6.6 요약


3부 하둡을 활용한 데이터 모델링

7장 하둡을 활용한 머신 러닝

__7.1 머신 러닝 개요
__7.2 머신 러닝 용어
__7.3 머신 러닝 작업 유형
__7.4 빅데이터와 머신 러닝
__7.5 머신 러닝 도구
__7.6 머신 러닝과 인공지능의 미래
__7.7 요약

8장 예측 모델링
__8.1 예측 모델링 개요
__8.2 분류 vs 회귀
__8.3 예측 모델 평가
____8.3.1 분류 모델 평가
____8.3.2 회귀 모델 평가
____8.3.3 교차 검증
__8.4 지도 학습 알고리즘
__8.5 빅데이터를 활용한 예측 모델 솔루션 구축
____8.5.1 모델 학습
____8.5.2 일괄 예측
____8.5.3 실시간 예측
__8.6 예제: 감성 분석
____8.6.1 트윗 데이터셋
____8.6.2 데이터 준비하기
____8.6.3 특징 변수 생성
____8.6.4 분류 모델 구축
__8.7 요약

9장 군집화
__9.1 군집화 개요
__9.2 군집화 활용
__9.3 유사도 측정 방식 설계
____9.3.1 거리 함수
____9.3.2 유사도 함수
__9.4 군집화 알고리즘
__9.5 군집화 알고리즘의 예
____9.5.1 k - 평균 군집화
____9.5.2 잠재 디리클레 할당
__9.6 군집 평가와 군집 개수 선택
__9.7 빅데이터를 활용한 군집화 솔루션 구축
__9.8 예제: LDA를 활용한 주제 모델링
____9.8.1 데이터 입수
____9.8.2 특징 변수 생성
____9.8.3 LDA 실행
__9.9 요약

10장 하둡을 활용한 이상 탐지
__10.1 이상 탐지 개요
__10.2 이상 탐지 활용
__10.3 데이터 내 이상 현상 유형
__10.4 이상 탐지 기법
____10.4.1 규칙 기반 기법
____10.4.2 지도 학습 기법
____10.4.3 비지도 학습 기법
____10.4.4 준지도 학습 기법
__10.5 이상 탐지 시스템 튜닝
__10.6 하둡을 활용한 빅데이터 기반 이상 탐지 솔루션 구축
__10.7 예제: 네트워크 침입 탐지
____10.7.1 데이터 입수하기
____10.7.2 분류 모델 학습하기
____10.7.3 성능 평가하기
__10.8 요약

11장 자연어 처리
__11.1 자연어 처리
____11.1.1 자연어 처리의 역사
____11.1.2 자연어 처리의 활용 사례
____11.1.3 텍스트 분할
____11.1.4 품사 태깅
____11.1.5 개체명 인식
____11.1.6 감성 분석
____11.1.7 주제 모델링
__11.2 하둡의 자연어 처리 도구
____11.2.1 스몰 모델 NLP
____11.2.2 빅 모델 NLP
__11.3 텍스트 표현 모델
____11.3.1 Bag-of-Words
____11.3.2 Word2Vec
__11.4 감성 분석 예제
____11.4.1 스탠포드 CoreNLP
____11.4.2 스파크를 활용한 감성 분석
__11.5 요약

12장 하둡과 데이터 과학의 미래
__12.1 자동 데이터 탐색
__12.2 딥러닝
__12.3 요약


부록
__A.1 HDFS 퀵스타트
____A.1.1 퀵 명령
__A.2 참고 자료
____A.2.1 하둡과 스파크에 관한 일반적인 정보
____A.2.2 하둡과 스파크 설치 레시피
____A.2.3 HDFS
____A.2.4 맵리듀스
____A.2.5 스파크
____A.2.6 필수 도구
____A.2.7 머신 러닝

찾아보기

저자소개

더글라스 에드라인 (지은이)    정보 더보기
리눅스 고성능 컴퓨팅의 혁명을 목격한 기록자이자 실무자로 커리어를 시작했다. 2017년 현재 빅데이터 분야의 기술 저자이자 고성능 컴퓨팅과 데이터 분석 산업의 컨설턴트로 활동하고 있다.
펼치기
오퍼 멘델리비치 (지은이)    정보 더보기
렌드업(Lendup)의 데이터 과학 VP로, 머신러닝과 고급 분석 그룹을 이끌고 있다. 이전에는 호튼웍스의 데이터 과학 디렉터를 역임하며 의료, 금융, 리테일 등 여러 산업에 하둡과 스파크를 전파하였다.
펼치기
케이시 스텔라 (지은이)    정보 더보기
호튼웍스의 수석 데이터 과학자며, 아파치 메트론이라는 사이버 보안 오픈 소스 프로젝트의 분석과 데이터 과학팀을 이끌고 있다. 이전에는 의료 정보학 스타트업인 익스플로리스(Explorys)의 아키텍트로 근무하였다.
펼치기
이춘오 (옮긴이)    정보 더보기
KAIST 정보통신공학과 학사 및 박사 학위를 취득하고, 삼성전자에서 빅데이터 플랫폼 엔지니어로 근무했으며, 현재는 SK 플래닛의 데이터 과학자로 재직 중이다. 11번가의 다양한 데이터를 바탕으로 각종 예측 모델을 구축하고 데이터 기반 서비스를 개발하는 업무를 하고 있다.
펼치기

책속에서



추천도서

이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책