logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

대용량 머신 러닝과 스파크

대용량 머신 러닝과 스파크

(빅데이터 기반의 머신 러닝 애플리케이션 구축)

레자울 카림, 마헤디 카이저 (지은이), 이지훈 (옮긴이)
에이콘출판
35,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
알라딘 로딩중
yes24 로딩중
교보문고 로딩중
11st 로딩중
영풍문고 로딩중
쿠팡 로딩중
쿠팡로켓 로딩중
G마켓 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
로딩중

책 이미지

대용량 머신 러닝과 스파크
eBook 미리보기

책 정보

· 제목 : 대용량 머신 러닝과 스파크 (빅데이터 기반의 머신 러닝 애플리케이션 구축)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 데이터베이스 프로그래밍 > 데이터베이스 구축
· ISBN : 9791161751771
· 쪽수 : 560쪽
· 출판일 : 2018-07-16

책 소개

아파치 스파크와 스파크 ML 라이브러리를 이용해 대용량 데이터에서 특징을 찾고 머신 러닝 파이프 라인을 구축하며, 이를 새로운 데이터와 문제 유형에 맞게 튜닝하는 방법을 배운다. 그리고 모델을 빌드하고 프로덕션 환경에 배포하는 방법도 살펴본다.

목차

1장. 스파크를 이용한 데이터 분석의 개요
__스파크 개요
____스파크의 기본 사항
____스파크의 장점
__스파크를 사용한 새로운 컴퓨팅 패러다임
____전통적인 분산 컴퓨팅
____코드에서 데이터로의 이동
____RDD: 새로운 컴퓨팅 패러다임
__스파크 에코시스템
____스파크 코어 엔진
____스파크 SQL
____데이터프레임과 데이터셋 통합
____스파크 스트리밍
____그래프 계산: GraphX
____머신 러닝과 스파크 ML 파이프라인
____통계 계산: 스파크R
__스파크 머신 러닝 라이브러리
____스파크를 이용한 머신 러닝
____스파크 MLlib
____스파크 ML
__스파크 설치와 시작하기
__종속성을 사용해 애플리케이션 패키징
__샘플 머신 러닝 애플리케이션 실행
____스파크 셸에서 스파크 애플리케이션 실행
____로컬 클러스터에서 스파크 애플리케이션 실행
____EC2 클러스터에서 스파크 애플리케이션 실행
__참고 문헌
__요약


2장. 머신 러닝 모범 사례
__머신 러닝이란?
____현대 문헌에서의 머신 러닝
____일반적인 머신 러닝 워크플로우
__머신 러닝 작업
____지도 학습
____비지도 학습
____강화 학습
____추천 시스템
____준지도 학습
__실제 머신 러닝 문제
____머신 러닝 클래스
____규칙 추출과 회귀
__가장 널리 사용하는 머신 러닝 문제
__스파크 대규모 머신 러닝 API
____스파크 머신 러닝 라이브러리
__실용적인 머신 러닝 우수 사례
____ML 애플리케이션 개발 전의 우수 사례
____ML 애플리케이션 개발 후 모범 사례
__애플리케이션에 알맞은 알고리즘 선택
____알고리즘을 선택할 때 고려 사항
____알고리즘을 선택할 때 데이터를 함께 고려하기
____널리 사용하는 ML 알고리즘에 대한 참고 사항
__요약


3장. 데이터 이해를 통한 문제 이해
__데이터 분석 및 준비
____데이터 준비 프로세스
__탄력적 분산 데이터셋의 기본사항
____데이터셋 읽기
____RDD로 사전 처리
____키와 값의 쌍으로 작업하기
____변환에 대한 추가 정보
__데이터셋 기본 사항
____데이터셋을 생성하기 위해 데이터셋 읽기
____데이터셋으로 사전 처리
____데이터셋 조작에 대한 추가 정보
____자바빈에서 데이터셋 생성
__문자열과 타입 클래스에서 데이터셋 생성
____RDD, DataFrame, Dataset 간의 비교
__스파크와 데이터 과학자 워크플로우
__스파크에 대해 좀 더 깊게 살펴보기
____공유 변수
__요약


4장. 피처 엔지니어링을 통한 지식 추출
__피처 엔지니어링의 최첨단 기술
____피처 추출 vs. 피처 선택
____피처 엔지니어링의 중요성
____피처 엔지니어링과 데이터 탐색
____피처 추출: 데이터에서 피처 생성
____피처 선택: 데이터에서 필터링 피처
__피처 엔지니어링의 모범 사례
____데이터 이해
____혁신적인 피처 추출 방법
__스파크로 피처 엔지니어링
____머신 러닝 파이프라인: 개요
____파이프라인: 스파크 ML 예제
____피처 변환, 추출, 선택
__고급 피처 엔지니어링
____피처 구성
____피처 학습
____피처 엔지니어링의 반복 프로세스
____딥러닝
__요약


5장. 예제로 보는 지도 및 비지도 학습
__머신 러닝 클래스
____지도 학습
__스파크를 이용한 지도 학습: 사례
____스파크를 이용한 항공기 지연 분석
__비지도 학습
____비지도 학습 사례
__추천 시스템
____스파크에서 협업 필터링
__고급 학습과 일반화
____지도 학습의 일반화
__요약


6장. 확장 가능한 머신 러닝 파이프라인 빌드
__스파크 머신 러닝 파이프라인 API
____데이터셋 추상화
____파이프라인
__스파크를 사용한 암 진단 파이프라인
____스파크를 사용한 유방암 진단 파이프라인
__스파크를 사용한 암 예후 파이프라인
____데이터셋 탐색
____스파크 ML/MLlib를 사용한 유방암 예후 파이프라인
__스파크 코어를 이용한 장바구니 분석
____배경
____동기
____데이터셋 탐색
____문제 설명
____스파크를 이용한 대규모 장바구니 분석
____스파크 코어를 사용한 알고리즘 솔루션
____SAMBA에서 올바른 매개변수의 튜닝과 설정
__스파크를 이용한 OCR 파이프라인
____데이터 탐색과 준비
____스파크 ML과 스파크 MLlib를 사용한 OCR 파이프라인
__스파크 MLlib와 ML을 사용한 토픽 모델링
____스파크 MLlib를 사용한 토픽 모델링
____확장성
__스파크를 사용한 신용 위험 분석 파이프라인
____신용 위험 분석이란? 왜 중요한가?
____스파크 ML을 이용한 신용 위험 분석 개발
____스파크 ML을 사용한 신용 위험 파이프라인
__ML 파이프라인 확장
____크기의 중요성
____크기 vs. 왜곡 고려 사항
____비용과 인프라
__조언 및 성능 고려 사항
__요약


7장. 머신 러닝 모델 튜닝
__머신 러닝 모델 튜닝에 대한 세부 사항
__모델 튜닝의 일반적인 문제
__머신 러닝 모델 평가
____회귀 모델 평가
____이진 분류 모델 평가
____멀티클래스 분류 모델 평가
____클러스터링 모델 평가
__유효성 검사 기술과 평가 기술
__머신 러닝 모델을 위한 매개변수 튜닝
____초매개변수 튜닝
____그리드 검색 매개변수 튜닝
____랜덤 검색 매개변수 튜닝
____교차 유효성 검사
__가설 테스트
____스파크 MLlib의 ChiSqTestResult를 사용한 가설 테스트
____스파크 MLlib Kolmogorov-Smirnov 테스트를 사용한 가설 테스트
____스파크 MLlib의 스트리밍 유의도 검정
__머신 러닝 모델 선택
____교차 검증 기술을 통한 모델 선택
____트레이닝 유효성 검사 분할을 통한 모델 선택
__요약


8장. 머신 러닝 모델 조정
__머신 러닝 모델 적용
____기술 개요
__ML 모델의 일반화
____일반화된 선형 회귀
____스파크를 사용한 일반화된 선형 회귀
__증분 알고리즘을 통한 적용
____증분 서포트 벡터 머신
____증분 신경망
____증분 베이지안 네트워크
__ML 모델 재사용을 통한 적용
____문제 설명과 목적
____데이터 탐색
____심장 질환 예측 모델 개발
__동적 환경에서 머신 러닝
____온라인 학습
____통계 학습 모델
____적대 모델
__요약


9장. 스트리밍 및 그래픽 데이터를 사용한 고급 머신 러닝
__실시간 ML 파이프라인 개발
____비구조화된 텍스트 데이터로서 스트리밍 데이터 수집
__시계열과 소셜 네트워크 분석
____시계열 분석
____소셜 네트워크 분석
__스파크를 사용한 영화 추천
____스파크 MLlib를 사용한 모델 기반 영화 추천
__스트리밍에서 실시간 ML 파이프라인 개발
____트위터에서 실시간 트윗 데이터 수집
____8단계: 스트리밍 스위치 제어
__스파크를 사용한 토픽 모델링
__그래프 데이터와 준지도 그래프 기반 학습에 대한 ML 파이프라인
____GraphX 소개
__요약


10장. 외부 라이브러리를 이용한 설정 및 작업
__스파크가 포함된 서드파티 ML 라이브러리
__스파크 코어로 외부 라이브러리 사용
__클라우데라 Spark-TS를 사용한 시계열 분석
____시계열 데이터
____Spark-TS 설정
____TimeSeriesRDD
__RStudio로 스파크R 설정
__윈도우에서 하둡 런타임 설정
__요약

저자소개

레자울 카림 (지은이)    정보 더보기
독일 프라운호퍼(Fraunhofer)의 FIT 연구 과학자다. 독일 아헨(Aachen)의 RWTH 아헨공과대학교에서 박사 학위를 받았다. 컴퓨터 과학 학사, 석사 학위도 취득했다. 프라운호퍼 FIT에 입사하기 전에 아일랜드의 Insight Center (아일랜드 최대 규모의 데이터 분석 센터이자 세계 최대의 시맨틱 웹 연구소)의 연구원으로 일하면서 데이터 분석 업무를 맡았다. 그 전에는 한국, 인도, 베트남, 터키, 방글라데시에 위치한 삼성전자의 R&D 센터에서 리드 엔지니어, 한국의 경희대학교 데이터베이스 연구소에서 연구 조교로 일했다. 또한 방글라데시 다카의 i2SoftTechnology에서 소프트웨어 엔지니어, 비엠테크21 월드와이드(BMTech21Worldwide)에서 R&D 엔지니어로도 근무했다. 빅데이터 기술(스파크, 카프카, DC/OS, 도커, 메소스(Mesos), 제플린(Zeppelin), 하둡, 맵리듀스(MapReduce))과 딥러닝(텐서플로, DeepLearning4j, H2O-Sparking Water) 중심의 C/C++, 자바, 스칼라, R, 파이썬 알고리즘과 데이터 구조에 대한 확실한 지식을 바탕으로 연구 개발 분야에서 8년 이상의 경력을 쌓았다. 연구 관심사는 머신 러닝, 딥러닝, 시맨틱 웹, 링크 데이터, 빅데이터, 바이오 인포믹스 등이다. 팩트출판사에서 출간한 『대용량 머신 러닝과 스파크』(에이콘, 2018)와 『텐서플로로 구현하는 딥러닝과 강화학습』(에이콘, 2017)의 저자다.
펼치기
마헤디 카이저 (지은이)    정보 더보기
아일랜드 더블린 시티 대학교(Dublin City University, Ireland)의 Insight Center for Data Analytics의 소프트웨어 엔지니어이자 연구원이다. Insight Center for Data Analytics에 합류하기 전에 골웨이의 아일랜드 국립 대학교와 방글라데시에 위치한 삼성전자에서 소프트웨어 엔지니어로 근무했다. C, 자바, 스칼라, 파이썬 중심의 알고리즘과 데이터 구조에 대한 탄탄한 경험을 바탕으로 R&D에서 5년 이상 활동했다. 또한 전사적 애플리케이션(enterprise application) 개발과 빅데이터 분석 분야에서 많은 경험을 쌓았다. 방글라데시 치타공 공과 대학(Chittagong University of Engineering and Technology)에서 컴퓨터 과학 및 공학 학사 학위를 취득했다. 현재는 아일랜드 더블린 시티 대학교에서 분산 및 병렬 컴퓨팅(Distributed and Parallel computing)에 대한 대학원 연구를 시작했다.
펼치기
이지훈 (옮긴이)    정보 더보기
기계공학을 전공했지만 자바 웹 개발을 시작으로 안드로이드/iOS 기반의 앱을 개발했으며, 최근 몇 년간은 하둡과 스파크 및 딥러닝에 관련된 소프트웨어를 개발해왔다. 또한 IT 관련 서적의 저자 및 번역가로도 활동한다. 『나홀로 개발자를 위한 안드로이드』(에이콘, 2013), 『Java 프로그래밍 입문』(북스홀릭퍼블리싱, 2013)을 저술했고, 『프로그래머를 위한 안드로이드』(정보문화사, 2015), 『Android Internals Vol.1』(에이콘, 2016), 『스위프트로 하는 iOS 9 프로그래밍』(에이콘, 2016), 『대용량 머신 러닝과 스파크』(에이콘, 2018) 등 수십 권의 책을 번역했다.
펼치기
이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책