빅데이터 분석을 위한 스칼라와 스파크

책 이미지

eBook 미리보기

책 정보

· 제목 : 빅데이터 분석을 위한 스칼라와 스파크 (대용량 빅데이터 분석과 머신 러닝까지 활용하는, 2019년 대한민국학술원 우수학술도서 선정도서)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 자료구조/알고리즘
· ISBN : 9791161752402
· 쪽수 : 1092쪽
· 출판일 : 2018-12-24

책 소개

스파크를 이용해 데이터 분석 방법을 배우려는 사람에게 매우 유용한 책이다. 가장 먼저 스칼라를 소개하고, 스칼라 애플리케이션 개발에 필요한 객체지향 개념과 함수형 프로그래밍 개념을 설명한다. 스파크에 초점을 맞춰 RDD와 데이터 프레임을 사용한 기본 추상화를 다룬다.

1장 스칼라 소개
__스칼라의 역사와 목적
__플랫폼과 편집기
__스칼라 설치와 설정
____자바 설치
____윈도우
____맥 OS
__스칼라: 확장 가능한 언어
____스칼라는 객체지향
____스칼라는 함수형
____스칼라는 정적 타입 지원
____스칼라는 JVM에서 동작
____스칼라는 자바 코드를 실행 가능
____스칼라는 동시 및 동기화 처리 수행 가능
__자바 프로그래머를 위한 스칼라
____모든 타입은 객체
____타입 추론
____스칼라 REPL
____중첩 함수
____import문
____연산자를 메소드로 사용
____메소드와 파라미터 목록
____메소드 안의 메소드
____스칼라 생성자
____정적 메소드 대신 객체
____트레이트
__초보자를 위한 스칼라
____처음 작성하는 스칼라 코드
____대화형으로 스칼라 실행
____컴파일
__요약
2장 객체지향 언어, 스칼라
__스칼라 변수
____참조와 값 불변성
____스칼라의 데이터 타입
__스칼라의 메소드, 클래스, 객체
____스칼라의 메소드
____스칼라의 클래스
____스칼라의 객체
__패키지와 패키지 객체
__자바 상호운용성
__패턴 매칭
__스칼라의 암시
__스칼라의 제네릭
____제네릭 클래스의 정의
__SBT와 기타 빌드 시스템
____SBT로 빌드
____이클립스에 메이븐 사용
____이클립스에서 그래들 사용
__요약
3장 함수형 프로그래밍 개념
__함수형 프로그래밍 소개
____함수형 프로그래밍의 장점
__데이터 과학자를 위한 함수형 스칼라
__스파크를 공부하는 데 와 FP 스칼라를 설명하는 이유
____스파크인 이유
____스칼라와 스파크 프로그래밍 모델
____스칼라와 스파크 생태계
__순수 함수와 고차 함수
____순수 함수
____익명 함수
____고차 함수
____함수를 리턴 값으로 사용
__고차 함수 사용
__함수형 스칼라의 에러 핸들링
____스칼라의 실패와 예외
____예외 던지기
____try와 catch를 사용한 예외 처리
____finally
____Either 생성
____Future
____하나의 태스크를 실행하고 대기
__함수형 프로그래밍과 데이터 가변성
__요약
4장 컬렉션 API
__스칼라 컬렉션 API
__타입과 계층
____Traversable
____Iterable
____Seq, LinearSeq, IndexedSeq
____가변과 불변
____배열
____리스트
____셋
____튜플
____맵
____Option
____exists
____forall
____filter
____map
____take
____groupBy
____init
____drop
____takeWhile
____dropWhile
____flatMap
__성능 특징
____컬렉션 객체의 성능 특징
____컬렉션 객체가 사용하는 메모리 사용량
__자바 상호 운영성
__스칼라 암시 사용
____스칼라의 암시적 변환
__요약
5장 스파크로 빅데이터 다루기
__데이터 분석 소개
____데이터 분석 프로세스 내부
__빅데이터 소개
____빅데이터의 4V
__하둡을 이용한 분산 컴퓨팅
____하둡 분산 파일 시스템(HDFS)
____맵리듀스 프레임워크
__아파치 스파크
____스파크 코어
____스파크 SQL
____스파크 스트리밍
____스파크 GraphX
____스파크 ML
____PySpark
____SparkR
__요약
6장 스파크로 REPL과 RDD 작업
__스파크에 대해 깊이 살펴보기
__아파치 스파크 설치
____스파크 독립형
____얀 기반의 스파크
____메소스 기반의 스파크
____쿠버네티스 기반 스파크
__RDD 소개
____RDD 생성
__스파크 셸의 사용
__트랜스포메이션과 액션
____트랜스포메이션
____액션
__캐싱
__데이터 로드와 저장
____데이터 로드
____RDD 저장
__요약
7장 특수 RDD 연산
__RDD 타입
____쌍 RDD
____DoubleRDD
____SequenceFileRDD
____CoGroupedRDD
____ShuffledRDD
____UnionRDD
____HadoopRDD
____NewHadoopRDD
__집계
____groupByKey
____reduceByKey
____aggregateByKey
____combineByKey
____groupByKey, reduceByKey, combineByKey, aggregateByKey의 비교
__파티셔닝과 셔플링
____파티셔너
____셔플링
__브로드캐스트 변수
____브로드캐스트 변수 생성
____브로드캐스트 변수 정리
____브로드캐스트 정리
__누산기
__요약
8장 스파크 SQL
__스파크 SQL과 데이터 프레임
__데이터 프레임 API와 SQL API
____피벗
____필터
____사용자 정의 함수(UDF)
____데이터의 스키마 구조
____데이터셋 로드와 저장
__집계
____집계 함수
____groupBy
____rollup
____cube
____윈도우 함수
__조인
____조인의 내부 동작
____브로드캐스트 조인
____조인 타입
____조인의 성능 결과
__요약
9장 스파크 스트리밍
__스트리밍에 대한 간략한 소개
____최소 한 번 처리 방식
____최대 한 번 처리 방식
____정확히 한 번 처리
__스파크 스트리밍
____StreamingContext
____입력 스트림
____binaryRecordsStream
____queueStream
____textFileStream 예
____twitterStream 예
__불연속 스트림
____트랜스포메이션
____윈도우 연산
__상태 저장/상태 비저장 트랜스포메이션
____상태 비저장 트랜스포메이션
____상태 저장 트랜스포메이션
__체크 포인팅
____메타데이터 체크 포인팅
____데이터 체크포인팅
____드라이버 실패 복구
__스트리밍 플랫폼과의 상호운용성(아파치 카프카)
____수신기 기반의 접근 방식
____다이렉트 스트림
____구조화 스트리밍
__구조화 스트리밍
____이벤트 시간과 지연 데이터 처리
____내결함성 의미 체계
__요약
10장 GraphX
__그래프 이론에 대한 간략한 소개
__GraphX
__VertexRDD와 EdgeRDD
____VertexRDD
____EdgeRDD
__그래프 연산자
____filter
____mapValues
____aggregateMessages
____triangleCount
__Pregel API
____연결된 컴포넌트
____여행하는 세일즈맨 문제
____ShortestPaths
__페이지랭크
__요약
11장 머신 러닝 학습: 스파크 MLlib와 ML
__머신 러닝 소개
____일반적인 머신 러닝 워크플로우
____머신 러닝 작업
__스파크 머신 러닝 API
____스파크 머신 러닝 라이브러리
__피처 추출과 트랜스포메이션
____CountVectorizer
____토큰화
____StopWordsRemover
____StringIndexer
____OneHotEncoder
____스파크 ML 파이프라인
__간단한 파이프라인 생성
__비지도 머신 러닝
____차원 축소
____PCA
__이진 및 다중 클래스 분류
____성능 메트릭
____로지스틱 회귀 분석을 이용한 다중 클래스 분류
____랜덤 포레스트를 사용해 분류 정확도 향상
__요약
12장 고급 머신 러닝 모범 사례
__머신 러닝 모범 사례
____오버피팅과 언더피팅에 주의
____스파크 MLlib과 ML에 집중
____애플리케이션에 적합한 알고리즘 선택
____알고리즘을 선택할 때 고려해야 할 사항
____알고리즘을 선택할 때 데이터를 검사
__ML 모델의 하이퍼파라미터 튜닝
____하이퍼파라미터 튜닝
____그리드 검색 파라미터 튜닝
____교차 검증
____신용 위험 분석: 하이퍼파라미터 튜닝 예
__스파크를 사용한 추천 시스템
____스파크를 이용한 모델 기반 추천
__주제 모델링: 텍스트 클러스터링에서 모범 사례
____LDA 동작 방법
____스파크 MLlib를 이용한 주제 모델링
__요약

저자소개

레자울 카림 (지은이) 정보 더보기

독일 프라운호퍼(Fraunhofer)의 FIT 연구 과학자다. 독일 아헨(Aachen)의 RWTH 아헨공과대학교에서 박사 학위를 받았다. 컴퓨터 과학 학사, 석사 학위도 취득했다. 프라운호퍼 FIT에 입사하기 전에 아일랜드의 Insight Center (아일랜드 최대 규모의 데이터 분석 센터이자 세계 최대의 시맨틱 웹 연구소)의 연구원으로 일하면서 데이터 분석 업무를 맡았다. 그 전에는 한국, 인도, 베트남, 터키, 방글라데시에 위치한 삼성전자의 R&D 센터에서 리드 엔지니어, 한국의 경희대학교 데이터베이스 연구소에서 연구 조교로 일했다. 또한 방글라데시 다카의 i2SoftTechnology에서 소프트웨어 엔지니어, 비엠테크21 월드와이드(BMTech21Worldwide)에서 R&D 엔지니어로도 근무했다. 빅데이터 기술(스파크, 카프카, DC/OS, 도커, 메소스(Mesos), 제플린(Zeppelin), 하둡, 맵리듀스(MapReduce))과 딥러닝(텐서플로, DeepLearning4j, H2O-Sparking Water) 중심의 C/C++, 자바, 스칼라, R, 파이썬 알고리즘과 데이터 구조에 대한 확실한 지식을 바탕으로 연구 개발 분야에서 8년 이상의 경력을 쌓았다. 연구 관심사는 머신 러닝, 딥러닝, 시맨틱 웹, 링크 데이터, 빅데이터, 바이오 인포믹스 등이다. 팩트출판사에서 출간한 『대용량 머신 러닝과 스파크』(에이콘, 2018)와 『텐서플로로 구현하는 딥러닝과 강화학습』(에이콘, 2017)의 저자다.

펼치기

레자울 카림의 다른 책 >

스리다르 알라 (지은이) 정보 더보기

SAS 코드를 Python으로 자동 변환하는 것에 초점을 맞춘 제품 Sas2Py(www.sas2py.com)의 벤더인 Bluewhale.one의 설립자이자 CTO이다. 블루웨일(Bluewhale)은 지능적인 이메일 대화 추적부터 소매업계에 영향을 미치는 문제 등에 이르기까지 AI를 활용해 핵심 문제를 해결하는 데도 주력하고 있다. 또한 퍼블릭 클라우드와 사내 인프라 모두에서 AI기반 빅데이터 분석 실무 구축에 관한 깊은 전문 지식을 보유하고 있다. 그는 저자이자 수많은 Strata, Hadoop World, Spark Summit 및 기타 콘퍼런스에서 열정적인 발표자로 활동하고 있을 뿐만 아니라 대규모 컴퓨팅 및 분산 시스템에 대해 미국 PTO에 출원한 여러 특허를 보유하고 있다.

펼치기

스리다르 알라의 다른 책 >

김용환 (옮긴이) 정보 더보기

알티캐스트, 네이버, 라인, SK Planet을 거쳐 현재 카카오에서 개발자로 일하고 있다. 이제 마흔네 살의 평범한 개발자로 다양한 도전에서 에너지를 얻으며, 개발과 실무 경험을 블로그(http://knight76.tistory.com)에 기록하고 있다. 정보통신산업진흥원(NIPA) 산하의 소프트웨어공학포털에 개발 관련 내용을 공유했고, 여러 콘퍼런스와 세미나에서 그동안 쌓은 개발 지식을 발표하고 있다. 스스로에게는 물론 누군가에게 도움이 될 수 있다는 생각으로 번역을 시작했는데, 어느덧 15번째 책이다.

펼치기

김용환의 다른 책 >