책 이미지

책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 자료구조/알고리즘
· ISBN : 9791161752402
· 쪽수 : 1092쪽
· 출판일 : 2018-12-24
책 소개
목차
1장 스칼라 소개
__스칼라의 역사와 목적
__플랫폼과 편집기
__스칼라 설치와 설정
____자바 설치
____윈도우
____맥 OS
__스칼라: 확장 가능한 언어
____스칼라는 객체지향
____스칼라는 함수형
____스칼라는 정적 타입 지원
____스칼라는 JVM에서 동작
____스칼라는 자바 코드를 실행 가능
____스칼라는 동시 및 동기화 처리 수행 가능
__자바 프로그래머를 위한 스칼라
____모든 타입은 객체
____타입 추론
____스칼라 REPL
____중첩 함수
____import문
____연산자를 메소드로 사용
____메소드와 파라미터 목록
____메소드 안의 메소드
____스칼라 생성자
____정적 메소드 대신 객체
____트레이트
__초보자를 위한 스칼라
____처음 작성하는 스칼라 코드
____대화형으로 스칼라 실행
____컴파일
__요약
2장 객체지향 언어, 스칼라
__스칼라 변수
____참조와 값 불변성
____스칼라의 데이터 타입
__스칼라의 메소드, 클래스, 객체
____스칼라의 메소드
____스칼라의 클래스
____스칼라의 객체
__패키지와 패키지 객체
__자바 상호운용성
__패턴 매칭
__스칼라의 암시
__스칼라의 제네릭
____제네릭 클래스의 정의
__SBT와 기타 빌드 시스템
____SBT로 빌드
____이클립스에 메이븐 사용
____이클립스에서 그래들 사용
__요약
3장 함수형 프로그래밍 개념
__함수형 프로그래밍 소개
____함수형 프로그래밍의 장점
__데이터 과학자를 위한 함수형 스칼라
__스파크를 공부하는 데 와 FP 스칼라를 설명하는 이유
____스파크인 이유
____스칼라와 스파크 프로그래밍 모델
____스칼라와 스파크 생태계
__순수 함수와 고차 함수
____순수 함수
____익명 함수
____고차 함수
____함수를 리턴 값으로 사용
__고차 함수 사용
__함수형 스칼라의 에러 핸들링
____스칼라의 실패와 예외
____예외 던지기
____try와 catch를 사용한 예외 처리
____finally
____Either 생성
____Future
____하나의 태스크를 실행하고 대기
__함수형 프로그래밍과 데이터 가변성
__요약
4장 컬렉션 API
__스칼라 컬렉션 API
__타입과 계층
____Traversable
____Iterable
____Seq, LinearSeq, IndexedSeq
____가변과 불변
____배열
____리스트
____셋
____튜플
____맵
____Option
____exists
____forall
____filter
____map
____take
____groupBy
____init
____drop
____takeWhile
____dropWhile
____flatMap
__성능 특징
____컬렉션 객체의 성능 특징
____컬렉션 객체가 사용하는 메모리 사용량
__자바 상호 운영성
__스칼라 암시 사용
____스칼라의 암시적 변환
__요약
5장 스파크로 빅데이터 다루기
__데이터 분석 소개
____데이터 분석 프로세스 내부
__빅데이터 소개
____빅데이터의 4V
__하둡을 이용한 분산 컴퓨팅
____하둡 분산 파일 시스템(HDFS)
____맵리듀스 프레임워크
__아파치 스파크
____스파크 코어
____스파크 SQL
____스파크 스트리밍
____스파크 GraphX
____스파크 ML
____PySpark
____SparkR
__요약
6장 스파크로 REPL과 RDD 작업
__스파크에 대해 깊이 살펴보기
__아파치 스파크 설치
____스파크 독립형
____얀 기반의 스파크
____메소스 기반의 스파크
____쿠버네티스 기반 스파크
__RDD 소개
____RDD 생성
__스파크 셸의 사용
__트랜스포메이션과 액션
____트랜스포메이션
____액션
__캐싱
__데이터 로드와 저장
____데이터 로드
____RDD 저장
__요약
7장 특수 RDD 연산
__RDD 타입
____쌍 RDD
____DoubleRDD
____SequenceFileRDD
____CoGroupedRDD
____ShuffledRDD
____UnionRDD
____HadoopRDD
____NewHadoopRDD
__집계
____groupByKey
____reduceByKey
____aggregateByKey
____combineByKey
____groupByKey, reduceByKey, combineByKey, aggregateByKey의 비교
__파티셔닝과 셔플링
____파티셔너
____셔플링
__브로드캐스트 변수
____브로드캐스트 변수 생성
____브로드캐스트 변수 정리
____브로드캐스트 정리
__누산기
__요약
8장 스파크 SQL
__스파크 SQL과 데이터 프레임
__데이터 프레임 API와 SQL API
____피벗
____필터
____사용자 정의 함수(UDF)
____데이터의 스키마 구조
____데이터셋 로드와 저장
__집계
____집계 함수
____groupBy
____rollup
____cube
____윈도우 함수
__조인
____조인의 내부 동작
____브로드캐스트 조인
____조인 타입
____조인의 성능 결과
__요약
9장 스파크 스트리밍
__스트리밍에 대한 간략한 소개
____최소 한 번 처리 방식
____최대 한 번 처리 방식
____정확히 한 번 처리
__스파크 스트리밍
____StreamingContext
____입력 스트림
____binaryRecordsStream
____queueStream
____textFileStream 예
____twitterStream 예
__불연속 스트림
____트랜스포메이션
____윈도우 연산
__상태 저장/상태 비저장 트랜스포메이션
____상태 비저장 트랜스포메이션
____상태 저장 트랜스포메이션
__체크 포인팅
____메타데이터 체크 포인팅
____데이터 체크포인팅
____드라이버 실패 복구
__스트리밍 플랫폼과의 상호운용성(아파치 카프카)
____수신기 기반의 접근 방식
____다이렉트 스트림
____구조화 스트리밍
__구조화 스트리밍
____이벤트 시간과 지연 데이터 처리
____내결함성 의미 체계
__요약
10장 GraphX
__그래프 이론에 대한 간략한 소개
__GraphX
__VertexRDD와 EdgeRDD
____VertexRDD
____EdgeRDD
__그래프 연산자
____filter
____mapValues
____aggregateMessages
____triangleCount
__Pregel API
____연결된 컴포넌트
____여행하는 세일즈맨 문제
____ShortestPaths
__페이지랭크
__요약
11장 머신 러닝 학습: 스파크 MLlib와 ML
__머신 러닝 소개
____일반적인 머신 러닝 워크플로우
____머신 러닝 작업
__스파크 머신 러닝 API
____스파크 머신 러닝 라이브러리
__피처 추출과 트랜스포메이션
____CountVectorizer
____토큰화
____StopWordsRemover
____StringIndexer
____OneHotEncoder
____스파크 ML 파이프라인
__간단한 파이프라인 생성
__비지도 머신 러닝
____차원 축소
____PCA
__이진 및 다중 클래스 분류
____성능 메트릭
____로지스틱 회귀 분석을 이용한 다중 클래스 분류
____랜덤 포레스트를 사용해 분류 정확도 향상
__요약
12장 고급 머신 러닝 모범 사례
__머신 러닝 모범 사례
____오버피팅과 언더피팅에 주의
____스파크 MLlib과 ML에 집중
____애플리케이션에 적합한 알고리즘 선택
____알고리즘을 선택할 때 고려해야 할 사항
____알고리즘을 선택할 때 데이터를 검사
__ML 모델의 하이퍼파라미터 튜닝
____하이퍼파라미터 튜닝
____그리드 검색 파라미터 튜닝
____교차 검증
____신용 위험 분석: 하이퍼파라미터 튜닝 예
__스파크를 사용한 추천 시스템
____스파크를 이용한 모델 기반 추천
__주제 모델링: 텍스트 클러스터링에서 모범 사례
____LDA 동작 방법
____스파크 MLlib를 이용한 주제 모델링
__요약