아파치 스파크 입문

책 이미지

eBook 미리보기

책 정보

· 제목 : 아파치 스파크 입문 (따라 하며 쉽게 익히는 스파크 SQL, 스트림처리, 머신러)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 데이터베이스 프로그래밍 > SQL
· ISBN : 9788968488696
· 쪽수 : 380쪽
· 출판일 : 2017-09-01

책 소개

최고의 커미터와 컨트리뷰터가 안내하는 스파크 실전 입문서. 이 책은 스파크를 처음 접하거나 활용을 고민하는 엔지니어를 위한 입문서다. 스파크의 특성과 동작 원리부터 차근차근 이해하고, 데이터 처리를 위한 간단한 병렬분산처리 애플리케이션을 직접 작성해보는 것이 목표다.

Part 1 도입편

Chapter 1 아파치 스파크란 무엇인가?
1.1 아파치 스파크 정의
1.2 스파크의 역사와 개발 커뮤니티
1.3 스파크 활용 사례
1.4 스파크의 특징

Chapter 2 스파크의 처리 모델
2.1 스파크의 기본적인 자료구조 RDD
2.2 스파크 분산처리 환경

Chapter 3 스파크 설치하기
3.1 이 책의 스파크 작동 환경
3.2 스파크 설치(단일 머신/클러스터 공통)
3.3 스파크 설치(클러스터용 추가 작업)

Chapter 4 스파크 애플리케이션 개발과 실행
4.1 스파크 제공 라이브러리
4.2 스파크 애플리케이션 개발 환경 구축
4.3 sbt로 스파크 애플리케이션 작성하기
4.4 스파크 애플리케이션 실행하기
4.5 대화형으로 실행하기
4.6 애플리케이션의 강제 종료

Part 2 실전편

Chapter 5 기본 API를 이용한 프로그래밍
5.1 기본 API 개요
5.2 스파크 애플리케이션과의 만남
5.3 데이터 순서를 바꾸어 처리하기
5.4 복수의 데이터를 결합해 처리하기
5.5 복잡한 처리를 효율적으로 처리하기

Chapter 6 구조화된 데이터셋 처리하기: 스파크 SQL
6.1 스파크 SQL이란?
6.2 스파크 SQL을 이용한 데이터처리 기술 방법
6.3 스파크 SQL 준비작업
6.4 DataFrame을 이용하여 데이터처리 기술하기
6.5 하이브와 스파크 SQL의 테이블에 대한 처리 기술하기
6.6 스파크 SQL 튜닝하기

Chapter 7 스트림 데이터 처리하기: 스파크 스트리밍
7.1 스트림처리란 무엇인가?
7.2 각종 이용 사례
7.3 스파크 스트리밍이란 무엇인가?
7.4 스파크 스트리밍이 제공하는 기능
7.5 동작 확인하기
7.6 클러스터 환경에 애플리케이션 배포하기
7.7 센서 데이터 스트림처리하기
7.8 아파치 카프카와 연동하기
7.9 샘플 프로젝트에서 다루지 못한 것

Chapter 8 머신러닝: MLlib
8.1 MLlib 개요
8.2 MLlib의 기초와 제공 알고리즘
8.3 MLlib 입문
8.4 Word2Vec으로 한국어 벡터화하기
8.5 응용편: 회귀에 의한 매출 분석
8.6 spark.ml 패키지의 ML 파이프라인

Part 3 부록

부록 A 그래프X를 이용한 그래프 처리
A.1 그래프X란 무엇인가?
A.2 그래프의 예
A.3 그래프X 기능의 개요
A.4 그래프X를 이용한 그래프 처리 예

부록 B 스파크 R 활용하기
B.1 스파크 R이란 무엇인가?
B.2 스파크 R의 작동 환경 구축
B.3 스파크 R의 작동 확인
B.4 스파크 R 셸을 이용한 데이터 처리

부록 C 머신러닝과 스트림처리 연동
C.1 센서 데이터를 이용한 행동 분석
C.2 회귀 모델 생성
C.3 평가용 스트림 데이터로 사용자 행동 판정
C.4 스파크 스트리밍의 결과 출력
C.5 JDBC 서버 기능으로 스트림처리 결과 참조
C.6 샘플 애플리케이션의 확장성

부록 D 웹 UI 활용
D.1 UI의 개요
D.2 웹 UI 접속 방법
D.3 처리 타임라인 시각화와 DAG 시각화
D.4 과거의 애플리케이션 실행 결과를 확인하는 방법

저자소개

사루타 고스케 (지은이) 정보 더보기

(주)NTT데이터 기반시스템사업본부 주임. 2009년부터 하둡을 필두로 다양한 OSS 병렬분 산기반의 시스템 도입 지원 작업을 담당했고, 관련 기술을 개발해왔다. 2014년부터 하둡을 보완하는 제품 후보로 스파크를 다루기 시작했다. 기술 조사와 프로젝트 등을 통해 확인된 스파크의 과제를 커뮤니티에 계속해서 피드백해왔고, 2015년 6월 일본인으로는 처음으로 아파치 스파크 커미터가 되었다.

펼치기

사루타 고스케의 다른 책 >

도바시 마사루 (지은이) 정보 더보기

(주)NTT데이터 기반시스템사업본부 시니어 IT스페셜리스트. 입사 이래 시스템 개발과 운영에 오픈소스를 적극 활용하는 프로젝트를 담당해왔다. 하둡, 스파크, 스톰 기반의 소규모 시스템부터 수천 대에 이르는 대규모 시스템까지 담당하고 있다. Spark Summit 2014와 Hadoop Conference Japan, 그리고 Strata + Hadoop World Singapore에 연사로 등단한 적이 있다.

펼치기

도바시 마사루의 다른 책 >

요시다 고요 (지은이) 정보 더보기

(주)NTT데이터 기반시스템사업본부 주임. 하둡을 필두로 다양한 병렬분산처리 OSS의 실 현 가능성을 검증해왔고 관련 시스템 개발과 지원을 담당했다. 특히 대규모 시스템의 운용과 구성관리 업무에 주력하고 있다. 가장 흥미 있는 OSS는 아파치 카프카와 퍼핏이고, 취미는 드럼이다.

펼치기

요시다 고요의 다른 책 >

사사키 도루 (지은이) 정보 더보기

(주)NTT데이터 기반시스템사업본부 소속. 대규모 클러스터로 구성된 아파치 스파크의 성 능검증 등을 담당했다. OSS 커뮤니티의 개발자로 특히 하둡과 스파크, 카프카의 컨트리뷰터로 활약해왔다.

펼치기

사사키 도루의 다른 책 >

쓰즈키 마사요시 (지은이) 정보 더보기

(주)NTT 데이터 기반시스템사업본부 주임. CRM/SaaS 서비스와 클라우드 서비스 등의 개 발과 운용을 담당해왔다. 수년 전부터 OSS를 중심으로 한 병렬분산처리 시스템을 상용 시스 템에 도입하는 업무를 담당하고 있다. 스파크 코어를 수정하는 패치를 커미터에게 제안하고 스파크의 윈도우 대응을 담당하는 세계에서 몇 안 되는 컨트리뷰터다.

펼치기

쓰즈키 마사요시의 다른 책 >

김진용 (옮긴이) 정보 더보기

1998년 정보공학 석사학위를 마치고, IMF로 몸 둘 곳을 찾지 못해 일본으로 건너왔다. 일본 마이크로소프트에서 각종 미들웨어(Site Server, SQL Server 등)의 지역화 엔지니어로 커리어를 시작했고, 금융계 SI 벤처 회사에서 자바 기반으로 증권, 외환, 채권 거래 시스템 개발자로 일했다. 일본의 금융IT 버블이 꺼지면서 금융 쪽에 미련을 버리고 NEC로 전직하여 애플리케이션 서버 패키지 소프트웨어 개발자로 활약하다 갑이 되겠다는 일념으로 또 전직했다. NTT Communication에서 서비스 개발/운용 엔지니어로 활약하다 일본 후쿠시마 원자력발전소 사고로 잠시 한국에 귀국했으나 다시 일본으로 돌아왔다. 2012년에 현재 재직 중인 라쿠텐(Rakuten)에 입사하여 인터넷 광고 플랫폼을 개발/운용하는 부서의 아키텍트로 활약 중이다. 취미는 돈 될 만한 대박 서비스 구상하기, 인터넷 광고 관련 특허 출원하기, 개념 없는 엔지니어들 혼내주기 등이다.

펼치기

시모가키 도루 (감수) 정보 더보기

(주)NTT데이터 기반시스템사업본부 과장. PostgreSQL을 중심으로 오픈소스 DBMS를 담당한다. 확장기능개발 담당을 거쳐, 오라클 데이터베이스에서 PostgreSQL로의 마이그레이션 프로젝트를 담당했으며 미션크리티컬한 상용 시스템에 적용해왔다. 최근 몇 년은 나날이 높아지는 대규모 데이터 처리 요구에 따라 DBMS와 하둡 양쪽의 특징을 살릴 효과적인 조합 방법을 모색 중이다.

펼치기

시모가키 도루의 다른 책 >