logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

[eBook Code] Spark

[eBook Code] Spark (eBook Code, 1st)

(Big Data Cluster Computing in Production)

카이 사사키, 브레넌 요크, 일리야 가넬린, 에마 오리안 (지은이)
Wiley
70,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
56,000원 -20% 0원
0원
56,000원 >
yes24 로딩중
교보문고 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
로딩중

책 이미지

[eBook Code] Spark
eBook 미리보기

책 정보

· 제목 : [eBook Code] Spark (eBook Code, 1st) (Big Data Cluster Computing in Production)
· 분류 : 외국도서 > 컴퓨터 > 데이터베이스 관리 > 데이터 웨어하우징
· ISBN : 9781119254058
· 쪽수 : 216쪽
· 출판일 : 2016-03-28

목차

Introduction xix

Chapter 1 Finishing Your Spark Job 1

Installation of the Necessary Components 2

Native Installation Using a Spark Standalone Cluster 3

The History of Distributed Computing That Led to Spark 3

Enter the Cloud 4

Understanding Resource Management 5

Using Various Formats for Storage 8

Text Files 10

Sequence Files 11

Avro Files 11

Parquet Files 12

Making Sense of Monitoring and Instrumentation 13

Spark UI 13

Spark Standalone UI 15

Metrics REST API 16

Metrics System 16

External Monitoring Tools 16

Summary 17

Chapter 2 Cluster Management 19

Background 21

Spark Components 24

Driver 25

Workers and Executors 26

Configuration 27

Spark Standalone 30

Architecture 31

Single?-Node Setup Scenario 31

Multi?-Node Setup 32

YARN 33

Architecture 35

Dynamic Resource Allocation 37

Scenario 39

Mesos 40

Setup 41

Architecture 42

Dynamic Resource Allocation 44

Basic Setup Scenario 44

Comparison 46

Summary 50

Chapter 3 Performance Tuning 53

Spark Execution Model 54

Partitioning 56

Controlling Parallelism 56

Partitioners 58

Shuffling Data 59

Shuffling and Data Partitioning 61

Operators and Shuffl ing 63

Shuffling Is Not That Bad After All 67

Serialization 67

Kryo Registrators 69

Spark Cache 69

Spark SQL Cache 73

Memory Management 73

Garbage Collection 74

Shared Variables 75

Broadcast Variables 76

Accumulators 78

Data Locality 81

Summary 82

Chapter 4 Security 83

Architecture 84

Security Manager 84

Setup Configurations 85

ACL 86

Configuration 86

Job Submission 87

Web UI 88

Network Security 95

Encryption 96

Event logging 101

Kerberos 101

Apache Sentry 102

Summary 102

Chapter 5 Fault Tolerance or Job Execution 105

Lifecycle of a Spark Job 106

Spark Master 107

Spark Driver 109

Spark Worker 111

Job Lifecycle 112

Job Scheduling 112

Scheduling within an Application 113

Scheduling with External Utilities 120

Fault Tolerance 122

Internal and External Fault Tolerance 122

Service Level Agreements (SLAs) 123

Resilient Distributed Datasets (RDDs) 124

Batch versus Streaming 130

Testing Strategies 133

Recommended Confi gurations 139

Summary 142

Chapter 6 Beyond Spark 145

Data Warehousing 146

Spark SQL CLI 147

Thrift JDBC/ODBC Server 147

Hive on Spark 148

Machine Learning 150

DataFrame 150

MLlib and ML 153

Mahout on Spark 158

Hivemall on Spark 160

External Frameworks 161

Spark Package 161

XGBoost 163

spark?-jobserver 164

Future Works 166

Integration with the Parameter Server 167

Deep Learning 175

Enterprise Usage 182

Collecting User Activity Log with Spark and Kafka 183

Real?-Time Recommendation with Spark 184

Real?-Time Categorization of Twitter Bots 186

Summary 186

Index 189

저자소개

카이 사사키 (지은이)    정보 더보기
Treasure Data의 소프트웨어 엔지니어. 데이터를 가치 있게 만들기 위해 대규모의 분산 시스템을 개발하는 업무를 맡고 있다. 대규모 데이터를 처리하여 인공지능을 만드는 일에 대한 열정이 그를 머신러닝 분야로 이끌었다. TensorFlow.js 초기 개발진 중 한 명이기도 하며, 새로운 종류의 머신러닝 모델에서 요구되는 새로운 연산자를 추가하는 업무를 계속해서 맡고 있다. 2018년에 Google Open Source Peer Bonus를 받기도 했다.
펼치기
브레넌 요크 (지은이)    정보 더보기
에어쇼의 파일럿을 부업 삼아 하고 있는 컴퓨터 사이언티스트다. 정말로 좋아하는 분야는 분산 컴퓨팅, 확장 가능한 아키텍처, 프로그래밍 언어다. 2014년부터 아파치 스파크의 핵심 기여자이며, 더 강력한 커뮤니티를 만드는 목표와 그래프X와 핵심 개발 환경을 개발함으로써 협업을 촉진하려는 목표를 가지고 있다. 기여 활동을 시작할 때부터 스파크를 접하고, 그때부터 이 프레임워크를 이용하여 애플리케이션을 운영 환경으로 이관해 왔다.
펼치기
일리야 가넬린 (지은이)    정보 더보기
원래 로봇 공학자였지만 데이터 전문가로 분야를 옮겼다. 미시건 대학에서 몇 년 동안 자동 탐사 로봇을 개발하였고, 또 몇 년간은 보잉에서 휴대폰과 라디오에 임베드된 DSP 소프트웨어를 개발하였으며, 캐피탈 원 데이터 이노베이션 랩에서 빅 데이터 세계에 발을 들였다. 차세대 분산 컴퓨팅 플랫폼을 개발하기 위해 필요한 것을 배운다는 목표를 가지고 있는 일리야는 아파치 스파크의 핵심 컴포넌트 기여자이자 아파치 에이펙스의 커미터다. 일리야는 제빵에 관심이 많으며, 요리사이자 스키어, 레이싱카 드라이버다.
펼치기
에마 오리안 (지은이)    정보 더보기
확장 알고리즘에 깊이 빠져 있는 열정적인 빅 데이터 엔지니어다. 그녀는 빅 데이터 커뮤니티에서 컨퍼런스를 조직하고 발표하는 일과 오픈 소스 프로젝트에 기여하는 일 등에서 왕성한 활동을 하고 있다. 그녀는 조스-스파크-시퀄-레스트(jaws?spark?sql?rest)의 핵심 커미터이며, 스파크 SQL 기반의 데이터 웨어하우스 탐색가다. 에마는 빅데이터 분석을 의료 산업 분야에 도입하기 위해 노력해 왔으며, 거대한 데이터세트 기반의 통계적 지표 계산을 위한 전 과정을 개발해 왔다.
펼치기
이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책