logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

Spark: Big Data Cluster Computing in Production

Spark: Big Data Cluster Computing in Production (Paperback)

Ema Iancuta, Kostas Sakellis, 카이 사사키, Anikate Singh, 브레넌 요크 (지은이)
John Wiley & Sons Inc
87,500원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
70,000원 -20% 0원
2,100원
67,900원 >
yes24 로딩중
교보문고 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
로딩중

책 이미지

Spark: Big Data Cluster Computing in Production
eBook 미리보기

책 정보

· 제목 : Spark: Big Data Cluster Computing in Production (Paperback) 
· 분류 : 외국도서 > 컴퓨터 > 데이터베이스 관리 > 데이터 웨어하우징
· ISBN : 9781119254010
· 쪽수 : 216쪽
· 출판일 : 2016-03-21

목차

Introduction xix

Chapter 1 Finishing Your Spark Job 1

Installation of the Necessary Components 2

Native Installation Using a Spark Standalone Cluster 3

The History of Distributed Computing That Led to Spark 3

Enter the Cloud 4

Understanding Resource Management 5

Using Various Formats for Storage 8

Text Files 10

Sequence Files 11

Avro Files 11

Parquet Files 12

Making Sense of Monitoring and Instrumentation 13

Spark UI 13

Spark Standalone UI 15

Metrics REST API 16

Metrics System 16

External Monitoring Tools 16

Summary 17

Chapter 2 Cluster Management 19

Background 21

Spark Components 24

Driver 25

Workers and Executors 26

Configuration 27

Spark Standalone 30

Architecture 31

Singlei¿½-Node Setup Scenario 31

Multii¿½-Node Setup 32

YARN 33

Architecture 35

Dynamic Resource Allocation 37

Scenario 39

Mesos 40

Setup 41

Architecture 42

Dynamic Resource Allocation 44

Basic Setup Scenario 44

Comparison 46

Summary 50

Chapter 3 Performance Tuning 53

Spark Execution Model 54

Partitioning 56

Controlling Parallelism 56

Partitioners 58

Shuffling Data 59

Shuffling and Data Partitioning 61

Operators and Shuffl ing 63

Shuffling Is Not That Bad After All 67

Serialization 67

Kryo Registrators 69

Spark Cache 69

Spark SQL Cache 73

Memory Management 73

Garbage Collection 74

Shared Variables 75

Broadcast Variables 76

Accumulators 78

Data Locality 81

Summary 82

Chapter 4 Security 83

Architecture 84

Security Manager 84

Setup Configurations 85

ACL 86

Configuration 86

Job Submission 87

Web UI 88

Network Security 95

Encryption 96

Event logging 101

Kerberos 101

Apache Sentry 102

Summary 102

Chapter 5 Fault Tolerance or Job Execution 105

Lifecycle of a Spark Job 106

Spark Master 107

Spark Driver 109

Spark Worker 111

Job Lifecycle 112

Job Scheduling 112

Scheduling within an Application 113

Scheduling with External Utilities 120

Fault Tolerance 122

Internal and External Fault Tolerance 122

Service Level Agreements (SLAs) 123

Resilient Distributed Datasets (RDDs) 124

Batch versus Streaming 130

Testing Strategies 133

Recommended Confi gurations 139

Summary 142

Chapter 6 Beyond Spark 145

Data Warehousing 146

Spark SQL CLI 147

Thrift JDBC/ODBC Server 147

Hive on Spark 148

Machine Learning 150

DataFrame 150

MLlib and ML 153

Mahout on Spark 158

Hivemall on Spark 160

External Frameworks 161

Spark Package 161

XGBoost 163

sparki¿½-jobserver 164

Future Works 166

Integration with the Parameter Server 167

Deep Learning 175

Enterprise Usage 182

Collecting User Activity Log with Spark and Kafka 183

Reali¿½-Time Recommendation with Spark 184

Reali¿½-Time Categorization of Twitter Bots 186

Summary 186

Index 189

저자소개

Ema Iancuta (지은이)    정보 더보기
펼치기
Kostas Sakellis (지은이)    정보 더보기
펼치기
카이 사사키 (지은이)    정보 더보기
Treasure Data의 소프트웨어 엔지니어. 데이터를 가치 있게 만들기 위해 대규모의 분산 시스템을 개발하는 업무를 맡고 있다. 대규모 데이터를 처리하여 인공지능을 만드는 일에 대한 열정이 그를 머신러닝 분야로 이끌었다. TensorFlow.js 초기 개발진 중 한 명이기도 하며, 새로운 종류의 머신러닝 모델에서 요구되는 새로운 연산자를 추가하는 업무를 계속해서 맡고 있다. 2018년에 Google Open Source Peer Bonus를 받기도 했다.
펼치기
Anikate Singh (지은이)    정보 더보기
펼치기
브레넌 요크 (지은이)    정보 더보기
에어쇼의 파일럿을 부업 삼아 하고 있는 컴퓨터 사이언티스트다. 정말로 좋아하는 분야는 분산 컴퓨팅, 확장 가능한 아키텍처, 프로그래밍 언어다. 2014년부터 아파치 스파크의 핵심 기여자이며, 더 강력한 커뮤니티를 만드는 목표와 그래프X와 핵심 개발 환경을 개발함으로써 협업을 촉진하려는 목표를 가지고 있다. 기여 활동을 시작할 때부터 스파크를 접하고, 그때부터 이 프레임워크를 이용하여 애플리케이션을 운영 환경으로 이관해 왔다.
펼치기
이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책