책 이미지

책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 데이터베이스 프로그래밍 > SQL
· ISBN : 9791191600889
· 쪽수 : 404쪽
· 출판일 : 2022-06-24
책 소개
목차
옮긴이 머리말 x
베타리더 후기 xii
추천사 xiv
시작하며 xv
표지에 대하여 xxi
CHAPTER 1 아파치 스파크 소개: 통합 분석 엔진 1
스파크의 시작 1
아파치 스파크란 무엇인가? 4
통합된 분석 7
개발자의 경험 15
CHAPTER 2 아파치 스파크 다운로드 및 시작 19
1단계: 아파치 스파크 다운로드 19
2단계: 스칼라 혹은 파이스파크 셸 사용 22
로컬 머신 사용하기 24
3단계: 스파크 애플리케이션 개념의 이해 26
트랜스포메이션, 액션, 지연 평가 29
스파크 UI 31
첫 번째 단독 애플리케이션 34
요약 42
CHAPTER 3 아파치 스파크의 정형화 API 43
스파크: RDD의 아래에는 무엇이 있는가 44
스파크의 구조 확립 45
데이터 프레임 API 48
데이터세트 API 71
데이터 프레임 vs 데이터세트 77
스파크 SQL과 하부의 엔진 79
요약 85
CHAPTER 4 스파크 SQL과 데이터 프레임: 내장 데이터 소스 소개 86
스파크 애플리케이션에서 스파크 SQL 사용하기 87
SQL 테이블과 뷰 93
데이터 프레임 및 SQL 테이블을 위한 데이터 소스 98
요약 119
CHAPTER 5 스파크 SQL과 데이터 프레임: 외부 데이터 소스와 소통하기 120
스파크 SQL과 아파치 하이브 120
스파크 SQL 셸, 비라인 및 태블로로 쿼리하기 126
외부 데이터 소스 134
PostgreSQL 137
데이터 프레임 및 스파크 SQL의 고차 함수 144
일반적인 데이터 프레임 및 스파크 SQL 작업 150
요약 163
CHAPTER 6 스파크 SQL과 데이터세트 164
자바와 스칼라를 위한 단일 API 164
데이터세트 작업 167
데이터세트 및 데이터 프레임을 위한 메모리 관리 175
데이터 집합 인코더 176
데이터세트 사용 비용 178
요약 180
CHAPTER 7 스파크 애플리케이션의 최적화 및 튜닝 181
효율적으로 스파크를 최적화 및 튜닝하기 181
데이터 캐싱과 영속화 191
스파크 조인의 종류 196
스파크 UI 들여다보기 206
요약 213
CHAPTER 8 정형화 스트리밍 214
아파치 스파크의 스트림 처리 엔진의 진화 214
정형화 스트리밍의 프로그래밍 모델 218
정형화 스트리밍 쿼리의 기초 220
실행 중인 스트리밍 쿼리의 내부 227
스트리밍 데이터 소스와 싱크 233
데이터 트랜스포메이션 243
상태 정보 유지 스트리밍 집계 246
스트리밍 조인 255
임의의 상태 정보 유지 연산 263
성능 튜닝 272
요약 274
CHAPTER 9 아파치 스파크를 통한 안정적인 데이터 레이크 구축 275
최적의 스토리지 솔루션의 중요성 275
데이터베이스 277
데이터 레이크 279
레이크하우스: 스토리지 솔루션 진화의 다음 단계 282
아파치 스파크 및 델타 레이크로 레이크하우스 구축 285
요약 296
CHAPTER 10 MLlib을 사용한 머신러닝 298
머신러닝이란 무엇인가? 299
머신러닝 파이프라인 설계 302
하이퍼파라미터 튜닝 322
요약 338
CHAPTER 11 아파치 스파크로 머신러닝 파이프라인 관리, 배포 및 확장 339
모델 관리 339
MLlib을 사용한 모델 배포 옵션 346
비MLlib 모델에 스파크 활용 352
요약 358
CHAPTER 12 에필로그: 아파치 스파크 3.0 359
스파크 코어와 스파크 SQL 359
정형화 스트리밍 368
파이스파크, 판다스 UDF, 판다스 함수 API 370
변경된 기능들 373
요약 376
찾아보기 379
저자소개
책속에서
2013년까지 스파크는 널리 쓰이면서 원 저작자들과 연구원(마테이 자하리아, 알리 고시, 레이놀드 신, 패트릭 웬델, 아이온 스토이카, 앤디 콘빈스키)들은 스파크 프로젝트를 아파치 소프트웨어 재단(ASF)에 이관하고, 데이터브릭스(Databricks)라는 회사를 만들었다.
데이터브릭스와 오픈소스 커뮤니티의 개발자들은 2014년 5월 ASF의 주도 아래 아파치 스파크 1.010을 릴리스하였다. 이 첫 메이저 릴리스는 데이터브릭스 및 100여 개의 상용 업체로부터 앞으로 이어질 빈번한 릴리스와 주목할 만한 기능을 이끌어낼 변화의 계기가 되었다.
여러분은 하나의 스파크 애플리케이션을 작성함으로써 모든 것이 실행 가능해지며 전혀 다른 작업을 위해 별도의 엔진을 돌릴 필요도, 별도의 API를 배울 필요도 없게 된다. 스파크를 쓴다면 자신의 워크로드를 처리하기 위한 하나의 통합된 처리 엔진을 갖게 되는 것이다.