대용량데이터 - 북프라이스

2019년 대한민국학술원 우수학술도서 선정도서 스파크를 이용해 데이터 분석 방법을 배우려는 사람에게 매우 유용한 책이다. 가장 먼저 스칼라를 소개하고, 스칼라 애플리케이션 개발에 필요한 객체지향 개념과 함수형 프로그래밍 개념을 설명한다. 스파크에 초점을 맞춰 RDD와 데이터 프레임을 사용한 기본 추상화를 다룬다. 그 다음 스파크 SQL, GraphX, 스파크 구조화 스트리밍을 사용해 구조화된 데이터와 구조화되지 않은 데이터를 분석하고 모니터링, 설정, 디버깅, 테스팅, 배포와 같은 고급 주제를 살펴본다. 또한 SparkR 및 PySpark API를 사용한 스파크 애플리케이션을 개발하는 방법, 아파치 제플린(Zeppelin)을 사용한 대화식 데이터 분석, Alluxio를 함께 사용해 인메모리 데이터를 처리하는 방법을 다룬다. 이 책을 다 살펴본 후, 스파크를 완벽하게 이해하고 풀 스택 데이터 분석을 수행할 수 있을 것이다. 이 책은 최신 2.3.2 버전을 기준으로 작성됐다. 기존의 원서에서 제공하는 코드의 오타와 호환성을 수정한 옮긴이의 github 저장소를 제공한다. ■ 스칼라의 객체지향 개념과 함수형 프로그래밍 개념 이해 ■ 스칼라 컬렉션 API 이해 ■ 스파크의 핵심 추상화를 알기 위해 RDD와 데이터 프레임으로 작업하기 ■ 스파크 SQL과 GraphX를 사용해 구조 데이터와 구조화되지 않은 데이터 분석 ■ 스파크 구조화 스트리밍을 사용해 확장 가능하고 내결함성 있는 스트리밍 애플리케이션 개발 ■ 스파크 MLlib과 스파크 ML에서 많이 사용되는 알고리즘으로 예측 모델을 구축할 수 있는 분류, 회귀 분석, 차원 감소, 추천 시스템과 같은 머신 러닝 모범 사례 ■ 방대한 양의 데이터를 클러스터링하는 클러스터링 모델 구축 ■ 스파크 애플리케이션 튜닝, 디버깅, 모니터링 이해 ■ 실제 독립형(Standalone), 메소스(Mesos), 얀(YARN), 쿠버네티스(Kubernetes) 모드의 클러스터에 스파크 애플리케이션 배포 스파크를 이용해 데이터 분석 방법을 배우려는 사람에게 매우 유용한 책이다. 스파크나 스칼라에 대한 지식은 없더라도 이전 프로그래밍 경험(특히 다른JVM 언어)이 있다면 스파크나 스칼라에 대한 개념을 이해하는 데 매우 유용하다. 스칼라는 지난 몇 년 동안 특히 데이터 과학과 분석 분야에서 꾸준히 증가하고 있다. 스파크는 스칼라로 작성됐고 분석 분야에서 널리 사용되고 있다. 이 책은 빅데이터를 잘 다룰 수 있는 스파크를 설명한다.

Real MongoDB (대용량 데이터 처리를 위한)

빅데이터 마이닝 (하둡을 이용한 대용량 데이터 마이닝 기법)

스트리밍 시스템 (대용량 데이터 처리를 위한 핵심 개념과 원리)

Hadoop NoSQL (대용량 데이터 분석 및 처리를 위한)

빅데이터 분석을 위한 스파크 2 프로그래밍 (대용량 데이터 처리부터 머신러닝까지)

스파크 2 프로그래밍 (대용량 데이터 처리부터 머신러닝까지)

빅데이터 마이닝 (하둡을 이용한 대용량 데이터 마이닝 기법)

하이브 핵심정리 (하둡 기반 대용량 데이터 저장, 관리의 핵심 솔루션)

구글 빅쿼리 완벽 가이드 (빅데이터, AI, 머신러닝 엔지니어를 위한 대용량 데이터 분석 도구)

PySpark 배우기 (파이썬과 스파크 2.0으로 대용량 데이터 처리 애플리케이션 다루기)

스파크를 활용한 빅데이터 분석 (대용량 빅데이터 분석을 위한 스파크 실무 가이드)

빅데이터 분석을 위한 스칼라와 스파크 (대용량 빅데이터 분석과 머신 러닝까지 활용하는, 2019년 대한민국학술원 우수학술도서 선정도서)

대용량 데이터베이스 성능 튜닝 (튜닝의 기본원리를 배울 수 있고 실습이 가능한 책)

오라클 NEW 대용량 데이터베이스 성능 튜닝

대용량 머신 러닝과 스파크 (빅데이터 기반의 머신 러닝 애플리케이션 구축)