하둡 맵리듀스 프로그래밍 책 가격비교

책 이미지

책 정보

· 제목 : 하둡 맵리듀스 프로그래밍 (빅데이터 처리와 분석을 위한)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 데이터베이스 개론
· ISBN : 9788960774308
· 쪽수 : 388쪽

책 소개

하둡 에코시스템을 사용해 크고 복잡한 데이터셋을 처리하는 원스톱 가이드로서, 간단한 예제를 소개하고 빅데이터 처리 분석 사례를 자세히 살펴본다. 이 책에서는 HBase와 하이브, 피그, 머하웃 등 하둡 에코시스템의 구성 요소를 다루는 방법을 설명한다.

1 하둡 시작과 클러스터에서 실행
___소개
___하둡 설치
___WordCount MapReduce 예제 작성, 패키징, 하둡 실행
___WordCount 맵리듀스에 컴바이너 추가
___HDFS 설정
___HDFS 모니터링 UI
___HDFS 커맨드라인 명령
___분산 클러스터 환경에서 하둡 설정
___분산 클러스터에서 WordCount 실행
___맵리듀스 모니터링 UI

2 고급 HDFS
___소개
___HDFS 벤치마크
___새로운 데이터 노드 추가
___데이터 노드의 해지
___다중 디스크/볼륨 사용과 HDFS 디스크 사용량 제한
___HDFS 블록 크기 설정
___파일 복제 계수 설정
___HDFS 자바 API 사용
___HDFS C API 사용(libhdfs)
___HDFS 퓨즈 마운트(Fuse-DFS)
___HDFS에서 파일 병합

3 고급 하둡 맵리듀스 관리
___소개
___클러스터 배포를 위한 하둡 구성 튜닝
___하둡 설치를 확인하기 위한 벤치마크 수행
___성능 향상을 위한 Java VM 재사용
___장애 허용과 투기적 실행
___디버깅 스크립트: 태스크 실패 분석
___실패율 설정과 잘못된 레코드 건너뛰기
___공유 사용자를 위한 하둡 클러스터: 페어 스케줄러와 캐패시터 스케줄러 사용
___하둡 보안: 커버로스와 통합
___하둡 Tool 인터페이스 사용

4 복잡한 하둡 맵리듀스 애플리케이션 개발
___소개
___하둡 데이터 타입 선택
___사용자 정의 Writable 데이터 타입 구현
___사용자 정의 키 타입 구현
___매퍼에서 다양한 값 타입 내보내기
___입력 데이터 포맷에 따른 하둡 InputFormat 선택
___새로운 입력 데이터 포맷 추가: 사용자 정의 InputFormat 구현
___맵리듀스 결과 포맷팅: 하둡 OutputFormats 사용
___맵과 리듀스 중간 데이터 파티셔닝
___맵리듀스 잡의 공유 자원 배포와 분산: 하둡 DistributedCache
___하둡 레거시 애플리케이션 사용: 하둡 스트리밍
___맵리듀스 잡 사이의 의존성 추가
___사용자 정의 통계를 리포팅하기 위한 하둡 카운터

5 하둡 에코시스템
___소개
___HBase 설치
___자바 클라이언트 API로 데이터 랜덤 액세스
___HBase에서 맵리듀스 실행
___피그 설치
___피그 명령어 실행
___피그 조인(join), 유니온, 정렬 작업
___하이브 설치
___하이브로 SQL 스타일 쿼리 실행
___하이브 조인 수행
___머하웃 설치
___머하웃 K-means 실행
___K-means 결과 시각화

6 분석
___소개
___맵리듀스를 이용한 간단한 분석
___맵리듀스를 이용한 Group-By 수행
___맵리듀스를 이용한 빈도 분포 계산과 정렬
___GNU Plot을 사용한 하둡 결과 도식
___맵리듀스를 이용한 히스토그램 계산
___맵리듀스를 이용한 산점도 계산
___하둡으로 복잡한 데이터셋 구문 분석
___맵리듀스를 이용한 두 데이터셋 조인

7 검색과 색인
___소개
___하둡 맵리듀스를 사용해 역색인 생성
___아파치 너치를 사용해 인트라 도메인의 웹 크롤링
___아파치 솔라를 이용한 웹 문서 색인과 검색
___아파치 너치에서 백엔드 데이터 저장소로 아파치 HBase 설정
___하둡 클러스터에서 아파치 HBase 배포
___하둡/HBase 클러스터를 이용해 아파치 너치로 전체 웹 크롤링
___색인과 검색을 위한 일래스틱서치
___크롤링 웹 페이지의 in-link 생성

8 분류, 추천, 관계 분석
___소개
___콘텐트 기반 추천
___계층적 클러스터링
___아마존 세일즈 데이터셋 클러스터링
___협업 필터링 기반 추천
___나이브 베이즈 분류
___애드워즈 균형 알고리즘을 사용한 키워드 광고

9 대용량 텍스트 데이터 처리
___소개
___하둡 스트리밍과 파이썬을 이용한 데이터 전처리(추출, 정제, 형식 변환)
___하둡 스트리밍을 이용한 데이터 중복 제거
___Importtsv와 bulkload 도구를 사용해 아파치 HBase 데이터 저장소에 대용량 데이터셋 로드
___텍스트 데이터의 TF와 TF-IDF 벡터 생성
___텍스트 데이터 클러스터링
___잠재 디리클레 할당(LDA)을 사용한 주제 검색
___머하웃 나이브 베이스 분류기를 이용한 문서 분류

10 클라우드 환경에서 하둡 배포
___소개
___아마존 일래스틱 맵리듀스(EMR)를 사용해 하둡 맵리듀스 실행
___EMR 잡 플로우를 실행하기 위해 아마존 EC2 스팟 인스턴스를 사용해 비용 절약
___EMR을 사용해 피그 스크립트 실행
___EMR을 사용해 하이브 스크립트 실행
___커맨드라인 인터페이스를 사용해 아마존 EMR 잡 플로우 생성
___EMR을 사용해 아마존 EC2 클라우드에 아파치 HBase 설치
___아마존 EMR 잡의 VM 설정을 위한 EMR의 부트스트랩 사용
___클라우드 환경에서 아파치 하둡 클러스터를 배포하기 위한 아파치 Whirr 사용
___클라우드 환경에서의 아파치 HBase 클러스터를 배포하기 위한 아파치 Whirr 사용

저자소개

스리나스 페레라 (지은이) 정보 더보기

WSO2 사의 수석 소프트웨어 아키텍트이자 CTO로서, WSO2 플랫폼의 아키텍처 작업을 했다. 또한 스리랑카 소프트웨어 재단의 연구원으로 모라투와 대학의 컴퓨터공학과 객원 교수로 재직 중이다. 아파치 Axis2 오픈소스 프로젝트의 공동 설립자이며, 2002년부터 아파치 웹 서비스 프로젝트에 참여했다. 아파치 소프트웨어 재단과 아파치 웹 서비스 프로젝트 PMC의 멤버다. 또한 아파치의 오픈소스 프로젝트 Axis와 Axis2, Geronimo의 커미터다. 미국 인디애나 대학교 블루밍턴에서 컴퓨터과학으로 박사학위와 석사학위를 받았고, 스리랑카 모라투와 대학에서 컴퓨터과학과 공학학위를 취득했다. 많은 기술과 심사 연구 논문을 집필 중이며, 자세한 내용은 그의 웹사이트에서 찾을 수 있다. 또한 기술적인 장소에서 강연을 자주 한다. 오랫동안 대규모 분산 시스템 환경에서 일을 했다. 매일 하둡과 카산드라 같은 빅데이터 기술로 밀접하게 일을 한다. 또한 모라투와 대학에서 주로 하둡을 기반으로 하는 병렬 프로그래밍을 대학원 과목으로 가르치고 있다.

펼치기

실리나 기나라스네 (지은이) 정보 더보기

인디애나 대학의 Informatics and Computing의 박사학위 예정자다. 대규모 데이터의 집약적인 연산 기술과 아파치 하둡 사용의 풍부한 경험이 있다. 현재 업무는 클라우드 환경에서 확장 가능하고 효율적인 대규모 데이터의 집약적인 연산을 하기 위한 기술 개발에 초점을 맞추고 있다. 클라우드 환경에서 효율적인 데이터 마이닝과 데이터 분석을 수행하기 위한 확장 가능한 맵리듀스 모델의 여러 가지 논문을 포함해 분산 병렬 컴퓨팅 분야에서 많은 논문과 심사 연구 논문을 발표하는데, 학계와 산업계의 단골 발표자다. 2005년부터 PMC 회원이고 커미터로 아파치 소프트웨어 재단에서 여러 오픈소스 프로젝트에 기여했다. 대학원 공부를 시작하기 전에 WSO2에서 WSO2에서 오픈소스 미들웨어 개발에 초점을 두고 수석 소프트웨어 엔지니어로 일했다. 2006년에 스리랑카 모라투와 대학에서 컴퓨터과학과 공학학위를 받았으며 2009년 인디애나 대학 블루밍턴에서 컴퓨터과학 석사학위를 취득했다. 2013년에는 분산 병렬 컴퓨팅 분야에서 박사학위를 취득할 것으로 기대된다.

펼치기

안건국 (옮긴이) 정보 더보기

데이터 관련 모든 것에 관심이 있지만, 최근에는 메모리 기반에서 데이터 처리와 데이터 샘플링 같은 데이터 엔지니어링에 관심이 많다. 또한 시각화가 없는 데이터 분석은 아무런 의미가 없다는 것을 깨닫고 뒤늦게 시각화에 대한 공부에 집중하고 있다. 에이콘출판사에서 펴낸 『하둡과 빅데이터 분석 실무』(2013), 『하둡 맵리듀스 프로그래밍』(2013)을 번역했다.

펼치기

안건국의 다른 책 >

배경숙 (옮긴이) 정보 더보기

영상 처리와 패턴 인식을 전공하고 영상 인식 분야에서 경력을 쌓았다. 2010년부터 현재까지 SK C&C에서 빅데이터 프로젝트를 수행하며 맵리듀스, 머하웃(Mahout), 하이브(Hive), 스쿱(Sqoop) 등을 사용했다. 특히, 영상에 빅데이터 기술을 결합한 동영상 검색, 분류 등에 관심이 많다.

펼치기

배경숙의 다른 책 >