시작하세요! 하둡 프로그래밍

책 이미지

eBook 미리보기

책 정보

· 제목 : 시작하세요! 하둡 프로그래밍 (기초부터 실무까지 하둡의 모든 것)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 데이터베이스 프로그래밍 > 데이터베이스 구축
· ISBN : 9788998139049
· 쪽수 : 488쪽
· 출판일 : 2012-10-26

책 소개

하둡의 설치부터 핵심 구성 요소인 HDFS와 맵리듀스의 동작 원리, 그리고 다양한 실용적인 예제를 포함하고 있어 하둡 프로그래밍을 손쉽게 시작할 수 있다. 또한 하둡 클러스터를 운영하는 데 필수적인 관리 방법과 부가 기능의 활용법 등이 담겨 있다.

▣ 01장_하둡 소개

1.1 빅 데이터의 시대
___1.1.1 빅 데이터의 개념
___1.1.2 빅 데이터의 출현 배경
1.2 하둡이란?
___1.2.1 왜 하둡인가?
___1.2.2 하둡이 지나온 길
1.3 하둡 에코 시스템
1.4 하둡에 대한 오해
1.5 하둡의 과제
1.6 하둡 배포판 살펴보기

▣ 02장_하둡 개발 준비

2.1 실행 모드 결정
2.2 리눅스 서버 준비
2.3 하둡 다운로드
2.4 하둡 실행 계정 생성
2.5 호스트 파일 수정하기
2.6 인코딩 방식 설정
2.7 자바 설치
2.8 SSH 설정
2.9 하둡 압축 파일 해제하기
2.10 하둡 환경설정 파일 수정
___2.10.1 hadoop-env 수정
___2.10.2 maters 수정
___2.10.3 slaves 수정
___2.10.4 core-site.xml 수정
___2.10.5 hdfs-site.xml 수정
___2.10.6 mapred-site.xml 수정
2.11 하둡 실행
2.12 예제 실행하기
2.13 이클립스 설정
2.14 프로젝트 빌드하기

▣ 03장_하둡 분산 파일 시스템

3.1 HDFS 기초
3.2 HDFS 아키텍처
___3.2.1 블록 구조 파일 시스템
___3.2.2 네임노드 와 데이터노드
___3.2.3 파일 저장
___3.2.4 파일 읽기
___3.2.5 보조 네임노드
3.3 HDFS 명령어 사용하기
___3.3.1 파일 목록 보기 - ls, lsr
___3.3.2 파일 용량 확인 - du, dus
___3.3.3 파일 내용 보기 - cat, text
___3.3.4 디렉터리 생성 - mkdir
___3.3.5 파일 복사 - put, get, getmerge, cp, copyFromLocal, copyToLocal
___3.3.6 파일 이동 - mv, moveFromLocal
___3.3.7 파일 삭제하기 - rm
___3.3.8 디렉터리 삭제 - rmr
___3.3.9 카운트값 조회 - count
___3.3.10 파일의 마지막 내용 확인 - tail
___3.3.11 권한 변경 - chmod, chown, chgrp
___3.3.12 0바이트 파일 생성 - touchz
___3.3.13 통계 정보 조회 - stat
___3.3.14 복제 데이터 개수 변경 - setrep
___3.3.15 휴지통 비우기 - expunge
___3.3.16 파일 형식 확인 - test
3.4 클러스터 웹 인터페이스
3.5 HDFS 입출력 예제

▣ 04장_MapReduce 시작하기

4.1 맵리듀스 개념
4.2 맵리듀스 아키텍처
___4.2.1 시스템 구성
___4.2.2 맵리듀스 작동 방식
___4.2.3 하둡 프로그래밍의 요소
4.3 WordCount 만들기
___4.3.1 매퍼 구현
___4.3.2 리듀서 구현
___4.3.3 드라이버 클래스 구현
___4.3.4 WordCount 빌드
___4.3.5 WordCount 실행
___4.3.6 웹에서 실행 결과 확인

▣ 05장_MapReduce 기초 다지기

5.1 분석용 데이터 준비
5.2 항공 출발 지연 데이터 분석
___5.2.1 매퍼 구현
___5.2.2 리듀서 구현
___5.2.3 드라이버 클래스 구현
___5.2.4 드라이버 클래스 실행
5.3 항공 도착 지연 데이터 분석
___5.3.1 매퍼 구현
___5.3.2 리듀서 구현
___5.3.3 드라이버 클래스 구현
___5.3.4 드라이버 클래스 실행
5.4 사용자 정의 옵션 사용
___5.4.1 사용자 정의 옵션의 이해
___5.4.2 매퍼 구현
___5.4.3 드라이버 클래스 구현
___5.4.4 드라이버 클래스 실행
5.5 카운터 사용
___5.5.1 사용자 정의 카운터 구현
___5.5.2 매퍼 구현
___5.5.3 드라이버 클래스 구현
___5.5.4 드라이버 클래스 실행
5.6 다수의 파일 출력
___5.6.1 MultipleOutputs 이해
___5.6.2 매퍼 구현
___5.6.3 리듀서 구현
___5.6.4 드라이버 클래스 구현
___5.6.5 드라이버 클래스 실행
5.7 체인(Chain)

▣ 06장_정렬 구현하기

6.1 보조 정렬
___6.1.1 복합키 구현
___6.1.2 복합키 비교기 구현
___6.1.3 그룹키 파티셔너 구현
___6.1.4 그룹키 비교기 구현
___6.1.5 매퍼 구현
___6.1.6 리듀서 구현
___6.1.7 드라이버 구현
___6.1.8 드라이버 실행
6.2 부분 정렬(Partial Sort)
___6.2.1 시퀀스파일 생성
___6.2.2 맵파일 생성
___6.2.3 검색 프로그램 구현
6.3 전체 정렬(Total Sort)

▣ 07장_조인 구현하기

7.1 조인 데이터 준비
7.2 맵-사이드 조인
___7.2.1 분산 캐시(DistributedCache)
___7.2.2 매퍼 구현
___7.2.3 드라이버 클래스 구현
___7.2.4 드라이버 클래스 실행
7.3 리듀스-사이드 조인
___7.3.1 항공기 코드 데이터 매퍼 구현
___7.3.2 항공기 운항 통계 데이터 매퍼 구현
___7.3.3 리듀서 구현
___7.3.4 드라이버 클래스 구현

▣ 08장_MapReduce 튜닝하기

8.1 셔플 튜닝
___8.1.1 셔플이란?
___8.1.2 정렬 속성 수정
8.2 콤바이너 클래스 적용
8.3 Map 출력 데이터 압축
___8.3.1 Gzip 적용
___8.3.2 스내피 설치
___8.3.3 스내피 적용
8.4 DFS 블록 사이즈 수정
8.5 JVM 재사용
8.6 투기적인 잡 실행

▣ 09장_하둡 운영하기

9.1 네임노드 HA 구성
___9.1.1 아바타 노드의 등장 배경
___9.1.2 아바타 노드의 작동 방식
9.2 파일 시스템 상태 확인
9.3 HDFS 어드민 명령어 사용
___9.3.1 report
___9.3.2 safemode
___9.3.3 saveNamespace
___9.3.4 파일 저장 개수 설정
___9.3.5 파일 저장 용량 설정
9.4 데이터 저장 공간 관리
9.5 데이터노드 제거
9.6 데이터노드 추가
9.7 네임노드 장애 복구
___9.7.1 네임노드와 보조 네임노드 데이터 구조
___9.7.2 보조 네임노드를 이용한 장애 복구
___9.7.3 NFS를 이용한 장애 복구
9.8 데이터노드 장애 복구

▣ 10장_하둡 부가기능 이용하기

10.1 하둡 스트리밍
___10.1.1 하둡 스트리밍의 동작 방식
___10.1.2 하둡 스트리밍 실행 옵션
___10.1.3 유닉스 명령어를 이용한 스트리밍 구현
___10.1.4 파이썬을 이용한 스트리밍 구현
___10.1.5 aggregate 패키지 이용
10.2 잡 스케줄러
___10.2.1 페어 스케줄러
___10.2.2 커패시티 스케줄러

▣ 11장_클라우드 환경에서 하둡 실행하기

11.1 아마존 웹 서비스(AWS) 소개
11.2 AWS 가입하기
11.3 EC2 하둡 설정
___11.3.1 EC2 인스턴스 생성
___11.3.2 EC2 접속하기
___11.3.3 SSH 인증키 복사
___11.3.4 방화벽 설정
___11.3.5 하둡 설치
11.4 S3 설정
___11.4.1 데이터 업로드
___11.4.2 EC2와의 연동
11.5 EMR 사용
___11.5.1 EMR 관리 콘솔 실행
___11.5.2 S3에 데이터 업로드하기
___11.5.3 작업 흐름 생성
___11.5.4 작업 흐름을 실행한 결과 확인
___11.5.5 출력 데이터 조회

▣ 12장_하이브 활용하기

12.1 하이브 아키텍처
12.2 하이브 설치 방법
12.3 하이브QL 사용하기
___12.3.1 테이블 생성
___12.3.2 데이터 업로드
___12.3.3 집계 함수
___12.3.4 조인
___12.3.5 버킷 활용

▣ 13장_하둡 적용 사례

13.1 NHN: 하둡과 몽고디비를 이용한 로그 분석 시스템
___13.1.1 스토리지의 급격한 증가
___13.1.2 통계 작업 솔루션 선정
___13.1.3 맵리듀스 프레임워크를 이용한 통계 작업
___13.1.4 통계 결과 저장소 선정
___13.1.5 최종 시스템 구성
13.2 넥스알: 하둡 생태계를 활용한 KT 분석 플랫폼 구축 사례
___13.2.1 NDAP 적용 배경
___13.2.2 NDAP 플랫폼 아키텍처
___13.2.3 성능 테스트 결과
13.3 그루터: 빅 데이터 기술을 이용한 소셜 네트워크 데이터 분석 서비스
___13.3.1 시스템 아키텍처
___13.3.2 제공 기능

▣ 부록A_윈도우 환경에서 설치하기

A.1 자바 설치
A.2 시그윈 설치
A.3 SSH 설정
A.4 하둡 압축 파일 풀기
A.5 하둡 환경설정 파일 수정
A.6 하둡 실행
A.7 예제 실행

▣ 부록B_하둡 2.0 소개

B.1 HDFS 페더레이션
___B.1.1 기존 HDFS의 문제점
___B.1.2 HDFS 페더레이션 아키텍처
___B.1.3 HDFS 페더레이션의 장점
___B.1.4 네임스페이스 관리
B.2 차세대 맵리듀스: YARN
___B.2.1 YARN 등장 배경
___B.2.2 YARN 시스템 아키텍처
___B.2.3 YARN의 장점
B.3 성능 개선
B.4 네임 노드의 HA 지원

저자소개

정재화 (지은이) 정보 더보기

지난 10여년 동안 SI, 대용량 분석 인프라, 웹 퍼블리싱 등 다양한 프로젝트를 경험해왔다. 현재 그루터에서 아파치 오픈 소스 프로젝트인 Tajo 개발 및 빅데이터 시스템 구축 업무를 담당하고 있다. 오픈소스 컨트리뷰션을 좋아하며, 개인 블로그(http://blrunner.com)를 통해 빅데이터 플랫폼에 관한 지식들을 공유하고 있다.

펼치기

정재화의 다른 책 >