빅 데이터 시대의 하둡 완벽 입문

책 이미지

eBook 미리보기

책 정보

· 제목 : 빅 데이터 시대의 하둡 완벽 입문 (제2판, 오픈 소스 분산 처리 환경 구축 가이드)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 데이터베이스 프로그래밍 > 데이터베이스 구축
· ISBN : 9788994506968
· 쪽수 : 656쪽
· 출판일 : 2014-06-18

책 소개

I♥Cloud 9권. 이 책은 1판에 비해 Hadoop에 관해 전혀 모르는 사람들도 이해하는 데 좀 더 도움이 되도록 개요 부분을 더욱 쉽게 구성했으며, MapReduce 애플리케이션 개발 내용을 추가하고 초보자부터 고급 사용자까지 모두 활용할 수 있도록 했다.

PART 1 Hadoop 기초 .... 1
Chapter 1 Hadoop 기초 지식 3
1.1 Hadoop이란? 4
1.2 Hadoop 개요 4
1.3 Hadoop 적용 분야 15
1.4 Hadoop 시스템 구성과 아키텍처 19
1.5 Hadoop 적용 사례 30

Chapter 2 MapReduce 애플리케이션 활용 예 35
2.1 블로그 접속 수 집계 36
2.2 비슷한 사람을 찾아내자 41
2.3 검색 엔진 인덱스 작성 43
2.4 이미지 데이터 분산 처리 46
2.5 MapReduce로 구현할 수 있는 처리 특성과 활용 포인트 48

Chapter 3 Hadoop 도입 51
3.1 구축 환경 조건 52
3.2 실행 환경 구축 55
3.3 동작 확인 59
3.4 샘플 애플리케이션 실행 63

Chapter 4 HDFS 65
4.1 Hadoop의 파일 시스템 66
4.2 HDFS의 구조 68
4.3 HDFS의 파일 I/O 흐름 73
4.4 파일 시스템의 메타데이터 77
4.5 HDFS 설정과 시작/중지 81
4.6 SecondaryNameNode 92
4.7 CLI 기반 파일 조작 94

Chapter 5 MapReduce 프레임워크 109
5.1 MapReduce 처리 110
5.2 MapReduce 아키텍처 114
5.3 MapReduce와 HDFS의 관계 118
5.4 MapReduce 프레임워크 설정 123
5.5 MapReduce 프레임워크 시작과 정지 129
5.6 CLI 기반 MapReduce 관리 136

Chapter 6 Hadoop 애플리케이션 실행 143
6.1 테스트 애플리케이션 144
6.2 MapReduce 애플리케이션(자바) 144
6.3 HadoopStreaming 애플리케이션 150
6.4 Pig 애플리케이션 153
6.5 Hive 애플리케이션 160

Chapter 7 Hadoop 클러스터 구축 167
7.1 완전 분산 클러스터 168
7.2 환경 구축의 전제 조건 168
7.3 Hadoop 클러스터 환경 구축 169
7.4 웹 인터페이스를 통한 동작 확인 178
7.5 샘플 애플리케이션 실행 181

PART 2 MapReduce 애플리케이션 개발 .... 185
Chapter 8 MapReduce 프로그래밍 기초 - 자바를 사용한 개발(1) - 187
8.1 자바를 사용한 MapReduce 개발 188
8.2 소스 코드 단계에서 프로그램 실행 190
8.3 Mapper 194
8.4 Reducer 197
8.5 Writable 199
8.6 InputFormat/OutputFormat 203
8.7 main 프로그램 207

Chapter 9 MapReduce 프로그래밍 응용 - 자바를 사용한 개발(2) - 215
9.1 MapReduce 프로그램 커스터마이즈 216
9.2 입력 데이터 조작을 제어한다 216
9.3 출력 데이터 제어 226
9.4 독자 데이터형을 정의한다 229
9.5 Shuffle 단계 동작 제어 231
9.6 MapReduce 애플리케이션 테스트 및 디버깅 235

Chapter 10 MapReduce 개발 팁 -자바를 사용한 개발(3) - 243
10.1 이 장에서 소개할 내용 244
10.2 압축 데이터 다루기 244
10.3 MapReduce 처리에 적합한 파일 포맷 247
10.4 한 번에 복수의 파일 포맷 처리 249
10.5 분산 캐시 이용 252
10.6 Map 태스크/Reduce 태스크 실행 Context 처리 254
10.7 처리 중에 발생한 이벤트를 집계 256
10.8 MapReduce 애플리케이션 설정을 제어 259

Chapter 11 HadoopStreaming 263
11.1 HadoopStreaming이란? 264
11.2 HadoopStreaming 애플리케이션 구성 264
11.3 HadoopStreaming 활용 예 270
11.4 HadoopStreaming 명령어 옵션 275

Chapter 12 데이터 흐름형 처리 언어 Pig 283
12.1 Pig란? 284
12.2 Pig 실행 방법 286
12.3 Pig의 데이터 관리 288
12.4 Pig에서의 처리 방법 290
12.5 함수 298
12.6 애플리케이션 개발 301
12.7 Pig Latin 처리 구현 303
12.8 사용자 정의 함수 구현 306
12.9 Pig 디버그 313
12.10 Pig를 활용하기 위한 포인트 315

Chapter 13 SQL 유사 인터페이스 Hive 319
13.1 Hive 개요 320
13.2 Hadoop과 Hive 321
13.3 HiveQL 324
13.4 효율적인 Hive 활용법 347

PART 3 Hadoop 클러스터 구축과 운영 .... 359
Chapter 14 환경 구축 효율화 361
14.1 환경 구축과 설정 자동화 362
14.2 환경 구축 서버 설치 365
14.3 OS 자동 설치 373
14.4 Puppet을 사용한 환경 설정 377
14.5 PSSH를 이용한 운영 388
14.6 Hadoop 설정의 베스트 환경 392

Chapter 15 가용성 향상 395
15.1 고가용성의 기본 396
15.2 HDFS 고가용성 401
15.3 MapReduce 고가용화 413

Chapter 16 클러스터 모니터링 425
16.1 Hadoop 모니터링 426
16.2 Ganglia를 통한 Hadoop 클러스터 메트릭스 취득 437
16.3 Hadoop 클러스터 감시 445

Chapter 17 클러스터 운영 459
17.1 Hadoop 운영이란? 460
17.2 운영 시 구체적인 작업 462
17.3 정기적으로 실시해야 할 작업 474
17.4 Hadoop 클러스터 확장 479
17.5 클러스터 장애 대응 481

Chapter 18 복수 사용자에 의한 리소스 제어 493
18.1 리소스 제어 도입 494
18.2 기본 설정 495
18.3 스케줄러를 사용한 리소스 분배 제어 500

PART 4 Hadoop 활용 기술 .... 521
Chapter 19 Hadoop 튜닝 523
19.1 튜닝이 필요한 케이스 524
19.2 MapReduce 잡 동작에 영향을 주는 설정 524
19.3 Map 태스크 튜닝 527
19.4 Reduce 태스크 튜닝 532
19.5 자바 VM 튜닝 535
19.6 OS 튜닝 545

Chapter 20 분산형 데이터베이스 HBase 551
20.1 HBase란? 552
20.2 HBase 데이터 모델 554
20.3 아키텍처 555
20.4 설치 방법 558
20.5 HBase Shell 563
20.6 MapReduce 잡 활용 572
20.7 HBase 테이블 설계 578

Chapter 21 Fluentd 로그 수집기 581
21.1 로그 수집기 등장 배경 582
21.2 Fluentd란? 584
21.3 모든 로그를 JSON으로 587
21.4 Fluentd 설치 588
21.5 Fluentd 기본 590
21.6 HDFS에 기록하기 위한 설정 예 593
21.7 Fluentd 내부 구조 595
21.8 Fluentd HA 구성 598
21.9 Fluentd 튜닝 601
21.10 Fluentd 모니터링 602
21.11 Fluentd와 유사한 소프트웨어 604

Chapter 22 YARN 605
22.1 YARN 기초 지식 606
22.2 YARN 아키텍처 611
22.3 Hadoop/MapReduce/YARN과 기존 Hadoop/MapReduce의 차이 613
22.4 YARN을 이용한 MapReduce 실행 615

찾아보기 .... 629

저자소개

오오타 카스기 (지은이) 정보 더보기

2008년에 동경대학 이학부 정보공학과를 졸업하였고, 2010년에 동대학 정보공학연구소 컴퓨터과학 석사를 수료하였다. 대규모 데이터 처리를 위한 분산 시스템 등에 흥미를 가지고 있으며, 현재는 rTeasure Data, Inc.에서 최고기술책임자로 재직 중이다.

펼치기

이와사키 마사타케 (지은이) 정보 더보기

주식회사 NTT의 데이터 기반 시스템 사업본부에서 근무하고 있다. Hadoop을 시작으로 OSS와 관련된 다양한 기술을 담당한다. 빵이 없으면 밥을 먹으면 된다고 주장하고 있으며, 면 종류를 좋아한다.

펼치기

사루타 코우스케 (지은이) 정보 더보기

주식회사 NTT의 데이터 기반 시스템 사업본부에서 근무하고 있다. 입사 이후 Hadoop을 시작으로 OSS 도입 기술과 기술 검증 및 개발을 담당하였다. 지금까지 수백 대 규모의 Hadoop 클러스터를 구축하였고, 애플리케이션 설계 지원도 실시하였다. 프로그래밍, OS, 네트워크, DB 등에도 흥미가 있어서 자기계발을 위해 다양한 책을 구입하는 편이나, 책을 읽는 속도보다 책이 늘어나는 속도가 빠른 것이 걱정이다. 단것이 삶의 원동력이라 믿고 있으며, ‘이론보다 일단 실행이 우선’을 인생 좌우명으로 삼고 있다.

펼치기

시모가키 토오루 (지은이) 정보 더보기

펼치기

후지이 타츠로우 (지은이) 정보 더보기

약 2년이 지나 직함에서 인턴을 떼고 정식 엔지니어가 되었고, 다지 2년이 지나서야 집에다 전기밥솥을 들일 수 있었다. ‘빵도 밥도 없으면 안 먹으면 되지.’라는 생활에서 간신히 탈출한 상태다. 참고로, 면 종류(특히 라면)를 몹시 좋아하는 또 한 사람이다.

펼치기

야마시타 신이치 (지은이) 정보 더보기

주식회사 NTT의 데이터 기반 시스템 사업본부에서 주임으로 근무하고 있으며, 오픈 소스 소프트웨어에 관련된 미들웨어A(pache/Tomcat/PostgreSQL) 평가나 검증, 기술 개발 및 지원을 담당하고 있다. 최근에는 Hadoop을 중심으로 한 에코(ECO) 시스템 도입 업무에 참여 중이다. 개인적으로는 새로운 기술이 나오면 소스 코드부터 건드려 본다거나, 수많은 데이터와 정보를 사용해서 개인의 특성을 추출하여 무언가 재미있는 것을 고안하려고 사투를 벌이곤 한다.

펼치기

김완섭 (옮긴이) 정보 더보기

약 20년간 일본, 한국, 싱가포르에서 IT 및 GIS/LBS 분야 업무를 담당했다. 일본에서는 일본 정부 기관을 대상으로 한 시스템 통합(SI) 업무를 담당했으며, 야후 저팬으로 직장을 옮겨 야후 맵 개발 담당 시니어 엔지니어로 근무했다. 한국에서는 SK에서 티맵 등 내비게이션 지도 데이터 담당 매니저로 근무했고, 현재는 싱가포르에서 독일계 회사의 설루션 아키텍트로 근무하고 있다. 저서로는 《나는 도쿄 롯폰기로 출근한다》(삶과지식, 2014)가 있으며, 역서로는 《Go 언어로 배우는 웹 애플리케이션 개발》(2024), 《21개의 작고 재미난 파이썬 프로젝트》(2021), 《그림으로 공부하는 IT 인프라 구조, 개정판》(이상 제이펍, 2020) 등 40여 종이 있다.

펼치기

김완섭의 다른 책 >

하마노 켄이치로 (감수) 정보 더보기

주식회사 NTT의 데이터 기반 시스템 사업본부에서 시니어 엑스퍼트로 근무하고 있다. 주식회사 비기네트 부사장이기도 하며, 리눅스 아카데미 학교장을 거쳐 2008년부터 NTT에서 재직 중이다. 1998년부터 줄곧 리눅스/OSS 분야에 종사했지만, 최근에는 Hadoop 도입 지원과 보급 추진 활동에 주력하고 있다. 분산 처리 아키텍처가 이후 TI 시스템에 어떻게 접근할 수 있을지 고민하고 있다.

펼치기

책속에서

그래서 이번 《빅 데이터 시대의 하둡 완벽 입문(제2판)》을 출판하면서 Hadoop을 전혀 모르는 사람들이 이해하는 데 좀 더 도움이 될 수 있도록 1장과 2장 내용을 보강하여 Hadoop에 대한 개요 부분을 좀 더 쉽게 구성했다. 또한, MapReduce 애플리케이션 개발 내용을 추가하여 초보자부터 고급 사용자까지 활용할 수 있도록 했다. 이 책의 특색인 운용성과 가용성 측면도 1판에 비해 보강했으며, 새로운 기술 이슈에 대해서도 추가하였다.

따라서 대용량 데이터를 효율적으로 읽어 들이기 위해서는 복수의 디스크에 데이터를 기록해 두고 각 디스크에서 병행하여 읽을 수밖에 없다. 예를 들어, 한 대의 SATA 디스크라면 70MB/초 처리량밖에 안 되지만, 40대로 동시에 읽어 들이면 2,800MB/초 처리량을 구현할 수 있다. 1TB 데이터도 약 350초면 된다. 만약 1,000대의 디스크를 사용한다면 14초 만에 읽을 수가 있다.

HDFS는 여러 대의 노드로 구성된다. 수백 대 규모가 되면 노드의 고장은 특별한 문제가 아닌 일상적으로 발생할 수 있는 문제가 된다. 예를 들어, 노드 한 대가 고장 날 확률이 1,000일에 1회라고 하면 HDFS 구성 노드 수가 1,000일 경우, 매일 한 대의 서버가 고장 나게 된다. 특정 데이터를 특정 노드에만 저장해 두면 해당 노드의 고장으로 데이터를 잃어버릴 수 있지만, HDFS에서는 복수의 노드를 사용해 데이터 복제를 유지하기 때문에 손실을 방지할 수 있다.