아파치 하둡 YARN

책 이미지

eBook 미리보기

책 정보

· 제목 : 아파치 하둡 YARN (차세대 데이터 플랫폼을 지향하는)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 데이터베이스 프로그래밍 > 데이터베이스 구축
· ISBN : 9788960776388
· 쪽수 : 424쪽
· 출판일 : 2014-11-28

책 소개

에이콘 데이터 과학 시리즈. 이 책에서는 하둡 2.x의 설치 방법과 기존 맵리듀스 통합, YARN 아키텍처, 커패시티(capacity) 스케줄러 등을 설명한다.

1장 아파치 하둡 YARN: 간략한 역사와 배경
소개
아파치 하둡
0단계: 애드혹 클러스터 시대
1단계: 하둡 온디맨드
__HOD상에서 HDFS
__HOD의 특징과 장점
__하둡 온디맨드의 단점
2단계: 공유 컴퓨팅 클러스터의 기원
__공유 클러스터의 진화
__공유 맵리듀스 클러스터 문제
3단계: YARN의 출현
정리

2장 아파치 하둡 YARN의 빠른 설치
시작
단일 노드의 YARN 클러스터 설정 단계
__1단계: 아파치 하둡 다운로드
__2단계: JAVA_HOME의 설정
__3단계: 사용자와 그룹 생성
__4단계: 데이터와 로그 디렉터리 생성
__5단계: core-site.xml 설정
__6단계: hdfs-site.xml 설정
__7단계: mapred-site.xml 설정
__8단계: yarn-site.xml 설정
__9단계: 자바 힙 크기 수정
__10단계: HDFS 포맷
__11단계: HDFS 서비스 시작
__12단계: YARN 서비스 시작
__13단계: 웹을 이용해 실행 중인 서비스 확인
간략한 맵리듀스 예제 실행
정리

3장 아파치 하둡 YARN의 핵심 개념
맵리듀스의 한계를 넘어
__맵리듀스 패러다임
아파치 하둡 맵리듀스
__비맵리듀스 워크로드의 필요성
__확장성 해결
__개선된 이용률
__사용자 민첩성
아파치 하둡 YARN
YARN 컴포넌트
__리소스매니저
__애플리케이션마스터
__자원 모델
__리소스리퀘스트와 컨테이너
__컨테이너 명세
정리

4장 YARN 컴포넌트의 기능 개요
아키텍처 개요
리소스매니저
YARN 스케줄링 컴포넌트
__FIFO 스케줄러
__커패시티 스케줄러
__페어 스케줄러
컨테이너
노드매니저
애플리케이션마스터
YARN의 자원 모델
__클라이언트 자원 요청
__애플리케이션마스터 컨테이너 할당
__애플리케이션마스터-컨테이너 관리자 통신
애플리케이션 의존성 관리
__로컬리소스 정의
__로컬리소스 타임스탬프
__로컬리소스 유형
__로컬리소스 가시성
__로컬리소스 라이프사이클
정리

5장 아파치 하둡 YARN 설치
시작
시스템 준비
__1단계: EPEL과 pdsn 설치
__2단계: ssh 키 생성과 배포
하둡 버전 2의 스크립트 기반 설치
__JDK 옵션
__1단계: 스크립트 다운로드와 해제
__2단계: 스크립트 변수 설정
__3단계: 노드 이름 설정
__4단계: 스크립트 실행
__5단계: 설치 확인
스크립트 기반 설치 제거
파일 처리 설정
환경설정 파일 설정
__core-site.xml
__hdfs-site.xml
__mapred-site.xml
__yarn-site.xml
시작 스크립트
아파치 암바리로 하둡 설치
__암바리 기반 하둡 설치 실행
__1단계: 필요조건 확인
__2단계: 암바리 서버 설치
__3단계: 암바리 에이전트 설치와 시작
__4단계: 암바리 서버 시작
__5단계: HDP2.X 클러스터 설치
정리

6장 아파치 하둡 YARN 관리
스크립트 기반 환경설정
클러스터 상태 모니터링: 나기오스
__기본적인 하둡 서비스 모니터링
__JVM 모니터링
실시간 모니터링: 강글리아
암바리로 관리
JVM 분석
기본 YARN 관리
__YARN 관리 도구
__YARN 노드 추가 및 해제
__커패시티 스케줄러 설정
__YARN 웹 프록시
__JobHistoryServer 사용
__사용자와 사용자 그룹 매핑 갱신
__슈퍼유저 프록시 그룹 매핑의 갱신
__리소스매니저 관리를 위한 ACL 갱신
__서비스 레벨 권한 리로드
__YARN의 잡 관리
__컨테이너 메모리 설정
__컨테이너 주요 설정
__맵리듀스 프로퍼티 설정
__사용자 로그 관리
정리

7장 아파치 하둡 YARN 아키텍처 가이드
개요
리소스매니저
__리소스매니저 컴포넌트의 개요
__클라이언트와 리소스매니저의 상호 작용
__애플리케이션과 리소스매니저의 상호 작용
__노드와 리소스매니저의 상호 작용
__핵심 리소스매니저 컴포넌트
__리소스매니저의 보안 관련 컴포넌트
노드매니저
__노드매니저 컴포넌트의 개요
__노드매니저 컴포넌트
__노드매니저 보안 컴포넌트
__노드매니저의 중요 기능
애플리케이션마스터
__개요
__무결점 동작 상태
__자원의 요건
__스케줄링
__스케줄링 프로토콜과 로컬리티
__컨테이너 시작
__종료 컨테이너
__애플리케이션마스터 실패와 복구
__조정과 출력 결과 커밋
__클라이언트를 위한 정보
__보안
__애플리케이션마스터 종료의 마무리
YARN 컨테이너
__컨테이너 환경
__애플리케이션마스터와 통신
애플리케이션 작성을 위한 정리
정리

8장 YARN의 커패시티 스케줄러
커패시티 스케줄러의 소개
__멀티테넌시의 탄력성
__보안
__자원 인식
__세부적인 스케줄링
__로컬리티
__스케줄링 정책
커패시티 스케줄러 설정
큐
계층형 큐
__주요 특징
__큐 사이의 스케줄링
__계층형 큐의 정의
큐 접근 제어
큐의 커패시티 관리
사용자 제한
예약
큐의 상태
애플리케이션의 한계
사용자 인터페이스
정리

9장 아파치 하둡 YARN의 맵리듀스
하둡 YARN 맵리듀스 예제 실행
__사용 가능한 예제 목록
__Pi 예제 실행
__웹을 사용하는 모니터 예제
__Terasort 테스트 실행
__TestDFSIO 벤치마크 실행
맵리듀스 호환성
맵리듀스 애플리케이션마스터
__애플리케이션마스터의 재시작 설정
__완료된 태스크의 복구 설정
__잡히스토리 서버
노드 커패시티 계산
셔플 서비스로 변경
기존 하둡 버전 1의 애플리케이션 실행
__org.apache.hadoop.mapred API의 바이너리 호환성
__org.apache.hadoop.mapreduce API의 소스 호환성
__커맨드라인 스크립트의 호환성
__MRv1과 초기 MRv2(0.23.x) 애플리케이션 간의 호환성
맵리듀스 버전 1의 기존 코드 실행
__YARN 기반 아파치 피그 스크립트 실행
__YARN 기반 아파치 하이브 쿼리 실행
__YARN 기반 아파치 우지 워크플로우 실행
고급 기능
__우버 잡
__플러그인이 가능한 셔플과 정렬
정리

10장 아파치 하둡 YARN 애플리케이션 예제
YARN 클라이언트
애플리케이션마스터
정리

11 장 아파치 하둡 YARN 분산 셸
YARN 분산 셸 사용
__간단한 예제
__추가적인 컨테이너 사용
__셸 인수 활용 분산 셸 예제
분산 셸 내부 구조
__애플리케이션 상수
__클라이언트
__애플리케이션마스터
__최종 컨테이너
정리

12장 아파치 하둡 YARN 프레임워크
분산 셸
하둡 맵리듀스
아파치 테즈
아파치 지라프
호야: YARN의 HBase
YARN의 드라이어드
아파치 스파크
아파치 스톰
REEF: 보존 가능한 평가기 실행 프레임워크
햄스터: 동일 클러스터에서 하둡과 MPI
정리

부록 A 추가적인 내용과 코드 다운로드
부록 B YARN 설치 스크립트
부록 C YARN 관리 스크립트
부록 D 나기오스 모듈
부록 E 자원과 추가적인 정보
부록 F HDFS 빠른 참조

저자소개

아룬 머시 (지은이) 정보 더보기

2006년 초에 프로젝트 초기 이후부터 아파치 하둡 풀타임으로 기여했다. 오랫동안 하둡 커미터이자, 아파치 하둡 PMC(Project Management Committee) 멤버다. 이전에는 야후 하둡 맵리듀스 개발 팀의 리더이자 아키텍트였으며, 야후의 (현재 5만 대에 가까운 머신에서 실행하는) 모든 것을 위한 서비스로 하둡 맵리듀스를 제공하기 위한 기술적 수준에서 최종 담당자였다. 아파치 하둡의 개발과 채택을 신속하게 지원하는 소프트웨어 회사 호튼웍스(Hottonworks)의 설립자이자 아키텍트다. 호튼웍스는 2011년 6월에 야후의 하둡 소프트웨어 엔지니어링 팀의 핵심 아키텍트와 핵심 하둡 커미터로 구성된 회사다. 뛰어난 기술 투자자 중 하나인 야후 앤 벤치마크 캐피탈(Yahoo! and Benchmark Capital)의 투자를 받은 호튼웍스는 아파치 하둡이 빅데이터 저장과 처리, 관리, 분석에 있어 표준 플랫폼이 되기를 목표로 추구하는 회사다. 아룬은 실리콘밸리에서 살고 있다.

펼치기

비나드 쿠마 바빌라팔리 (지은이) 정보 더보기

2007년 중반부터 아파치 하둡 프로젝트에 풀타임으로 기여하고 있다. 아파치 소프트웨어 재단에서 오랫동안 하둡 기여자와 하둡 커미터, 아파치 PMC 멤버, 재단 멤버다. 호튼웍스에서 맵리듀스와 YARN에 관련된 사람이다. 5년 이상 하둡에 관련해 여전히 즐겁게 일하고 있다. 하둡 온디맨드와 하둡 0.20, 커패시티 스케줄러, 하둡 보안, 맵리듀스에 관여했으며, 아파치 하둡 YARN의 리드 개발자이면서 프로젝트 리더다. 호튼웍스에 입사하기 전에 야후에 있었으며, 수만 노드의 대규모에서 동작하는 오늘날의 하둡을 만든 그리드(Grid) 팀에서 일했다. 독서광이며, 비트(bit)를 통해 좀 더 나은 세상으로 바꾸기 위해 컴퓨터를 사용하는 데 열정적이다. 인도 Roorkee 공대에서 컴퓨터과학과 공학의 학사학위를 받았다. 실리콘밸리에서 살고 있으며, @tshooter 트위티 계정으로 만날 수 있다.

펼치기

더그 이들린 (지은이) 정보 더보기

리눅스 HPC 클러스터 혁명의 연대 저작과 개업으로 경력을 쌓기 시작했고, 현재 문서 빅데이터 분석 경력을 갖고 있다. 첫 번째 베오울프(Beowulf) 설명문을 필두로, HPC의 사실상 모든 면을 다루는 백서와 지침서 수백 가지를 쓰고 있다. 2005년, 인기 있는 ClusterMonkey.net 웹사이트를 개설하고 편집 일을 시작하기 전에는, <클러스터월드(ClusterWorld)> 잡지의 편집장으로 헌신했으며, <리눅스 매거진(Linux Magazine)>의 수석 HPC 편집자였다. 하드웨어나 소프트웨어 설계와 벤치마킹, 스토리지, GPU, 클라우드 컴퓨팅, 병렬 컴퓨팅을 포함한 HPC의 여러 측면에 실무 경험이 있다. 현재 HPC 산업의 저자이자 컨설턴트이며, Limulus Personal Cluster Project의 리더다. 또한 애디슨웨슬리 출판사에서 펴낸 <하둡 기초>와 <아파치 하둡 YARN 기초> 라이브레슨(LiveLessons) 비디오 강사다.

펼치기

조셉 니미크 (지은이) 정보 더보기

포춘 1000대 기업의 하둡 솔루션 설계에 중심을 둔 빅데이터 솔루션 엔지니어다. 조셉은 여러 YARN 애플리케이션을 만드는 데 고객과 일을 했으며, 배치 처리를 넘어 독특한 관점을 제공함으로써 고객이 YARN으로 이동할 수 있게 제공하고, 직접 YARN 개발에 일을 해왔다. 열정적인 기술자로 2001년 이후 기술 혁신에 집중하고 있다. 10대 때부터 게임 점수 최적화의 데이터 분석에 관심을 두기 시작했지만, 하둡 같은 최신 기술이나 YARN을 사용해 새로운 데이터 애플리케이션을 만드는 것 같은 새로운 기술 혁신을 고객이 흡수할 수 있게 지원하는 것으로 바뀌었다.

펼치기

제프 마컴 (지은이) 정보 더보기

오픈소스 하둡을 장려하는 회사 호튼웍스의 솔루션 엔지니어다. 이전에는 분산 데이터의 분산 애플리케이션을 구축하는 회사를 지원하는 VMWare와 레드햇, IBM과 일을 했다. 자바 애플리케이션 개발 기사를 작성했었고, 여러 컨퍼런스와 하둡 사용자 그룹에서 발표했다. 아파치 피그(Pig)와 아파치 HDFS의 기여자다.

펼치기

제프 마컴의 다른 책 >

안건국 (옮긴이) 정보 더보기

데이터 관련 모든 것에 관심이 있지만, 최근에는 메모리 기반에서 데이터 처리와 데이터 샘플링 같은 데이터 엔지니어링에 관심이 많다. 또한 시각화가 없는 데이터 분석은 아무런 의미가 없다는 것을 깨닫고 뒤늦게 시각화에 대한 공부에 집중하고 있다. 에이콘출판사에서 펴낸 『하둡과 빅데이터 분석 실무』(2013), 『하둡 맵리듀스 프로그래밍』(2013)을 번역했다.

펼치기

안건국의 다른 책 >