Hadoop & NoSQL

책 이미지

eBook 미리보기

책 정보

· 제목 : Hadoop & NoSQL (대용량 데이터 분석 및 처리를 위한)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 데이터베이스 프로그래밍 > 데이터베이스 구축
· ISBN : 9788966185030
· 쪽수 : 440쪽
· 출판일 : 2013-01-03

책 소개

하둡 뿐만 아니라 실질적인 빅데이터 분석에 쓰이는 전문 도구들을 심도 있게 다루고 있으며, 예제와 그림을 통해 쉽게 접근할 수 있도록 하였다.

Chapter 1 | 하둡 소개와 클러스터 구축하기
1. 하둡 소개
_클라우드 컴퓨팅과 하둡
_하둡의 역사
2. 하둡 구축 사례
_해외 구축 사례
_국내 구축 사례
3. 하둡 클러스터 구축하기
_분산 파일 시스템
_하둡 클러스터 구축을 위한 준비사항
_분산 모조형(Pseudo-distribution) 구축하기
_분산형(Cluster) 구축하기
4. 하둡 인터페이스
_하둡 분산 파일 시스템 명령어 인터페이스
5. 요약

Chapter 2 | 하둡 분산 처리 파일 시스템
1. 하둡 분산 파일 시스템의 설계
2. 하둡 분산 파일 시스템의 전체 구조 살펴보기
3. 네임노드의 역할
_메타데이터 관리
_메타데이터의 안전한 보관 - Edits와 FsImage 파일과 세컨더리 네임노드
_데이터노드 관리
4. 데이터노드의 역할
_블록 관리
_데이터 복제와 과정
_데이터노드 추가
5. 요약

Chapter 3 | 빅데이터와 맵리듀스
1. 빅데이터의 개요
_빅데이터란?
_빅데이터의 가치 창출
2. 맵리듀스(MapReduce)
_맵리듀스 예제 : 단어 빈도수 세기(Word Count)
_맵리듀스 소스 코드 : 단어 빈도수 세기(Word Count) - Java 기반
_맵리듀스 소스 코드 : 단어 빈도수 세기(Word Count) - Ruby 언어 기반
3. 맵리듀스의 구조
_예제로 살펴본 맵리듀스 구조
_구조적 관점에서의 맵리듀스 최적화 방법
4. 맵리듀스의 고장 감내성(Fault Tolerance)
5. 맵리듀스 프로그래밍
_검색
_정렬
_역 인덱스
_가장 인기 있는 단어 찾기
_숫자 합산
6. 하둡 구축하기 : 맵리듀스 예제로 살펴보기
_단어 빈도수 세기 맵리듀스 프로그래밍
_맵리듀스 - 사용자 인터페이스
7. 요약

Chapter 4 | 하둡 버전별 특징 및 진화
1. 하둡 0.1x 버전의 API
2. 하둡의 덧붙이기(append) 기능
3. 하둡의 보안 관련 기능
4. 하둡 2.0.0 alpha
_하둡 2.0.0 alpha 설치
_하둡 분산 파일 시스템의 변경
_차세대 맵리듀스 프레임워크 : YARN
5. 요약

Chapter 5 | 클라우드 컴퓨팅과 하둡
1. 대규모 하둡 클러스터 구축과 사례
2. 클라우드 인프라 서비스의 등장
_아마존 클라우드 서비스
3. 아마존 EC2에 하둡 클러스터 구축하기
_Apache Whirr란?
_하둡 클러스터 구축하기
4. 요약

Chapter 6 | 아마존 Elastic MapReduce 200% 활용하기
1. 아마존 EMR(Elastic MapReduce) 활용하기
_아마존 EMR이란?
_아마존 EMR의 구조
_아마존 EMR의 특징
_아마존 EMR의 잡 플로우와 스텝
_아마존 EMR을 사용 전 알아야 할 사항
_아마존 EMR 실전 활용
2. 요약

Chapter 7 | 하둡을 이용한 빅데이터 분석
1. 하둡을 이용한 기계 학습(Mahout)
_설치 및 컴파일
_K-means 군집 알고리즘
_벡터 유사도를 이용한 협업적 필터링
_요약
2. 하둡을 이용한 통계 분석 RHive(R and Hive)
_R 설치 및 활용
_Hive 설치 및 활용
_RHive 설치 및 활용
_요약
3. 하둡을 이용한 그래프 데이터 처리 Giraphi
4. 요약

Chapter 8 | 데이터에서의 DBMS, NoSQL
1. NoSQL 등장 배경 : 빅데이터 그리고 Web 2.0
_Web 2.0에 의한 빅데이터의 등장
_빅데이터에 의한 NoSQL의 등장
_빅데이터와 Web 2.0에 적합한 데이터 스토어로서의 NoSQL
2. NoSQL 정의 및 종류별 특징
3. NoSQL 데이터 모델 개요 및 분류
4. NoSQL 데이터 모델링
_NoSQL 데이터 모델링 기본 개념
_일반적인 NoSQL 모델링 기법
5. 주요 NoSQL의 비교 및 선택
6. 요약

Chapter 9 | HBase : 하둡에서의 NoSQL
1. 하둡 생태계에서의 HBaseB
2. HBase 소개
3. HBase 데이터 모델
_맵(map)
_지속성(persistent)
_분산(distributed)
_정렬(sorted)
_다차원(multidimensional)
_스파스(sparse)
4. HBase 스키마
5. HBase 구조
6. HBase 구축 및 운영
7. HBase의 확장 - DuoBase 내의 HBase B
8. HBase의 사용자 정의 인덱스
_HBase 사용자 정의 인덱스 - HFile 포맷의 확장
_HBase 사용자 정의 인덱스 - 리전의 확장
_HBase 사용자 정의 인덱스 - 멤스토어의 확장
9. 요약

저자소개

서상원 (지은이) 정보 더보기

KAIST 전산학과 박사를 수료하고 클라우드 가상화 기술 개발 벤처를 설립했었고 2011년 대기업에 매각한 이후 KT Cloudware에서 본부장으로 근무하다 현재는 LG전자 본사 스마트비지니스센터에서 컨버전스서비스팀을 이끌고 있다. 혁신 비즈니스 발굴에 관심이 많아 파운더스 캠프(http://www.founders.kr)에서 벤처기업을 위한 기술 멘토링과 엔젤클럽 활동에도 참여하고 있다. 2000년대 중반부터 IT 서적과 잡지에 꾸준히 글을 쓰고 있다.

펼치기

김재홍 (지은이) 정보 더보기

KAIST 전산학과 박사 과정을 수료한 그는 대학원 시절 C++를 KAIST 대학원생을 대상으로 강의한 경험이 있다. 주로, 컴퓨터 시스템 분야에 관심이 많아 C 언어와 C++를 주로 사용하였으며 C++ 기반의 컴퓨터 시스템 시뮬레이터 제작과 실험을 많이 하였다. 주요 외국 학회와 저널 투고를 꾸준히 하고 있다.

펼치기

박윤성 (지은이) 정보 더보기

KAIST 로봇공학과를 졸업하였고 학부시절부터 C++의 매력에 빠져 다양한 C++ 프로젝트를 수행하였다. 학부시절에는 삼성전자 소프트웨어 멤버십 일원이면서 로봇과 임베디드에 빠져 다양한 프로젝트를 수행하였고 대학원 시절에는 로봇 시스템과 음성처리에서도 많은 경험을 쌓았다. 학부시절부터 유명 잡지에 기고해오면서 아는 지식을 전파하기 위해 많은 노력을 하였다. 현재는 클라우드 컴퓨팅 관련 회사에서 더 나은 서버 환경을 위해 다양한 경험을 쌓고 있다.

펼치기

이준섭 (지은이) 정보 더보기

- 현, 팀장(KT 클라우드웨어) - 전략총괄이사(아헴스) - 연구원(ETRI) - 한국과학기술원 전산학 석사 졸업

펼치기

명재석 (지은이) 정보 더보기

- 현, 서울대학교 컴퓨터공학 박사과정

펼치기

김세영 (감수) 정보 더보기

- 현, 아키텍트(KT 클라우드웨어) - 연구개발 본부장(아헴스) - 성균관대학교 정보통신공학 졸업

펼치기

박희종 (감수) 정보 더보기

- 현, PM(KT 클라우드웨어) - 사업기획팀장(아헴스) - KTH, SK 컴즈, 인터파크 - 성균관대학교 기계공학과 졸업