하둡과 빅데이터 분석 실무 책 가격비교

책 이미지

책 정보

· 제목 : 하둡과 빅데이터 분석 실무 (따라하며 배우는)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 데이터베이스 프로그래밍 > 데이터베이스 구축
· ISBN : 9788960774865
· 쪽수 : 368쪽

책 소개

이 책은 하둡의 높은 학습 곡선을 조금이라도 해소하고, 실제 실무에서 접할 수 있는 간이 형태의 프로젝트 가이드를 보여준다. 따라하며 배울 수 있는 하둡을 활용한 빅데이터 분석 실무에 대한 좋은 참고서이다.

1장 하둡 분산 파일 시스템: 데이터 가져오기와 내보내기
___개요
___하둡 셸 명령어를 사용해 데이터를 내보내고 HDFS로 데이터 가져오기
___분산 복사를 사용한 클러스터 간의 효율적인 데이터 이동
___스쿱을 사용해 데이터를 MySQL에서 HDFS로 가져오기
___스쿱을 사용해 데이터를 HDFS에서 MySQL로 내보내기
___MS-SQL 서버를 위한 스쿱 구성
___데이터를 HDFS에서 몽고DB로 내보내기
___데이터를 몽고DB에서 HDFS로 가져오기
___피그를 사용해 데이터를 HDFS에서 몽고DB로 내보내기
___그린플럼 외부 테이블에서의 HDFS 사용
___데이터를 HDFS로 적재하기 위한 플룸 사용

2장 HDFS
___개요
___HDFS에서 데이터 읽고 쓰기
___LZO를 사용한 데이터 압축
___시퀀스파일로 데이터 읽고 쓰기
___데이터 직렬화를 위한 아파치 에이브로 사용
___데이터 직렬화를 위한 아파치 스리프트 사용
___데이터 직렬화를 위한 프로토콜 버퍼 사용
___HDFS 복제 계수 설정
___HDFS 블록 크기 설정

3장 데이터 추출과 변환
___개요
___맵리듀스를 사용해 아파치 로그를 TSV 포맷으로 변환
___웹 서버 로그에서 봇 트래픽을 필터링하기 위한 아파치 피그 사용
___웹 서버 로그 데이터를 타임스탬프로 정렬하기 위한 아파치 피그 사용
___웹 서버 로그 데이터를 세션화하기 위한 아파치 피그 사용
___아파치 피그 기능 확장을 위한 파이썬 사용
___페이지 뷰를 계산하기 위한 맵리듀스와 보조 정렬 사용
___지리 이벤트 데이터를 정리하고 변환하기 위한 하이브와 파이썬 사용
___시계열 분석을 수행하기 위한 파이썬과 하둡 스트리밍 사용
___출력 파일 이름을 지정하기 위한 맵리듀스의 MultipleOutputs 사용
___지리 이벤트 데이터를 읽기 위한 사용자 정의 하둡 Writable과InputFormat 생성

4장 하이브와 피그, 맵리듀스를 사용한 공통 태스크 수행
___개요
___HDFS에서 웹로그 데이터와 외부 테이블을 매핑하기 위한 하이브 사용
___웹로그 쿼리 결과로부터 동적으로 테이블을 생성하기 위한 하이브 사용
___웹로그 데이터에서 필드를 연결하기 위한 하이브의 문자열 UDF 사용
___웹로그의 IP를 조인해서 해당 IP에 맞는 국가를 찾기 위한 하이브 사용
___맵리듀스를 사용한 뉴스 아카이브에서의 n-그램 생성
___뉴스 아카이브에서 특정 키워드를 포함하는 라인을 찾기 위한 맵리듀스 분산 캐시 사용
___데이터를 테이블에 적재하고 GROUP BY 절을 갖는 SELECT 문의 연산을 수행하기 위한 피그 사용

5장 고급 조인
___개요
___매퍼에서 맵리듀스를 사용한 데이터 조인
___아파치 피그의 복제 조인을 사용한 데이터 조인
___아파치 피그의 병합 조인을 사용한 정렬 데이터 조인
___아파치 피그의 편향 조인을 사용한 편향 데이터 조인
___지리 이벤트를 분석하기 위한 아파치 하이브 맵 사이드 조인 사용
___지리 이벤트를 분석하기 위한 아파치 하이브 완전 외부 조인 최적화
___외부 키/값 저장소(레디스)를 사용한 데이터 조인

6장 빅 데이터 분석
___개요
___맵리듀스와 컴바이너를 사용해 웹로그 데이터에서 개별 IP 주소 카운트
___지리 이벤트 데이터에서 이벤트 날짜를 변환하고 정렬하기 위한 하이브 날짜 UDF 사용
___지리 이벤트 데이터를 통해 월별 사망 보고서를 작성하기 위한 하이브 사용
___지리 이벤트 데이터의 소스 신뢰성을 검증하기 위한 하이브의 사용자 정의 UDF 구현
___하이브의 맵/리듀스 연산과 파이썬을 사용해 비폭력의 최장 기간 표시
___피그를 사용해 Audioscrobbler 데이터셋에서 가수들의 코사인 유사도 연산
___피그와 datafu 라이브러리를 사용해 Audioscrobbler 데이터셋에서 아웃라이어 제거

7장 고급 빅 데이터 분석
___개요
___아파치 지라프를 이용한 페이지랭크
___아파치 지라프를 이용한 단일 소스 최단 경로 구하기
___분산된 너비 우선 탐색을 수행하기 위한 아파치 지라프 사용
___아파치 머하웃을 이용한 협업 필터링
___아파치 머하웃을 이용한 클러스터링
___아파치 머하웃을 이용한 감성 분류

8장 디버깅
___개요
___리듀스 잡에서 잘못된 레코드 추적을 위한 카운터 사용
___MRUnit을 이용한 맵리듀스 잡의 개발과 테스트
___로컬 모드에서 실행되는 맵리듀스 잡의 개발과 테스트
___잘못된 레코드를 스킵하기 위한 맵리듀스 잡 활성화
___스트리밍 잡에서의 카운터 사용
___디버깅 정보를 표시하기 위한 태스크 상태 메시지 업데이트
___피그 잡을 디버깅하기 위한 illustrate 명령어 사용

9장 시스템 관리
___개요
___의사 분산 모드에서 하둡 시작하기
___분산 모드에서 하둡 시작하기
___기존 클러스터에 새 노드 추가
___안전한 노드 해제
___네임노드 장애 복구
___갱글리아를 사용한 클러스터 상태 모니터링
맵리듀스 잡 매개변수 튜닝

10장 아파치 어큐뮬로를 사용한 퍼시스턴스화
___어큐뮬로에서 지리 이벤트 저장을 위한 로우 키 설계
___지리 이벤트 데이터를 어큐뮬로로 대량으로 가져오기 위한 맵리듀스 사용
___어큐뮬로에서 지리 이벤트 데이터를 입력하기 위한 사용자 정의 필드 제한 설정
___정규식 필터링 이터레이터를 사용한 쿼리 결과 제한
___SumCombiner를 사용해 동일 키의 다른 버전을 위한 사망자 카운트
___어큐뮬로를 사용한 스캔에서의 셀 수준 보안 강화
___맵리듀스를 사용한 어큐뮬로에서의 소스 집계

저자소개

조나단 오웬스 (지은이) 정보 더보기

자바와 C++, 소프트웨어 엔지니어로서 민간과 공공 부문에서 근무했으며, 최근에는 하둡과 분산 처리 기술 관련 일에 종사해왔다. 현재는 컴스코어(comScore) 회사에서 다양한 디지털 측정과 분석 업무를 하고 있다. 컴스코어에서 집계와 분석 그리고 하루 40억 트랜잭션을 다루는 하둡과 사용자 정의 분산 시스템을 사용하는 코어 프로세싱 팀의 일원이다.

펼치기

존 렌츠 (지은이) 정보 더보기

컴스코어 회사에서 온라인 고객 측정과 분석 업무를 하는 코어 프로세싱 팀의 소프트웨어 엔지니어로, 주로 피그(Pig)로 코딩하기를 좋아한다. 컴스코어에서 일하기 전에는 공급망을 최적화하고 고정 소득 증권을 배분하는 소프트웨어를 개발했다.

펼치기

브라이언 페미아노 (지은이) 정보 더보기

대학에서 전산학을 전공하고 6년 넘게 프로그래머로 일해왔다. 그중 마지막 2년은 아파치 하둡을 사용해 분석과 빅데이터 처리의 가용성을 개선하는 데 보냈다. 영리 목적의 민간 부문에서 일을 하기도 했으나, 그의 대다수 경력은 공공 부문에서 보냈다. 현재는 DC/버지니아 지역의 포토맥 퓨전(Potomac Fusion)에서 일한다. 이 회사는 정부 기관의 중요하고 복잡한 데이터셋을 연구하고 개선하기 위한 알고리즘을 개발한다.

펼치기

안건국 (옮긴이) 정보 더보기

데이터 관련 모든 것에 관심이 있지만, 최근에는 메모리 기반에서 데이터 처리와 데이터 샘플링 같은 데이터 엔지니어링에 관심이 많다. 또한 시각화가 없는 데이터 분석은 아무런 의미가 없다는 것을 깨닫고 뒤늦게 시각화에 대한 공부에 집중하고 있다. 에이콘출판사에서 펴낸 『하둡과 빅데이터 분석 실무』(2013), 『하둡 맵리듀스 프로그래밍』(2013)을 번역했다.

펼치기

안건국의 다른 책 >

이정림 (옮긴이) 정보 더보기

현재 테라데이타에서 애스터/하둡을 이용한 데이터 분석가로 활동하고 있다. 그 전에는 SK C&C 솔루션개발팀에서 NEXCORE ALM(Application Lifecycle Management) 솔루션을 개발했고, 그 이전에는 반도체 제조 공정 관리를 위한 EES(Equipment Engineering System)로 대용량 데이터 처리 프레임워크를 개발해 삼성전자/반도체, 독일 실트로닉(Siltronic), 싱가포르 차타드(Chartered)등의 반도체 제조 공정에 적용했다. <안전한 API 인증과 권한 부여를 위한 클라이언트 프로그래밍 OAuth 2.0>(한빛미디어, 2013)을 번역했다.

펼치기