책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 데이터베이스 프로그래밍 > 데이터베이스 구축
· ISBN : 9788960774865
· 쪽수 : 368쪽
책 소개
목차
1장 하둡 분산 파일 시스템: 데이터 가져오기와 내보내기
___개요
___하둡 셸 명령어를 사용해 데이터를 내보내고 HDFS로 데이터 가져오기
___분산 복사를 사용한 클러스터 간의 효율적인 데이터 이동
___스쿱을 사용해 데이터를 MySQL에서 HDFS로 가져오기
___스쿱을 사용해 데이터를 HDFS에서 MySQL로 내보내기
___MS-SQL 서버를 위한 스쿱 구성
___데이터를 HDFS에서 몽고DB로 내보내기
___데이터를 몽고DB에서 HDFS로 가져오기
___피그를 사용해 데이터를 HDFS에서 몽고DB로 내보내기
___그린플럼 외부 테이블에서의 HDFS 사용
___데이터를 HDFS로 적재하기 위한 플룸 사용
2장 HDFS
___개요
___HDFS에서 데이터 읽고 쓰기
___LZO를 사용한 데이터 압축
___시퀀스파일로 데이터 읽고 쓰기
___데이터 직렬화를 위한 아파치 에이브로 사용
___데이터 직렬화를 위한 아파치 스리프트 사용
___데이터 직렬화를 위한 프로토콜 버퍼 사용
___HDFS 복제 계수 설정
___HDFS 블록 크기 설정
3장 데이터 추출과 변환
___개요
___맵리듀스를 사용해 아파치 로그를 TSV 포맷으로 변환
___웹 서버 로그에서 봇 트래픽을 필터링하기 위한 아파치 피그 사용
___웹 서버 로그 데이터를 타임스탬프로 정렬하기 위한 아파치 피그 사용
___웹 서버 로그 데이터를 세션화하기 위한 아파치 피그 사용
___아파치 피그 기능 확장을 위한 파이썬 사용
___페이지 뷰를 계산하기 위한 맵리듀스와 보조 정렬 사용
___지리 이벤트 데이터를 정리하고 변환하기 위한 하이브와 파이썬 사용
___시계열 분석을 수행하기 위한 파이썬과 하둡 스트리밍 사용
___출력 파일 이름을 지정하기 위한 맵리듀스의 MultipleOutputs 사용
___지리 이벤트 데이터를 읽기 위한 사용자 정의 하둡 Writable과InputFormat 생성
4장 하이브와 피그, 맵리듀스를 사용한 공통 태스크 수행
___개요
___HDFS에서 웹로그 데이터와 외부 테이블을 매핑하기 위한 하이브 사용
___웹로그 쿼리 결과로부터 동적으로 테이블을 생성하기 위한 하이브 사용
___웹로그 데이터에서 필드를 연결하기 위한 하이브의 문자열 UDF 사용
___웹로그의 IP를 조인해서 해당 IP에 맞는 국가를 찾기 위한 하이브 사용
___맵리듀스를 사용한 뉴스 아카이브에서의 n-그램 생성
___뉴스 아카이브에서 특정 키워드를 포함하는 라인을 찾기 위한 맵리듀스 분산 캐시 사용
___데이터를 테이블에 적재하고 GROUP BY 절을 갖는 SELECT 문의 연산을 수행하기 위한 피그 사용
5장 고급 조인
___개요
___매퍼에서 맵리듀스를 사용한 데이터 조인
___아파치 피그의 복제 조인을 사용한 데이터 조인
___아파치 피그의 병합 조인을 사용한 정렬 데이터 조인
___아파치 피그의 편향 조인을 사용한 편향 데이터 조인
___지리 이벤트를 분석하기 위한 아파치 하이브 맵 사이드 조인 사용
___지리 이벤트를 분석하기 위한 아파치 하이브 완전 외부 조인 최적화
___외부 키/값 저장소(레디스)를 사용한 데이터 조인
6장 빅 데이터 분석
___개요
___맵리듀스와 컴바이너를 사용해 웹로그 데이터에서 개별 IP 주소 카운트
___지리 이벤트 데이터에서 이벤트 날짜를 변환하고 정렬하기 위한 하이브 날짜 UDF 사용
___지리 이벤트 데이터를 통해 월별 사망 보고서를 작성하기 위한 하이브 사용
___지리 이벤트 데이터의 소스 신뢰성을 검증하기 위한 하이브의 사용자 정의 UDF 구현
___하이브의 맵/리듀스 연산과 파이썬을 사용해 비폭력의 최장 기간 표시
___피그를 사용해 Audioscrobbler 데이터셋에서 가수들의 코사인 유사도 연산
___피그와 datafu 라이브러리를 사용해 Audioscrobbler 데이터셋에서 아웃라이어 제거
7장 고급 빅 데이터 분석
___개요
___아파치 지라프를 이용한 페이지랭크
___아파치 지라프를 이용한 단일 소스 최단 경로 구하기
___분산된 너비 우선 탐색을 수행하기 위한 아파치 지라프 사용
___아파치 머하웃을 이용한 협업 필터링
___아파치 머하웃을 이용한 클러스터링
___아파치 머하웃을 이용한 감성 분류
8장 디버깅
___개요
___리듀스 잡에서 잘못된 레코드 추적을 위한 카운터 사용
___MRUnit을 이용한 맵리듀스 잡의 개발과 테스트
___로컬 모드에서 실행되는 맵리듀스 잡의 개발과 테스트
___잘못된 레코드를 스킵하기 위한 맵리듀스 잡 활성화
___스트리밍 잡에서의 카운터 사용
___디버깅 정보를 표시하기 위한 태스크 상태 메시지 업데이트
___피그 잡을 디버깅하기 위한 illustrate 명령어 사용
9장 시스템 관리
___개요
___의사 분산 모드에서 하둡 시작하기
___분산 모드에서 하둡 시작하기
___기존 클러스터에 새 노드 추가
___안전한 노드 해제
___네임노드 장애 복구
___갱글리아를 사용한 클러스터 상태 모니터링
맵리듀스 잡 매개변수 튜닝
10장 아파치 어큐뮬로를 사용한 퍼시스턴스화
___어큐뮬로에서 지리 이벤트 저장을 위한 로우 키 설계
___지리 이벤트 데이터를 어큐뮬로로 대량으로 가져오기 위한 맵리듀스 사용
___어큐뮬로에서 지리 이벤트 데이터를 입력하기 위한 사용자 정의 필드 제한 설정
___정규식 필터링 이터레이터를 사용한 쿼리 결과 제한
___SumCombiner를 사용해 동일 키의 다른 버전을 위한 사망자 카운트
___어큐뮬로를 사용한 스캔에서의 셀 수준 보안 강화
___맵리듀스를 사용한 어큐뮬로에서의 소스 집계