책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 자료구조/알고리즘
· ISBN : 9791161753737
· 쪽수 : 576쪽
· 출판일 : 2019-11-29
책 소개
목차
1장. 데이터에 기반을 둔 의사 결정
__많은 유사한 의사 결정
__데이터 엔지니어의 역할
__클라우드는 데이터 엔지니어를 능력자로 만든다.
__클라우드는 데이터 과학을 급속도로 변화시킨다
__사례 연구로 확고한 사실을 얻을 수 있다
__확률론적 결정
__데이터와 도구
____코드로 시작
__요약
2장. 클라우드에 데이터 입수
__항공사 정시 도착 데이터
____알 수 있어야 함
____학습-제공 간 왜곡
____다운로드 절차
____데이터셋 속성
__데이터를 한곳에 저장하지 않는 이유
____수직 확장
____수평 확장
____콜로수스와 주피터에 함께하는 데이터
__데이터 입수
____웹 양식 리버스 엔지니어링
____데이터셋 다운로드
____탐색 및 정리
____구글 클라우드 스토리지에 데이터 업로드
__월주기로 다운로드 스케줄링
____파이썬으로 입수
____플라스크 웹 애플리케이션
____앱 앤진 실행
____URL 보호
____크론 작업 스케줄링
__요약
__코드 휴게소
3장. 혁신적인 대시보드 생성
__대시보드로 모델 설명
__대시보드를 먼저 만들어야 하는 이유
__정확성, 정직성 및 좋은 설계
__구글 클라우드 SQL에 데이터 탑재
__구글 클라우드 SQL 인스턴스 생성
__구글 클라우드 플랫폼과의 상호작용
__MySQL에 대한 접근 제어
__테이블 생성
__테이블 채우기
__첫 번째 모델 작성
____분할표
____임계값 최적화
____머신 러닝
__대시보드 작성
__데이터 스튜디오로 시작
____다이어그램 생성
____최종 사용자 제어 기능 추가
____파이 다이어그램으로 비율 표시
____분할표 설명
__요약
4장. 스트리밍 데이터: 송신 및 입수
__이벤트 피드 설계
__시간 보정
__아파치 빔/클라우드 데이터플로우
____공항 데이터 파싱
____시간대 정보 추가
____시간을 UTC로 변환
____시간 보정
____이벤트 생성
____클라우드에서 파이프라인 실행
__이벤트 스트림을 클라우드 pub/sub에 전송
____전송할 기록 얻기
____기록에 대한 분할
____이벤트 일괄처리 구축
____이벤트 일괄처리 전송
__실시간 스트리밍 처리
____자바 데이터플로우 기반 스트리밍
____스트리밍 처리 실행
____빅쿼리로 스트리밍 데이터 분석
____실시간 대시보드
__요약
5장. 대화형 데이터 탐색
__탐색적 데이터 분석
__빅쿼리에 항공 운항 데이터 탑재
____서비리스 칼럼 기반 데이터베이스의 이점
____클라우드 스토리지에 준비
____접근 제어
____연합 쿼리
____csv 파일 입수
__클라우드 데이터랩을 이용한 탐색적 데이터 분석
____주피터 노트북
____클라우드 데이터랩
____클라우드 데이터랩에 패키지 설치
____구글 클라우드 플랫폼의 주피터 매직
__품질 제어
____이상한 값
____이상치 제거: 빅데이터는 다르다
____발생 빈도에 대한 데이터 필터링
__출발 지연 시 도착 지연 조건
____확률적 결정 임계값 적용
____경험 확률 분포 함수
____정답은...
__모델 평가
____무작위로 뒤섞기
____날짜로 분할
____학습과 테스트
__요약
6장. 클라우드 데이터프록상의 베이즈 분류
__맵리듀스와 하둡 생태계
____맵리듀스 동작 방식
____아파치 하둡
____구글 클라우드 데이터프록
____고급 도구 필요
____클러스터가 없는 작업
____초기화 작업
__스파크 SQL을 이용한 양자화
____클라우드 데이터프록상의 구글 클라우드 데이터랩
____빅쿼리를 이용한 개별성 검사
____구글 클라우드 데이터랩의 스파크 SQL
____히스토그램 균일화
____동적으로 클러스터 크기 조절
__피그를 이용한 베이즈 분류법
____클라우드 데이터프록상에서 피그 작업 실행
____훈련일자로 제한
____의사 결정 기준
____베이지안 모델 평가
__요약
7장. 머신 러닝: 스파크에서 로지스틱 회귀 분석
__로지스틱 회귀 분석
____스파크 ML 라이브러리
____스파크 머신 러닝으로 시작
____스파크 로지스틱 회귀 분석
____학습 데이터셋 생성
____코너 케이스 다루기
____학습 예제 생성
____학습
____모델을 사용해 예측
____모델 평가
__피처 엔지니어링
____실험 프레임워크
____보류 데이터셋 생성
____피처 선택
____피처 크기 조정과 클리핑
____피처 변환
____범주형 변수
____확장 가능, 반복 가능, 실시간
__요약
8장. 시간-윈도우 집계 피처
__시간 평균의 필요성
__자바상의 데이터플로우
____개발 환경 구성
____빔으로 필터링
____파이프라인 옵션 및 문자열 I/O
____클라우드에서 실행
____객체로 파싱
__시간 평균 계산
____그룹화 및 조합
____측면 입력으로 병렬 처리
____디버깅
____BigQueryIO
____항공편 객체 변형
____일괄 모드로 슬라이딩 윈도우 계산
____클라우드에서 실행
__모니터링, 트러블 슈팅, 성능 튜닝
____파이프라인 트러블 슈팅
____측면 입력 제한 사항
____파이프라인 재설계
____중복 제거
__요약
9장. 텐서플로를 이용한 머신 러닝 분류기
__좀 더 복잡한 모델을 향해
__텐서플로에서 데이터 읽기
__Experiment 구성
____선형 분류기
____학습 및 평가 입력 함수
____서빙 입력 함수
____Experiment 작성
____학습 실행 수행
____클라우드에서의 분산 학습
__ML 모델 개선
____심층 신경망 모델
____임베딩
____와이드앤딥 모델
____하이퍼파라미터 튜닝
__모델 배포
____모델로 예측
____모델 설명
__요약
10장. 실시간 머신 러닝
__예측 서비스 호출
____요청 및 응답에 대한 자바 클래스
____요청 전송과 응답 파싱
____예측 서비스 클라이언트
__항공편 정보에 예측 추가
____일괄처리 입력 및 출력
____데이터 처리 파이프라인
____비효율성 식별
____일괄처리 요청
__스트리밍 파이프라인
____PCollection 평탄화
____스트리밍 파이프라인 실행
____지연되고 비순차적인 기록
____워터마크와 트리거
__트랜잭션, 처리량, 대기 시간
____가능한 스트리밍 싱크
____클라우드 빅테이블
____테이블 설계
____행의 키 설계
____클라우드 빅테이블로 스트리밍
____클라우드 빅테이블에서 쿼리
__모델 성능 평가
____지속적인 학습의 필요성
____파이프라인 평가
____성능 평가
____한계 분포
____모델 동작 확인
____동작 변화 식별
__요약
__책 요약
부록 A. 머신 러닝 데이터셋 내에서 민감한 데이터의 고려



















