logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

데이터 과학 효율을 높이는 데이터 클리닝

데이터 과학 효율을 높이는 데이터 클리닝

(불량 데이터의 문제를 발견하고 해결하는 방법)

데이비드 메르츠 (지은이), 유동하 (옮긴이)
에이콘출판
40,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
36,000원 -10% 0원
2,000원
34,000원 >
yes24 로딩중
교보문고 로딩중
11st 로딩중
영풍문고 로딩중
쿠팡 로딩중
쿠팡로켓 로딩중
G마켓 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
aladin 32,000원 -10% 1600원 27,200원 >

책 이미지

데이터 과학 효율을 높이는 데이터 클리닝
eBook 미리보기

책 정보

· 제목 : 데이터 과학 효율을 높이는 데이터 클리닝 (불량 데이터의 문제를 발견하고 해결하는 방법)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 데이터베이스 개론
· ISBN : 9791161757094
· 쪽수 : 628쪽
· 출판일 : 2023-01-31

책 소개

데이터 과학자라면 피할 수 없는 데이터 클리닝 작업은 수집과 분석, 정제에 이르기까지 데이터 과학의 효율을 높이는 일반적인 절차다. 기존 책들이 주로 첫 장에서만 다루던 데이터 준비 과정에 대한 필수 내용을 구체화했고, 실제 데이터 과학에서 응용할 수 있는 기술을 전달한다.

목차

1부. 데이터 수집
1장. 테이블 형식
__정리
__CSV
____온전성 검사
____좋은 데이터, 나쁜 데이터, 텍스트 데이터
______나쁜 데이터
______좋은 데이터
__유해하다고 간주되는 스프레드시트
__SQL RDBMS
____데이터 타입 다듬기
____R에서 반복
____SQL이 잘못되는 위치(및 이것을 확인하는 방법)
__기타 형식
____HDF5와 NetCDF-4
______도구와 라이브러리
____SQLite
____아파치 파켓
__데이터 프레임
____스파크/스칼라
____판다스와 파생된 래퍼
____Vaex
____R의 데이터 프레임(Tidyverse)
____R의 데이터 프레임(data.table)
____흥미로운 Bash
__연습
____엑셀 데이터 정리
____SQL 데이터 정리
__대단원

2장. 계층적 형식
__JSON
____JSON의 모습
____NaN 처리와 데이터 타입
____JSON Lines
____GeoJSON
____깔끔한 지리
____JSON 스키마
__XML
____사용자 레코드
____키홀 마크업 언어
__구성 파일
____INI와 플랫 사용자 정의 형식
____TOML
____YAML
__NoSQL 데이터베이스
____문서 지향 데이터베이스
______누락된 필드
______비정규화와 비정규화의 불만
____키/값 저장소
__연습
____채워진 영역 탐색
____관계형 모델 생성
__대단원

3장. 데이터 소스의 목적 변경
__웹 스크래핑
____HTML 테이블
____테이블 형식이 아닌 데이터
____커맨드라인 스크래핑
__PDF
__이미지 형식
____픽셀 통계
____채널 조작
____메타데이터
__바이너리 직렬화된 데이터 구조
__사용자 정의 텍스트 형식
____구조화된 로그
____문자 인코딩
__연습
____NPY 파서 향상
____웹 트래픽 스크래핑
__대단원

2부. 오류의 변천
4장 이상 징후 감지
__결측 데이터
____SQL
____계층적 형식
____센티넬
__잘못 코딩된 데이터
__고정된 한도
__아웃라이어
____z-스코어
____사분위수 범위
__다변량 아웃라이어
__연습
____유명한 실험
____철자가 틀린 단어
__대단원

5장. 데이터 품질
__결측 데이터
__편향적인 트렌드
____편향 이해
____편향 감지
____기준선과 비교
____벤포드의 법칙
__클래스 불균형
__정규화과 스케일링
____머신러닝 모델 적용
____스케일링 기술
____요인 및 샘플 가중치
__주기성과 자기 상관관계
____도메인 지식 트렌드
____발견된 주기
__비스포크 검증
____콜레이션 검증
____트랜스크립션 검증
__연습
____데이터 특성화
____오버샘플링된 여론 조사
__대단원

3부. 수정과 참조
6장. 값 보정
__전형적인 값 보정
____전형적인 테이블 형식 데이터
____지역성 보정
__트렌드 보정
____트렌드 타입
____더 크게 얽힌 시계열
______데이터 이해
______사용할 수 없는 데이터 제거
______일관성 보정
______보간법
____비시간적 트렌드
__샘플링
____언더샘플링
____오버샘플링
__연습
____대체 트렌드 보정
____다중 특징 밸런싱
__대단원

7장. 피처 엔지니어링
__날짜/시간 필드
____날짜 시간 만들기
____규칙성 부여
____중복된 타임스탬프
____타임스탬프 추가
__문자열 필드
____퍼지 매칭
____명시적 범주
__문자열 벡터
____분해
____로테이션과 화이트닝
____차원 축소
____시각화
__양자화와 이진화
__원핫 인코딩
__다항식 특징
____합성 특징 생성
____특징 선택
__연습
____간헐적 발생
____레벨 특성화
__대단원

4부. 부록
A. 마치며
__여러분이 아는 것
__여러분이 아직 모르는 것
B. 용어 사전

저자소개

데이비드 메르츠 (지은이)    정보 더보기
25년이라는 오랜 시간 동안 파이썬 커뮤니티의 일원으로 활동하고 있으며, 파이썬 언어의 발전을 밀접하게 따라오면서 버전별 변경 사항에 대해 기조 강연을 하고, 프로그래밍 초보자, 다른 언어 기반의 개발자, 데이터 과학자에게 파이썬을 가르쳤습니다. 개발자와 데이터 과학자에게 기계 학습과 과학 컴퓨팅을 교육하는 KDM Training의 설립자로, Anaconda Inc.를 위한 데이터 과학 교육 프로그램을 만들었으며 수석 교육자로 활동하였습니다. 깊은 신경망(deep neural network)의 등장과 함께 로봇 지배자를 교육하는 데도 눈을 돌려 D.E. Shaw Research에서 8년 동안 근무했습니다. 6년 동안 PSF의 이사로 활동했으며, 지금도 PSF의 상표 위원회와 과학 파이썬 작업 그룹의 공동 의장을 맡고 있습니다. 2000년대에 쓴 ‘매력적인 파이썬(Charming Python)’과 ‘XML 문제(XML matters)’ 칼럼은 파이썬 세계에서 가장 널리 읽힌 글입니다. 팩트(Packt), 오라일리(O'Reilly), 애디슨 웨슬리(Addison-Wesley)를 통해 집필서를 출간했으며, 여러 국제 프로그래밍 회의에서 기조연설을 했습니다. 저서: https://gnosis.cx/publish/resumes/david-mertz-publications.pdf 이력: https://gnosis.cx/publish/resumes/david-mertz-resume.pdf
펼치기
유동하 (옮긴이)    정보 더보기
디지털 분석 기업 넷스루에서 전략 기획을 담당하며, 구글 애널리틱스 공식 인증 파트너가 되도록 기여했다. 서울과학종합대학원(aSSIST)과 한국외국어대학교 경영대학원에서 웹 마이닝 과목을 가르쳤다. 그 외에도 네이버 사내 강의와 검색 광고주 대상으로 웹 분석과 관련된 강의를 했으며, 대학에서 인터넷 마케팅을 강의했다. 국내외 게임 회사와 인터넷 쇼핑몰, 금융권, 공공기관 등의 웹 분석 프로젝트를 수행했으며, 월간지에 데이터 마이닝과 웹 마이닝 주제로 강좌를 연재했고 인터넷 광고 측정에 관한 칼럼을 쓰기도 했다. 옮긴 책으로는 『데이터 과학자가 되는 핵심 기술』(에이콘, 2017), 『데이터 과학 효율을 높이는 데이터 클리닝』(에이콘, 2023)이 있다.
펼치기

추천도서

이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책
9791161759005