Pandas로 하는 데이터 과학 2/e

책 이미지

eBook 미리보기

책 정보

· 제목 : Pandas로 하는 데이터 과학 2/e (파이썬 통계 분석 라이브러리)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 데이터베이스 개론
· ISBN : 9791161752136
· 쪽수 : 472쪽
· 출판일 : 2018-09-27

책 소개

파이썬 기반의 통계 패키지인 Pandas는 고성능의 데이터 구조를 제공함으로써 데이터 탐색과 분석을 매우 용이하게 해주는, 데이터 분석가의 효율적인 도구다. 이 책은 Pandas 라이브러리의 완전한 기능을 배움으로써 효율적인 데이터 조작과 분석의 길로 안내한다.

1장. pandas와 데이터 분석
__pandas 소개
__데이터 조작, 분석, 과학과 pandas
____데이터 조작
____데이터 분석
____데이터 과학
____pandas의 적정 영역
__데이터 분석 프로세스
____프로세스
__이 책에서 각 단계의 관련 위치
__pandas 여행을 위한 데이터와 분석의 개념
____데이터 유형
____변수
____시계열 데이터
____분석과 통계의 기초 개념
__기타 유용한 파이썬 라이브러리
____수학과 과학: NumPy와 SciPy
____통계 분석: StatsModels
____머신 러닝: scikit-learn
____스토캐스틱 베이지안 모델링: PyMC
____데이터 시각화: matplotlib과 seaborn
__정리

2장. pandas의 설치와 가동
__아나콘다 설치
__아이파이썬과 주피터 노트북
____아이파이썬
____주피터 노트북
__pandas Series와 데이터 프레임 소개
____pandas의 임포트
____pandas Series
____pandas DataFrame
____데이터 프레임으로 파일 데이터 로딩
__시각화
__정리

3장. Series로 단변량 데이터 표현
__pandas 설정
__Series 생성
____파이썬 리스트와 딕셔너리를 사용한 생성
____NumPy 함수를 사용한 생성
____스칼라 값을 사용한 생성
__.index와 .values 속성
__Series의 크기와 형태
__생성 시 인덱스 지정
__head, tail, take
__레이블과 포지션으로 값 가져오기
____[] 연산자와 .ix[] 속성을 사용하는 레이블 검색
____.iloc[]을 사용하는 명시적 포지션 검색
____.loc[]을 사용하는 명시적 레이블 검색
__서브셋으로 Series 슬라이싱
__인덱스 레이블을 통한 정렬
__불리언 선택
__리인덱싱
__시리즈 즉석 변경
__정리

4장. DataFrame으로 단변량 데이터 표현
__pandas 설정
__데이터 프레임 객체 생성
____NumPy 함수로 데이터 프레임 만들기
____파이썬 딕셔너리와 pandas Series로 DataFrame 만들기
____CSV로 DataFrame 만들기
__DataFrame 안의 데이터 접근
____DataFrame의 칼럼 선택
____데이터 프레임의 로우 선택
____.at[]이나 .iat[]을 사용해 레이블이나 위치로 스칼라 검색
____[] 연산자를 사용한 슬라이싱
__불리언 선택을 통한 로우 선택
__로우와 칼럼의 동시 선택
__정리

5장. DataFrame 구조 다루기
__pandas 설정
__칼럼명 변경
__[]와 .insert()를 사용한 칼럼 추가
__확장을 통한 칼럼 추가
__접합을 통한 칼럼 추가
__칼럼 재배열
__칼럼의 콘텐츠 교체
__칼럼 삭제
__새 로우 추가
__로우 접합
__확장을 통한 로우 추가 및 교체
__을 .drop() 사용한 로우 삭제
__불리언 선택을 통한 로우 삭제
__슬라이싱을 통한 로우 삭제
__정리

6장. 데이터 인덱싱
__pandas 설정
__인덱스의 중요성
__인덱스 유형
____기본 유형: Index
____정수 유형: Int64Index와 RangeIndex
____부동소수점 유형: Float64Index
____이산 간격 유형: IntervalIndex
____범주형: CategoricalIndex
____날짜 및 시간 유형: DatetimeIndex
____기간 유형: PeriodIndex
__인덱스로 작업
____시리즈와 데이터 프레임에서의 인덱스 생성과 사용
____인덱스로 값 선택
____인덱스 사이의 데이터 이동
____pandas 객체의 리인덱싱
__계층형 인덱스
__정리

7장. 범주형 데이터
__pandas 설정
__Categorical 생성
__범주 이름 변경
__새 범주 추가
__범주 삭제
__미사용 범주 삭제
__범주 설정
__Categorical의 기술 통계 정보
__성적 데이터 가공
__정리

8장. 수치 해석과 통계 기법
__pandas 설정
__수치 계산법
____DataFrame과 Series의 산술 연산
____값의 개수 세기
____고윳값과 그 개수
____최솟값과 최댓값 찾기
____n개 최솟값과 n개 최댓값 찾기
____누적 값 계산
__pandas 객체의 통계 처리
____약식 기술 통계
____중심 경향성 측정: 평균, 중위수, 최빈수
____분산과 표준 편차 계산
____공분산과 상관관계
____이산화와 분위수
____값 순위 계산
____각 표본의 변동률 계산
____롤링 윈도우 작업
____무작위 표집
__정리

9장. 데이터 접근
__pandas 설정
__CSV, 텍스트, 테이블 형식의 데이터
____CSV 데이터셋 예제 확인
____CSV를 데이터 프레임으로 로딩
____CSV 로딩 시 인덱스 칼럼 지정
____데이터 타입의 추론과 지정
____칼럼명 지정
____특정 칼럼의 로딩
____데이터 프레임을 CSV 파일로 저장
____필드 구분 데이터로 작업
____필드 구분 데이터의 다양한 형식 다루기
__엑셀 데이터의 읽기와 쓰기
__JSON 파일의 읽기와 쓰기
__HTML 데이터 읽기
__HDF5 파일의 읽기와 쓰기
__웹을 통한 CSV 데이터 접근
__데이터베이스의 읽기와 쓰기
__원격 데이터 서비스로부터 데이터 읽기
____야후!와 구글로부터 주식 데이터 읽기
____구글 파이낸스의 옵션 데이터 가져오기
____세인트루이스 연방준비은행의 FRED 데이터 가져오기
____케네스 프렌치 데이터에 접근
____세계은행의 데이터 읽기
__정리

10장. 데이터 정돈
__pandas 설정
__데이터 정돈이란?
__결측 데이터 다루기
____NaN 값 찾기
____결측 데이터의 판별과 삭제
____수학 연산에서의 NaN 처리 방식
____결측 데이터 보강
____결측 값 채우기
____인덱스 레이블을 사용한 채우기
____보간법을 사용한 결측 값 채우기
__중복 데이터 다루기
__데이터 변형
____데이터를 다른 인덱스에 매핑
____데이터 대체
____데이터 변형을 위한 함수 적용
__정리

저자소개

마이클 헤이트 (지은이) 정보 더보기

십수 년의 전문 소프트웨어 개발과 금융 및 상품 거래 경험을 갖춘 기술자이자 사업가이며 교육자다. 오랫동안 월스트리트에서 행위자 기반의 병행 및 분산 시스템이자 고성능과 고가용성을 갖춘 금융 거래 시스템 개발 업무를 했다. 또한 금융 및 상품 거래를 위한 클라우드 방식의 마이크로서비스 기반 소프트웨어 솔루션 제작을 주로 하는 마이크로 트레이딩 서비스(Micro Trading Services)라는 기업의 창업자다. 드렉셀대학교에서 수학 및 컴퓨터 과학 석사 학위를 취득하고 펜실베니아대학교 와튼 스쿨에서 기술 경영 석사 학위를 취득했다.

펼치기

마이클 헤이트의 다른 책 >