책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 언어 > 파이썬
· ISBN : 9791161754840
· 쪽수 : 768쪽
책 소개
목차
1장. pandas 기초
__pandas 임포트
__소개
__pandas DataFrame
__DataFrame 속성
__데이터 형식 이해
__열 선택
__Series 메서드 호출
__Series 연산
__Series 메서드 체인
__열 이름 변경
__열의 생성과 삭제
2장. 기본 DataFrame 연산
__소개
__여러 DataFrame 열 선택
__메서드를 사용해 열 선택
__열 이름 정렬
__DataFrame 요약
__DataFrame 메서드 체인
__DataFrame 연산
__결측치 비교
__DataFrame 연산 방향 전환
__대학 인종 다양성 지수 결정
3장. DataFrame 생성과 유지
__소개
__스크래치에서 DataFrame 생성
__CSV 작성
__대형 CSV 파일 읽기
__엑셀 파일 사용
__ZIP 파일로 작업
__데이터베이스와 작업
__JSON 파일 읽기
__HTML 테이블 읽기
4장. 데이터 분석 시작
__소개
__데이터 분석 루틴 개발
__데이터 딕셔너리
__데이터 형식 변경으로 메모리 절약
__최대 중에 최소 선택
__정렬해 각 그룹에서 가장 큰 항목 선택
__sort_values를 사용해 nlargest 복제
__추적 지정가 주문 가격 계산
5장. 탐색적 데이터 분석
__소개
__요약 통계량
__열 형식
__예제 구현
__범주형 데이터
__연속 데이터
__범주 간의 연속 값 비교
__두 개의 연속 열 비교
__범주 값과 범주 값 비교
__pandas 프로파일링 라이브러리 사용
6장. 데이터의 부분집합 선택
__소개
__Series 데이터 선택
__DataFrame 행 선택
__DataFrame 행과 열을 동시에 선택
__정수와 레이블 모두로 데이터 선택
__사전식으로 슬라이싱
7장. 행 필터링
__소개
__불리언 통계량 계산
__다중 불리언 조건 구성
__불리언 배열을 사용한 필터링
__행 필터링과 인덱스 필터링 비교
__유일하고 정렬된 인덱스를 사용한 선택
__SQL WHERE 절 해석
__쿼리 메서드를 사용한 불리언 인덱싱의 가독성 향상
__.where 메서드를 사용해 Series 크기 유지
__DataFrame 행 마스킹
__불리언, 정수 위치, 레이블을 사용해 선택
8장. 인덱스 정렬
__소개
__인덱스 객체 검사
__데카르트 곱 생성
__인덱스 폭발
__동일하지 않은 인덱스로 값 채우기
__다른 DataFrame의 열 더하기
__각 열의 최댓값 강조
__메서드 체인으로 idxmax 복제
__열에서 최대 공통 최댓값 찾기
9장. 그룹화를 위한 집계, 여과, 변환
__소개
__집계 정의
__복수 열과 함수를 사용한 그룹화와 집계
__그룹화 후 다중 인덱스 제거
__사용자 정의 집계 함수를 사용한 그룹화
__*args와 **kwargs를 사용한 집계 함수 사용자 정의
__groupby 객체 검사
__소수 인종이 과반인 주를 필터링
__체중 감량 내기를 통한 변신
__apply를 사용해 주별 가중 평균 SAT 점수 계산
__연속 변수를 기준으로 그룹화
__도시 간 총 비행 횟수 계산
__가장 긴 연속 정시 비행 찾기
10장. 정돈된 형식으로 데이터 재구성
__소개
__스택을 사용해 변수 값을 열 이름으로 정돈
__melt를 사용해 변수 값을 열 이름으로 정돈
__여러 변수의 그룹을 동시에 스택
__스택된 데이터 되돌리기
__groupby 집계 후 언스택
__groupby 집계로 pivot_table 복제
__손쉬운 재구성을 위한 축 레벨 이름 변경
__여러 변수가 열 이름으로 저장될 때의 정돈
__여러 변수가 단일 열로 저장될 때 정돈
__둘 이상의 값이 동일 셀에 저장될 때의 정돈
__변수가 열 이름과 값으로 저장됐을 때의 데이터 정돈
11장. pandas 객체 병합
__소개
__DataFrame에 새 행 추가
__여러 DataFrame을 함께 연결
__concat, join, merge의 차이점 이해
__SQL 데이터베이스에 연결
12장. 시계열 분석
__소개
__파이썬과 pandas 날짜 도구의 차이점 이해
__시계열을 지능적으로 슬라이스
__시간 데이터로 열 필터링
__DatetimeIndex에서만 작동하는 메서드 사용
__주간 범죄 수 계산
__주간 범죄와 교통사고를 별도로 집계
__주별, 연도별 범죄 측정
__timeIndex를 사용해 익명 함수로 그룹화
__Timestamp와 다른 열을 기준으로 그룹화
13장. matplotlib, pandas, seaborn을 이용한 시각화
__소개
__matplotlib로 시작
__matplotlib에 대한 객체지향 가이드
__matplotlib로 데이터 시각화
__pandas를 사용한 기본 도식화
__flights 데이터셋 시각화
__새로운 경향을 발견하기 위한 누적 영역 차트
__seaborn과 pandas의 차이점
__seaborn 그리드를 사용한 다변량 분석
__seaborn으로 diamonds 데이터셋의 심슨 역설 발견
14장. pandas 디버깅과 테스트
__데이터를 변환하는 코드
__Apply 성능
__Dask, Pandarell, Swifter 등으로 apply 성능 향상
__코드 검사
__Jupyter에서의 디버깅
__Great Expectations를 이용한 데이터 무결성 관리
__pandas와 함께 pytest 사용
__Hypothesis를 사용해 테스트 생성