책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 자료구조/알고리즘
· ISBN : 9791194587972
· 쪽수 : 372쪽
· 출판일 : 2026-01-15
책 소개
목차
머리말 viii
베타리더 후기 x
이 책을 읽는 법 xii
학습 가이드 xvi
로드맵 xviii
PART 1 데이터로 세상을 읽는 시대
CHAPTER 1 데이터 사이언스란?
1.1 데이터 사이언스 프로세스 4
1.2 데이터 사이언스 도구 16
1.3 빅데이터 생태계 이해하기 23
돌아보기/쪽지시험 29
CHAPTER 2 파이썬이란?
2.1 파이썬 들어가기 31
2.2 파이썬 설치와 파이썬 사용 도구 32
2.3 파이썬 데이터 다루기: 팬더스의 기초 41
2.4 팬더스의 한계 48
돌아보기/쪽지시험 50
PART 2 폴라스 들여다보기: 빠르고 거대한 데이터 분석 도구
CHAPTER 3 폴라스란?
3.1 폴라스의 목표 54
3.2 폴라스의 구조 56
3.3 폴라스의 특징 59
3.4 팬더스 vs. 폴라스 62
돌아보기/쪽지시험 66
CHAPTER 4 폴라스 깊이 있게 배우기
4.1 폴라스 설치 68
4.2 폴라스 데이터 타입 69
4.3 폴라스 데이터 구조 74
4.4 표현식 78
4.5 콘텍스트 102
4.5 지연 연산 107
돌아보기/쪽지시험 113
PART 3 데이터로 보는 영화: 영화 속에 담긴 데이터
CHAPTER 5 처음 만나는 영화 데이터, 구조부터 살펴보기
5.1 영화의 흥행 성적표 살펴보기 118
5.2 다양한 방식으로 영화 데이터 가져오기 121
5.3 다양한 형식으로 영화 데이터프레임 바꿔보기 134
5.4 영화 데이터로 데이터프레임 구조 들여다보기 139
5.5 데이터를 이루는 열 정보 확인하기 145
돌아보기/쪽지시험 149
CHAPTER 6 폴라스 데이터프레임으로 영화 데이터 만져보기
6.1 영화 데이터프레임 전체 흐름 잡기 151
6.2 열로 영화 정보 정리하고 가공하기 155
6.3 다양한 필터링 방법으로 영화 데이터 골라내기 169
6.4 영화 데이터를 그룹별로 묶어 분석하기 182
돌아보기/쪽지시험 199
CHAPTER 7 폴라스 데이터프레임으로 영화 데이터 구조 바꾸기
7.1 데이터프레임 조인으로 분리된 영화 데이터 연결하기 201
7.2 데이터프레임 연결로 영화 데이터 이어 붙이기 214
7.3 데이터프레임 피벗과 언피벗으로 영화 데이터 구조 바꾸기 218
돌아보기/쪽지시험 224
CHAPTER 8 폴라스로 영화 데이터 생생하게 그리기
8.1 폴라스 시각화의 특징 알아보기 226
8.2 폴라스로 손쉽게 데이터 시각화하기 227
8.3 영화 데이터를 시각적으로 풍부하게 표현하기 231
8.4 폴라스 표로 영화 데이터 정확하게 시각화하기 256
돌아보기/쪽지시험 281
PART 4 데이터로 듣는 음악: 음악 속에 담긴 데이터
CHAPTER 9 스포티파이 음악 데이터를 탐색적으로 분석하기
9.1 스포티파이 음악 데이터셋 준비하기 286
9.2 EDA를 위한 데이터 준비하기 289
9.3 파생 데이터 만들기 296
돌아보기/쪽지시험 302
CHAPTER 10 스포티파이 음악 데이터로 인사이트 도출하기
10.1 스포티파이 숫자 데이터로 국가별 인기도 분포 분석하기 304
10.2 수치형 변수 간 상관관계와 회귀분석하기 320
10.3 스포티파이 데이터로 글로벌 인기도 파악하기 326
돌아보기/쪽지시험 343
용어집 345
찾아보기 349
저자소개
책속에서

파이썬에서 데이터 분석을 위해 가장 많이 사용되는 팬더스이지만, 데이터 분석의 범위가 점점 광범위해지고 초보자에서 중급, 고급 사용자로 넘어가게 될수록 팬더스의 한계를 느끼게 됩니다. 팬더스로 처리하는 데이터의 크기가 커지면 커질수록 속도나 메모리 효율에 대한 성능 저하가 나타납니다. 이에 대한 가장 큰 원인으로 지목되는 것이 단일 스레드만 지원하는 팬더스의 특성입니다. (...) 비효율성 때문에 팬더스는 소형 데이터로 초급 과정의 분석가에게는 배우기 쉬운 매우 효율적인 패키지 라이브러리임에는 분명하지만, 점점 그 한계가 분석가의 발목을 잡는 패키지 라이브러리인 것도 분명합니다.
폴라스는 인메모리 컬럼형 데이터 형식인 아파치 애로를 사용함으로써 테이블 형태의 데이터를 메모리에 로딩하는 데 매우 효율적입니다. 이렇게 테이블 중심의 구조, 열 기반 메모리 구조는 일반적인 데이터베이스, 데이터프레임의 사용 방식과 다른 통계, 머신러닝 기반 데이터 분석 작업에 사용되는 알고리즘에도 효율적인 계산을 실행할 수 있습니다. 반면 팬더스는 행 기반 형식을 사용하므로 대규모 데이터셋 작업 시 메모리 효율성이 떨어집니다.



















