LUVIT♥ 폴라스로 시작하는 데이터 분석

책 이미지

eBook 미리보기

책 정보

· 제목 : LUVIT♥ 폴라스로 시작하는 데이터 분석 (영화와 음악 데이터를 활용한 EDA부터 시각화, 인사이트 도출까지)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 자료구조/알고리즘
· ISBN : 9791194587972
· 쪽수 : 372쪽
· 출판일 : 2026-01-15

책 소개

대용량 데이터에서 팬더스의 한계를 느낀 분석가를 위한 책이다. 폴라스를 중심으로 더 빠르고 간결한 데이터 분석 방법을 실제 사례로 안내한다.

같은 데이터를 더 빠르게 분석하는 방법
이 책은 실제 데이터를 다루는 분석 과정 속에서 폴라스의 장점을 보여줍니다. 영화 박스오피스 데이터를 바탕으로 〈파묘〉, 〈범죄도시4〉, 〈인사이드 아웃 2〉 등의 사례를 통해 흥행 흐름을 살펴보고, 로제의 〈APT.〉를 포함한 스포티파이 데이터를 활용해 음악 트렌드를 분석합니다. 같은 데이터를 사용하더라도 분석 속도와 코드 구조가 어떻게 달라지는지를 직접 확인하며, 폴라스가 왜 더 빠르고 간결한 분석을 가능하게 하는지 자연스럽게 이해하도록 구성했습니다.

이 책만의 특별한 점
폴라스는 빠르지만 낯선 도구입니다. 이 책은 그 낯섦을 줄이는 데서 출발합니다. 처음부터 모든 개념을 이해하려 애쓰지 않아도 데이터를 불러오고 정리하고 계산하는 과정을 따라가다 보면 폴라스의 사용 방식과 장점이 자연스럽게 드러나도록 구성했습니다. 설명을 먼저 읽고 외우기보다 코드를 실행하고 결과를 확인하면서 '이렇게 달라지는구나'를 체감하는 데 초점을 맞췄습니다. 덕분에 새로운 분석 도구에 부담을 느끼는 독자도 흐름을 놓치지 않고 끝까지 따라갈 수 있습니다.
결과보다 흐름을 이해하는 데이터 분석
이 책은 '빠르다'는 결론을 먼저 보여주지 않습니다. 데이터를 불러오고, 정리하고, 계산하고, 다시 가공하는 흐름 속에서 폴라스의 처리 방식이 어떻게 차이를 만드는지를 단계별로 살펴봅니다.
실무에 가까운 데이터로 진행하는 분석
교과서용 예제가 아니라 실제로 분석해볼 만한 영화 및 음악 데이터를 사용합니다. 도구 학습에 그치지 않고, 데이터 분석의 맥락을 함께 이해할 수 있습니다.
팬더스와 나란히 놓고 비교하는 접근
익숙한 팬더스 방식과 폴라스의 접근법을 함께 살펴보며, 실행 속도와 메모리 사용, 코드 구조의 차이를 직접 확인합니다. 단순한 문법 비교가 아니라 분석 방식이 어떻게 달라지는지를 중심으로 설명합니다.
대용량 데이터를 염두에 둔 설계 관점
지연 평가, 병렬처리, 타입 안정성 같은 폴라스의 핵심 개념을 실제 분석 흐름 속에서 다룹니다. 데이터 규모가 커질수록 왜 이런 구조가 필요한지를 자연스럽게 연결합니다.

이 책은 누가 읽으면 좋을까요?
파이썬 기초가 있고 데이터 분석에 입문하고자 하는 독자
팬더스를 사용해왔으나 성능 한계를 느낀 독자
실무에서 탐색적 데이터 분석을 수행하고자 하는 독자

이 책에서 다루는 내용은 무엇인가요?
폴라스 개념과 팬더스와의 차이점 비교
폴라스 설치 및 데이터프레임 구조 이해
표현식 기반 API의 개념과 활용법
지연 실행과 성능 최적화 기법
그룹화, 피벗, 조인, 필터링 등 주요 기능 실습
Plotly를 활용한 데이터 시각화
다양한 파일 포맷 및 외부 데이터 연결 실습
실전 프로젝트: 영화 및 음악 데이터로 포트폴리오 만들기

머리말 viii
베타리더 후기 x
이 책을 읽는 법 xii
학습 가이드 xvi
로드맵 xviii

PART 1 데이터로 세상을 읽는 시대
CHAPTER 1 데이터 사이언스란?
1.1 데이터 사이언스 프로세스 4
1.2 데이터 사이언스 도구 16
1.3 빅데이터 생태계 이해하기 23
돌아보기/쪽지시험 29

CHAPTER 2 파이썬이란?
2.1 파이썬 들어가기 31
2.2 파이썬 설치와 파이썬 사용 도구 32
2.3 파이썬 데이터 다루기: 팬더스의 기초 41
2.4 팬더스의 한계 48
돌아보기/쪽지시험 50

PART 2 폴라스 들여다보기: 빠르고 거대한 데이터 분석 도구
CHAPTER 3 폴라스란?
3.1 폴라스의 목표 54
3.2 폴라스의 구조 56
3.3 폴라스의 특징 59
3.4 팬더스 vs. 폴라스 62
돌아보기/쪽지시험 66

CHAPTER 4 폴라스 깊이 있게 배우기
4.1 폴라스 설치 68
4.2 폴라스 데이터 타입 69
4.3 폴라스 데이터 구조 74
4.4 표현식 78
4.5 콘텍스트 102
4.5 지연 연산 107
돌아보기/쪽지시험 113

PART 3 데이터로 보는 영화: 영화 속에 담긴 데이터
CHAPTER 5 처음 만나는 영화 데이터, 구조부터 살펴보기
5.1 영화의 흥행 성적표 살펴보기 118
5.2 다양한 방식으로 영화 데이터 가져오기 121
5.3 다양한 형식으로 영화 데이터프레임 바꿔보기 134
5.4 영화 데이터로 데이터프레임 구조 들여다보기 139
5.5 데이터를 이루는 열 정보 확인하기 145
돌아보기/쪽지시험 149

CHAPTER 6 폴라스 데이터프레임으로 영화 데이터 만져보기
6.1 영화 데이터프레임 전체 흐름 잡기 151
6.2 열로 영화 정보 정리하고 가공하기 155
6.3 다양한 필터링 방법으로 영화 데이터 골라내기 169
6.4 영화 데이터를 그룹별로 묶어 분석하기 182
돌아보기/쪽지시험 199

CHAPTER 7 폴라스 데이터프레임으로 영화 데이터 구조 바꾸기
7.1 데이터프레임 조인으로 분리된 영화 데이터 연결하기 201
7.2 데이터프레임 연결로 영화 데이터 이어 붙이기 214
7.3 데이터프레임 피벗과 언피벗으로 영화 데이터 구조 바꾸기 218
돌아보기/쪽지시험 224

CHAPTER 8 폴라스로 영화 데이터 생생하게 그리기
8.1 폴라스 시각화의 특징 알아보기 226
8.2 폴라스로 손쉽게 데이터 시각화하기 227
8.3 영화 데이터를 시각적으로 풍부하게 표현하기 231
8.4 폴라스 표로 영화 데이터 정확하게 시각화하기 256
돌아보기/쪽지시험 281

PART 4 데이터로 듣는 음악: 음악 속에 담긴 데이터
CHAPTER 9 스포티파이 음악 데이터를 탐색적으로 분석하기
9.1 스포티파이 음악 데이터셋 준비하기 286
9.2 EDA를 위한 데이터 준비하기 289
9.3 파생 데이터 만들기 296
돌아보기/쪽지시험 302

CHAPTER 10 스포티파이 음악 데이터로 인사이트 도출하기
10.1 스포티파이 숫자 데이터로 국가별 인기도 분포 분석하기 304
10.2 수치형 변수 간 상관관계와 회귀분석하기 320
10.3 스포티파이 데이터로 글로벌 인기도 파악하기 326
돌아보기/쪽지시험 343

용어집 345
찾아보기 349

저자소개

이기준 (지은이) 정보 더보기

한국항공대학교에서 컴퓨터공학으로 박사 학위를 받았다. 한국교육개발원(KEDI)에서 유/초/중/고 및 대학의 국가교육통계 데이터의 디지털화를 시작으로 20여 년간 국가교육통계 데이터 조사, 관리, 분석과 서비스 시스템의 기획, 개발, 운영, 관리의 전 분야를 실무부터 총괄까지 수행했다. KEDI에서 교육통계센터소장 및 국가교육통계연구본부장 등을 역임했고, 미국 보이시 주립대학교(Boise State University) 교육공학과에서 연수했으며, 현재 한국교육개발원 정보화실장으로 근무 중이다. 이 밖에도 과학기술정보통신부 인공지능 윤리정책 포럼위원, 대통령직속 4차산업혁명위원회 자문위원, 교육부 인공지능 교육정책 자문위원, 통계청 통계분류 자문위원, 2018 평창동계올림픽 IT 자문위원 등으로 활동했다. 주로 교육통계 데이터를 활용한 데이터 분석 연구와 교육통계 데이터 시스템 기획 및 구축 관련 연구를 수행했다. 저서로 2022년 세종도서 학술부문 우수도서에 선정된 《실전에서 바로 쓰는 시계열 데이터 처리와 분석 in R》(제이펍, 2021)이 있고, 공저서로 《메타버스 유니버시티》(동문사, 2023)가 있다.

펼치기

이기준의 다른 책 >

책속에서

파이썬에서 데이터 분석을 위해 가장 많이 사용되는 팬더스이지만, 데이터 분석의 범위가 점점 광범위해지고 초보자에서 중급, 고급 사용자로 넘어가게 될수록 팬더스의 한계를 느끼게 됩니다. 팬더스로 처리하는 데이터의 크기가 커지면 커질수록 속도나 메모리 효율에 대한 성능 저하가 나타납니다. 이에 대한 가장 큰 원인으로 지목되는 것이 단일 스레드만 지원하는 팬더스의 특성입니다. (...) 비효율성 때문에 팬더스는 소형 데이터로 초급 과정의 분석가에게는 배우기 쉬운 매우 효율적인 패키지 라이브러리임에는 분명하지만, 점점 그 한계가 분석가의 발목을 잡는 패키지 라이브러리인 것도 분명합니다.

폴라스는 인메모리 컬럼형 데이터 형식인 아파치 애로를 사용함으로써 테이블 형태의 데이터를 메모리에 로딩하는 데 매우 효율적입니다. 이렇게 테이블 중심의 구조, 열 기반 메모리 구조는 일반적인 데이터베이스, 데이터프레임의 사용 방식과 다른 통계, 머신러닝 기반 데이터 분석 작업에 사용되는 알고리즘에도 효율적인 계산을 실행할 수 있습니다. 반면 팬더스는 행 기반 형식을 사용하므로 대규모 데이터셋 작업 시 메모리 효율성이 떨어집니다.