logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

데이터 분석가를 위한 데이터 엔지니어링 기초 다지기 with Python

데이터 분석가를 위한 데이터 엔지니어링 기초 다지기 with Python

(2025년 초판)

Evan (지은이)
부크크(bookk)
37,300원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
37,300원 -0% 0원
0원
37,300원 >
yes24 로딩중
교보문고 로딩중
11st 로딩중
영풍문고 로딩중
쿠팡 로딩중
쿠팡로켓 로딩중
G마켓 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
로딩중

책 이미지

데이터 분석가를 위한 데이터 엔지니어링 기초 다지기 with Python
eBook 미리보기

책 정보

· 제목 : 데이터 분석가를 위한 데이터 엔지니어링 기초 다지기 with Python (2025년 초판)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 프로그래밍 기초/개발 방법론
· ISBN : 9791112052599
· 쪽수 : 408쪽
· 출판일 : 2025-09-02

책 소개

『데이터 분석가를 위한 데이터 엔지니어링 기초 다지기 with Python』은 데이터 분석가와 취업 준비생을 위한 실전형 데이터 엔지니어링 입문서이다.

데이터 엔지니어링의 핵심인 ETL(Extract, Transform, Load) 과정을 중심으로, Python과 MySQL, Docker, MongoDB, DuckDB, Milvus, Streamlit, FastAPI 등 다양한 기술을 단계적으로 다루고 있다.

책은 다음과 같은 특징을 가진다
- 개발환경 설정부터 시작: MacOS/Windows 기반 Ubuntu 개발환경, Git, Python, MySQL, Docker까지 다룬다.
- ETL 전 과정 실습: CSV/Excel/JSONL/Web Crawling/API 등 다양한 데이터 소스로부터 데이터를 추출하고, 파이썬과 NumPy/Pandas를 통한 변환, MySQL/NoSQL 적재를 실습한다.
- 멀티스레딩과 최적화: 파이썬 GIL 한계와 우회 전략, 병렬/동시성 처리 기법을 실제 코드와 함께 설명한다.
- 데이터베이스 심화: MySQL 주요 문법, ERD 설계, 파티셔닝, NoSQL 비교, MongoDB 활용법까지 포함한다.
- 실전 프로젝트: DuckDB와 Milvus를 연계한 벡터 검색, Streamlit 기반 이미지 검색, FastAPI 웹앱 구축으로 이어지는 엔드투엔드 ETL 파이프라인 구축을 경험할 수 있다.

목차

# Table of Contents

들어가며** .................................... 10

Chapter 1. 개발환경 설정 (p.12)
- Ubuntu 24.02 LTS 개발환경 설정 (MacOS) ........... 12
- Ubuntu 24.02 LTS 개발환경 설정 (Windows) ......... 16
- 포트포워딩(Port Fowarding) ...................... 17
- Git 설정하기 .................................... 20
- Python 개발환경 설정 ............................ 23
- MySQL 설치 및 기본 설정 ........................ 28
- Docker 설치 및 설정 ............................ 35

Chapter 2. ETL 을 위한 Python 기초 문법 (p.41)
- ETL 개요 ....................................... 41
- 왜 ETL 에 파이썬을 사용할까? .................... 42
- 예시 1 : 서버 로그 데이터 모으기 ................ 45
- 예시 2 : API 연동을 통한 데이터 추출 ............ 46
- 멀티스레딩을 위한 파이썬 기초 문법 .............. 47

Chapter 3. 파이썬 멀티스레딩 (p.53)
- 스레드 생성 및 관리의 기초 ........................ 54
- 파이썬 GIL 과 병렬 처리의 한계 .................. 61
- GIL 우회 및 효율적인 병렬/동시성 처리 전략 ........ 62
- 단일 프로세스 vs 멀티 프로세스 .................. 65

Chapter 4. 데이터 추출(Extract) (p.71)
- CSV 파일 기반 데이터 추출 ........................ 71
- Excel 기반 데이터 추출 ........................... 84
- JSONL 기반 데이터 추출 ........................... 92
- Web Crawling (requests, BeautifulSoup) ........ 105
- OpenWeatherMap API Crawling .................. 118
- MySQL 데이터 수집 .............................. 129

Chapter 5. MySQL 주요 문법 (p.144)
- MySQL 의 핵심 역할 탐색 .......................... 144
- MySQL Tutorial 소개 ............................. 147
- Sample Database 생성 ............................ 148
- ERD 개념 및 활용 방안 ........................... 151
- MySQL 주요 문법 ................................ 156
- 아파트 실거래가 연도별 데이터 수집 파티셔닝 ...... 174
- 파티셔닝된 데이터를 활용한 효율적인 분석 .......... 179

Chapter 6. 데이터 변환(Transform) (p.186)
- 문자열 데이터 처리(String Processing) ........... 188
- 정규 표현식의 이해와 활용 ....................... 190
- NumPy 벡터화 원리, 필요성, 구현 .................. 196
- Pandas 와 NumPy 벡터화 벤치마크 분석 ............ 202
- NumPy 활용한 결측치 처리 ........................ 209
- 데이터 프레임 처리 ? 컬럼 변형 및 타입 변환 ....... 231
- 데이터 프레임 처리 ? 날짜 및 시간 처리 .......... 243
- 시계열 데이터 프레임 다루기 실전 예제 ............ 265

Chapter 7. 데이터 적재(Load) (p.274)
- ETL 에서 적재(Load)의 필요성 .................... 274
- 파이썬과 데이터베이스의 만남 .................... 275
- 실무 로그 데이터 수집 및 처리 ................... 294
- Parquet 에서 MySQL 로그데이터 저장 .............. 308
- NoSQL 데이터베이스 비교 분석 .................... 312
- MongoDB 를 활용한 에러 로그 저장 ................ 318

Chapter 8. ETL 파이프라인 구축과 벡터 검색 실전 예제 (p.346)
- 전체 시스템 개요 ................................ 346
- 다중 데이터베이스 접근 방식 ..................... 347
- 주요 핵심 기술 및 역할 .......................... 348
- 데이터 수집 과정(Extract) ........................ 349
- 데이터 변환 및 적재 과정(Transform & Load) ...... 361
- DuckDB 와 Milvus 적재 이원화 .................... 393
- Streamlit 이미지 검색 예제 ...................... 400
- FastAPI 와 Streamlit 활용한 웹앱 구축 ............ 403

저자소개

Evan (지은이)    정보 더보기
인문학 석사 2개를 시작/졸업하고, 전공과 완전히 다른 IT/빅데이터 업계에서 7년 가까이 종사하고 있다. 멀티캠퍼스 등을 포함한 복수의 기관에서 취업준비생 및 재직자 대상으로 강의를 주 업으로 하고 있으며, 2023년부터는 관련 분야를 심도 있게 공부하기 위해 국민대학교 대학원에서 비즈니스 IT 전문대학원에서 박사전공을 시작했다. Evan은 비전공자 취업준비생들의 취업을 "진심"으로 돕고 있다. 주요 저서로는 필리핀 스타트업의 기업가적 지향성과 기업성과에 관한 연구 : 사회적 자본의 매개 효과 (한국 벤처창업학회, 2021, KCI 등재), 파이썬으로 캐글 뽀개기 (비제이퍼블릭, 2021) Streamlit으로 프로젝트 한방에 끝내기 with 파이썬 (부크크, 2023, 2024, 2025) Python Polars 레시피 50제 (부크크, 2025)
펼치기

추천도서

이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책