logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

파이썬 웹 스크래핑 2/e

파이썬 웹 스크래핑 2/e

(수많은 데이터 사이에서 필요한 정보 수집하기)

캐서린 자멀, 리처드 로손 (지은이), 김용환 (옮긴이)
에이콘출판
25,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
22,500원 -10% 0원
1,250원
21,250원 >
yes24 로딩중
교보문고 로딩중
11st 로딩중
영풍문고 로딩중
쿠팡 로딩중
쿠팡로켓 로딩중
G마켓 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
로딩중

책 이미지

파이썬 웹 스크래핑 2/e
eBook 미리보기

책 정보

· 제목 : 파이썬 웹 스크래핑 2/e (수많은 데이터 사이에서 필요한 정보 수집하기)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 언어 > 파이썬
· ISBN : 9791161752525
· 쪽수 : 272쪽
· 출판일 : 2018-12-31

책 소개

파이썬 3.7의 최신 기능을 사용해 웹 사이트에서 데이터를 스크래핑할 수 있는 최고의 가이드를 제공한다. 저자가 운영하는 예시 웹 사이트를 기반으로 스크래핑 테스트를 진행할 수 있다.

목차

1장. 웹 스크래핑 소개
__웹 스크래핑이 유용한 시점은 언제일까?
__웹 스크래핑은 합법적인가?
__파이썬 3
__웹 사이트 조사
____robots.txt 확인하기
____사이트맵 확인하기
____웹 사이트 규모 추정하기
____웹 사이트에 사용하는 기술을 식별하기
____웹 사이트의 소유자 찾기
__첫 번째 웹 사이트 크롤링하기
____스크래핑과 크롤링
____웹 페이지 다운로드하기
________다운로드 재처리하기
________사용자 에이전트 설정하기
____사이트맵 크롤러
____ID 반복 크롤러
____링크 크롤러
________고급 기능
____requests 라이브러리 사용하기
__정리

2장. 데이터 스크래핑하기
__웹 페이지 분석하기
__웹 페이지를 스크래핑하는 세 가지 방법
____정규식
____Beautiful Soup
____lxml
__CSS 선택자와 브라우저 콘솔
__Xpath Selectors
____LXML 및 패밀리 트리
__성능 비교
__스크래핑 결과
____스크래핑 개요
____링크 크롤러에 스크래핑 콜백 추가하기
__정리

3장. 다운로드 캐싱
__언제 캐싱을 사용할까?
__링크 크롤러에 캐싱 기능 추가하기
__디스크 캐싱
____DiskCache 구현
____캐싱 테스트하기
____디스크 공간 절약하기
____오래된 캐싱 데이터 만료하기
____DiskCache의 단점
__키-값 저장소 캐싱
____키-값 저장소란
____레디스 설치
____레디스 소개
____레디스 캐싱 구현
____압축
____캐싱 테스트
____requests-cache 탐색
__정리

4장. 병렬 다운로드
__100만 웹 페이지
알렉사 목록 파싱
__순차적인 크롤러
__스레드 크롤러
__스레드와 프로세스의 동작 방법
____멀티 스레드 크롤러 구현
____멀티 프로세싱 크롤러
__성능
____파이썬 멀티 프로세싱과 GIL
__정리

5장. 동적 콘텐츠
__동적 웹 페이지의 예
__동적 웹 페이지 리버스 엔지니어링
____엣지 케이스
__동적 웹 페이지 렌더링하기
____PyQt or PySide
________Qt로 디버깅하기
____자바스크립트 실행하기
____웹킷을 사용한 웹 사이트의 상호 작용
________결과 기다리기
__렌더링 클래스
____Selenium
________Selenium과 헤드리스 브라우저
__정리

6장. 폼에서 상호 작용하기
__로그인 폼
____웹 브라우저에서 쿠키를 로드하기
__로그인 스크립트를 확장해 콘텐츠 변경하기
__Selenium으로 폼 자동화하기
__웹 스크래핑을 '인간'이 하는 것처럼 보여주는 방법
__정리

7장. 캡차 해결하기
__계정 등록하기
____캡차 이미지 로딩하기
__광학 문자 인식
____추가 개선 사항
__복잡한 캡차 해결
__캡차 해결 서비스 사용하기
____9kw 시작하기
________9kw 캡차 API
____에러 알림
____등록과 통합하기
__캡차와 머신 러닝
__정리

8장. Scrapy
__Scrapy 설치
__프로젝트 시작하기
____모델 정의하기
____스파이더 생성하기
________설정 튜닝
________스파이더 테스트
__여러 스파이더 타입
__쉘 커맨드로 스크래핑하기
____결과 확인하기
____크롤링 중단과 재개
________Scrapy 성능 튜닝
__Portia를 사용해 시각적으로 스크래핑하기
____설치
____주석
____스파이더 실행하기
____결과 확인하기
__Scrapely로 자동화된 스크래핑
__정리

9장. 모든 기술 활용하기
__구글 검색엔진
__페이스북
____웹 사이트
____페이스북 API
__GAP
__BMW
__정리

저자소개

캐서린 자멀 (지은이)    정보 더보기
독일 베를린에 살고 있는 데이터 과학자이자 파이썬 개발자다. 여러 기업을 대상으로 데이터 추출, 수집, 모델링과 같은 서비스를 제공하는 데이터 과학 컨설팅 회사인 Kjamistan을 운영하고 있다. 2008년부터 파이썬으로 프로그램을 개발하고 있으며, 2010년부터 파이썬으로 웹을 스크래핑하기 시작했다. 데이터 분석과 머신 러닝을 하기 위해 웹 스크래핑을 활용하는 다양한 회사에서 일한 적이 있다. 웹을 스크래핑하지 않을 때는 트위터(@kjam) 또는 블로그(https://blog.kjamistan.com)를 통해 자신의 생각과 활동을 작성하고 있다.
펼치기
리처드 로손 (지은이)    정보 더보기
호주 출신이며 멜버른 대학교에서 컴퓨터 과학을 전공했다. 졸업 후 50여 개국에서 원격으로 작업하면서 세계를 여행하며 웹 스크래핑 전문 회사를 세웠다. 유창한 에스페란토 연설자로 만다린어와 한국어로 회화가 가능하며, 오픈 소스 소프트웨어 기여와 번역에 적극적이다. 현재 옥스포드 대학에서 대학원 과정을 공부하고 있으며 여가 시간에는 자율 비행 드론 개발을 즐긴다. 링크드인(https://www.linkedin.com/in/richardpenman)에서 이력을 확인할 수 있다.
펼치기
김용환 (옮긴이)    정보 더보기
현재 카카오에서 지극히 평범한 개발자로 일하고 있다. 이제까지 개발 업무를 할 수 있는 것은 훌륭한 IT 책들과 아낌없이 정보를 공유해 준 인터넷 블로그, 스택 오버플로우의 도움이 컸다고 여긴다. 그래서 자신은 물론, 누군가에게 도움이 될 수 있을 것이라는 믿음으로 책의 번역을 시작했다. 네이버와 카카오에서 일하면서 외국의 개발 사례를 소개하는 즐거움이 크다. 현재 카카오사의 커머스 개발부서에서 코틀린 기반 Spark/파이썬 기반 Airflow/SpringWebApp을 사용해 DB 덤프샷 등 데이터 엔지니어링 및 빅데이터 기반 정산 도메인 개발/운영 업무를 수행하고 있다. 주요 번역서로는 에이콘출판사에서 출간한 『Redis 핵심정리』(2016), 『빅데이터 분석을 위한 스칼라와 스파크』(2018), 『앤서블 시작과 실행』(2019) 등이 있다. 좋은 책이 인생을 풍요롭게 하는 데 도움을 준다고 믿고 있으며, 심리학, 철학, 역사 관련 책을 즐겨 보고 있다.
펼치기
이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책