책 이미지

책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 언어 > 파이썬
· ISBN : 9791161752525
· 쪽수 : 272쪽
· 출판일 : 2018-12-31
책 소개
목차
1장. 웹 스크래핑 소개
__웹 스크래핑이 유용한 시점은 언제일까?
__웹 스크래핑은 합법적인가?
__파이썬 3
__웹 사이트 조사
____robots.txt 확인하기
____사이트맵 확인하기
____웹 사이트 규모 추정하기
____웹 사이트에 사용하는 기술을 식별하기
____웹 사이트의 소유자 찾기
__첫 번째 웹 사이트 크롤링하기
____스크래핑과 크롤링
____웹 페이지 다운로드하기
________다운로드 재처리하기
________사용자 에이전트 설정하기
____사이트맵 크롤러
____ID 반복 크롤러
____링크 크롤러
________고급 기능
____requests 라이브러리 사용하기
__정리
2장. 데이터 스크래핑하기
__웹 페이지 분석하기
__웹 페이지를 스크래핑하는 세 가지 방법
____정규식
____Beautiful Soup
____lxml
__CSS 선택자와 브라우저 콘솔
__Xpath Selectors
____LXML 및 패밀리 트리
__성능 비교
__스크래핑 결과
____스크래핑 개요
____링크 크롤러에 스크래핑 콜백 추가하기
__정리
3장. 다운로드 캐싱
__언제 캐싱을 사용할까?
__링크 크롤러에 캐싱 기능 추가하기
__디스크 캐싱
____DiskCache 구현
____캐싱 테스트하기
____디스크 공간 절약하기
____오래된 캐싱 데이터 만료하기
____DiskCache의 단점
__키-값 저장소 캐싱
____키-값 저장소란
____레디스 설치
____레디스 소개
____레디스 캐싱 구현
____압축
____캐싱 테스트
____requests-cache 탐색
__정리
4장. 병렬 다운로드
__100만 웹 페이지
알렉사 목록 파싱
__순차적인 크롤러
__스레드 크롤러
__스레드와 프로세스의 동작 방법
____멀티 스레드 크롤러 구현
____멀티 프로세싱 크롤러
__성능
____파이썬 멀티 프로세싱과 GIL
__정리
5장. 동적 콘텐츠
__동적 웹 페이지의 예
__동적 웹 페이지 리버스 엔지니어링
____엣지 케이스
__동적 웹 페이지 렌더링하기
____PyQt or PySide
________Qt로 디버깅하기
____자바스크립트 실행하기
____웹킷을 사용한 웹 사이트의 상호 작용
________결과 기다리기
__렌더링 클래스
____Selenium
________Selenium과 헤드리스 브라우저
__정리
6장. 폼에서 상호 작용하기
__로그인 폼
____웹 브라우저에서 쿠키를 로드하기
__로그인 스크립트를 확장해 콘텐츠 변경하기
__Selenium으로 폼 자동화하기
__웹 스크래핑을 '인간'이 하는 것처럼 보여주는 방법
__정리
7장. 캡차 해결하기
__계정 등록하기
____캡차 이미지 로딩하기
__광학 문자 인식
____추가 개선 사항
__복잡한 캡차 해결
__캡차 해결 서비스 사용하기
____9kw 시작하기
________9kw 캡차 API
____에러 알림
____등록과 통합하기
__캡차와 머신 러닝
__정리
8장. Scrapy
__Scrapy 설치
__프로젝트 시작하기
____모델 정의하기
____스파이더 생성하기
________설정 튜닝
________스파이더 테스트
__여러 스파이더 타입
__쉘 커맨드로 스크래핑하기
____결과 확인하기
____크롤링 중단과 재개
________Scrapy 성능 튜닝
__Portia를 사용해 시각적으로 스크래핑하기
____설치
____주석
____스파이더 실행하기
____결과 확인하기
__Scrapely로 자동화된 스크래핑
__정리
9장. 모든 기술 활용하기
__구글 검색엔진
__페이스북
____웹 사이트
____페이스북 API
__GAP
__BMW
__정리