책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 데이터베이스 개론
· ISBN : 9791165920883
· 쪽수 : 344쪽
책 소개
목차
l Chapter 01 l 현장의 데이터 분석 과정 이해하기
1장. 왜 분석을 하는가?
1.1 데이터 이야기
1.2 문제 정의 육하원칙
1.3 데이터 분석에 필요한 기술
1.4 데이터 분석 적용 사례
2장. 분석 주제에 맞는 데이터 가져오기
2.1 데이터 수집이란?
2.2 데이터 전처리(Data Pre-processing)란?
2.3 데이터 확인하기
2.4 결측치 처리하기
____ 2.4.1 결측치 확인하기
____ 2.4.2 결측치 제거
____ 2.4.3 결측치 대체하기
2.5 이상치 처리하기
____ 2.5.1 논리적으로 존재할 수 없는 이상치 처리하기
____ 2.5.1 논리적으로 존재할 수 있는 이상치 처리하기
2.6 피처 엔지니어링(Feature Engineering)
3장. 분석 주제 구체화하기
3.1 탐색적 데이터 분석(Exploratory Data Analysis)이란?
3.2 탐색적 데이터 분석 프로세스
4장. 데이터 분석 수행하기
4.1 통계적 가설 검정(Statistical Hypothesis Testing)
4.2 기계 학습(Machine Learning)
4.3 시각화(Visualization)
4.4 결론 도출
l Chapter 02 l 데이터 분석 프로젝트(1) - 정형 데이터에서 보물 찾기
5장. 지난 1년간 카페에는 어떤 일이 있었을까?
5.1 readxl 패키지를 이용하여 엑셀 데이터 불러오기
5.2 카페에서 가장 많이 판매한 메뉴 확인하기
5.3 요일별로 판매한 메뉴 확인하기
5.4 계절별로 판매한 메뉴 확인하기
5.5 R에서 시각화하기
____ 5.5.1 R 그래프, 무엇이 있는가?
____ 5.5.2 R 시각화 대표 패키지 ggplot2
____ 5.5.3 ggplot2 패키지를 이용한 시각화 예시
5.6 매출 현황 그래프로 분석하기
____ 5.6.1 카테고리별 판매 건수 시각화하기
____ 5.6.2 월별 판매 건수 시각화하기
____ 5.6.3 요일별 판매 건수 시각화하기
6장. 광고, 정말 효과가 있을까?
6.1 엑셀 데이터 불러오기
6.2 광고 효과 분석을 위한 목표 설정하기
6.3 raster 패키지를 이용하여 대한민국 지도 그리기
6.4 stats 패키지 기반 통계적 검정하기
6.5 ggplot1 패키지를 이용하여 광고 효과가 없는 지역 표현하기
7장. KOSPI 예측이 가능할까?
7.1 KOSPI 데이터 불러오기
7.2 ggplot2 패키지를 이용하여 KOSPI 지수 시각화하기
7.3 시계열 데이터 이해하기
____ 7.3.1 시계열 데이터 분석을 위한 예측 변수
____ 7.3.2 시계열의 구성 요소
____ 7.3.3 시도표 이해하기
7.4 stats 패키지로 KOSPI 지수 분해하기
7.5 forecast 패키지로 시계열 회귀 모형 만들기
____ 7.5.1 단순 선형 회귀
____ 7.5.2 다중 선형 회귀
____ 7.5.3 적절한 독립 변수
7.6 auto.arima를 이용하여 KOSPI 지수 예측하기
____ 7.6.1 정상성과 차분
____ 7.6.2 auto.arima 활용하기
l Chapter 03 l 데이터 분석 프로젝트(2) - 비정형 데이터에서 보물 찾기
8장. 오늘의 뉴스 키워드 분석하기
8.1 뉴스 데이터를 수집하기 위한 네이버 검색 API 준비하기
8.2 httr 패키지를 이용하여 뉴스 데이터 수집하기
8.3 자연어 처리 이해하기
8.4 KoNLP 패키지를 이용하여 한글 자연어 처리하기
____ 8.4.1 KoNLP 패키지 설치하기
____ 8.4.2 전기자동차 관련 뉴스 수집하기
____ 8.4.3 뉴스 데이터 분석하기
8.5 wordcloud 패키지를 이용한 워드클라우드
____ 8.5.1 wordcloud 패키지를 이용한 시각화
____ 8.5.2 wordcloud2 패키지를 이용한 시각화
8.6 오늘의 뉴스 그래프로 분석하기
9장. YouTube 댓글 키워드를 활용하여 감성 분석하기
9.1 YouTube 댓글을 수집하기 위한 Youtube API 준비하기
____ 9.1.1 구글 API 프로젝트 생성하기
____ 9.1.2 구글 OAuth 동의 화면 활성화하기
____ 9.1.3 YouTube Data API 사용 신청하기
9.2 YouTube 댓글 수집하기
____ 9.2.1 OAuth 권한 연동하기
____ 9.2.2 YouTube 채널 및 영상 통계 정보 수집·분석하기
____ 9.2.2 YouTube 채널 및 영상 댓글 수집하기
9.3 RcppMeCap 패키지를 이용하여 한글 자연어 처리하기
____ 9.3.1 RcppMeCap 패키지 설치하기
____ 9.3.2 RcppMeCap 패키지를 이용하여 형태소 분석하기
9.4 긍·부정 사전 구축하기
9.5 긍·부정 사전을 이용하여 감성 분석하기
l Chapter 04 l 데이터 분석 기획부터 시각화까지
10장. R 패키지를 활용한 논문 분석 시스템 구축하기
10.1 분석 서비스 기획하기
10.2 논문 분석 시스템 설계하기
10.3 공공 API를 이용하여 학위 논문 수집하기
_____ 10.3.1 공공 데이터 API 인증키 발급하기
_____ 10.3.2 오픈 API 호출하기
_____ 10.3.3 오픈 API 호출 결과 파싱하기
10.4 논문 정형 데이터 분석하기
_____ 10.4.1 자료 구분별 논문 데이터 분석하기
_____ 10.4.2 학술 출판사에 따라 논문 데이터 분석하기
_____ 10.4.3 정규 표현식을 이용한 정형 데이터 분석
10.5 논문 비정형 데이터 분석하기
_____ 10.5.1 논문 제목 분석하기
_____ 10.5.2 논문 초록 분석하기
10.6 tm 패키지를 이용하여 Term Document Matrix 생성하기
_____ 10.6.1 Bag-of-words
_____ 10.6.2 문서 단어 행렬(Document-Term Matrix)
_____ 10.6.3 TF-IDF(Term Frequency-Inverse Document Frequency)
10.7 LDA Topic modeling을 이용하여 논문 주제 도출하기
10.8 shiny 패키지를 이용하여 논문 분석 시스템 웹 화면 구축하기
_____ 10.8.1 shiny란
_____ 10.8.2 논문 분석 시스템 구축하기
저자소개
책속에서
데이터란 다양한 상황에서 남겨진 흔적과 같습니다. 데이터 분석을 통해 그 흔적을 추적하여 당시 어떤 상황이었는지 판단하기도 하며, 추측한 상황이 닥칠 경우에 어떠한 조치를 취해야 하는지 미리 의사결정을 해 두는 역할을 하기도 합니다. 이처럼 데이터 분석가는 데이터 속에 숨겨진 '보물'을 찾기 위해 다양한 기법을 익히고 데이터 분석 과정을 수행합니다.
이 책에는 데이터 분석가에게 꼭 필요한 5가지 실무 예제와 필자가 데이터 분석 프로젝트를 수행하며 사용했던 기술과 노하우가 담겨 있습니다. R을 배웠으나 프로젝트를 당장 수행하기에 막막함을 느끼고 프로젝트 과정을 궁금해하는 분을 위해 데이터 분석 프로젝트에 대한 전반을 소개하였으며, 독자 여러분이 이를 현장에서 바로 적용할 수 있을 것으로 기대합니다.