실전에서 바로 쓰는 시계열 데이터 처리와 분석 in R

책 이미지

eBook 미리보기

책 정보

· 제목 : 실전에서 바로 쓰는 시계열 데이터 처리와 분석 in R (교육, 고용, 코로나 데이터를 활용한 시계열 프로젝트, 2022 세종도서 학술부문)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 데이터베이스 개론
· ISBN : 9791191600155
· 쪽수 : 284쪽
· 출판일 : 2021-07-15

책 소개

시계열 데이터 분석을 시작하기를 원하는 분들이나 실무에서 시계열 데이터를 사용하는 직장인을 위해서 어려운 수학 공식에 대한 이해 없이도 시계열 데이터를 어떻게 읽어 들이고, 어떻게 그루핑하고, 어떻게 합계와 평균을 낼 것인가 등에 대해 다룬다.

1장 시계열 데이터 1
1.1 시계열 데이터란? 3
1.2 시계열 데이터의 특성 5
1.2.1 시간 독립변수 5
1.2.2 자기상관 관계 6
1.2.3 추세 경향성 7
1.2.4 계절성, 순환성 8
1.2.5 불확실성 9

2장 시계열 데이터 객체 11
2.1 날짜/시간 데이터 클래스 12
2.1.1 date 클래스 12
2.1.2 POSIXct, POSIXlt 클래스 13
2.1.3 yearmon, yearqtr 클래스 15
2.1.4 날짜, 시간 포맷 16
2.2 시계열 데이터 객체 17
2.2.1 ts 17
2.2.2 xts 18
2.2.3 tsibble 20
2.3 시계열 데이터 import 22
2.3.1 엑셀 파일 23
2.3.2 CSV 파일 25
2.3.3 추가 실습 데이터 생성 26

3장 시계열 시각화 31
3.1 data.frame: ggplot2 패키지 32
3.2 xts: xts 패키지 41
3.3 ts: forecast 패키지 46
3.4 tsibble: feasts 패키지 50
3.5 data.frame: timetk 패키지 54

4장 시계열 데이터 처리 59
4.1 오늘 며칠일까?: 시간 정보 추출 60
4.2 며칠 지났을까?: 시간 기간 연산 61
4.3 이번 주 마지막 날은 며칠일까?: 시간 반올림 65
4.4 주간, 월간 데이터 합계, 평균은?: 시간 그루핑 66
4.5 주식 시가, 고가, 저가, 종가는 어떻게 구할까?: OHLC 78
4.6 3일 평균, 5일 합계는?: 시간 롤링 79
4.7 지난 달 데이터는?: 필터링 83
4.8 월별, 분기별, 연별 증감량 88
4.9 월 비중 백분율, 연 비중 백분율 92
4.10 월별, 분기별, 연별 누적 합계 96
4.11 동월별, 동분기별, 동년별 플롯 100

5장 시계열 forecasting Part I - 기초 개념 107
5.1 정상성, 비정상성 109
5.2 지연과 차분 111
5.3 ACF와 PACF 116
5.4 적합값과 잔차 123
5.5 백색잡음 124
5.6 시계열 분해 127
5.7 정상성 테스트 131
5.8 계절성 검정 133

6장 시계열 forecasting Part II - 시계열 예측 모델 137
6.1 평균 모델 139
6.2 단순 모델 142
6.3 계절성 단순 모델 146
6.4 랜덤워크 모델 148
6.5 회귀 모델 160
6.5.1 forecast::tslm 161
6.5.2 timetk::plot_time_series_regression 167
6.6 지수 평활 모델 170
6.6.1 단순 지수 평활 모델 170
6.6.2 홀트 모델 176
6.6.3 홀트 윈터 모델 182
6.6.4 ETS 모델 183
6.7 ARIMA 모델 188
6.7.1 자기회귀 모델 189
6.7.2 이동평균 모델 193
6.7.3 ARIMA 모델 결정 198
6.7.4 Seasonal ARIMA 모델 208
6.8 TBATS 모델 219
6.9 prophet 모델 221
6.10 신경망 모델 226

7장 시계열 forecasting Part III - 시계열 분석 프레임워크 229
7.1 성능 분석 지수 230
7.1.1 MAE 230
7.1.2 RMSE 231
7.1.3 MPE 232
7.1.4 MAPE 233
7.2 fable 프레임워크 234
7.2.1 미래 학생수 예측 235
7.2.2 미래 취업자수 예측 239
7.2.3 미래 코로나 확진자수 예측 242
7.3 modeltime 프레임워크 246
7.3.1 미래 학생수 예측 248
7.3.2 미래 취업자수 예측 255
7.3.3 미래 코로나 확진자수 예측 259

찾아보기 264

저자소개

이기준 (지은이) 정보 더보기

한국항공대학교에서 컴퓨터공학으로 박사 학위를 받았다. 한국교육개발원(KEDI)에서 유/초/중/고 및 대학의 국가교육통계 데이터의 디지털화를 시작으로 20여 년간 국가교육통계 데이터 조사, 관리, 분석과 서비스 시스템의 기획, 개발, 운영, 관리의 전 분야를 실무부터 총괄까지 수행했다. KEDI에서 교육통계센터소장 및 국가교육통계연구본부장 등을 역임했고, 미국 보이시 주립대학교(Boise State University) 교육공학과에서 연수했으며, 현재 한국교육개발원 정보화실장으로 근무 중이다. 이 밖에도 과학기술정보통신부 인공지능 윤리정책 포럼위원, 대통령직속 4차산업혁명위원회 자문위원, 교육부 인공지능 교육정책 자문위원, 통계청 통계분류 자문위원, 2018 평창동계올림픽 IT 자문위원 등으로 활동했다. 주로 교육통계 데이터를 활용한 데이터 분석 연구와 교육통계 데이터 시스템 기획 및 구축 관련 연구를 수행했다. 저서로 2022년 세종도서 학술부문 우수도서에 선정된 《실전에서 바로 쓰는 시계열 데이터 처리와 분석 in R》(제이펍, 2021)이 있고, 공저서로 《메타버스 유니버시티》(동문사, 2023)가 있다.

펼치기

이기준의 다른 책 >

리뷰

즐거운*

★★★★★(10)

([100자평]R을 통해 살펴보는 시계열 분석 입문서로 딱딱한 대학교...)

자세히

nan******

★★★★★(10)

([마이리뷰]실전에서 바로 쓰는 시계열 데이..)

자세히

책속에서

시간적 변화에 따라 발생하는 데이터의 변화량을 파악하여 응용하는 경우가 많은데, 특히 경제지표 예측, 상품 수요 예측, 관광객 수요 예측, 전기 수요 예측 등과 같이 경제, 경영 분야뿐만 아니라 많은 산업에서 사용된다. 이처럼 시계열 데이터는 과거의 데이터 패턴이 유사하게 지속된다는 가정하에 미래 특정한 기간의 데이터 흐름을 분석하기 위해 사용된다. 특히 시간적 변화에 따른 미래의 결과를 예측하는 것은 정부의 정책을 수립하거나 기업에서 비즈니스 전략을 수립하는 과정에서 많이 사용되고 있기 때문에 시계열 데이터에 대한 중요성이 매우 높다.

시계열 데이터는 일반적으로 가로축(X축)에 시간 인덱스가 위치하고, 세로축(Y축)에 값이 표현되는 선 플롯이 많이 사용된다. 선 플롯은 시간의 흐름에 따라 발생하는 추세trend, 계절성seasonality 등의 시계열 데이터의 특성을 표현하고 파악하는 데 효율적이다. 시계열 데이터 분석에는 시계열 데이터의 직접적인 선 플롯 외에도 자기상관 함수autocorrelation function, ACF, 편자기상관함수partial autocorrelation function, PACF 등의 다양한 플롯들이 사용된다. 이 장에서는 data.frame, ts, xts, tsibble 등 시계열 객체별로 시각화 방법을 설명한다.