R과 통계분석 - 북프라이스

책 이미지

eBook 미리보기

책 정보

· 제목 : R과 통계분석 (tidyverse 활용) (제4판)
· 분류 : 국내도서 > 대학교재/전문서적 > 경상계열 > 통계
· ISBN : 9791158087845
· 쪽수 : 534쪽
· 출판일 : 2025-12-15

책 소개

통계분석과 시각화를 하나의 흐름으로 묶은 R 활용서다. tidyverse의 등장 이후 달라진 R의 분석 방식을 중심에 둔다. 데이터 처리와 그래프 작성, 분석 절차를 실제 작업 기준으로 정리했다.

'R은 통계분석과 그래프 작성 및 통계적 프로그래밍에 적합한 매우 효과적인 분석 도구입니다. R은 잠시도 정체되어 있지 않고 끊임없이 진화하고 있으며, 놀라운 발전 속도를 항상 보여주고 있는데, 특히 패키지 tidyverse의 출현은 매우 주목할 사항입니다. 그것은 R의 모습이 tidyverse 이전과 이후로 완전히 구분된다고 할 수 있기 때문입니다. 데이터 다루기와 그래프 성능이 비교할 수 없을 만큼 향상되었고, 복잡한 분석 과정이 대폭 단순화되어 매우 효율적인 분석이 가능해졌습니다. 이러한 발전으로 인하여 R은 이제 data science를 위한 최적의 프로그래밍 언어로 자리매김을 확고하게 했다고 할 수 있습니다.

이 책은 R을 처음 접하는 초급 사용자나, R을 많이 사용하고 있지만 아직 tidyverse의 활용에 익숙하지 않은 사용자에게 실질적인 도움이 될 수 있도록 구성하였습니다. 1장에서 5장까지로 구성된 ‘1부 tidyverse의 활용’에서는 초급 사용자를 위한 R의 기본 개념에 대한 설명을 시작으로 해서, dplyr에 의한 데이터 프레임 다루기 및 ggplot2에 의한 자료 시각화를 소개하고 있으며, 다양한 유형의 외부 자료 입력 방법 및 tidy 데이터 만들기와 데이터의 통합 등을 다루고 있습니다. 1부의 내용만으로도 사용자들이 tidyverse 생태계에서 자료분석을 충분히 진행할 수 있다고 생각합니다.

‘2부 데이터 객체’에서는 다양한 구조의 R 데이터 객체에 대하여 6장부터 9장에 걸쳐 자세하게 살펴보고 있습니다. 통계 데이터는 매우 다양한 유형과 구조를 갖고 있는데, 각 자료의 유형에 맞는 분석 방식들이 있습니다. 2부의 내용이 자료의 유형별 적절한 분석 방식을 선택하는 데 도움이 될 것으로 생각합니다.

‘3부 프로그래밍’에서 다루고 있는 효율적인 프로그래밍 기법은 통계자료분석을 효과적으로 수행하기 위한 필수불가결의 요소라고 할 수 있습니다. 10장에서 다루는 함수는 분석 과정에서 필수적인 요소이며, 11장에서 다루는 반복 실행은 분석 과정에서 필연적으로 이루어지는 반복 작업을 효과적으로 수행할 수 있는 몇 가지 방법을 다루고 있습니다.

‘4부 R에 의한 통계분석’은 R에서 구현되는 다양한 통계분석을 소개하고 있습니다. 12장에서 14장까지 통계분포와 자료탐색 및 통계적 추론과 관련된 다양한 분석 방법을 소개하고 있습니다. 다만 3판에서 다루었던 선형회귀모형과 로지스틱 회귀모형을 4판에서는 제외했습니다. 최근 들어 패키지 tidymodels의 출현으로 회귀모형을 포함한 다양한 예측모형의 분석을 온전히 tidyverse 생태계 안에서 진행하는 것이 가능해졌습니다. 따라서 base R 함수에 의한 회귀분석 과정을 다루는 것은 적절하지 않다고 판단했습니다.

R은 data science 분야에서 사용되는 여러 프로그래밍 언어 중에서 가장 뛰어난 통계분석 기능이 있는 언어이며, 끊임없이 진화하고 있습니다. 이러한 R의 변화를 반영하기 위해 Github에 사이트(https://yjyjpark.github.io/RnStat_4e/)를 운영하고 있습니다. 출간 후 수정이 필요한 내용이나 새롭게 추가되는 자료, 연습문제 풀이 등은 Github 사이트와 자유아카데미 자료실(http://www.freeaca.com)에 순차적으로 업로드될 예정입니다. 이 책을 집필할 때의 R 세션 정보는 다음과 같습니다.

.
.
.
중략
.
.
.
끝으로, 이 책이 R을 활용한 데이터 분석을 공부하는 독자들에게 실질적인 도움이 되기를 바라며, 빠르게 변화하는 데이터 과학의 흐름 속에서 R의 유용성과 가능성을 함께 탐구하는 계기가 되기를 기대합니다.

1부 Tidyverse의 활용
1 R 시작하기
1.1 R의 소개
1.2 R의 설치
1.3 RStudio의 설치 및 R의 실행
1.4 예제 프로그램 실행
1.4.1 숫자형 벡터의 생성 및 연산
1.4.2 일정한 구조를 갖는 숫자형 벡터의 생성
1.4.3 문자형 벡터의 생성
1.5 작업공간
1.6 스크립트 파일의 활용
1.7 R의 확장: 패키지
1.7.1 패키지의 종류
1.7.2 패키지의 설치 및 사용
1.7.3 패키지 tidyverse의 소개
1.8 연습문제

2 데이터 프레임 다루기
2.1 데이터 프레임
2.1.1 전통적 데이터 프레임
2.1.2 티블
2.2 패키지 dplyr에 의한 데이터 프레임 다루기
2.2.1 조건에 의한 행 선택: filter()
2.2.2 위치에 의한 행 선택: slice() 및 그와 관련된 함수
2.2.3 행의 정렬: arrange()
2.2.4 중복된 행의 제거: distinct()
2.2.5 열의 선택: select()
2.2.6 열의 선택: pull()
2.2.7 열 이름 변경: rename()
2.2.8 열의 위치 변경: relocate()
2.2.9 새로운 열의 추가: mutate()
2.2.10 열들의 요약 통계량 계산: summarise()
2.2.11 그룹 데이터 프레임의 생성: group_by()
2.2.12 그룹 데이터 프레임에서 기본 dplyr 함수들의 작동 방식
2.2.13 행 단위 작업: rowwise()
2.3 연습문제

3 자료 시각화
3.1 ggplot2 시작하기
3.2 시각적 요소와 데이터의 연결: Mapping
3.3 그룹별 그래프 작성: Facet
3.4 기하 객체: Geometric object
3.5 통계적 변환: Statistical transformation
3.6 위치 조정: Position adjustment
3.7 좌표계: Coordinate system
3.8 연습문제

4 데이터 입력
4.1 텍스트 파일 불러오기: 패키지 readr 함수의 활용
4.1.1 함수 read_table()로 데이터 파일 불러오기
4.1.2 함수 read_csv()로 CSV 데이터 파일 불러오기
4.1.3 함수 read_fwf()로 고정 포맷 구조를 갖는 데이터 파일 불러오기
4.1.4 데이터 프레임을 외부 텍스트 파일로 저장하기
4.2 Excel 파일 불러오기
4.3 SAS 데이터 파일 불러오기
4.4 HTML 테이블 불러오기
4.5 연습문제

5 Tidy 데이터 만들기 및 데이터 통합
5.1 tidyr로 tidy 데이터 만들기
5.1.1 데이터 피벗
5.1.2 문자형 열의 결합과 분리
5.2 dplyr에 의한 데이터 통합
5.3 연습문제

2부 데이터 객체
6 벡터
6.1 벡터의 기본 특성
6.2 숫자형 벡터의 연산
6.3 논리형 벡터의 활용
6.3.1 숫자형 벡터의 비교
6.3.2 조건 연산: if_else()와 case_when()
6.4 벡터의 일부분 선택
6.5 연습문제

7 문자 데이터 다루기
7.1 Base R 함수
7.2 패키지 stringr 함수
7.3 정규 표현식과 stringr 함수
7.4 연습문제

8 요인
8.1 요인 생성
8.1.1 함수 factor()에 의한 요인 생성
8.1.2 패키지 forcats의 함수 fct()에 의한 요인 생성
8.2 요인 다루기
8.2.1 요인 수준의 순서 변경
8.2.2 요인 수준 병합
8.3 연속형 변수를 범주형 변수로 변환
8.4 연습문제

9 리스트
9.1 리스트의 생성 및 하부 요소 선택
9.2 리스트 열
9.3 연습문제

3부 프로그래밍
10 함수
10.1 벡터 함수
10.1.1 함수의 정의
10.1.2 변수
10.1.3 변수 지정
10.1.4 결과의 출력
10.1.5 유효 범위
10.2 데이터 프레임 함수
10.2.1 데이터 마스킹
10.2.2 데이터 프레임 함수의 정의
10.3 조건 연산과 함수
10.4 연습문제
11 반복 실행
11.1 데이터 프레임의 여러 변수에 대한 반복 실행
11.1.1 여러 변수에 함수 적용: across()
11.1.2 여러 변수의 이름 변경: rename_with()
11.2 패키지 purrr의 반복 실행 함수
11.2.1 함수 map()에 의한 반복 실행
11.2.2 함수 map()에 의한 리스트 일부분 선택
11.2.3 함수 map2()에 의한 반복 실행
11.2.4 함수 modify()에 의한 반복 실행
11.3 함수 apply() 계열 함수에 의한 반복 실행
11.4 루프 연산
11.4.1 for 루프
11.4.2 while 루프
11.5 연습문제

4부 R에 의한 통계분석
12 확률 분포
12.1 R에서의 확률 분포 이름
12.2 연속형 확률 분포
12.2.1 정규 분포
12.2.2 지수 분포
12.2.3 균등 분포
12.2.4 t-분포
12.3 이산형 분포
12.3.1 베르누이 분포와 이항 분포
12.3.2 포아송 분포
12.3.3 초기하 분포
12.4 모의 실험
12.5 연습문제

13 자료 탐색
13.1 일변량 범주형 자료 탐색
13.1.1 막대그래프
13.1.2 파이그래프
13.1.3 Cleveland의 점그래프
13.2 이변량 및 다변량 범주형 자료 탐색
13.2.1 이변량 및 다변량 범주형 자료를 위한 그래프
13.3 일변량 연속형 자료 탐색
13.3.1 줄기-잎 그림
13.3.2 상자그림
13.3.3 바이올린 그래프
13.3.4 히스토그램
13.3.5 확률밀도함수 그래프
13.3.6 기타 유용한 그래프
13.3.7 일변량 연속형 자료의 요약 통계
13.4 이변량 연속형 자료 탐색
13.4.1 연속형 변수의 분포를 비교하기 위한 그래프
13.4.2 연속형 변수의 관계 탐색을 위한 그래프
13.5 연습문제

14 통계적 추론
14.1 단일 모집단의 모평균에 대한 검정 및 신뢰구간 추정
14.2 두 모집단의 모평균 차이에 대한 검정 및 신뢰구간 추정
14.2.1 독립된 두 표본에 대한 추론
14.2.2 짝을 이룬 표본에 대한 추론
14.3 단일 모집단의 모비율에 대한 검정 및 신뢰구간 추정
14.4 두 모집단의 모비율 차이에 대한 검정 및 신뢰구간 추정
14.5 두 범주형 변수의 독립성 검정
14.5.1 카이제곱 독립성 검정
14.5.2 Fisher의 정확검정
14.6 정규성 검정
14.6.1 검정에 의한 정규성 확인
14.6.2 그래프에 의한 정규성 확인
14.7 단일 모집단의 분포 중심에 대한 비모수 검정
14.8 두 모집단의 분포 중심 차이에 대한 비모수 검정
14.9 연습문제

찾아보기