데이터 사이언스 교과서

책 이미지

eBook 미리보기

책 정보

· 제목 : 데이터 사이언스 교과서 (2021세종도서 학술 부문 우수 도서 선정)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 데이터베이스 개론
· ISBN : 9788931556810
· 쪽수 : 384쪽
· 출판일 : 2020-10-12

책 소개

데이터 사이언스의 의미부터 금융 데이터 분석, 동적 시스템 분석 등의 공학 응용까지를 파이썬으로 실제로 분석하면서 학습할 수 있다. 무엇보다 파이썬을 예제로 한 설명으로 이론과 실습을 겸비하여 데이터 과학을 학습하여 제 분야에 응용하고 싶은 독자에게 안성맞춤이다.

제1장 서론

1.1 데이터 과학 개요
1.1.1 읽기 전에
1.1.2 데이터 과학이란
1.1.3 데이터 과학의 영역과 역할
1.1.4 데이터를 보는 안목을 기른다
1.2 파이썬과 패키지
1.2.1 파이썬(Pyhton)의 도입
1.2.2 이 책에서 이용하는 패키지
1.3 몇 가지 약속
1.3.1 노트북(Notebook)과 스크립트
1.3.2 모듈 이름의 생략어
1.3.3 파일명의 생략
1.3.4 패키지 함수 사용법의 조사 방법
1.4 퀵 스타트
1.4.1 설치
1.4.2 주피터 노트북(Jupyter Notebook)·스크립트의 구현과 실행 방법
1.4.3 프로그램과 데이터를 구하는 방법
1.5 파이썬을 이용한 한글 처리
1.5.1 스크립트에 한글을 기술한다
1.5.2 한글을 포함한 데이터 파일 읽기
1.5.3 matplotlib로 한글을 표시한다
1.6 용어의 차이
1.6.1 설명 변수/목적변수, 입력/출력
1.6.2 표본과 데이터
1.6.3 예측과 추정
1.6.4 클래스 분류
1.6.5 트레이닝 데이터, 테스트 데이터
1.6.6 오버피팅
1.6.7 분석
1.6.8 변수
1.6.9 상관과 공분산
1.7 수학, 수치계산, 물리의 시작
1.7.1 수학의 시작
1.7.2 수치계산의 문제
1.7.3 물리의 시작

제2장 데이터 처리와 가시화
2.1 데이터의 종류
2.2 데이터의 취득
2.3 데이터의 저장
2.3.1 numpy.ndarray
2.3.2 pandas.DataFrame
2.3.3 numpy.ndarray와 pandas.DataFrame의 변환
2.4 그래프 작성
2.4.1 matplotlib.
2.4.2 복수의 그래프
2.4.3 Titnic(타이타닉호)의 pandas 그래프 그리기
2.4.4 Iris(아이리스)의 seaborn 그래프.
2.4.5 Iris 데이터

제3장 확률의 기초
3.1 확률이란
3.2 기본적인 용어의 설명
3.2.1 이산확률 변수
3.2.2 연속확률 변수
3.2.3 확률밀도 함수, 확률질량 함수와 백분위점55
3.2.4 모집단과 표본
3.2.5 평균, 분산, 그 외의 양.
3.2.6 이산형의 기댓값과 평균.
3.3 정규분포
3.3.1 정규분포의 표현
3.3.2 확률 변수의 생성
3.3.3 중심극한정리
3.4 포아송분포
3.4.1 포아송분포의 표현
3.4.2 포아송분포의 예
3,4,3 포아송 도착 모델의 시뮬레이션
3.4.4 역 함수를 이용한 난수 생성.
3.5 확률분포와 패키지 함수
3.5.1 베르누이분포(Bernoulli distribution)
3.5.2 이항분포(binomial distribution)
3.5.3 포아송분포(Poisson distribution)
3.5.4 카이제곱분포(chi-squared distribution)
3.5.5 지수분포(exponential distribution)
3.5.6 분포( distribution)
3.5.7 정규분포(normal distribution)
3.5.8 분포( distribution)
3.5.9 균일분포(uniform distribution)

제4장 통계의 기초
4.1 통계란
4.2 추정.
4.2.1 점추정
4.2.2 구간추정
4.2.3 모평균의 신뢰구간
4.2.4 모비율의 신뢰구간
4.3 가설검정
4.3.1 가설검정이란
4.3.1 단측검정과 양측검정
4.3.3 모평균의 검정
4.3.4 모분산의 검정
4.3.5 두 표본의 평균 차이에 대한 검정
4.3.6 상관, 무상관의 검정

제5장 회귀분석
5.1 회귀분석이란
5.1.1 회귀의 유래
5.1.2 시스템 이론에서 본 회귀분석
5.1.3 statsmodels
5.2 단순회귀분석
5.2.1 단순회귀분석의 의의
5.2.2 단순회귀 모델의 통계적 평가
5.2.3 가계 동향 조사
5.2.4 심슨의 역설
5.2.5 수학적 설명
5.3 다항식회귀분석
5.3.1 다항식 모델
5.3.2 R 데이터 세트 cars
5.4 중회귀분석
5.4.1 검정
5.4.2 다중공선성
5.4.3 전력과 기온의 관계
5.4.4 와인의 품질분석
5.4.5 수학적 설명
5.5 일반화 선형 모델
5.5.1 일반화 선형 모델의 개요
5.5.2 포아송 회귀 모델
5.5.3 z = β0의 예
5.5.4 z = β0 + β0χ1의 예
5.5.5 로지스틱 회귀 모델
5.5.6 수학적 설명

제6장 패턴 인식
6.1 패턴 인식의 개요
6.1.1 패턴 인식이란
6.1.2 클래스 분류의 성능 평가
6.1.3 홀드아웃과 교차검증
6.1.4 이 장에서 다루는 패턴 인식 방법
6.2 서포트 벡터 머신(SVM)
6.2.1 클래스 분류와 마진의 최대화
6.2.2 비선형 분리의 아이디어
6.2.3 선형, 원형 데이터의 하드 마진
6.2.4 소프트웨어 마진과 홀드아웃
6.2.5 교차검증과 그리드 서치
6.2.6 멀티클래스 분류
6.3 SVM의 수학적 설명
6.3.1 마진 최대화
6.3.2 커널 함수의 이용
6.3.3 소프트 마진
6.4 최근접 이웃법(κNN)
6.4.1 알고리즘의 논리
6.4.2 κNN의 기본적 사용법
6.4.3 Iris 데이터
6.4.4 sklearn이 제공하는 거리
6.5 평균법
6.5.1 알고리즘의 논리
6.5.2 make_blobs를 이용한 클러스터링
6.5.3 도매업자의 고객 데이터
6.5.4 수학적 설명
6.6 응집형 계층 클러스터링
6.6.1 알고리즘의 논리
6.6.2 덴드로그램
6.6.3 도야마현의 시읍면별 인구 동태

제7장 심층학습
7.1 심층학습의 개요와 종류
7.1.1 심층학습이란
7.1.2 심층학습의 활용 예
7.1.3 용어의 설명
7.2 Chainer
7.2.1 개요와 설치
7.2.2. 실행과 평가
7.2.3 κNN용 스크립트의 설명
7.3 NN(신경망)
7.3.1 개요와 계산 방법
7.3.2 κNN 스크립트의 변경
7.4 DNN(심층 신경망)
7.4.1 개요와 실행
7.4.2 파일 데이터의 처리 방법
7.5 CNN(합성곱 신경망)
7.5.1 개요와 계산 방법
7.5.2 학습과 검증
7.5.3 트레이닝 데이터의 작성법
7.6 QL(Q학습)
7.6.1 개요와 계산 방법
7.6.2 실행 방법
7.6.3 병따기 게임
7.7 DQN(심층 Q네트워크)
7.7.1 개요
7.7.2 실행 방법
7.7.3 병따기 게임

제8장 시계열 데이터 분석
8.1 동적 시스템
8.1.1 인과성과 동적 시스템
8.1.2 동적 시스템의 선형 모델
8.1.3 1차 시스템의 시간응답
8.1.4 2차 시스템의 시간응답
8.2 이산 시간계
8.2.1 이산화
8.2.2 샘플링 시간의 선정
8.2.3 이산 시간계의 차분형식의 해석
8.2.4 지연 연산자
8.2.5 이산 시간 모델 도입의 문제 설정
8.3 ARMA 모델
8.3.1 ARMA 모델의 표현
8.3.2 가식별성과 PE성의 조건
8.3.3 입력 신호 후보와 항의 문제
8.3.4 ARMA 모델의 안전성과 성질
8.3.5 파라미터 추정
8.4 모델의 평가
8.4.1 모델 차수의 선정과 AIC
8.4.2 모델 차수의 선정과 극·영점 소거법
8.4.3 잔차 계열의 검정
8.5 ARMA 모델을 이용한 예측
8.5.1 예측 방법
8.6 ARIMA 모델
8.6.1 트렌드
8.6.2 ARIMA 모델의 표현
8.6.3 트렌드를 가진 시계열 데이터 분석
8.7 SARIMAX 모델
8.7.1 항공사의 승객 수
8.7.2 그 외의 계절성 데이터
8.8 주가 데이터의 시계열 분석
8.8.1 이동평균
8.8.2 볼린저 밴드
8.8.3 캔들 차트

제9장 스펙트럼 분석
9.1 기본 사항
9.1.1 주파수란 소리를 내는 것
9.1.2 스펙트럼이란
9.2 푸리에 변환
9.2.1 푸리에 변환과 푸리에 역변환
9.2.2 진폭, 에너지, 파워 스펙트럼
9.3 현실의 문제점
9.3.1 샘플링 문제
9.3.2 엘리어싱
9.3.3 유한 장파형의 문제점
9.4 이산 푸리에 변환(DFT)
9.4.1 DFT의 표현
9.4.2 사인파의 DFT 예
9.4.3 제로 패딩
9.5 윈도우 함수
9.5.1 윈도우 함수의 종류
9.5.2 윈도우 함수의 사용 예
9.5.3 수학적 표현
9.6 랜덤 신호의 파워 스펙트럼 밀도
9.6.1 파워 스펙트럼 밀도의 표현
9.9.2 PSD는 확률 변수

제10장 디지털 필터
10.1 필터의 개요
10.1.1 필터란
10.1.2 필터 특성
10.1.3 데시벨 [dB]
10.2 아날로그 필터의 설계
10.2.1 버터워스 필터
10.2.2 체비셰프 필터
10.3 디지털 필터의 설계
10.3.1 디지털 필터의 도입
10.3.2 디지털 필터의 구조
10.3.3 FIR 필터
10.3.4 IIR 필터
10.3.5 정규화 각주파수
10.4 FIR 필터의 설계
10.4.1 윈도우 함수를 이용한 설계 방법
10.4.2 설계 예
10.5 IIR 필터의 설계
10.5.1 아날로그 필터에 기초한 방법
10.5.2 설계 예

제11장 이미지 처리
11.1 이미지 처리의 개요
11.1.1 색 좌표계
11.1.2 수치로서의 표현
11.1.3 표본화와 양자화
11.1.4 이미지 데이터 입수하기
11.1.5 OpenCV의 문서
11.1.6 실행 방법
11.2 이미지 처리의 예
11.2.1 2진화
11.2.2 에지 검출
11.2.3 주파수 필터링
11.2.4 특징점 추출
11.3 기타
11.3.1 카메라에서 이미지 불러오기
11.3.2 광학 흐름
11.3.3 얼굴 인식

참고문헌
맺음말
색인

저자소개

하시모토 히로시 (지은이) 정보 더보기

1988년 와세다대학교 대학원 이공학연구과 박사 과정 현재 산업기술대학원 대학창조기술연구과 교수 공학박사(와세다대학교) 주요 저서 - <도해 컴퓨터 개론 [하드웨어]>(개정 4판), 옴사(2017), 공저 - <도해 컴퓨터 개론 [소프트웨어·통신 네트워크]>(개정 4판), 옴사(2017), 공저 - <Scilab로 배우는 시스템 제어의 기초> 옴사(2007), 공저 - <전기회로교본> 옴사(2001), 그 외 저서 다수

펼치기

마키노 코오지 (지은이) 정보 더보기

2008년 도쿄공업대학 대학원 이공학연구과 제어시스템공학 전공 수료 현재 야마나시대학 대학원 종합연구부 조교 공학박사(도쿄공업대학) 주요 저서 - <파이썬에 의한 심층 강화 학습 입문 Chainer와 OpenAI Gym으로 시작하는 강화학습>, 옴사(2018), 공저 - <산수&라즈베리 파이로부터 시작하는 딥러닝>, CQ출판사(2018), 공저 - <쉽게 할 수 있는 Intel Edison 전자공학>, 도쿄전기대학출판국(2017) - <쉽게 할 수 있는 Arduino 전자제어>, 도쿄전기대학 출판국(2015) - <쉽게 할 수 있는 Arduino 전자공학>, 도쿄전기대학 출판국(2012)

펼치기

권기태 (옮긴이) 정보 더보기

서울대학교 계산통계학과를 졸업하고, 동 대학원에서 전산학 전공으로 이학 석사 및 이학 박사 학위를 취득했다. 현재 강릉원주대학교 컴퓨터공학과 교수로 재직 중이다. 주요 번역서로는 2021 세종도서 우수학술도서로 선정된 『데이터사이언스 교과서』를 비롯하여 『엑셀로 배우는 머신러닝 초(超)입문』,『엑셀로 배우는 순환 신경망 · 강화학습 초(超)입문』, 『엑셀로 배우는 딥러닝』, 『만화로 쉽게 배우는 우선 이것만! 통계학』, 『만화로 쉽게 배우는 수리 최적화』 등이 있다.

펼치기

권기태의 다른 책 >

책속에서

이 책은 데이터 과학의 비밀에 도달하는 것이 아니라 기초적인 교양을 습득하는 것을 목적으로 한다. 이를 위해 파이썬을 이용한 분석 기법에 관한 지식과 기술을 배운다. 이 때 확률통계학, 시스템공학, 컴퓨터과학 등의 관점에서 데이터에 대한 가설 발견, 가설 검정을 하고 객관적·정량적 평가를 할 수 있는 자질을 익힐 수 있도록 설명하는데 중점을 두었다.

이 책은 데이터 과학자가 되기 위한 문 앞까지 인도한 것에 지나지 않는다. 이 문 앞에는 스포츠, 기상, 사회 문제, 서비스, 사물 인터넷 등의 분야에서 데이터 과학자로서 활약할 수 있는 장이 펼쳐져 있다. 독자 여러분이 이러한 분야에서 활약할 뿐만 아니라 새로운 분야를 개척하기 바란다. 활약하면 할수록 다수의 제약 조건에 가로막힌 방대한 데이터를 마주하게 되고 이와 같은 곤란한 상황 아래에서 데이터 과학자로서의 직감이 요구되는 장면과 마주치게 될 것이다. 이와 같은 장면에 마주치기 전에 다음 문장을 마지막에 들려주고 싶다. 올바른 직관력을 키우기 위해서는 올바른 지식과 다수의 반복 연습이 필요하다.