책 이미지

책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 데이터베이스 개론
· ISBN : 9791158392680
· 쪽수 : 256쪽
· 출판일 : 2021-08-20
책 소개
목차
[1부] 데이터의 성질에 관한 기초지식
▣ 1장: 관측은 간단하지 않다
1.1 데이터 관측
___대상에서 정보 추출
___쓰레기를 넣으면 쓰레기가 나온다
___데이터의 제약과 표본추출
1.2 측정의 어려움
___필요한 데이터가 전부 수집되는 것은 당연하지 않다
___'측정할 수 없는 것'을 측정할 때
___측정에 따른 정보의 누락
___관계가 있는 것처럼 보이는 지표를 혼용하지 않는다
___'표준화'에 따른 정보의 누락
▣ 2장: 오차와 변동
2.1 오차의 분해
___'오차'란
___오차가 크면 정보가 사라진다
___우연오차와 편향
2.2 오차와 확률분포
___데이터의 변동 파악
___배후에 있는 참 분포를 생각하자
___평균과 분산
2.3 '확률분포' 정리
___수학적 확률과 통계적 확률
___확률분포와 확률밀도
___가장 중요한 확률분포 '정규분포'
___확률변수를 서로 더하면 나타나는 정규분포
___경험분포와 이론분포
___오차의 분포와 데이터의 분포
2.4 우연 오차의 변동 처리
___관측값의 평균값을 이용한 변동 억제
___통계적으로 평가한다
___관측수를 늘리는 효과
___편차가 작은 지표에 주목한다
▣ 3장: 데이터에 포함된 편향
3.1 측정기준에 관한 편향
___일관된 측정기준
___일정한 기준의 어려움
___시간적으로 변하는 기준
3.2 선택편향
___'데이터가 수집되고 있다'라는 의미
___여러가지 선택편향
___우연
3.3 관측 개입에 의한 편향
___'질문'은 어렵다
___신뢰할 수 없는 대답
___나중에 이유 붙이기
___관측에 따른 개입의 영향
3.4 데이터 취급에 따른 편향
___데이터를 왜곡시키는 동기
___유리한 데이터만 수집
___인위적인 실수
▣ 4장: 중첩요인과 인과관계
4.1 두 변수 간의 관계
___변수의 상관관계
___변수 간의 인과관계란
___상관관계와 인과관계
___변수간의 관계성 정리
4.2 중첩을 처리한다
___변수의 얽힘
___개입과 그 한계
___무작위 배정 임상시험(RCT)
___관찰 데이터와 실험 데이터
4.3 무작위 배정 임상시험을 할 수 없을 때
___다중회귀분석
___로지스틱 회귀
___회귀불연속설계
___성향점수 매칭
___상황에 따른 방법의 선택
▣ 5장: 데이터 표본추출 방법론
5.1 표본추출 개념
___표본조사란
___일부 데이터로 전체를 안다
___표본크기 결정방법
5.2 여러 가지 표본추출법
___무작위추출
___집락추출로 표본추출 비용을 낮춘다
___무작위가 아닌 추출법
___결과를 일반화할 수 있는가
5.3 표본추출과 편향
___범위오차
___응답에 발생하는 편향
___대상 집단에 의한 선택편향
[2부] 데이터의 분석에 관한 기초지식
▣ 6장: 데이터 가공
6.1 수집한 데이터 확인
___잘못된 데이터에 주의
___단위와 자릿수
___이상치 확인
___제거해도 괜찮은 이상치인가
6.2 데이터의 분석·조작
___데이터 해석까지의 흐름
___각 처리에서 에러를 체크
___처리 코드를 통일한다
___분석 코드 관리
___소프트웨어 이용
6.3 데이터의 보관·관리
___데이터의 보관
___보안관리
___개인정보 취급
___가명정보 활용
▣ 7장: 일변수 데이터
7.1 기술통계량
___양적 변수와 범주형 변수
___대표적인 값을 계산한다
___산포를 표현하는 기술통계량
___기술통계량만으로 파악할 수 없다
7.2 데이터의 분포를 생각하자
___분포를 보자
___목적에 맞는 가시화
___히스토그램의 함정
7.3 이론분포와 연결짓는다
___이론분포를 생각하자
___꼬리가 두꺼운 분포
___누적분포함수로 경험분포와 이론분포를 비교
7.4 시계열 데이터란
___동일한 양을 계속 관측한다
___주기성분 분리
___과거의 영향을 자기상관으로 본다
▣ 8장: 변수 간의 관계를 조사한다
8.1 두 개의 양을 비교한다
___어느쪽이 큰가
___편차와 결과의 중요성
___가설검정의 개념
___가설검정 사용법
___t 검정을 이용한 두 그룹 비교
___대응 비교
8.2 두 개의 양의 상관관계를 조사한다
___상관관계의 유무
___상관계수의 함정
___상관관계와 가설검정
___효과크기와 p 값의 해석
▣ 9장: 다변량 데이터 해석
9.1 탐색적 분석과 다중검정
___쌍으로 놓고 생각하자
___다중 검정이란
___다중성을 보정하자
___새로운 데이터를 수집한다
9.2 분산분석과 다중비교
___3개 이상의 비교
___여러개의 요인을 조사한다
___어디에 차이가 있는지 알고 싶은 경우
___분산분석과 다중비교
9.3 상관관계 구조를 파헤친다
___편상관관계를 본다
___요인분석
___좀 더 복잡한 관계성
___주성분분석
___군집화
___계층적 군집화
9.4 여러 가지 방법 정리
___설명하는 변수·설명되는 변수
___탐색적 분석을 하고 싶은 경우
___설명변수로서 영향을 보고 싶은 경우
▣ 10장: 수리 모델링
10.1 수리 모델링은 무엇을 하고 있는가
___수리 모델이란
___가정에서 도출된 이론
___수리 모델의 타당성
10.2 목적에 맞는 모델링
___이해지향적 모델링과 응용지향적 모델링
___이해지향형 모델링의 포인트
___응용지향형 모델링의 포인트
10.3 모델을 이용한 '예측'
___'예측'이란
___예측하기 쉬운 문제, 어려운 문제
___데이터에서 크게 동떨어진 상황은 예측하기 어렵다
___선형과 비선형
___메커니즘의 이해와 예측
___데이터 부족과 이해지향형 모델링
___이해지향형 모델링과 설명력
[3부] 데이터의 해석과 활용에 관한 기초지식
▣ 11장: 데이터 분석의 함정
11.1 데이터 가공의 함정
___실수와 비율
___심슨의 역설
___평균값의 동작
___극단적인 값이 섞여있는 데이터
___불필요한 제거
___그래프를 왜곡하지 않는다
11.2 확보한 데이터에 의한 함정
___다른 시점에서 데이터를 수집한다
___질적 데이터가 중요한 경우도
11.3 분석 목적에 관련된 함정
___결론이 없는 결론
___목적에 따른 결과의 영향력
___오류의 허용도
___모델을 지나치게 신뢰한다
___목적에 맞는 분석 디자인
▣ 12장: 데이터 해석의 함정
12.1 분석결과의 신뢰성
___재현성의 문제
___같은 데이터에서 같은 결론이 나온다고 할 수 없다
___데이터의 재현성
___HARKing과 p-hacking
___힐의 기준
12.2 해석할 때 생기는 인지편향
___인간은 마음대로 패턴을 만든다
___시간과 인과의 함정
___확률을 파악하는 것은 어렵다
___실제 확률과 가용성 편향
___확증편향
___문맥의 효과
___잘못된 데이터 해석의 예
▣ 13장: 데이터 활용의 함정
13.1 목적에 근거한 평가·의사결정
___상황이나 목적에 따라 기본적인 방침이 다르다
___언제나 예측을 할 수 있는것은 아니다
___수리 모델은 블랙박스인가
13.2 데이터의 수집과 활용
___전처리 비용을 낮춘다
___데이터 수집계획
___데이터를 수집하는 부담을 생각하자
13.3 실제 세계와 데이터 분석
___데이터에 의한 관리주의
___조작된 평가 지표
___AI에 의한 차별 조장
___피드백이 있는 시스템 구축