책 이미지
책 정보
· 분류 : 국내도서 > 과학 > 수학 > 확률/통계학
· ISBN : 9791165217099
· 쪽수 : 396쪽
책 소개
목차
1부
다크 데이터는 어떻게 생겨나고
어떤 결과를 초래하는가
1장.
다크 데이터: 보이지 않는 것이 이 세계를 만든다
보이지 않는 위험, 다크 데이터
데이터를 다 갖고 있다고 생각하는군요?
아무 일도 안 생겨서 무시해버릴 때 생기는 일
다크 데이터의 위력
다크 데이터는 언제 어디에나 있다
2장.
다크 데이터 찾아내기: 우리가 모은 것과 모으지 않은 것
데이터를 얻는 3가지 방식과 다크 데이터의 출현
데이터 잔해에서 얻는 다크 데이터
설문조사에서 생기는 다크 데이터
실험 데이터에도 다크 데이터가 끼어든다
인간적 취약점에 주의하시라
3장.
다크 데이터와 정의: 알고자 하는 것이 정확히 무엇인가?
엉뚱한 것을 측정해버렸다: 정의가 달라질 때
‘모든’ 것을 측정할 수는 없다: 심슨의 역설
질병 검진 프로그램의 취약성
과거 성과를 보고 선택할 때의 다크 데이터
4장.
의도하지 않은 다크 데이터: 말과 행동이 따로 놀 때
어디까지 정확해야 하지?
요약은 필연적으로 다크 데이터를 만든다
인간이니까 생기는 오류
측정 도구의 한계
데이터 세트를 통합할 때의 문제
5장.
전략적 다크 데이터: 게이밍, 피드백, 정보 비대칭
게이밍: 빈틈을 이용해 이득을 얻다
피드백: 피드백이 데이터를 왜곡시킬 때
정보 비대칭: 중고차 시장에서 무슨 일이 일어났나
다크 데이터가 알고리즘에 끼치는 영향
6장.
고의적 다크 데이터: 사기와 기만
사기의 세계: 핵심은 데이터 숨기기다
신원 도용과 인터넷 사기: ‘자칼의 날’
계속 진화하는 개인금융 사기
금융시장 사기와 내부자 거래
보험 사기: 고객을 속이거나 보험사를 속이거나
그 밖의 사기: 돈세탁, 다단계 사기, 횡령
7장.
다크 데이터와 과학: 발견의 본질
과학의 본질: 검증 체계로서의 과학
내가 그걸 알았더라면!: 과학자들의 흑역사
우연히 만난 다크 데이터: 과학자들의 행운
반복 실험을 통한 재현: 과학 연구의 다크 데이터
사실을 감추는 방법들
철회
출처와 신뢰성: “누가 그러던가요?”
2부
다크 데이터에 빛을 비추고 이용하는 법
8장.
다크 데이터 다루기: 빛을 비추기
희망은 있다
관측 데이터를 빠진 데이터와 연결하기
3가지 데이터 누락 메커니즘
이미 가진 데이터를 활용하는 법
생존분석 문제: 당신이 먼저 죽는다면?
대치법: 빠진 데이터를 채워넣기
반복: 최대가능도 모형과 EM 알고리즘
데이터 오류에 대처하는 방법
9장.
다크 데이터로 이득을 얻는 법: 질문을 바꿔보자
데이터를 숨기는 게 이득이 될 때
무작위 대조군 시험: 데이터를 모두에게 숨겨라
시뮬레이션: 일어났을 수도 있는 일
전략적으로 복제된 데이터
베이즈 사전확률: 가상의 데이터
사생활 보호와 기밀 유지
데이터를 다크 상태로 수집하기
10장.
다크 데이터 분류법: 미로 속으로 난 길
다크 데이터의 15가지 유형
새롭게 조명하기
리뷰
책속에서
나는 온갖 유형의 누락된 데이터를 통칭해 ‘다크 데이터dark data’라 부른다. 다크 데이터는 우리가 볼 수 없게 숨겨져 있는데, 그 때문에 우리는 오해하고 틀린 결론을 내리고 나쁜 결정을 할 우려가 있다. 한마디로 무지 때문에 판단을 그르칠 수 있다는 뜻이다. _1장. 다크 데이터 보이지 않는 것이 이 세계를 만든다
뭐가 문제람? 그냥 결과가 알려진 환자 146,270명을 분석한 뒤에 그걸 바탕으로 진단을 내리면 되지 않을까? 어쨌거나 146,270은 큰 수니까(의학 분야에서 이만하면 ‘빅데이터big data’이므로) 이 데이터를 바탕으로 내린 결론이라면 그것이 무엇이든 옳다고 확신할 수 있을 듯하다.
하지만 과연 그럴까? 어쩌면 결과를 모르는 19,289건은 다른 사례의 결과와 매우 다를지도 모른다. (중략)
쏙쏙 이해가 되게끔 실제로 일어나기 어려운 극단적인 예를 들어보겠다. 결과가 알려진 146,270명은 치료 없이도 회복되어 생존했지만, 결과가 알려지지 않은 19,289명은 모두 입원 이틀 내에 사망했다고 하자. 만약 결과가 알려지지 않은 사례들을 무시한다면, 우리는 당연히 트라우마 환자들이 전부 회복되었으니 걱정하지 않아도 된다고 결론 내릴 것이다. 그리고 이를 근거로 우리는 트라우마로 입원한 환자들은 저절로 회복되리라 예상하며 아무 치료도 하지 않을 것이다. 그러다가 11퍼센트가 넘는 환자가 죽어가는 현실과 맞닥뜨리고는 충격과 혼란에 휩싸이고 말 것이다. _1장 | 다크 데이터 보이지 않는 것이 이 세계를 만든다