데이터 마이닝 개념과 기법 책 가격비교

책 이미지

책 정보

· 제목 : 데이터 마이닝 개념과 기법
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 데이터베이스 개론
· ISBN : 9788960777026
· 쪽수 : 872쪽

책 소개

에이콘 데이터 과학 시리즈. 이 책은 대량의 데이터셋에서 의미있는 패턴을 발견하는데 필요한 데이터 마이닝 이론과 실제적용 사례에 대해 설명한다. 실제 데이터 마이닝 프로젝트를 수행하는 분석가라면 기본적으로 알고 있어야 하는 다양한 알고리즘과 이에 대한 구현 사례를 예로 들어 설명했다.

1장 소개
1.1 왜 데이터 마이닝인가?
1.1.1 정보화시대로 이동
1.1.2 정보기술의 진보된 형태로서의 데이터 마이닝
1.2 데이터 마이닝의 의미
1.3 어떠한 종류의 데이터를 마이닝할 수 있나?
1.3.1 데이터베이스 데이터
1.3.2 데이터웨어하우스
1.3.3 거래 데이터
1.3.4 다른 종류의 데이터
1.4 어떤 종류의 패턴을 마이닝할 수 있는가?
1.4.1 클래스/개념 설명: 특성화와 차별화
1.4.2 빈발 패턴 마이닝, 연관성 분석, 상관 분석
1.4.3 예측 분석을 위한 분류와 회귀 분석
1.4.4 군집 분석
1.4.5 이상치 분석
1.4.6 모든 패턴이 흥미 있는가?
1.5 어떤 기술이 사용되는가?
1.5.1 통계학
1.5.2 기계학습
1.5.3 데이터베이스 시스템과 데이터웨어하우스
1.5.4 정보 검색
1.6 어떤 종류의 애플리케이션을 대상으로 하는가?
1.6.1 비즈니스 인텔리전스
1.6.2 웹 검색 엔진
1.7 데이터 마이닝의 주요 이슈사항
1.7.1 마이닝 밥법
1.7.2 사용자 상호작용
1.7.3 효율성과 확장성
1.7.4 데이터베이스 유형의 다양성
1.7.5 데이터 마이닝과 관련 모임
1.8 정리
1.9 연습문제
1.10 참고문헌

2장 데이터 알아두기
2.1 데이터 객체와 속성 유형
2.1.1 속성의 의미
2.1.2 명목 속성
2.1.3 이진 속성
2.1.4 서수 속성
2.1.5 숫자 속성
2.1.6 이산형 대 연속형 속성
2.2 데이터에 대한 기술통계
2.2.1 중앙 경향을 측정: 평균, 중위수, 최빈값
2.2.2 데이터의 분포를 측정: 범위, 사분위수, 분산, 표준편차, 사분위 범위
2.2.3 데이터 기초 통계설명에 대한 그래픽 디스플레이
2.3 데이터 시각화
2.3.1 픽셀지향 시각화 기술
2.3.2 기하학 투시 시각화 기술
2.3.3 아이콘 기반 시각화 기술
2.3.4 계층적 가시화 기술
2.3.5 복잡한 데이터와 관계의 가시화 방법
2.4 데이터 유사도와 비유사성의 측정
2.4.1 데이터 행렬 대 차이 행렬
2.4.2 명목 속성의 유사도 측정
2.4.3 이진 속성의 유사도 측정
2.4.4 수치형 데이터의 유사도(민코브스키 거리)
2.4.5 서열 속성에 대한 유사도 측정
2.4.6 혼합 유형 속성에 대한 차이
2.4.7 코사인 유사도
2.5 정리
2.6 연습문제
2.7 참고문헌

3장 데이터 전처리
3.1 데이터 전처리: 개요
3.1.1 데이터 품질: 왜 데이터 전처리를 하는가?
3.1.2 데이터 전처리 주요 작업
3.2 데이터 클리닝
3.2.1 결측치
3.2.2 노이즈 데이터
3.2.3 프로세스로서 데이터 클리닝
3.3 데이터 통합
3.3.1 엔티티 확인 문제
3.3.2 중복과 상관관계 분석
3.3.3 튜플 복사
3.3.4 데이터 값 충돌 감지와 해결
3.4 데이터 감소
3.4.1 데이터 감소 전략
3.4.2 웨이브렛 변환
3.4.3 주성분 분석
3.4.4 속성 부분집합 선택
3.4.5 회귀모형과 로그선형모형: 모수 데이터 축소
3.4.6 히스토그램
3.4.7 클러스터링
3.4.8 샘플링
3.4.9 데이터 큐브 합계
3.5 데이터 변환과 데이터 이산화
3.5.1 데이터 변환 전략
3.5.2 정규화에 의한 데이터 변환
3.5.3 비닝에 의한 구분
3.5.4 히스토그램에 의한 구분
3.5.5 클러스터링, 의사결정나무, 상관 분석에 의한 구분
3.5.6 명목 데이터에 대한 개념계층 생성
3.6 정리
3.7 연습문제
3.8 참고문헌

4장 데이터웨어하우스와 OLAP
4.1 데이터웨어하우스: 기본 개념
4.1.1 데이터웨어하우스란?
4.1.2 업무 데이터베이스와 데이터웨어하우스의 차이
4.1.3 왜 별도로 데이터웨어하우스가 필요한가?
4.1.4 DataWarehousing: A Multitiered Architecture
4.1.5 데이터웨어하우스 모델: 엔터프라이즈 웨어하우스, 데이터마트, 가상 웨어하우스
4.1.6 추출, 변환, 로딩
4.1.7 메타 데이터 저위치
4.2 데이터웨어하우스 모델링: 데이터 큐브와 OLAP
4.2.1 데이터 큐브: 다차원 데이터 모형
4.2.4 스타, 눈송이, 팩트별자리: 다차원 데이터 모형을 위한 스키마
4.2.3 차원: 개념계층의 역할
4.2.4 측도: 범주화와 계산
4.2.5 전형적인 OLAP 작업
4.2.6 다차원 데이터베이스 쿼리를 위한 스타넷 쿼리모형
4.3 데이터웨어하우스 설계와 사용
4.3.1 데이터웨어하우스 설계를 위한 비즈니스 분석 프레임워크
4.3.2 데이터웨어하우스 설계 프로세스
4.3.3 정보처리를 위한 데이터웨어하우스 사용
4.3.4 온라인 분석프로세싱에서 다차원 데이터 마이닝까지
4.4 데이터웨어하우스 구현
4.4.1 데이터 큐브의 효율적인 계산: 개요
4.4.2 OLAP 데이터를 인덱싱하기: 비트맵 인덱스와 조인 인덱스
4.4.3 효율적 OLAP 쿼리 처리
4.4.4 OLAP 서버 아키텍처: ROLAP, MOLAP, HOLAP
4.5 속성지향 도입에 의한 데이터 일반화
4.5.1 데이터 특성화를 위한 속성지향 유도
4.5.2 속성지향 유도의 효율적 구현
4.5.3 클래스 비교에 대한 속성지향 유도
4.6 정리
4.7 연습문제
4.8 참고 문헌

5장 데이터 큐브 기술
5.1 데이터 큐브 계산: 사전 컨셉
5.1.1 큐브 실체화: 전체 큐브, 빙산 큐브, 폐쇄 큐브, 큐브 셸
5.1.2 데이터 큐브 계산을 위한 일반 전략
5.2 데이터 큐브 계산 방법
5.2.1 전체 큐브 계산용 멀티웨이 집계
5.2.2 BUC: 아펙스 큐보이드에서 아래 방향으로 빙산 큐브를 계산하기
5.2.3 스타큐빙: 동적 스타트리 구조를 이용한 빙산 큐브 계산
5.2.4 빠른 고차원 OLAP에 대해 사전 셸 부분 계산
5.3 탐색 큐브 기술에 의한 고급 질의 처리하기
5.3.1 샘플링 큐브: 샘플링 데이터에 대한 OLAP 기반 마이닝
5.3.2 큐브순위매기기: 탑-k개의 질의에 대한 효율적 계산
5.4 큐브공간 내 다차원 데이터 분석
5.4.1 예측 큐브: 큐브공간에서 예측마이닝
5.4.2 다특성 큐브: 다양한 분석단위에 따른 혼합집계
5.4.3 예외 기반, 발견지향 큐브공간 탐색
5.5 정리
5.6 연습문제
5.7 참고 문헌

6장 빈발패턴, 연관관계, 상관관계 마이닝: 기본 개념과 방법
6.1 기본 개념
6.1.1 장바구니 분석: 동기부여 예제
6.1.2 빈발항목집합, 폐쇄항목집합, 연관규칙
6.2 빈발항목집합 마이닝 방법
6.2.1 Apriori 알고리즘: 한정된 후보생성으로 빈발항목집합 발견하기
6.2.2 빈발 항목집합에서 연관규칙 생성하기
6.2.3 Apriori의 효율개선하기
6.2.4 빈발항목집합을 마이닝하기 위한 패턴 성장 접근법
6.2.5 수직데이터 형태를 이용한 빈발항목집합 마이닝
6.2.6 폐쇄된 최대패턴 마이닝
6.3 관심대상 패턴은 어느 것인가? - 패턴평가방법
6.3.1 강한 규칙이 반드시 관심대상이 되는 것은 아니다.
6.3.2 연관관계 분석에서 상관 분석까지
6.3.3 패턴평가 측도의 비교
6.4 정리
6.5 연습문제
6.6 참고 문헌

7장 고급 패턴마이닝
7.1 패턴마이닝: 로드맵
7.2 다수준, 다차원 공간의 패턴 마이닝
7.2.1 다수준 연관도 분석
7.2.2 다차원 연관관계 마이닝
7.2.3 정량적 연관규칙에 대한 마이닝
7.2.4 희소한 패턴과 네거티브 패턴 마이닝
7.3 제약조건 기반 빈발 패턴 마이닝
7.3.1 연관규칙에 대한 메타규칙가이드 마이닝
7.3.2 제약 기반 패턴 생성: 패턴 공간 정리하기와 데이터 공간 정리하기
7.4 고차원 데이터와 거대한 패턴 마이닝
7.4.1 패턴 퓨전을 이용한 거대 패턴마이닝
7.5 압축 또는 근사패턴 마이닝
7.5.1 패턴 클러스터링으로 압축패턴을 마이닝하기
7.5.2 중복인식 최상위 k개의 패턴을 추출하기
7.6 패턴 탐색과 응용
7.6.1 빈발패턴에 대한 시맨틱 주석
7.6.2 패턴마이닝의 응용사례
7.7 정리
7.8 연습문제
7.9 참고문헌

8장 클래스 분류: 기초 개념과 방법
8.1 기본 개념
8.1.1 클래스 분류의 의미
8.1.2 일반적인 클래스 분류 기법
8.2 결정 트리 유도
8.2.1 결정 트리 유도
8.2.2 속성 선택 방법
8.2.3 가지치기
8.2.4 결정 트리 유도와 규모
8.2.5 결정 트리 눈으로 보기
8.3 베이즈 분류
8.3.1 베이즈 이론
8.3.2 나이브 베이지안 분류자
8.4 규칙 기반 클래스 분류
8.4.2 결정 트리에서 규칙 추출
8.4.3 순차 포괄 알고리즘의 규칙 구성
8.5 모델 검증과 선택
8.5.1 분류자 성능 비교 측정법
8.5.2 홀드아웃 메소드와 무작위 서브샘플링
8.5.3 교차 검증
8.5.4 부트스트랩
8.5.5 통계적 유의성의 모델 선택
8.5.6 비용효율과 ROC 곡선의 분류자 비교
8.6 분류 정확성 향상 기법
8.6.1 앙상블 개론
8.6.2 배깅
8.6.3 부스팅과 AdaBoost
8.6.4 랜덤 포레스트
8.6.5 불균형 클래스 데이터의 정확성 향상
8.7 정리
8.8 연습문제
8.9 참고문헌

9장 클래스 분류: 고급 기법
9.1 베이지안 신뢰 네트워크
9.1.1 신뢰 네트워크의 개념과 원리
9.1.2 베이지안 신뢰 네트워크 훈련
9.2 복습 분류법
9.2.1 멀티레이어 피드포워드 신경망
9.2.2 네트워크 구조 정의
9.2.3 복습
9.2.4 블랙박스 속으로: 복습과 해독력
9.3 서포트 벡터 머신
9.3.1 데이터를 선형으로 구분할 수 있는 경우
9.3.2 데이터의 선형 분단이 불가능한 경우
9.4 빈도 패턴의 분류
9.4.1 연관성 분류
9.4.2 빈도 패턴 분류
9.5 게으른 학습자
9.5.1 k-최인접 이웃 분류자
9.5.2 사례 입증
9.6 기타 분류 방법론
9.6.1 유전 알고리즘
9.6.2 러프 세트
9.6.3 퍼지 세트
9.7 기타 분류 방법 관련 이슈
9.7.1 다중 클래스 분류
9.7.2 준 지도 분류
9.7.3 능동 학습
9.7.4 전달 학습
9.8 정리
9.9 연습문제
9.10 참고문헌

10장 클러스터 분석: 기본 개념과 방법론
10.1 클러스터 분석
10.1.1. 클러스터 분석이란 무엇인가?
10.1.2 클러스터 분석의 필수 요소
10.1.3 기본 클러스터링 방법 개론
10.2 분할 클러스터링
10.2.1 k-평균: 중심자 클러스터링의 대표
10.2.2 k-중앙자: 오브젝트 클러스터링 기법의 대표
10.3 구조적 클러스터링
10.3.1 조적식 vs. 분할식 구조적 클러스터링
10.3.2 클러스터링 알고리즘의 거리 측정법
10.3.3 BIRCH: 클러스터링 특성 트리의 다단계 구조적 클러스터링
10.3.4 Chameleon: 동적 모델링의 다단계 구조적 클러스터링
10.3.5 확률식 구조 클러스터링
10.4 밀도 기반 클러스터링
10.4.1 DBSCAN: 고밀도 연결 영역에 대한 밀도 기반 클러스터링
10.4.2 OPTICS: 클러스터링 구조 규명을 위한 점 정렬
10.4.3 DENCLUE: 밀도 분포 함수에 따른 클러스터링
10.5 그리드 기반 방법론
10.5.1 STING: STatistical INformation Grid
10.5.2 CLIQUE: 연역적 하위 공간 클러스터링
10.6 클러스터링의 평가
10.6.1 클러스터링 경향성 측정
10.6.1 클러스터 숫자 결정
10.6.3 클러스터링 품질 측정
10.7 정리
10.8 연습문제
10.9 참고문헌

11장 고급 클러스터 분석
11.1 확률 모델 기반 클러스터링
11.1.1 퍼지 클러스터
11.1.2 확률 모델 기반 클러스터
11.1.3 기대 값-최대화 알고리즘
11.2 고차원 데이터의 클러스터링
11.2.1 고차원 데이터의 클러스터링: 문제와 난점, 주요 방법론
11.2.2 부분 공간 클러스터링
11.2.3 바이클러스터링
11.2.4 차원 축소와 분절 클러스터링
11.3 그래프/네트워크 데이터의 클러스터링
11.3.1 그래프/네트워크 클러스터링의 적용 분야와 난제
11.3.2 그래프/네트워크 데이터의 유사성 측정법
11.3.3 그래프 클러스터링 방법
11.4 클러스터링의 제약
11.4.1 제약 조건의 분류
11.4.2 조건이 있는 클러스터링 방법론
11.5 정리
11.6 연습문제
11.7 참고문헌

12장 아웃라이어
12.1 아웃라이어와 아웃라이어 분석
12.1.1 아웃라이어란?
12.1.2 아웃라이어의 유형
12.1.3 아웃라이어 탐색의 난제
12.2 아웃라이어 탐색 방법
12.2.1 지도/준지도/비지도 탐색
12.2.2 통계, 인접성, 클러스터링 방법
12.3 통계적 아웃라이어
12.3.1 파라미터 아웃라이어 탐색
12.3.2 비파라미터 아웃라이어 탐색
12.4 인접성 기반 아웃라이어 탐색
12.4.1 거리 기반 아웃라이어 탐색과 중첩 반복문
12.4.2 그리드 기반 아웃라이어 탐색
12.4.3 밀도 기반 아웃라이어 탐색
12.5 클러스터링 아웃라이어
12.6 클래스 분류 아웃라이어
12.7 맥락/군집 아웃라이어
12.7.1 일반적인 아웃라이어 탐색 방법의 맥락 아웃라이어 탐색 변용
12.7.2 맥락상 정상 행동의 모델링
12.7.3 군집 아웃라이어
12.8 고차원 데이터의 아웃라이어 탐색
12.8.1 통상 아웃라이어 탐색 방법 활용
12.8.2 부분 공간의 아웃라이어 탐색
12.8.3 고차원 아웃라이어 모델링
12.9 정리
12.10 연습문제
12.11 참고문헌

13장 데이터 마이닝의 흐름과 선구자들
13.1 복잡한 데이터 형식의 처리
13.1.1 시퀀스 데이터 마이닝: 시계열/기호/생물학 시퀀스의 처리
13.1.2 그래프/네트워크 마이닝
13.1.3 기타 유형 데이터의 마이닝
13.2 기타 데이터 마이닝 방법
13.2.1 통계적 데이터 마이닝
13.2.2 데이터 마이닝을 보는 관점
13.2.3 시청각 데이터 마이닝
13.3 데이터 마이닝의 활용
13.3.1 회계 데이터 분석의 데이터 마이닝
13.3.2 유통과 통신 업계의 데이터 마이닝
13.3.3 과학과 공학의 데이터 마이닝
13.3.4 네트워크 침입의 감지와 예방에 대한 데이터 마이닝
13.3.5 데이터 마이닝과 추천 시스템
13.4 데이터 마이닝과 사회
13.4.1 어디에나 있고 보이지는 않는 데이터 마이닝
13.4.2 데이터 마이닝과 사생활, 보안, 사회에 대한 영향
13.5 데이터 마이닝 트랜드
13.6 정리
13.7 연습문제
13.8 참고문헌

저자소개

지아웨이 한 (지은이) 정보 더보기

UIUC(University of Illinois at Urbana-Champaign)(어바나 샴페인 일리노이 주립대학) 컴퓨터 과학부의 명예 공학 교수다. 지식 발견과 데이터 마이닝 연구에 대한 지대한 공헌으로, ACM SIGKDD Innovation Award(2004), IEEE Computer Society Technical Achievement Award(2005), IEEE W. Wallace McDowell Award(2009)를 비롯해서 수많은 상을 수상했다. ACM과 IEEE 위원이며, ACM Transaction on Knowledge Discovery from Data(2006-2011)의 최초 편집장을 역임했고, IEEE Transactions on Knowledge and Data Engineering과 Data Mining and Knowledge Discovery 등 저널의 편집 위원이다.

펼치기

지아웨이 한의 다른 책 >

미셸린 캠버 (지은이) 정보 더보기

콩코르디아 대학(Concordia University)(캐나다 퀘백 주 몬트리울 소재)에서 인공지능 전공으로 컴퓨터 과학의 석사 학위를 받았다. NSERC 장학금을 받고 맥길 대학(McGill University), 사이몬 프레이저 대학(Simon Fraser University)과 스위스에서 연구원으로 활동했다. 데이터 마이닝에 대한 배경 지식과 쉽게 이해 할 수 있는 용어에 대한 열정으로, 전문가와 강사, 학생이 최고로 꼽는 교과서를 집필했다.

펼치기

미셸린 캠버의 다른 책 >

지안 페이 (지은이) 정보 더보기

현재 사이몬 프레이저 대학(영국 컬럼비아 소재) 조교수다. 2002년 지아웨이 한 교수 지도 하에 컴퓨터 과학 박사 학위를 받았다. 데이터 마이닝, 데이터베이스, 웹 검색과 정보 추출에 대한 주요 학술 포럼에서 활발한 저술 활동을 이어가고 있다. 그의 논문은 수천 종 이상의 논문에서 인용되었으며 여러 영예로운 상을 받았다. 그리고 여러 데이터 마이닝과 데이터 분석 저널에서 보조 편집인으로 활동하고 있다.

펼치기

지안 페이의 다른 책 >

송용근 (옮긴이) 정보 더보기

POSTECH 컴퓨터공학과, 일본 히로시마 대학에서 의학과학 석사 학위를 받았다. TEDxSeoul 오거나이저와 마가진(magazyn) 엔지니어, 리켄 뇌과학연구소 연구생을 거쳐 현재 디메이저(dmajor)의 데이터 엔지니어로 일하고 있다. 복잡한 시스템을 관계로 풀어내는 데 관심을 두고 있다. 『구글 애널리틱스로 모아보는 데이터』(에이콘출판사, 2016) 등을 번역 출간했다.

펼치기

송용근의 다른 책 >

정사범 (옮긴이) 정보 더보기

의사결정과 최적화 방법론에 관심이 많다. 세상에 존재하는 다양한 데이터를 이용해 당면한 문제를 해결하는 일을 하고 있다. 다양한 책과 현장 경험을 통해 데이터 수집, 정제, 분석, 보고 방법에 대한 지식을 얻는 것에 감사하고 있다. 에이콘출판사에서 출간한 『RStudio 따라잡기』(2013), 『The R book(Second Edition) 한국어판』(2014), 『예측 분석 모델링 실무 기법』(2014), 『데이터 마이닝 개념과 기법』(2015), 『파이썬으로 풀어보는 수학』(2016), 『데이터 스토리텔링』(2016), 『R에서 객체지향 프로그래밍 사용하기』(2016), 『파이썬 프로그래밍 개론』(2016), 『산업인터넷(IIOT)과 함께하는 인더스트리 4.0』(2017), 『장고 마스터하기』(2017), 『텐서플로로 구현하는 딥러닝과 강화학습』(2017), 『머신 러닝 알고리즘』(2019)을 번역했다.

펼치기

정사범의 다른 책 >