logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

데이콘 경진대회 1등 솔루션

데이콘 경진대회 1등 솔루션

(다양한 분야의 데이터를 분석하면서 발견하는 데이터 인사이트와 분석 노하우)

김민수1906, Context_KKP, DB분석가, 제주감귤, TNT (지은이)
위키북스
30,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
알라딘 로딩중
yes24 로딩중
교보문고 로딩중
11st 로딩중
영풍문고 로딩중
쿠팡 로딩중
쿠팡로켓 로딩중
G마켓 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
서점 유형 등록개수 최저가 구매하기
알라딘 판매자 배송 10개 10,800원 >
로딩중

eBook

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
로딩중

책 이미지

데이콘 경진대회 1등 솔루션
eBook 미리보기

책 정보

· 제목 : 데이콘 경진대회 1등 솔루션 (다양한 분야의 데이터를 분석하면서 발견하는 데이터 인사이트와 분석 노하우)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 자료구조/알고리즘
· ISBN : 9791158392390
· 쪽수 : 444쪽
· 출판일 : 2021-01-22

책 소개

금융, 스포츠, 기상, 지구과학 등 다양한 데이터를 가지고 문제를 해결하는 데이콘 경진대회 중 다섯 대회에서 우승한 팀의 솔루션을 소개한다. 문제 소개부터 시작해 데이터 분석의 전 과정을 꼼꼼하게 살펴볼 수 있다.

목차

▣ 01장: KBO 타자 OPS 예측
1.1 문제 정의
__1.1.1 경진대회 소개
__1.1.2 평가척도
__1.1.3 도메인 조사
__1.1.4 문제 해결을 위한 접근 방식 소개
__1.1.5 분석환경 구축
1.2 탐색적 데이터 분석
__1.2.1 프리시즌 데이터 분석
__1.2.2 정규시즌 데이터 분석
__1.2.3 일별 데이터 분석
__1.2.4 탐색적 데이터 분석 요약
1.3 데이터 전처리
__1.3.1 결측치 처리 및 데이터 오류 처리
__1.3.2 규정 타수 정의
__1.3.3 시간변수
____시간 반영 함수 정의와 변수 생성
____변수 선택 & 시간 범위
__1.3.4 추가 변수 생성
__1.3.5 데이터 사후 처리
__1.3.6 SLG 데이터 전처리
1.4 모델 구축과 검증
__1.4.1 데이터 분할
__1.4.2 모델 선택
____릿지와 라쏘
____랜덤 포레스트
____XGBoost(eXtra Gradient Boost)
____알고리즘별 성능 비교
__1.4.3 결과 해석 및 평가
____랜덤 포레스트
____라쏘와 릿지 회귀 모델
1.5 성능 향상을 위한 방법
__1.5.1 앙상블
__1.5.2 단순화된 모델 생성
__1.5.3 테스트 데이터 정제
____OBP
____SLG
__1.5.4 반발계수의 변화
1.6 정리

▣ 02장: 반도체 박막 두께 분석
2.1 문제 정의
__2.1.1 경진대회 소개
__2.1.2 평가척도
__2.1.3 문제 해결을 위한 접근 방식
__2.1.4 분석환경 구축
2.2 탐색적 데이터 분석
__2.2.1 데이터 분석 및 통계
____연속형, 수치형 데이터
____데이터 기초 통계
____데이터 시각화
2.3 데이터 전처리
__2.3.1 결측치 처리
__2.3.2 데이터 파이프라인
__2.3.3 커스텀 데이터 클래스
2.4 모델 구축과 검증
__2.4.1 모델 탐색
____회귀 문제에 대한 머신러닝 모델
____회귀 문제에 대한 신경망 모델
__2.4.2 신경망 모델 구축
____모델 소개
____베이스라인 모델 및 대표 모델
____모델 레이어 구성 살펴보기
__2.4.3 모델 검증
2.5 성능 향상을 위한 방법
__2.5.1 정규화 기법 적용하기
__2.5.2 추가 실험하기
____옵티마이저 및 스케줄러 조정
____하이퍼파라미터(배치 크기, 은닉층 노드 개수, 레이어 구성 조정)
__2.5.3 앙상블
2.6 정리

▣ 03장: 퇴근시간 버스 승차인원 예측
3.1 문제 정의
__3.1.1 경진대회 소개
__3.1.2 평가척도
__3.1.3 문제 해결을 위한 접근 방식 소개
____주의할 점
__3.1.4 분석환경 구축
____데이콘 데이터 내려받기
____깃허브에서 데이터 내려받기
____라이브러리 설치
3.2 탐색적 데이터 분석
____데이터 경로 설정
__3.2.1 데이터 설명
____train.csv와 test.csv
____bus_bts.csv
____jeju_financial_life_data.csv
____weather.csv
____rain.csv
__3.2.2 데이터 시각화를 통한 탐색적 데이터 분석
____타깃 변수 분포 확인하기
____단일 변수에 따른 타깃 변수의 변화
____요일에 따른 퇴근시간 평균 탑승객 수
____버스 종류에 따른 탑승객 수
____일별 출퇴근 시간 탑승객 수
3.3 데이터 전처리
__3.3.1 내부 데이터를 통한 변수 생성
____탐색적 데이터 분석을 통한 변수
____도메인 조사를 통한 변수
____시간대를 활용한 변수
____bus_bts를 활용한 변수
____좌표를 활용한 변수
__3.3.2 외부 데이터를 통한 변수 생성
____날씨를 활용한 변수
____jeju_financial_life_data를 활용한 변수
__3.3.3 라벨 인코딩과 원핫 인코딩 변수
____라벨 인코딩 변수
____원핫 인코딩 변수
__3.3.4 전체 변수 정리
3.4 모델 구축과 검증
__3.4.1 머신러닝 모델
____배깅 방식 앙상블 모델
____부스팅 방식 앙상블 모델
__3.4.2 모델 검증
____교차검증
__3.4.3 변수 선택
____최종 데이터 구축
____그리드 탐색
____임의탐색
__3.4.5 최종 모델 구축
____주 모델 선택
____최종 모델 구축
3.5 성능 향상을 위한 방법
__3.5.1 submission 간 앙상블
____결괏값 간 상관계수 확인
____여러 가지 앙상블 기법
3.6 정리

▣ 04장: 상점 신용카드 매출 예측
4.1 문제 정의
__4.1.1 경진대회 소개
__4.1.2 평가척도
__4.1.3 대회 관련 사전 조사
__4.1.4 문제 해결을 위한 접근 방식 소개
____데이터 살펴보기
____데이터의 노이즈
____분석 방향
__4.1.5 분석환경 구축
____아나콘다 가상환경 구축
____주피터 노트북 설치
____rpy2(파이썬에서 R 객체 사용)
____pmdarima(시계열 분석)
____statsmodels(통계 분석)
____seaborn, tqdm 패키지 설치
____주피터 노트북에 가상환경 커널 추가하기
4.2 데이터 전처리
__4.2.1 노이즈 제거
__4.2.2 다운 샘플링
__4.2.3 날짜 지정 범위 생성과 시리즈 객체 변환
4.3 탐색적 데이터 분석
__4.3.1 상점별 매출 특성
____계절성이 있는 상점
____추세가 있는 상점
____휴업 중인 상점
__4.3.2 시계열 데이터의 정상성
____ADF-Test
4.4 모델 구축과 검증
__4.4.1 파이썬에서 R 시계열 패키지 forecast를 통한 모델링
__4.4.2 시계열 모델 선택과 검증
____자기회귀누적이동평균 모델
____지수평활법
____STL 분해를 적용한 지수평활법
4.5 성능 향상을 위한 방법
__4.5.1 상점 매출액의 로그 정규화
__4.5.2 파이썬에서 R 시계열 패키지 forecastHybrid를 통한 앙상블

▣ 05장: KBO 외국인 투수 스카우팅 최적화
5.1 문제 정의
__5.1.1 경진대회 소개
__5.1.2 평가척도
__5.1.3 도메인 조사
__5.1.4 문제 해결을 위한 접근 방식 소개
__5.1.5 분석환경 구축
5.2 탐색적 데이터 분석
__5.2.1 KBO/팬그래프 데이터에 기록된 야구 지표 분석
__5.2.2 스탯캐스트 데이터에 기록된 야구 지표 분석
5.3 데이터 전처리
__5.3.1 가설을 확인하기 위한 투수 집단 선정하기
__5.3.2 유효한 데이터 선정하기
5.4 모델 구축과 검증
__5.4.1 선형회귀분석
__5.4.2 아웃 확률 추정하기
5.5 성능 향상을 위한 방법
__5.5.1 볼 배합 지표
__5.5.2 배럴 타구 허용 비율
5.6 정리

▣ 06장: 부록
A.1 아나콘다 다운로드와 설치
__A.1.1 아나콘다 다운로드
__A.1.2 아나콘다 설치
A.2 파이썬 패키지 확인과 추가 설치
__A.2.1 아나콘다 프롬프트 실행
__A.2.2 기본 설치된 패키지 확인
__A.2.3 파이썬 패키지 추가 설치
A.3 장별 실습에 필요한 패키지를 일괄 설치
__A.3.1 requirements.txt를 사용해 패키지를 일괄 설치
__A.3.2 environment.yml로 가상 환경을 구성하고 패키지를 일괄 설치
A.4 주피터 노트북
__A.4.1 주피터 노트북 시작
__A.4.2 주피터 노트북 사용
__A.4.3 주피터 노트북 종료

저자소개

김민수1906 (지은이)    정보 더보기
일산 지역 데이터 분석 스터디 모임에서 경진대회 참가를 위해 만들어진 팀이다. 연세대학교 정보대학원 비즈니스 빅데이터 트랙 석사과정 김민수, 경북대학교 통계학과 서동진으로 구성하고 있다. 머신러닝, 딥러닝 등을 함께 공부하며 여러 경진대회에 참가하고 있다.
펼치기
Context_KKP (지은이)    정보 더보기
딥러닝 모델은 흔히 '블랙박스'라고 표현이 되는데, '입력에 대한 블랙박스의 출력은 어떻게 나오는 것일까?'에 대한 궁금증을 해소하기 위해 맥락(context)을 공부하자는 의미로 팀 이름을 정했다. 서로 처음 알게 되었을 때는 각자 직장인, 대학원생으로 직업이 달랐지만 지금은 3명 모두 대학원생으로 학업에 집중하며 간간히 대회에도 참여하고 있다.
펼치기
DB분석가 (지은이)    정보 더보기
데이터 사이언스에 흥미를 느끼던 경영학도 2명이 실전 빅데이터를 경험하며 성장하기 위해 결성한 팀이다. 상점 신용카드 매출 예측 경진대회에서 1등을 했으며 데이콘 공공데이터 활용 온도 추정 AI경진대회에서 6위에 올랐다.
펼치기
제주감귤 (지은이)    정보 더보기
국민대학교 빅데이터경영통계전공 학생들로 이뤄진 팀이다. 통계적 지식과 경영학적 인사이트를 기반으로 데이터 분석을 하고 있다. 데이터 분석을 통해 더 나은 세상을 만들고자 한다.
펼치기
TNT (지은이)    정보 더보기
성균관대학교 교내 데이터 분석 학회인 TNT(Train and Test)의 회원으로 구성된 팀이다. 각기 다른 전공생끼리 모여 여러 도메인의 문제 해결을 위해 데이터 분석 및 인공지능 기법을 적용하는 것을 목표로 한다. (https://skku-tnt.github.io/)
펼치기

책속에서



이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
이 포스팅은 제휴마케팅이 포함된 광고로 커미션을 지급 받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책