R를 이용한 텍스트 마이닝 책 가격비교

책 이미지

책 정보

· 제목 : R를 이용한 텍스트 마이닝
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 언어 > 프로그래밍 언어 기타
· ISBN : 9788946070226
· 쪽수 : 296쪽

책 소개

최근 가장 각광받는 프로그래밍 언어이자 오픈소스 프로그램인 R을 이용해 텍스트 분석을 실행하는 실제적인 방법을 안내한다. 다양한 데이터 마이닝 기법과 데이터 처리 방법을 소개하고 이를 구현하는 R 프로그래밍 코드를 첫 줄부터 마지막 줄까지 세심하게 설명했다.

1부 텍스트 데이터란 무엇인가?
01 텍스트를 데이터로 파악하기

2부 텍스트 데이터 사전처리
01 텍스트 분석을 위한 기초적 R 함수
02 텍스트 분석을 위한 R의 베이스 함수
03 텍스트 분석을 위한 stringr 라이브러리 함수
04 말뭉치 텍스트 데이터 사전처리
05 한국어 텍스트 데이터 처리
06 품사분석

3부 텍스트 데이터 분석 및 결과 제시
01 텍스트 데이터에 대한 기술통계분석
02 토픽모형
03 감정분석

4부 마무리
01 R를 활용한 온라인 데이터 수집 소개
02 맺음말

저자소개

백영민 (옮긴이) 정보 더보기

연세대학교 신문방송학과를 졸업하고 서울대학교 언론정보학과에서 석사학위를 받았다. 2011년 미국 펜실베이니아 대학교 아넨버그 스쿨에서 박사학위를 받았다. 한국과학기술원(KAIST) 조교수를 지내고 현재 연세대학교 언론홍보영상학부 부교수로 재직 중이다. Journal of Communication, Communication Research, New Media & Society, Journal of Broadcasting & Electronic Media, Health Communication, PLOS ONE, American Politics Research, Political Studies, International Journal of Public Opinion Research, Nonprofit Management & Leadership, Journal of Social and Personal Relationships, Journal of Language and Social Psychology 등 언론학을 포함 다양한 학문분과 학술지에 현재까지 90편의 학술논문(2023년 6월 기준)을 출간하였다. 저술한 책으로 《R 기반 성향점수분석: 루빈 인과모형 기반 인과추론》, 《R을 이용한 결측데이터 분석: 최대우도 및 다중투입기법을 중심으로》, 《R기반 복합설문 데이터 분석》, 《R를 이용한 텍스트 마이닝》, 《R 기반 제한적 종속변수대상 회귀모형》, 《R를 이용한 사회과학데이터 분석: 구조방정식 모형 분석》, 《방법론적 사유: 입말로 풀어쓴 사회과학 연구방법론》, 《R 기반 네트워크 분석》 등이 있으며, 번역한 책으로는 《국민의 선택: 대통령 선거캠페인 기간에 유권자는 지지후보를 어떻게 결정하는가?》, 《포퓰리즘》, 《퍼스널 인플루언스》, 《소셜미디어와 공익: 가짜뉴스 시대의 미디어 정책》 등이 있다.

펼치기

백영민의 다른 책 >

리뷰

가시광*

★★★★☆(8)

([100자평]친절한 설명이 돋보이는 책. 마지막 온라인 데이터 수집...)

자세히

p_f*****

★★★★☆(8)

([마이리뷰]R을 효율적으로 쓸수있는 방법을..)

자세히

blu******

★★★★☆(8)

([100자평]사례를 통해 실용적인 패키지 사용법을 익히는데 도움이 ...)

자세히

책속에서

텍스트는 인문학자들과 사회과학자들이 사회현상을 이해하는 주요 수단이었다. 전통적인 인문학이나 사회과학 관점에서 보면 의아할 수도 있지만, 전산 능력 향상으로 인해 대용량의 데이터 처리가 가능해지고 효율적인 알고리즘들이 개발되면서 텍스트를 수치형 데이터로 간주하는 통계적 분석기법들이 눈부시게 개발되고 있다. 현재 이 책에서 다루는 텍스트 처리기법들은 필자의 지식 범위에서 2016년도까지 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나, 해당 분과의 학술적 주장을 뒷받침하는 자료로 사용되었다. 독자들이 이 책을 언제 접하든, 아마도 바로 이 순간에도 더욱 새롭고 효율적인 텍스트 분석기법이 속속 제안되고 있을 것이다. 그러나 이 책에서 소개하는 텍스트 마이닝의 기본 개념들과 모형 구성의 기본 패러다임은 크게 바뀌지 않을 것으로 생각한다. 텍스트 마이닝과 같이 하루하루 눈부시게 발전하는 분야라고 하더라도 기초적인 개념과 프로그래밍을 확실하게 알고 있다면 새로 개발되는 기법과 모형에 더 쉽게 다가갈 수 있을 것으로 생각한다.
_1부 텍스트 데이터란 무엇인가?

텍스트 데이터에 대한 분석이 일반적인 사회과학 데이터 분석과 본질적으로 크게 다르지 않다는 것을 느꼈을 것이다. 데이터에 대한 사전처리와 사전처리된 데이터에 대한 통계분석과 모형화 작업은 어떠한 데이터 분석작업에서도 동일하게 발견되는 과정이다. 즉, 텍스트 데이터는 일반적으로 많이 쓰이는 수치형 데이터가 아닌 것뿐이다. 이 책을 통해 독자들이 대용량의 텍스트를 좀 더 체계적인 방식으로 다룰 수 있는 계기가 되었길 바란다.
_4부 마무리

아쉽게도 현재의 텍스트 분석은 컴퓨터가 해독할 수 있는 디지털 정보에 대한 형식적 분석을 통해 의미를 유추하는 데 멈추고 있다. 온라인 공간에서 우리는 수많은 빈정거리는(sarcastic) 혹은 냉소적인 표현(cynical expression)을 발견할 수 있다. 또한 텍스트의 사회적 배경을 알지 못한다면 그 의미를 잘못 유추하거나 이해할 수 있는 표현들도 쉽게 접할 수 있다. 텍스트를 온전히 이해하기 위해서는 맥락을 알고 표현이 등장한 배경을 이해해야 하지만, 사회적 맥락 정보를 텍스트 분석에 정량적 방식으로 투입하는 기법은 적어도 필자가 알고 있는 범위에서 존재하지 않는다. 이와 관련해 필자는 지금껏 사회과학 분야가 축적했던 지식과 사회과학자들의 경험이 알고리즘 구현에 크게 도움이 될 것으로 믿는다.
_4부, 마무리