자연어 텍스트 처리를 통한 검색 시스템 구축 책 가격비교

책 이미지

책 정보

· 제목 : 자연어 텍스트 처리를 통한 검색 시스템 구축 (아파치 솔라, 루씬, OpenNLP 등 오픈소스 활용)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 웹 서비스/웹 프로그래밍
· ISBN : 9788960776500
· 쪽수 : 456쪽

책 소개

에이콘 데이터 과학 시리즈. 실제 애플리케이션에서 텍스트를 다루는 방법에 대한 실용적인 예제 중심의 안내서다. 전문(full-text) 검색, 고유명사 인식, 클러스터링, 태그 부착, 정보 추출, 요약 같은 유용한 기법을 소개한다.

1장. 텍스트 길들이기 시작
1.1 텍스트 길들이기가 중요한 이유
1.2 미리보기: 사실 기반 질의응답 시스템
1.2.1 안녕하세요, 프랑켄슈타인 박사님
1.3 텍스트를 이해하기는 어렵다
1.4 길들여진 텍스트
1.5 텍스트와 지능적인 앱: 검색과 그 너머
1.5.1 검색과 일치
1.5.2 정보 추출
1.5.3 정보 그룹화
1.5.4 지능적인 애플리케이션
1.6 정리
1.7 참고 자료

2장. 텍스트 길들이기 기초
2.1 언어의 기초
2.1.1 단어와 그 범주
2.1.2 구와 절
2.1.3 형태론
2.2 텍스트 프로세싱을 위한 일반적인 도구
2.2.1 문자열 조작 도구
2.2.2 토큰과 토큰 분리
2.2.3 품사 배정
2.2.4 어간 추출
2.2.5 문장 탐지
2.2.6 구문 분석과 문법
2.7.7 시퀀스 모델링
2.3 일반 파일 형식에서 콘텐츠의 전처리와 추출
2.3.1 전처리의 중요성
2.3.2 아파치 티카를 사용한 콘텐츠 추출
2.4 정리
2.5 참고 자료

3장. 검색
3.1 검색과 패싯 사례: 아마존
3.2 검색 개념 개론
3.2.1 콘텐츠로 색인 만들기
3.2.2 사용자 입력
3.2.3 벡터 공간 모델로 문서 순위화
3.2.4 결과 표시
3.3 아파치 솔라 검색 서버 소개
3.3.1 솔라 처음 실행
3.3.2 솔라 개념 이해
3.4 아파치 솔라를 사용한 콘텐츠 색인
3.4.1 XML을 사용한 인덱스
3.4.2 솔라와 아파치 티카를 사용한 콘텐츠 추출과 인덱스 작성
3.5 아파치 솔라로 콘텐츠 검색
3.5.1 솔라 질의 입력 파라미터
3.5.2 추출된 콘텐츠에 대한 패싯
3.6 검색 성능 요소 이해
3.6.1 품질 판단
3.6.2 수량 판단
3.7 검색 성능 개선
3.7.1 하드웨어 개선
3.7.2 분석 개선
3.7.3 질의 성능 개선
3.7.4 대안적인 채점 모델
3.7.5 솔라의 성능 개선을 위한 기법
3.8 검색 대안
3.9 정리
3.10 참고 자료

4장. 유사 문자열 일치
4.1 유사 문자열 일치에 대한 접근 방식
4.1.1 문자 겹침 척도
4.1.2 편집 거리 척도
4.1.3 n그램 편집 거리
4.2 유사 일치 문자열 검색
4.2.1 접두사를 사용한 일치 확인을 솔라로 수행
4.2.2 접두사 일치를 위한 트라이 사용
4.2.3 일치 확인을 위한 n그램 사용
4.3 유사 문자열 일치 애플리케이션 작성
4.3.1 검색에 사전 입력 추가
4.3.2 검색을 위한 질의 철자 검사
4.3.3 레코드 일치 확인
4.4 정리
4.5 참고 자료

5장. 인명, 지명. 사물 식별
5.1 개체명 인식에 대한 접근법
5.1.1 규칙을 사용한 이름 인식
5.1.2 이름 인식에 통계적 분류기 사용
5.2 OpenNLP를 사용한 기본적인 개체 인식
5.2.1 OpenNLP로 이름 찾기
5.2.2 OpenNLP로 식별된 이름 해석
5.2.3 확률 기반 이름 필터링
5.3 OpenNLP를 이용한 심도 있는 개체 식별
5.3.1 OpenNLP로 복수의 개체 유형 인식
5.3.2 후드 아래: OpenNLP가 이름을 식별하는 방법
5.4 OpenNLP의 성능
5.4.1 결과의 품질
5.4.2 실행 시간 성능
5.4.3 OpenNLP의 메모리 사용량
5.5 OpenNLP 개체명 식별을 새 도메인의 요구 사항에 맞추기
5.5.1 모델 훈련 이유와 방법
5.5.2 OpenNLP 모델 훈련
5.5.3 모델링 입력 바꾸기
5.5.4 이름을 모델로 만드는 새로운 방법
5.6 정리
5.7 추가 자료

6장. 텍스트 클러스터링
6.1 구글 뉴스 문서 클러스터링
6.2 클러스터링 기초
6.2.1 클러스터링의 대상인 세 가지 텍스트 유형
6.2.2 클러스터링 알고리즘의 선택
6.2.3 유사도 결정
6.2.4 결과에 라벨 붙이기
6.2.5 클러스터링 결과의 평가 방법
6.3 간단한 클러스터링 애플리케이션 설정
6.4 Carrot2를 사용한 검색 결과 클러스터링
6.4.1 Carrot2 API 사용
6.4.2 Carrot2를 사용한 솔라 검색 결과 클러스터링
6.5 아파치 머하웃을 사용한 문서 컬렉션 클러스터링
6.5.1 클러스터링용 데이터 준비
6.5.2 K 평균 클러스터링
6.6 아파치 머하웃을 사용한 주제 모델링
6.7 클러스터링 성능 분석
6.7.1 자질 선택과 축소
6.7.2 Carrot2 성능과 품질
6.7.3 머하웃 클러스터링 벤치마크
6.8 감사의 말
6.9 정리
6.10 참고 자료

7장. 분류, 커테고리 분류, 태깅
7.1 분류와 카테고리 분류 소개
7.2 분류 과정
7.2.1 분류 체계 선택
7.2.2 텍스트 카테고리 분류를 위한 자질 찾기
7.2.3 훈련 데이터의 중요성
7.2.4 분류기 성능 평가
7.2.5 분류기를 생산 환경에 배치
7.3 아파치 루씬으로 문서 카테고리 분류기 작성
7.3.1 루씬으로 텍스트 카테고리 분류
7.3.2 MoreLikeThis 카테고리 분류기에 사용할 훈련 데이터 준비
7.3.3 MoreLikeThis 분류기 훈련
7.3.4 MoreLikeThis 카테고리 분류기로 문서를 카테고리 분류
7.3.5 MoreLikeThis 카테고리 분류기 테스트
7.3.6 생산 단계에서의 MoreLikeThis
7.4 아파치 머하웃으로 나이브 베이즈 분류기 훈련
7.4.1 나이브 베이즈 분류 방식으로 텍스트를 카테고리 분류
7.4.2 훈련 데이터 준비
7.4.3 테스트 데이터 숨겨두기
7.4.4 분류기 훈련
7.4.5 분류기 테스트
7.4.6 부트스트래핑 프로세스 개선
7.4.7 솔라와 머하웃 베이즈 분류기 통합
7.5 OpenNLP로 문서 카테고리 분류
7.5.1 회귀 모델과 최대 엔트로피 문서 카테고리 분류
7.5.2 최대 엔트로피 문서 카테고리 분류기를 위해 훈련 데이터 준비
7.5.3 최대 엔트로피 문서 카테고리 분류기 훈련
7.5.4 최대 엔트로피 분류기 테스트
7.5.5 생산 시스템에서의 최대 엔트로피 문서 카테고리 분류
7.6 아파치 솔라를 사용하는 태그 추천기 작성
7.6.1 태그 추천을 위한 훈련 데이터 수집
7.6.2 훈련 데이터 준비
7.6.3 솔라 태그 추천기 훈련
7.6.4 추천 태그 생성
7.6.5 태그 추천기 평가
7.7 정리
7.8 참고 자료

8장. 질의응답 시스템 예제 구축
8.1 질의응답 시스템의 기초
8.2 QA 코드 설치와 실행
8.3 표본 질의응답 아키텍처
8.4 질문의 이해와 답변 생성
8.4.1 답변 유형 분류기 훈련
8.4.2 질의를 청크로 분리
8.4.3 답변 유형 계산
8.4.4 질의 생성
8.4.5 후보 패시지 순위화
8.5 시스템 개선을 위한 과정
8.6 정리
8.7 참고 자료

9장. 길들여지지 않는 텍스트: 다음 개척지 탐구
9.1 의미론, 담론, 화용론: 고수준 NLP 탐구
9.1.1 의미론
9.1.2 담화
9.1.3 화용론
9.2 문서와 컬렉션 요약
9.3 관계 추출
9.3.1 접근 방식 개요
9.3.2 평가
9.3.3 관계 추출을 위한 도구
9.4 중요한 콘텐츠와 인물 식별
9.4.1 전반적 중요도와 권위
9.4.2 개인적 중요도
9.4.3 중요성에 대한 자료와 포인터
9.5 정서 분석을 통해 감정 감지
9.5.1 역사와 비평
9.5.2 도구와 데이터 요구
9.5.3 기본적 극성 알고리즘
9.5.4 고급 주제
9.5.5 정서 분석을 위한 오픈소스 라이브러리
9.6 교차 언어 정보 검색
9.7 정리
9.8 참고 자료

저자소개

그랜트 잉거솔 (지은이) 정보 더보기

검색과 자연언어 처리 도구를 개발하는 루시드 이미지네이션Lucid Imagination의 창업자다. 루시드 이미지네이션을 창업하기 전에는 시라큐즈 대학의 자연언어 처리 센터의 시니어 소프트웨어 엔지니어였다. 자연언어 처리 센터와 그 이전에는 MNIS-텍스트와이즈(TextWise)에서 정보 검색, 질의응답, 클러스터링, 요약, 카테고리 분류를 수반하는 다수의 텍스트 처리 애플리케이션을 개발했다. 아파치 루씬(Lucene) 자바 프로젝트의 커미터이면서 강연자이자 트레이너이고, 아파치 머하웃(Mahout) 기계학습 프로젝트의 공동 창립자다. 시라큐즈 대학에서 컴퓨터과학 석사학위를 받았으며, 암허스트 칼리지에서 수학과 컴퓨터과학 학사학위를 받았다.

펼치기

그랜트 잉거솔의 다른 책 >

토마스 모튼 (지은이) 정보 더보기

텍스트 처리와 기계학습 분야의 소프트웨어를 개발하고 연구를 수행한다. 최근 5년 동안 OpenNLP 텍스트 처리 프로젝트와 최대 엔트로피 기계학습 프로젝트의 주요 개발자이자 관리자였다. 2005년, 펜실베이니아 대학에서 컴퓨터과학 박사학위를 받았고, 업계에서 텍스트 처리와 기계학습을 기업 수준의 개발에 적용하는 일을 수행했다. 현재 필라델피아에 있는 컴캐스트 인터랙티브 미디어(Comcast Interactive Media)에서 소프트웨어 아키텍트로 일하고 있다.

펼치기

토마스 모튼의 다른 책 >

드류 패리스 (지은이) 정보 더보기

대규모 분석과 분산 컴퓨팅 및 기계학습을 주로 하는 전문 소프트웨어 개발자이자 기술 컨설턴트다. 전에는 텍스트와이즈(Textwise)에서 일하면서 자연언어 처리와 분류, 시각화 기법을 조합해서 다양한 텍스트 조사와 관리, 검색 애플리케이션을 만들었다. 아파치 머하웃, 루씬, 솔라 등의 여러 가지 오픈소스 프로젝트에 기여했고, 시라큐즈 대학 정보학부의 정보자원관리 석사학위와 컴퓨터그래픽스 학사학위를 보유하고 있다.

펼치기

드류 패리스의 다른 책 >

임혜연 (옮긴이) 정보 더보기

인터넷 세상의 언어에 관심이 많은 개발자다. 지금은 어떻게 하면 검색을 통해 좋은 연결을 만들 수 있을지 고민하는 일을 주로 하고 있다. 옮긴 책으로는 『데이터 접근 패턴 Data Access Patterns』(에이콘, 2013), 『자연어 텍스트 처리를 통한 검색 시스템 구축』(에이콘, 2014), 『파이썬 성능 높이기 2/e』(에이콘, 2018), 『HTTP/2 in Action』(에이콘, 2020), 『데이터 과학을 위한 파이썬과 R』(한빛미디어, 2022)이 있다.

펼치기

임혜연의 다른 책 >