언어와 컴퓨터

책 이미지

eBook 미리보기

책 정보

· 제목 : 언어와 컴퓨터
· 분류 : 국내도서 > 대학교재/전문서적 > 인문계열 > 언어학
· ISBN : 9788975995644
· 쪽수 : 261쪽
· 출판일 : 2016-05-20

책 소개

이 책의 목적은 어떻게 기술이 작동하는지, 어떻게 언어가 작동하는지를 일깨우는 것이다. 언어 기술, LT, 전산언어학, 자연언어처리, NLP의 몇 응용에 초점을 두었다. 언어기술, 전산처리학, 자연언어처리는 본질적으로는 같은 것을 의미하며, 각각 산업, 언어학, 컴퓨터과학의 관점에서 붙이는 이름이다.

이 책이 다루는 것 ⅸ
교수자를 위한 개요

1. 프롤로그 1
1.1. 어디서부터 시작할까? 1
1.1.1. 언어부호화 2
1.2. 인간 언어에 쓰이는 문자 2
1.2.1. 음소 문자 체계 3
1.2.2. 음절 문자 체계 6
1.2.3. 표어 문자 체계 9
1.2.4. 특이하게 실현되는 체계 11
1.2.5. 언어와의 관계 12
1.3. 문자언어 부호화하기 13
1.3.1. 컴퓨터에 정보 저장하기 13
1.3.2. 바이트로 글자 저장하기 15
1.4. 입말 부호화하기 18
1.4.1. 말의 본질 18
1.4.2. 조음 특성 19
1.4.3. 음향 특성 19
1.4.4. 말 소리 측정하기 22
1.4.5. 글말과 입말 연결하기 26

2. 필자들의 보조 도구 35
2.1. 도입 35
2.2. 맞춤법 오류들의 종류 37
2.2.1. 존재하지 않는 단어 오류 37
2.2.2. 실재 단어 오류들 40
2.3. 철자 검사기 42
2.3.1. 비단어 오류 탐지 42
2.3.2. 고립 단어 맞춤법 교정 45
2.4. 맥락내 단어 교정 55
2.4.1. 문법은 교정인가? 55
2.4.2. 맥락내 단어 교정 기술 65
2.5. 스타일 검사기 73

3. 언어 교육 시스템 79
3.1. 언어 학습 79
3.2. 컴퓨터 보조 언어 학습 81
3.3. CALL 도구가 언어를 알아야 하는 이유 84
3.4. 언어 분석의 추가에 무엇이 관여하는가? 87
3.4.1. 분절 87
3.4.2. 품사 꼬리표 달기 90
3.4.3. 낱말을 넘어서 92
3.5. ICALL 시스템의 예: TAGARELA 93
3.6. 학습자 모형의 개발 97

4. 검색 103
4.1. 서론 103
4.2. 정형 데이터 검색하기 105
4.3. 비정형 데이터 검색하기 107
4.3.1. 정보 수요 107
4.3.2. 검색결과 평가 108
4.3.3. 예시 : 웹 검색하기 110
4.3.4. 검색 엔진의 작동 원리 112
4.4. 정규식으로 반정형 데이터 검색하기 120
4.4.1. 정규식 구문 122
4.4.2. Grep : 정규식 사용의 예 124
4.5. 텍스트 말뭉치 검색하기 130
4.5.1. 왜 말뭉치인가? 130
4.5.2. 주석 달린 언어 코퍼스들 132

5. 문서 분류 143
5.1. 자동 문서분류 143
5.2. 컴퓨터가 어떻게 “배우느냐” 146
5.2.1. 지도 학습 146
5.2.2. 비지도 학습 147
5.3. 자질과 증거 147
5.4. 응용: 스팸 거르기 149
5.4.1. 기저율 151
5.4.2. 수지 타산 155
5.4.3. 문서로 돌아가서 156
5.5. 문서 분류의 일부 유형 157
5.5.1. 순진한 베이즈 분류기 157
5.5.2. 퍼셉트론 163
5.5.3. 어떤 분류를 사용하는지 166
5.6. 분류 알고리듬에서 사용하는 맥락까지 167

6. 대화 시스템 173
6.1. 대화하는 컴퓨터? 173
6.2. 대화는 왜 발생하는가? 175
6.3. 자동 대화 시스템 176
6.3.1. 대화 시작하기 177
6.3.2. 목표 설정하기 177
6.3.3. 사용자의 목표 수용하기 178
6.3.4. 사용자의 역할 수행하기 178
6.3.5. 답변 제시하기 179
6.3.6. 회화 마무리를 협상하기 179
6.4. 대화의 관습과 대화 예측의 구조화 180
6.4.1. 스포츠에서 예측의 구조화 180
6.4.2. 대화 예측의 구조화 181
6.5. 대화의 속성 181
6.5.1. 대화 동작 182
6.5.2. 화행 183
6.5.3. 회화의 격률 184
6.6. 대화 시스템의 과업 187
6.7. 일라이자 188
6.8. 음성 대화 197
6.9. 대화 시스템을 어떻게 평가할 것인가? 197
6.10. 대화는 왜 중요한가? 199

7. 기계 번역 시스템 203
7.1. 번역하는 컴퓨터? 203
7.2. 번역의 응용 205
7.2.1. 번역 요구 205
7.2.2. 기계 번역은 무엇을 위한 것인가? 206
7.3. 셰익스피어 번역하기 208
7.4. 번역 삼각형 211
7.5. 번역과 의미 214
7.6. 단어와 의미 216
7.6.1. 단어와 외국어 216
7.6.2. 동의어와 번역 등가물 218
7.7. 단어 정렬 218
7.8. IBM 모델1 222
7.9. 상업적 자동 번역 231
7.9.1. 일기 예보 번역하기 231
7.9.2. 유럽연합에서의 번역 233
7.9.3. 번역가 지망생들에게 234

8. 에필로그 241

언급 문헌집 247
색인 255

저자소개

Markus Dickinson (지은이) 정보 더보기

미국 인디애나 대학교 언어학과 조교수

펼치기

Markus Dickinson의 다른 책 >

Chris Brew (지은이) 정보 더보기

미국 교육 시험 서비스 (ETS) 선임 연구위원

펼치기

Chris Brew의 다른 책 >

Detmar Meurers (지은이) 정보 더보기

독일 튀빙엔 대학교 전산언어학 교수

펼치기

Detmar Meurers의 다른 책 >

류병래 (옮긴이) 정보 더보기

독일 튀빙엔대학교 Dr. phil. (언어학) 충남대학교 인문대학 언어학과 교수

펼치기

류병래의 다른 책 >

성철재 (옮긴이) 정보 더보기

서울대학교 인문대학 언어학과 학사 동 대학원 언어학과 석·박사 한국전자통신연구원(ETRI), post-doc연구원 미국 UCLA 대학교 언어학과 방문학자 한국전자통신연구원(ETRI) 초빙연구원 충남대학교 인문대학 부학장 충남대학교 부설 언어치료센터장 미국 인디애나 대학교 말·청각과학과 방문학자 현 충남대학교 언어학과 교수 동 대학원 언어병리학과 교수 미국 인디애나 대학교 말·청각과학과 외래교수 한국음성학회 상임이사 한국언어청각임상학회 상임이사 한국언어학회 상임이사 한국음향학회 편집위원

펼치기

성철재의 다른 책 >

노용균 (옮긴이) 정보 더보기

미국 오하이오 주립대학교 Ph.D. (언어학) 충남대학교 인문대학 언어학과 교수

펼치기

이공주 (옮긴이) 정보 더보기

한국과학기술원 공학박사 (전산학) 충남대학교 공과대학 전파정보통신공학과 교수

펼치기

책속에서

[ 저자서문 ]
본저에서는 컴퓨터가 언어를 다루는, 상이한 실세계 임무들과 응용품들을 둘러보는 여행을 떠난다. 이 여행 도중 언어와 표장, 그리고 처리에 관련된 필수 개념을 접할 것이다. 그리하여 본저의 끝 무렵에는 전산언어학 분야의 핵심 개념을 잘 파악할 수 있을 것이다. 이 책을 읽는 데 필요한 배경은 오직 언어에 대한 약간의 호기심과, 컴퓨터를 사용해 본 일상적인 경험 뿐이다.
이 여행의 과정에서 우리는 대부분의 독자들이 많은 응용 프로그램에 친숙하고, 그것이 어떻게 작동하는지 혹은 왜 작동하지 않는지 궁금해 할 것이라 가정한다. 여러분이 깨닫지 못하고 있을 수 있는 것은 응용의 기저에서 이루어지는 처리들이 서로 얼마나 유사한가다. 예를 들어, 문법검사기와 자동음성인식 시스템은 아주 유사하게 작동한다. 이 경우에 쓰인 개념은 n-그램인데, 독자는 이와 같은 개념들이 나올 때마다 설명을 들으며 새로운 응용물들에 기존의 일반적인 기법을 적용하는 것이 중요하다는 생각을 강화했으면 한다.

비지도 학습unsupervised learning에서, 우리는 미리 지정한 범주가 없다고 가정한다. 신문에는 여전히 범주화되지 않은 기사들의 한 흐름이 있지만, 이제는 같은 파일에 비슷한 기사를 넣는 방식처럼 기사 파일을 조직하는 작업을 생각해 보자. 이런 배경으로 파일은 클러스터cluster라고 부르고 해당 클러스터에 기사를 넣어 조직하는 과정을 집단화clustering라 부른다. 집단화는 온라인 출판물 속 상이한 웹페이지에 올려 있는 그룹에 기사를 분류할 때 이용된다. 그런 배경에서 해당 그룹에 고정된 이름을 둘 필요가 없어진다.
독자는 기사들을 보면 ‘스포츠’처럼 무언가가 공통된 점이 있다고 알아차릴 것이지만 이 알고리듬은 기사들을 묶어놓은 것이라서 그 클러스터에 이름을 붙여 주지 않아도 된다. 학습 집합이 필요가 없어서 기사에 이름표를 붙이는 값비싼 과정을 하지 않아도 되는 것이 이러한 접근의 큰 이점이다. 큰 단점은 클러스터가 직관에 따르지 않는다는 것이다. 예를 들어, 당신이 일반 단어를 무리 지었을 때, “Monday”, “Tuesday”, “Wednesday”, “Thursday”는 하나의 클러스터에 들어가겠지만, “Friday“는 다른 클러스터로 빠질 것이다. Friday는 보통 ”Thank goodness it’s…“ 뒤에 붙는 단 하나의 평일이기 때문이다.