한국어 구어 말뭉치 연구

책 이미지

eBook 미리보기

책 정보

· 제목 : 한국어 구어 말뭉치 연구
· 분류 : 국내도서 > 대학교재/전문서적 > 어문학계열 > 국어국문학 > 국어학개론/정서법
· ISBN : 9788968170515
· 쪽수 : 214쪽
· 출판일 : 2013-06-10

책 소개

구어 자료를 말뭉치의 형태로 이용하고자 하는 모든 연구자들을 대상으로 하여 씌어졌다. 즉, 말뭉치와 구어 연구를 처음 시작하는 언어학 전공 학생들이나 다양한 연구 목적으로 구어 자료를 구축하거나 기구축된 자료를 이용하고 싶은 연구자들을 위한 책이다.

· 머리말

제1장 서론

제2장 구어 말뭉치 구축의 흐름
2.1. 구어 말뭉치의 현황
2.1.1. 주요 한국어 구어 말뭉치
2.1.2. 주요 외국어 구어 말뭉치
2.2. 세종 구어 말뭉치의 특징
2.2.1. 전사 단위의 변화
2.2.2. 전사 수준의 향상
2.2.3. 담화표지에 대한 전사 및 분석 방법의 변화
2.2.4. 익명성 보장을 위한 마크업
2.2.5. 발화자의 동의서 확보
2.2.6. 음성 자료의 디지털화
2.2.7. 형태소 분석 도구 개발
2.3. 구어 말뭉치 구축에서 고려할 점
2.3.1. 규모의 확대
2.3.2. 말뭉치 구성의 균형성
2.3.3. 전사 방법의 다양화
2.3.4. 표준어와 방언 자료의 구분
2.3.5. 저작권의 문제
2.3.6. 음성 자료와 전사 자료간의 동기화 문제

제3장 구어 말뭉치의 구축과 주석
3.1. 말뭉치 구축 절차
3.1.1. 설계 단계
3.1.2. 자료 수집과 녹음 단계
3.1.3. 음성 변환 단계
3.1.4. 전사와 마크업 단계
3.1.5. 주석 단계
3.2. 말뭉치 전사 방법
3.2.1. 전사 방법
3.2.2. 전사 기호와 마크업 기호
3.3. 형태 주석
3.3.1. 축약형의 주석
3.3.2. 구어 실현형의 표기와 주석
3.3.3. 분석 불능 범주의 주석

제4장 연세 구어 말뭉치의 구성과 특징
4.1. 연세 구어 말뭉치의 구성
4.1.1. 텍스트 분류 체계의 필요성
4.1.2. 텍스트 분류 체계 설정을 위한 방법론
4.1.3. 연세 구어 말뭉치의 텍스트 분류 체계
4.1.4. 연세 구어 말뭉치의 텍스트 구성
4.1.5. 연세 구어 말뭉치의 화자 정보 구성
4.2. 연세 구어 말뭉치 주석의 특징
4.2.1. 세종 말뭉치와의 비교
4.2.2. 접두사, 접미사 목록의 특징

제5장 결론

· 참고문헌
· 부록 1 연세 구어 말뭉치의 목록
· 부록 2 연세 구어 말뭉치의 유형별 예시
· 부록 3 구어 연구 논저 목록 (1960~2012)

저자소개

서상규 (지은이) 정보 더보기

연세대학교 국어국문학과 교수 전 연세대 언어정보연구원 원장 전 연세대 언어연구교육원 원장 연구 분야: 국어사, 통사론, 말뭉치언어학 연세대학교 국어국문학과 졸업(1982년) 후, 같은 대학원에서 문학석사 학위(1984년), 문학박사 학위를 받았다(1992년). 1988년~1993년 일본 동경외국어대학 조선어학과, 1993년~1995년 츠쿠바(筑波)대학의 문예언어학계 교수를 지내고 1995년 연세대학교 조교수로 부임하였다. 1995년~1996년 한국어 능력 시험(현재 TOPIK)을 위한 기초 연구와 모형 개발에 참여했으며, 1998년~2007년 문화관광부의 21세기 세종계획 국어정보화 기반 구축 사업의 국어 특수자료 구축 분과의 책임을 맡아서 한국어 구어 전사 말뭉치 과제를 수행하는 한편, 같은 기간 동안에 이루어진 한국어 해외 보급 사업에 참여하여, 『외국인을 위한 한국어 학습 사전』 등을 개발하였다. 2021년부터 2023년까지 국립국어원의 『기초 어휘 선정 및 어휘 등급화 연구』 사업의 책임을 맡아서 1~5등급의 기초 어휘 선정을 수행하였다. 『국어정보학입문』(공저 1998), 『한국어 구어 연구(1, 2)』(공편 2002, 2005), 『한국어교육과 학습사전』(2003), 『외국인을 위한 한국어 학습 사전』(공저 2004, 2006), 『한국어 구어 말뭉치 연구』(공저 2013), 『한국어 기본어휘 연구』(2013), 『한국어 구어 빈도 사전(1, 2)』(2015), 『한일대역 한국어 기본어휘 의미빈도 사전』(2017, 2019개정), 『최현배의 우리말본 연구(1, 2)』(2017, 2018), 『현대 한국어 어휘 빈도 사전(1, 2)』(2023) 등의 저서와, 한국어 어휘 문법 연구, 말뭉치언어학과 국어정보학, 학습 사전 편찬, 한국어 기본어휘 등과 관련된 논문을 발표하였다.

펼치기

서상규의 다른 책 >

책속에서

한국어 구어 말뭉치 연구

제1장 / 서론
제2장 / 구어 말뭉치 구축의 흐름
제3장 / 구어 말뭉치의 구축과 주석
제4장 / 연세 구어 말뭉치의 구성과 특징
제5장 / 결론

제1장 서론
1998년 국가적 규모의 말뭉치 구축 사업이 시작된 전후로 한국어 구어 말뭉치에 대한 연구는 새로운 방법론을 추구하면서 그 연구 영역을 확장해 왔다. 현재 그 규모면에서 가장 큰 구어 말뭉치인 ‘21세기 세종계획의 구어 전사 말뭉치’는 원시 말뭉치가 420만 어절, 형태 분석 말뭉치가 100만 어절 정도 구축되었으며, 그 일부가 배포되어 이를 기반으로 한 다양한 구어 연구가 이루어지고 있다. 즉, 대규모 말뭉치 기반의 구어 연구가 가능한 상황이 된 것이다.
이 책은 그간의 한국어 구어 말뭉치 구축의 역사와 세종 구어 말뭉치의 구축 방법론을 밝히기 위해 쓰였다. 이는 10여 년간 실제 작업에 참여한 연구진들의 작업에 대한 기록이기도 하며, 앞으로 이 자료를 활용할 연구에 대한 서설이기도 하다.
먼저 구어 말뭉치에 대한 기존의 정의를 살펴볼 필요가 있다. 안의정(1998:19)에서는 “입말의 언어학적 분석을 위하여 자연스러운 담화를 녹음하여, 기본적인 철자법 전사와 또는 더 자세한 수준의 전사로 보충적으로 표현하고, 기계적으로 읽을 수 있는 문서화와 마크업이 되어 있고, 자연언어처리 기술을 이용하는, 대량의 말 자료 뭉치”로 정의하였다.
구어 말뭉치와는 다르게 구어 전사 말뭉치란 개념도 사용되고 있는데, 이 용어는 구현정?전영옥(2002:20~21)에서 가장 처음으로 사용되었다. 여기서는 구어 전사 말뭉치를 “일상대화를 비롯한 자연스러운 발화를 녹음하여 철자법 전사를 한 것에 기본적인 운율과 상황 정보를 부가한 대량의 언어 자료 모음”으로 정의하였으며, 이는 언어 연구를 위해, 특히 일회성인 음성언어를 문자화하여 자료로 활용하기 위해 구축하는 것이라고 하였다. 서상규?김형정(2005:15~16)에서는 “자연스러운 담화 자료이건 통제된 발화 자료이건 대규모 음성 녹음 자료의 모음으로서, 강화된 철자법 전사 혹은 필요에 따라 형태, 의미 주석 등이 추가되며, 표준화된 문서 체계에 따른 문서화가 이루어져 기계적인 처리가 가능한 말뭉치”로 정의하였다.
이 글에서는 구어 말뭉치의 범위에 있어서 기존의 연구에서 밝힌 구어 말뭉치의 요건을 모두 수용하는 방향으로 설정하고자 한다. 그 요건에는 서상규?김형정(2005:15)에서 정리한 바와 같이 “음성 녹음 자료의 모음, 음성의 기호적 표현, 문서화, 기계적 처리 가능성” 등이 있다. 따라서 희곡이나 드라마 대본과 같은 준구어를 배제하고, 순수하게 음성을 전사한 자료를 그 연구 대상으로 하고자 한다. 아울러 모든 자료가 음성을 원자료로 하여 보존되어 있으며 이를 전사하고 마크업한 자료를 그 기준으로 삼고자 한다.
이 책의 구성은 다음과 같다. 먼저 2장에서는 세종 말뭉치의 굵직한 변화를 포함한, 한국어 구어 말뭉치 구축의 흐름을 소개하고, 3장에서는 구어 말뭉치의 구축 방법에 대해 전사, 마크업, 형태 주석 등을 중심으로 논의한다. 이어 4장에서는 연세 구어 말뭉치의 구성과 주석의 특징에 대해 세종 구어 전사 말뭉치와 비교하여 설명한다.
연세 구어 말뭉치는 세종계획의 성과를 토대로 하여 형태 주석 말뭉치의 결과를 일부 수정한 말뭉치이다. 세종 말뭉치가 형태소 수준에서 분석되었다면 연세 구어 말뭉치는 일부 어근과 접사를 통합하여 단어 수준으로 분석 수준을 통일하였으며, 변이형을 충실히 구분하는 입장을 취하였다.1
이 연구는 구어 말뭉치를 이용하는 많은 연구자들의 자료에 대한 이해를 돕는 것을 목적으로 한다. 따라서 이 책에서 소개한 ‘연세 구어 말뭉치의 목록’을 부록에 제시하였으며, 유형별로 25개의 표본을 뽑아 말뭉치의 샘플로 정리하여 제시하였다. 이 말뭉치는 이후 지속 예정인 구어 연구의 기본 자료로 이용될 것이다. 마지막으로 1960년부터 2012년까지의 ‘구어 연구 논저 목록’을 총망라하여 이 분야의 연구자들에게 도움이 되도록 하였다.

제2장 구어 말뭉치 구축의 흐름
언어 연구에서 구어 자료의 중요성은 오래 전 소쉬르(Saussure, Ferdinand De)가 지적한 바 있으나, 구어 전사 말뭉치를 구축하고 이를 분석하여 언어를 연구하기 시작한 것은 비교적 최근의 일이다. 이는 구어 자료를 녹취하고 전사하여 말뭉치 자료로 구성하는 것이 많은 인력과 시간, 전문 장비 등을 요구하기 때문이다. 이 장에서는 지금까지의 구어 말뭉치 구축 동향과 그 과정에서 제기된 주요한 쟁점들을 정리하고자 한다.
먼저 2.1에서는 국내외에서 구축된 주요 구어 말뭉치를 소개하고자 한다. 그리고 2.2에서는 대표적인 한국어 구어 말뭉치인 세종 구어 말뭉치에 대해, 말뭉치 구축 방법에 있어 변화된 요소와 그에 따른 특징들을 집중적으로 밝히고자 한다. 마지막으로 2.3에서는 앞선 구어 말뭉치 구축의 사례들에서 논의되었던, 구어 말뭉치 구축에서 다루어야 할 주요 문제들을 정리하고자 한다.

2.1. 구어 말뭉치의 현황

이 절에서는 구어 말뭉치 연구의 흐름을 살펴보기 위하여 현재까지 구축된 구어 말뭉치들을 한국어 말뭉치와 외국어 말뭉치로 나누어 특징과 구축 방법, 의의 등을 중심으로 소개한다.

2.1.1. 주요 한국어 구어 말뭉치

현재 구축되어 있는 한국어 구어 말뭉치는 크게 기관에서 구축한 것과 개인이 연구 목적으로 구축한 것으로 나눌 수 있다. 개인이 연구 목적으로 구축한 구어 말뭉치의 경우, 일반적인 구어 전사 말뭉치로서의 조건을 구비한 것도 있고 구비하지 못한 것도 있을 수 있다. 서상규?한영균(1999:27)에서는 말뭉치란 일정 규모 이상의 크기를 갖추고 내용적으로 다양성과 균형성이 확보된 자료의 집합체라고 보았는데, 개인이 구축한 구어 자료의 경우 특히 양적인 면에서 이러한 요건을 만족시키기 어렵다. 그러나 이 연구에서는 비록 소규모이지만 전사 자료를 바탕으로 한 구어 연구도 구어 전사 말뭉치 연구로 보아 연구 범위에 포함시키었다. 또 구어 말뭉치는 구어 말뭉치만으로 한정하여 구축된 것과 균형 말뭉치의 일부분으로 구축된 경우로 나누어 볼 수도 있는데, 이 글에서는 후자의 경우도 포함하여 다루도록 하겠다.

2.1.1.1. 기관 구축 말뭉치

(1) 연세 말뭉치4(김하수 말뭉치)
연세 말뭉치4는 연세대학교 언어정보연구원1에서 ??연세 한국어사전??(1998)의 편찬을 위한 목적으로 1987년부터 구축하기 시작한 연세 한국어 말뭉치 중 일부이다. 약 77만 어절 규모로, 실제 사용된 구어를 녹음하여 전사한 순구어와 희곡, 방송 대본, 시나리오 등을 중심으로 한 준구어로 구성되어 있다. 철자법 전사를 택하고 있으며 발화 참여자의 나이, 성별, 직업에 대한 정보, 발화 참여자의 수와 발화의 성격, 전사자 정보, 녹음 시간 정보 등이 포함되어 있다.2

(2) 고려대학교 말모둠1
고려대학교 말모둠1은 고려대학교 민족문화연구소에서 1995년 구축한 한국어 말뭉치로, 전체 약 1,000만 어절 규모의 말뭉치 중 구어의 비중은 약 12%인 120만 어절 정도이고 나머지는 문어로 구성되어 있다. 이 말뭉치의 구어는 순구어와 준구어 자료로 나뉘어져 있는데, 이 중 순구어는 약 30만 어절 정도이고 나머지는 신문의 대담이나 인터뷰 자료에서 추출한 준구어 자료이다. 전사 방식은 철자법 전사를 택하고 있으며 TEI(Text Encording Initiative)3 호환 방식으로 태깅되어 있다.4

(3) 과학기술원 코퍼스1
과학기술원 코퍼스1은 한국과학기술원이 주관하여 1996년에 구축한 말뭉치로 예술과 비예술, 입말과 글말이라는 두 가지 관점에서 균형 잡힌 말뭉치를 구축하는 것을 목적으로 하여 구축되었다.5

(4) 고려대학교 장르별 텍스트 코퍼스(KGENRE Corpus)
고려대학교 장르별 텍스트 코퍼스는 고려대학교 민족문화연구소에서 1997년 다양한 특성을 가진 언어 장르별 비교를 위해 구축한 말뭉치이다. 전체 약 37만 어절의 말뭉치 중 구어는 실제 발화를 수집한 순구어와 대본, 시나리오 등의 준구어를 합쳐 13만 5천 어절 규모로 구축되어 있다. 문어 말뭉치의 대부분은 고려대학교 말모둠1에서 가져왔으나 구어 말뭉치의 경우 새로 전사하거나 수집한 것도 많다. 고려대학교 말모둠1과 동일하게 철자법 전사를 택하고 있으며 TEI 호환 방식으로 태깅되어 있다. 통계적 방법에 의한 한국어 텍스트 유형 및 문체 분석 연구에 활용되었다.6

(5) 21세기 세종계획 구어 전사 말뭉치
21세기 세종계획 구어 전사 말뭉치(이하에서는 ‘세종 구어 말뭉치’로 줄여 부름)는 1998년부터 2007년까지 문화관광부와 국립국어원이 주관하여 구축한 말뭉치로 현재 국내에서 구축된 구어 말뭉치 중 그 규모가 가장 크다. 세종 구어 말뭉치는 원시 말뭉치와 형태소 분석 말뭉치로 나뉘는데, 배포판을 기준으로 원시 말뭉치는 약 83만 어절, 형태소 분석말뭉치는 약 80만 어절이다. 세종 구어 말뭉치 역시 철자법 전사를 채택하고 있다.7

(6) 연령별 구어 주석 코퍼스
연령별 구어 주석 코퍼스는 한양대학교 한국교육문제연구소에서

각주)-----------------
변경된 주석의 특징에 대한 자세한 설명은 4.2를 참고하기 바란다.
연세대학교 언어정보연구원은 1989년 ‘한국어사전편찬실’이란 이름으로 처음 설치되어 1998년 ‘언어정보개발연구원’으로 확대되었고 2002년 지금의 ‘언어정보연구원’이란 이름으로 개칭되었다.
연세 말뭉치 전반에 대한 더 자세한 정보는 서상규?한영균(1999:255-259)을 참조 바람.
TEI란 최소한의 범위 내에서 텍스트의 어떤 요소를 어떻게 표현할 것인가를 명시하는 표준 텍스트 표현 형식의 하나로서 국제적인 규모의 표준안이다. TEI는 특히 유럽에서 말뭉치 구축에 적극적으로 활용되고 있으며 말뭉치 정보를 표준화하기 위해 최근 한국어 말뭉치 구축에도 널리 응용되고 있다(서상규?한영균, 1999:43-45 참조).
이에 대한 더 자세한 정보는 강범모?김흥규(1996), 강범모(2003)를 참조 바람.
이에 대한 더 자세한 정보는 남영준(1996)을 참조 바람.
이에 대한 더 자세한 정보는 강범모?김흥규?허명희(1998), 강범모?김흥규?허명회(2000)를 참조 바람.
이에 대한 더 자세한 정보는 국립국어원의 ??21세기 세종계획 국어 특수자료 구축 보고서?? 또는 서상규?구현정(2002)을 참조 바람.

각주)-----------------