R을 활용한 코퍼스언어학과 통계학

책 이미지

eBook 미리보기

책 정보

· 제목 : R을 활용한 코퍼스언어학과 통계학
· 분류 : 국내도서 > 대학교재/전문서적 > 인문계열 > 언어학
· ISBN : 9788968173486
· 쪽수 : 280쪽
· 출판일 : 2016-04-30

책 소개

꼭 필요한 경우에를 제외하고는 공식의 사용을 최소화하였다. 또한 통계학적 공식 그 자체보다는 그 공식이 왜 나오게 되었는가에 대한 설명을 넣었다. 각각의 통계분석방법별로 그 통계분석방법을 실행하기 위해서 만족해야 하는 조건들을 모아서 도표의 형식으로 나열해 놓았다.

머리말

1장 코퍼스언어학과 통계
1. 코퍼스언어학에서 통계학은 왜 필요한가?
2. 통계학의 목적과 코퍼스언어학

2장 통계학의 기본 개념
1. 통계학의 기본 개념
1.1. 측정, 변수, 척도
1.2. 전집과 표본, 표집
1.3. 집중경향과 변산도
1.4. 분포와 자유도
2. 변수의 종류
2.1. 변수와 상수
2.2. 인과관계에 따른 변수의 분류
2.3. 측정수준에 따른 변수의 분류
3. 자료의 분포
4. 추정과 가설의 검정
4.1. 추정과 신뢰구간
4.2. 가설검정
4.3. 기각역, 양측검정, 단측검정
4.4. 가설검정의 절차
5. 통계분석시 고려사항

3장 R의 기초
1. R이란 무엇인가?
2. R을 쓰는 이유
3. R 구하기
4. R의 설치와 실행
5. R로 평균과 표준편차 구하기

4장 자료의 시각화
1. 자료의 시각화는 왜 필요한가?
2. 데이터세트에 대하여
3. 막대그래프
4. 꺾은선그래프
5. 원그래프
6. 박스플롯
7. 산포도

5장 정규분포 테스트
1. 정규분포 테스트
1.1. 정규분포란 무엇인가?
1.2. 정규분포 테스트는 왜 필요한가?
2. 히스토그램을 이용한 정규분포 테스트
3. Normal Quantile Plot을 이용한 정규분포 테스트
4. Shapiro-Wilk’s Test를 이용한 정규분포 테스트 H0
5. 기타 정규분포 테스트
6. 정규분포와 박스플롯
7. 모수검정과 비모수검정
8. 자료의 분포가 정규분포를 보이지 않으면?

6장 χ2-검정 그룹
1. χ2-검정의 기본 개념
1.1. 빈도분석과 교차분석
1.2. χ2-검정의 실행 조건
1.3. χ2-검정의 기본 원리
2. χ2-검정 예제 1: 미국영어 vs. 영국영어
3. χ2-검정 예제 2: 코퍼스별 단어 빈도수의 차이
4. χ2-검정외의 통계검정
5. 코퍼스언어학과 χ2-검정

7장 t-검정 그룹
1. 집단의 평균비교와 t-검정
1.1. 집단의 평균비교와 t-검정
1.2. t-검정의 기본 원리
1.3. t-검정의 실행 조건
2. 독립표본 t-검정: 문장의 평균 길이 비교
3. 대응표본 t-검정: 모음의 길이 측정
4. Mann-Whitney Test: Frequency Bands
5. Wilcoxon Test: 1인칭 대명사의 사용빈도 비교
6. 코퍼스언어학과 t-검정

8장 ANOVA 그룹
1. 분산분석(ANOVA)
1.1. 분산분석(ANOVA)이란?
1.2. 분산분석을 사용하는 이유
1.3. 분산분석의 종류
1.4. 분산분석의 기본 원리
1.5. 분산분석의 실행 조건
2. 무선배치 분산분석: 한정형용사의 사용빈도 비교
3. 반복측정 분산분석: Learner Corpus 성적 향상 비교
4. Kruskal-Wallis Test: 통사자질의 영향력 분석
5. Friedman Test: 영어 폐쇄음의 VOT 측정
6. 코퍼스언어학과 ANOVA

9장 기타 코퍼스통계학적 문제들
1. 들어가며
2. 정규화 1
3. 정규화 2
4. 정규화 3
5. 정규화 4
6. 코퍼스의 구성
7. 이론적인 문제
8. 빈도수는 명명변수
9. 명명변수
10. p-값
11. Hapax Legomena
12. TTR
13. Lemma와 Word Family 1
14. Lemma와 Word Family 2
15. 기타의 통계분석 방법들

참고문헌
명령어 찾아보기
옵션 찾아보기
한영용어대조표

저자소개

이용훈 (지은이) 정보 더보기

충남대학교 영어영문학과를 졸업하고 미국 일리노이주립대(University of Illinois at Urbana-Champaign)에서 박사학위를 받고, 현재 충남대학교와 한남대학교에서 강의를 하고 있다. 2010녀부터는 연세대학교 고광윤 교수님과 함께 코퍼스워크숍을 진행하고 있으며, 2014년부터는 한국코퍼스영어학연구소(CCELS)의 부소장으로 코퍼스통계워크숍을 진행하고 있다. 주요 관심분야로는 전산언어학, 코퍼스언어학과 실험통사론이며, 주요 논문으로는 A Multi-level Analysis of Subjecthood Diagnostics in Korean(공저), Semantic Relations and Multiple Case Constructions: An Experimental Approach, Factors Involved in Korean EFL Learners’ Choice of English Dative Constructions(공저), Clustering English Textbooks for Vocational Education Based on Lexical Similarity(공저) 등이 다수가 있으며 저서로는 ‘NLPTools를 이용한 코퍼스 분석과 활용: 언어학 연구, 영어교육, 그리고 영어교재 개발에서의 활용‘이 있다. 그는 또한 NLPTools의 개발자이며, ’영어교과서의 난이도측정 방법‘에 대한 특허권을 가지고 있다.

펼치기

이용훈의 다른 책 >

리뷰

초정탄*

★★★☆☆(6)

([100자평]NLP를 기대하면 안됨)

자세히

Bit***********

★★★☆☆(6)

([100자평]NLP를 기대하면 안됨)

자세히

cat***

★★★☆☆(6)

([100자평]NLP를 기대하면 안됨)

책속에서

1장 코퍼스언어학과 통계
1. 코퍼스언어학에서 통계학은 왜 필요한가?
보통 인문과학을 연구하는 사람들은 수학이나 통계학, 논리학 등에 대한 막연한 두려움을 가지고 있는 것이 사실이다. 많은 사람들이 이러한 학문들은 어려운 학문들이며, 인문과학을 연구하는 사람들과는 전혀 관련이 없는 혹은 관련성이 적은 학문들이라고 생각한다. 언어학도 마찬가지이다. 물론, 언어학 안에서도 음성학(phonetics)이나 심리언어학(psycholinguistics), 전산언어학(computational linguistics) 등의 분야에서는 수학이나 통계학이 많이 쓰이고 있는 것이 사실이지만, 그 밖의 다른 분야에는 통계학이 거의 쓰이지 않는다고 생각한다.
그러나 코퍼스언어학(corpus linguistics)은 다르다. 코퍼스언어학에서 통계는 선택이 아니라 필수이다. 코퍼스언어학에서 통계를 모른다고 하는 것은 사실상 코퍼스언어학의 상당히 많은 부분을 포기해야 한다는 말과 같다. 물론, 코퍼스언어학에서도 concordance line을 중심으로 하는 질적인 연구(qualitative study)가 가능하지만, 코퍼스언어학의 대부분의 연구들은 빈도수(frequency)나 그 밖의 수치를 중심으로 하는 양적인 연구(quantitative study)가 많기 때문에, 코퍼스언어학에서 통계를 모른다고 하는 것은 사실상 코퍼스언어학의 대부분의 연구들을 수행하기 힘들다는 말과 같다.
그러면, 왜 코퍼스언어학에서는 통계학이 필수적인가? 그 이유는 코퍼스언어학의 본질에서 찾을 수 있다. 코퍼스언어학이란 무엇인가? 코퍼스언어학은 코퍼스(말뭉치, corpus)에서 어떠한 언어현상을 관찰하여 그 언어현상의 특징을 파악하고, 이를 해당 언어의 언어현상으로 일반화하는 것을 그 목적으로 하는 언어학의 한 분야이다. 문제는 우리가 연구의 대상으로 삼고 있는 코퍼스에 있다. 코퍼스는 본질적으로 언어현상의 표본(sample)이다. 아무리 과학기술이 발전하고 컴퓨터가 발전한다 할지라도, 우리는 우리 주변의 언어현상들을 모두 모아 컴퓨터에 저장할 수는 없다. 우리가 말하고 있는 이 순간에도 수많은 사람들이 말을 하고 글을 쓰고 있으며, 이러한 모든 언어활동들을 모두 모아놓는 일은 사실상 불가능하다. 즉, 코퍼스는 아무리 그 크기가 크다고 하더라도 언어활동의 전집(population)이 아니라, 그 언어활동의 일부인 표본(sample)이라는 것이다. 그리고 우리가 어떠한 언어현상을 관찰하여 그 언어현상의 특징을 파악하는 대상은 언어활동의 전집이 아니라, 그 언어활동의 표본인 코퍼스라는 것이다. 따라서 표본으로 뽑힌 코퍼스에서 추출된 자료들을 대상으로 연구된 결과들을 언어활동의 전집으로 일반화하기 위해서는 체계적이고 과학적인 기법이 필요한데, 이때 필요한 것이 바로 통계이다.