자연어 처리를 위한 트랜스포머

책 이미지

eBook 미리보기

책 정보

· 제목 : 자연어 처리를 위한 트랜스포머 (Python, PyTorch, TensorFlow, BERT, RoBERTa 등을 사용한 NLP용 혁신적 심층 신경망(DNN) 아키텍처 구축)
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 소프트웨어 공학
· ISBN : 9791196965679
· 쪽수 : 454쪽
· 출판일 : 2022-01-10

책 소개

NLP의 배경을 시작으로, 시퀀스 분석을 수십 년 동안 지배해왔던 RNN과 CNN의 시대를 트랜스포머가 어떻게 무너뜨렸는지 살펴볼 것이다. 그런 다음 Vaswani 등(2017)이 설명한 트랜스포머 모델을 개봉하고, 그 아키텍처의 주요 구성 요소를 살펴볼 것이다.

머리말 Ⅴ

1장 트랜스포머 모델 아키텍처
1.1 트랜스포머의 배경 4
1.2 트랜스포머의 부상: Attention Is All You Need 7
1.2.1 인코더 스택 10
1.2.2 디코더 스택 46
1.3 훈련과 성능 49
1.3.1 이 장을 마치기 전에 50
1.4 요약 51
1.5 질문 52

2장 BERT 모델 미세 조정
2.1 BERT 아키텍처 58
2.1.1 인코더 스택 59
2.1.2 BERT의 사전훈련 및 미세 조정 66
2.2 BERT 미세 조정 68
2.2.1 GPU 활성화 69
2.2.2 BERT용 Hugging Face PyTorch 인터페이스 설치 71
2.2.3 모듈 불러오기 71
2.2.4 CUDA를 Torch용 디바이스로 지정하기 72
2.2.5 데이터셋 불러오기 72
2.2.6 문장 및 레이블 목록 생성, BERT 토큰 추가 76
2.2.7 BERT 토크나이저 활성화 76
2.2.8 데이터 처리 77
2.2.9 어텐션 마스크 생성 77
2.2.10 훈련 및 검증 데이터 분리 78
2.2.11 Torch 텐서로 데이터 변환 79
2.2.12 뱃치 크기 선택 및 iterator 생성 79
2.2.13 BERT 모델 설정 80
2.2.14 Hugging Face BERT uncased 베이스 모델 불러오기 82
2.2.15 Optimizer 그룹 파라미터 84
2.2.16 훈련 루프용 하이퍼파라미터 85
2.2.17 훈련 루프 86
2.2.18 훈련 평가 87
2.2.19 미사용 데이터셋에 의한 예측 및 평가 88
2.2.20 Matthews 상관 계수에 의한 평가 90
2.2.21 개별 뱃치 점수 91
2.2.22 전체 데이터셋에 대한 Matthews 평가 92
2.3 요약 92
2.4 질문 93

3장 백지 상태에서 RoBERTa 모델 사전훈련시키기
3.1 토크나이저 훈련 및 트랜스포머 사전훈련 98
3.2 백지 상태에서 KantaiBERT 구축하기 100
3.3 다음 단계 122
3.4 요약 122
3.5 질문 123

4장 트랜스포머를 사용한 다운스트림 NLP 작업
4.1 트랜스포머의 변환 및 귀납 상속 128
4.1.1 인간 지능 스택 129
4.1.2 기계 지능 스택 130
4.2 트랜스포머 성능 대 인간 베이스라인 132
4.2.1 메트릭에 의한 모델 평가 133
4.2.2 벤치마크 작업과 데이터셋 134
4.2.3 SuperGLUE 벤치마크 작업 정의 140
4.3 다운스트림 작업 실행 147
4.3.1 CoLA(Corpus of Linguistic Acceptability. 언어 수용성 코퍼스) 147
4.3.2 SST-2 148
4.3.3 MRPC 149
4.3.4 Winograd 스키마 151
4.4 요약 152
4.5 질문 153

5장 트랜스포머 기계 번역
5.1 기계 번역의 정의 158
5.1.1 인간 트랜스덕션과 번역 159
5.1.2 기계 트랜스덕션과 번역 160
5.2 WMT 데이터셋 전처리 161
5.2.1 원시 데이터 전처리 161
5.2.2 데이터셋 전처리 마무리 164
5.3 BLEU에 의한 기계 번역 평가 168
5.3.1 기하적 평가 169
5.3.2 스무딩 기법 적용 171
5.4 Trax에 의한 번역 173
5.4.1 Trax 설치 174
5.4.2 트랜스포머 모델 생성 174
5.4.3 사전 훈련 가중치로 모델 초기화하기 175
5.4.4 문장 토큰화 175
5.4.5 트랜스포머 디코딩 175
5.4.6 역 토큰화 및 번역 표시 176
5.5 요약 177
5.6 질문 178

6장 OpenAI GPT-2 및 GPT-3 모델을 사용한 텍스트 생성
6.1 10억 파라미터 트랜스포머 모델의 부상 185
6.1.1 트랜스포머 모델의 크기 증가 185
6.2 트랜스포머, 리포머, PET, 또는 GPT? 188
6.2.1 원본 트랜스포머 아키텍처의 한계 190
6.2.2 리포머 194
6.2.3 PET(Pattern-Exploiting Training. 패턴 활용 훈련) 196
6.3 결정을 내려야 할 때다 199
6.4 OpenAI GPT 모델의 아키텍처 200
6.4.1 미세 조정에서 제로-샷 모델까지 201
6.4.2 디코더 레이어 쌓기 203
6.5 GPT-2에 의한 텍스트 완성 205
6.6 GPT-2 언어 모델 훈련 218
6.7 컨텍스트 및 완성 예제 225
6.8 트랜스포머로 음악 생성 229
6.9 요약 230
6.10 질문 231

7장 AI 텍스트 요약을 위해 법률 및 재무 문서에 트랜스포머 적용하기
7.1 보편적인 T2T 모델 설계 236
7.1.1 T2T 트랜스포머 모델의 부상 237
7.1.2 작업-특정 형식 대신 접두사 239
7.1.3 T5 모델 241
7.2 T5를 사용한 텍스트 요약 243
7.2.1 Hugging Face 243
7.2.2 T5-large 트랜스포머 모델 초기화 246
7.2.3 T5-large에 의한 문서 요약 252
7.3 요약 258
7.4 질문 259

8장 토크나이저와 데이터셋 매칭
8.1 토크나이저와 데이터셋 매칭 264
8.2 최선 관행 265
8.1.2 Word2Vec 토큰화 270
8.2 특정 어휘를 사용한 표준 NLP 작업 282
8.2.1 GPT-2에 의한 비조건부 샘플 생성 282
8.2.2 훈련된 조건부 샘플 생성 288
8.3 T5 권리장전 샘플 289
8.3.1 권리장전 요약 1 289
8.3.2 권리장전 요약 2 290
8.4 요약 292
8.5 질문 293

9장 BERT 기반 트랜스포머를 사용한 시맨틱 롤 레이블링
9.1 SRL 시작하기 298
9.1.1 SRL 정의 299
9.2.1 사전 훈련 BERT 기반 모델 실행 301
9.2 BERT 기반 모델을 사용한 SRL 실험 304
9.3 기본 샘플 304
9.3.1 샘플 1 304
9.3.2 샘플 2 306
9.3.3 샘플 3 309
9.4 어려운 샘플들 313
9.4.1 샘플 4 313
9.4.2 샘플 5 317
9.4.3 샘플 6 319
9.5 요약 319
9.6 질문 320

10장 데이터가 말하게 하라: 이야기, 질문, 답변
10.1 방법론 326
10.1.1 트랜스포머와 방법 327
10.2 방법 0: 시행착오 329
10.3 방법 1: NER first 332
10.3.1 질문을 찾기 위해 NER 사용하기 333
10.4 방법 2: SRL first 340
10.4.1 ELECTRA를 사용한 질문-답변 342
10.4.2 프로젝트 관리 제약 345
10.4.3 질문을 찾기 위해 SRL 사용하기 345
10.5 다음 단계 352
10.5.1 RoBERTa 모델로 Haystack 탐구하기 354
10.6 요약 355
10.7 질문 356

11장 예측을 위한 고객 감정 감지
11.1 시작하기: 센티먼트 분석 트랜스포머들 362
11.2 SST 362
11.2.1 RoBERTa-large를 사용한 센티먼트 분석 366
11.3 센티먼트 분석에 의한 고객 행동 예측 368
11.3.1 DistillBERT를 사용한 센티먼트 분석 368
11.3.2 Hugging Face 모델 목록을 이용한 센티먼트 분석 371
11.4 요약 378
11.5 질문 379

12장 트랜스포머에 의한 가짜 뉴스 분석
12.1 가짜 뉴스에 대한 감정적 반응 384
12.1.1 인지 불협화가 감정적 반응을 촉발 385
12.2 가짜 뉴스에 대한 합리적 접근 방법 394
12.2.1 가짜 뉴스 해결 로드맵 정의 395
12.2.2 총기 규제 396
12.2.3 COVID-19와 트럼프 전 대통령 트윗 408
12.3 나가기 전에 412
12.3.1 은탄환을 찾아서 412
12.3.2 신뢰할 수 있는 훈련 방법을 찾아서 413
12.4 요약 414
12.5 질문 415

부록: 질문에 대한 답 417
찾아보기

저자소개

데니스 로스먼 (지은이) 정보 더보기

소르본 대학교(Sorbonne Universit?)와 파리디드로 대학교(Universit? Paris-Diderot; 파리 제7대학교)를 졸업했다. 학생 시절에 초창기 word2vector 임베딩과 단어 조각 토큰화(word piece tokenization) 솔루션 중 하나를 개발해서 특허를 등록했다. AI 배포에 중점을 둔 회사를 설립해서 초창기 AI 인지 NLP 챗봇 중 하나를 개발했는데, 그 챗봇은 모엣 & 샹동(LVMH 계열사)의 언어 교육 도구로 쓰였다. 이후 로스먼은 설명 가능한 AI(explainable AI) 전문가로 빠르게 성장해서, 항공우주와 의류, 공급망 분야의 주요 기업 프로젝트에서 해석 가능하고 수용성 기반의 설명 데이터와 인터페이스를 솔루션에 통합했다. 다른 사람에게 어떤 것을 가르쳐 봐야만 그것을 진정으로 알 수 있다는 신념을 지니고 있다.

펼치기

데니스 로스먼의 다른 책 >