책 이미지

책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 소프트웨어 공학
· ISBN : 9791196965679
· 쪽수 : 454쪽
· 출판일 : 2022-01-10
책 소개
목차
머리말 Ⅴ
1장 트랜스포머 모델 아키텍처
1.1 트랜스포머의 배경 4
1.2 트랜스포머의 부상: Attention Is All You Need 7
1.2.1 인코더 스택 10
1.2.2 디코더 스택 46
1.3 훈련과 성능 49
1.3.1 이 장을 마치기 전에 50
1.4 요약 51
1.5 질문 52
2장 BERT 모델 미세 조정
2.1 BERT 아키텍처 58
2.1.1 인코더 스택 59
2.1.2 BERT의 사전훈련 및 미세 조정 66
2.2 BERT 미세 조정 68
2.2.1 GPU 활성화 69
2.2.2 BERT용 Hugging Face PyTorch 인터페이스 설치 71
2.2.3 모듈 불러오기 71
2.2.4 CUDA를 Torch용 디바이스로 지정하기 72
2.2.5 데이터셋 불러오기 72
2.2.6 문장 및 레이블 목록 생성, BERT 토큰 추가 76
2.2.7 BERT 토크나이저 활성화 76
2.2.8 데이터 처리 77
2.2.9 어텐션 마스크 생성 77
2.2.10 훈련 및 검증 데이터 분리 78
2.2.11 Torch 텐서로 데이터 변환 79
2.2.12 뱃치 크기 선택 및 iterator 생성 79
2.2.13 BERT 모델 설정 80
2.2.14 Hugging Face BERT uncased 베이스 모델 불러오기 82
2.2.15 Optimizer 그룹 파라미터 84
2.2.16 훈련 루프용 하이퍼파라미터 85
2.2.17 훈련 루프 86
2.2.18 훈련 평가 87
2.2.19 미사용 데이터셋에 의한 예측 및 평가 88
2.2.20 Matthews 상관 계수에 의한 평가 90
2.2.21 개별 뱃치 점수 91
2.2.22 전체 데이터셋에 대한 Matthews 평가 92
2.3 요약 92
2.4 질문 93
3장 백지 상태에서 RoBERTa 모델 사전훈련시키기
3.1 토크나이저 훈련 및 트랜스포머 사전훈련 98
3.2 백지 상태에서 KantaiBERT 구축하기 100
3.3 다음 단계 122
3.4 요약 122
3.5 질문 123
4장 트랜스포머를 사용한 다운스트림 NLP 작업
4.1 트랜스포머의 변환 및 귀납 상속 128
4.1.1 인간 지능 스택 129
4.1.2 기계 지능 스택 130
4.2 트랜스포머 성능 대 인간 베이스라인 132
4.2.1 메트릭에 의한 모델 평가 133
4.2.2 벤치마크 작업과 데이터셋 134
4.2.3 SuperGLUE 벤치마크 작업 정의 140
4.3 다운스트림 작업 실행 147
4.3.1 CoLA(Corpus of Linguistic Acceptability. 언어 수용성 코퍼스) 147
4.3.2 SST-2 148
4.3.3 MRPC 149
4.3.4 Winograd 스키마 151
4.4 요약 152
4.5 질문 153
5장 트랜스포머 기계 번역
5.1 기계 번역의 정의 158
5.1.1 인간 트랜스덕션과 번역 159
5.1.2 기계 트랜스덕션과 번역 160
5.2 WMT 데이터셋 전처리 161
5.2.1 원시 데이터 전처리 161
5.2.2 데이터셋 전처리 마무리 164
5.3 BLEU에 의한 기계 번역 평가 168
5.3.1 기하적 평가 169
5.3.2 스무딩 기법 적용 171
5.4 Trax에 의한 번역 173
5.4.1 Trax 설치 174
5.4.2 트랜스포머 모델 생성 174
5.4.3 사전 훈련 가중치로 모델 초기화하기 175
5.4.4 문장 토큰화 175
5.4.5 트랜스포머 디코딩 175
5.4.6 역 토큰화 및 번역 표시 176
5.5 요약 177
5.6 질문 178
6장 OpenAI GPT-2 및 GPT-3 모델을 사용한 텍스트 생성
6.1 10억 파라미터 트랜스포머 모델의 부상 185
6.1.1 트랜스포머 모델의 크기 증가 185
6.2 트랜스포머, 리포머, PET, 또는 GPT? 188
6.2.1 원본 트랜스포머 아키텍처의 한계 190
6.2.2 리포머 194
6.2.3 PET(Pattern-Exploiting Training. 패턴 활용 훈련) 196
6.3 결정을 내려야 할 때다 199
6.4 OpenAI GPT 모델의 아키텍처 200
6.4.1 미세 조정에서 제로-샷 모델까지 201
6.4.2 디코더 레이어 쌓기 203
6.5 GPT-2에 의한 텍스트 완성 205
6.6 GPT-2 언어 모델 훈련 218
6.7 컨텍스트 및 완성 예제 225
6.8 트랜스포머로 음악 생성 229
6.9 요약 230
6.10 질문 231
7장 AI 텍스트 요약을 위해 법률 및 재무 문서에 트랜스포머 적용하기
7.1 보편적인 T2T 모델 설계 236
7.1.1 T2T 트랜스포머 모델의 부상 237
7.1.2 작업-특정 형식 대신 접두사 239
7.1.3 T5 모델 241
7.2 T5를 사용한 텍스트 요약 243
7.2.1 Hugging Face 243
7.2.2 T5-large 트랜스포머 모델 초기화 246
7.2.3 T5-large에 의한 문서 요약 252
7.3 요약 258
7.4 질문 259
8장 토크나이저와 데이터셋 매칭
8.1 토크나이저와 데이터셋 매칭 264
8.2 최선 관행 265
8.1.2 Word2Vec 토큰화 270
8.2 특정 어휘를 사용한 표준 NLP 작업 282
8.2.1 GPT-2에 의한 비조건부 샘플 생성 282
8.2.2 훈련된 조건부 샘플 생성 288
8.3 T5 권리장전 샘플 289
8.3.1 권리장전 요약 1 289
8.3.2 권리장전 요약 2 290
8.4 요약 292
8.5 질문 293
9장 BERT 기반 트랜스포머를 사용한 시맨틱 롤 레이블링
9.1 SRL 시작하기 298
9.1.1 SRL 정의 299
9.2.1 사전 훈련 BERT 기반 모델 실행 301
9.2 BERT 기반 모델을 사용한 SRL 실험 304
9.3 기본 샘플 304
9.3.1 샘플 1 304
9.3.2 샘플 2 306
9.3.3 샘플 3 309
9.4 어려운 샘플들 313
9.4.1 샘플 4 313
9.4.2 샘플 5 317
9.4.3 샘플 6 319
9.5 요약 319
9.6 질문 320
10장 데이터가 말하게 하라: 이야기, 질문, 답변
10.1 방법론 326
10.1.1 트랜스포머와 방법 327
10.2 방법 0: 시행착오 329
10.3 방법 1: NER first 332
10.3.1 질문을 찾기 위해 NER 사용하기 333
10.4 방법 2: SRL first 340
10.4.1 ELECTRA를 사용한 질문-답변 342
10.4.2 프로젝트 관리 제약 345
10.4.3 질문을 찾기 위해 SRL 사용하기 345
10.5 다음 단계 352
10.5.1 RoBERTa 모델로 Haystack 탐구하기 354
10.6 요약 355
10.7 질문 356
11장 예측을 위한 고객 감정 감지
11.1 시작하기: 센티먼트 분석 트랜스포머들 362
11.2 SST 362
11.2.1 RoBERTa-large를 사용한 센티먼트 분석 366
11.3 센티먼트 분석에 의한 고객 행동 예측 368
11.3.1 DistillBERT를 사용한 센티먼트 분석 368
11.3.2 Hugging Face 모델 목록을 이용한 센티먼트 분석 371
11.4 요약 378
11.5 질문 379
12장 트랜스포머에 의한 가짜 뉴스 분석
12.1 가짜 뉴스에 대한 감정적 반응 384
12.1.1 인지 불협화가 감정적 반응을 촉발 385
12.2 가짜 뉴스에 대한 합리적 접근 방법 394
12.2.1 가짜 뉴스 해결 로드맵 정의 395
12.2.2 총기 규제 396
12.2.3 COVID-19와 트럼프 전 대통령 트윗 408
12.3 나가기 전에 412
12.3.1 은탄환을 찾아서 412
12.3.2 신뢰할 수 있는 훈련 방법을 찾아서 413
12.4 요약 414
12.5 질문 415
부록: 질문에 대한 답 417
찾아보기