책 이미지

책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 인공지능
· ISBN : 9791194587262
· 쪽수 : 696쪽
· 출판일 : 2025-08-28
책 소개
이 책은 복잡한 딥러닝 기술의 핵심을 직관적으로 풀어내면서도 이론과 실제 사이에서 균형을 잃지 않는다. 먼저 딥러닝을 지탱하는 기본 개념부터 차근차근 설명한다. 지도 학습과 신경망의 구조, 모델 훈련과 최적화 같은 기초를 다진 뒤, 이미지와 텍스트, 그래프 데이터를 위한 대표적인 모델인 CNN, 트랜스포머, 그래프 신경망을 살펴본다. 이어서 GAN, VAE, 디퓨전 모델 같은 생성 모델과 강화 학습까지 다루며, 마지막에는 딥러닝이 왜 효과적인지에 대한 이론적 논의와 윤리적 쟁점을 짚어본다. 딥러닝을 제대로 이해하고 싶은 모든 독자를 위한 가장 단단한 출발점이 될 것이다.
딥러닝 이론과 최신 트렌드를 아우르는 새로운 고전
딥러닝은 25년 넘게 연구를 지속해온 요슈아 벤지오, 제프리 힌튼, 얀 르쿤 등의 끈질긴 연구로 과학 분야를 혁신적으로 변화시키고 사회 전반에 큰 영향을 미쳤다. 그럼에도 딥러닝을 '제대로 이해하는' 사람은 아직 드물다.
이 책은 딥러닝의 기초부터 트랜스포머, 디퓨전 모델 등 최신 아키텍처에 이르기까지 폭넓게 다루며, 복잡한 내용을 체계적이고 직관적으로 풀어낸다. 최신 참고 문헌과 실무 예제, 풍부한 시각 자료를 통해 학습 난이도를 낮추고 독자의 깊이 있는 이해를 돕는다. 특히 이 책은 단순한 기술 안내서를 넘어서 ‘왜 딥러닝이 효과적인가’라는 근본적인 질문에서 AI 윤리에 이르기까지 넓은 시야를 제시한다.
1장에서는 딥러닝을 소개하고, 2~9장에서는 지도 학습 파이프라인 전반을 다룬다. 얕은 신경망과 심층 신경망의 구조를 설명하고, 이를 훈련하고 성능을 측정하고 개선하는 방법을 살펴본다. 10~13장에서는 합성곱 신경망, 잔차 연결, 트랜스포머 등 심층 신경망의 대표적인 구조를 다루며, 이 구조들이 지도 학습은 물론 비지도 학습, 강화 학습에도 어떻게 활용되는지를 설명한다. 14~18장에서는 생성적 적대 신경망(GAN), 변분 오토인코더(VAE), 정규화 흐름, 확산 모델 등 심층 생성 모델을 중심으로 비지도 학습을 다룬다.
19장에서는 심층 강화 학습을 간략히 소개하고, 20장에서는 ‘딥러닝은 왜 일반화를 잘할까’, ‘신경망은 왜 그렇게 깊어야 할까’, ‘왜 많은 매개변수가 필요한가’와 같은 근본적인 질문을 통해 이중 하강, 그로킹, 복권 티켓 가설 등 주요 개념을 탐구한다. 마지막으로 21장에서는 딥러닝과 윤리에 관한 논의한다. 부록에서는 표기법, 수학 개념, 확률 등 핵심 배경 지식을 정리해 학습 흐름을 끊지 않고 개념을 따라갈 수 있도록 했다. 또한 책에 수록된 모든 이미지는 QR 코드를 통해 컬러로 확인할 수 있어 학습 효과를 더욱 높인다.
이 책은 이론서도, 실용서도 아니다. 증명은 없고, 코드도 거의 없다. 대신 딥러닝의 핵심 개념을 깊이 있고 명확하게 짚으며, 기존의 성공 공식이 통하지 않는 새로운 문제 앞에서도 스스로 해답을 찾을 수 있는 개념적 기반을 제공한다. 각 장은 실전에서 마주치는 문제를 근본적으로 이해하고 해결할 수 있도록 구성되어 있다.
딥러닝을 처음부터, 깊이 있게, 제대로 이해하고자 하는 이들을 위한 딥러닝의 새로운 고전의 탄생이다.
이럴 때 권합니다
● 딥러닝의 개념과 이론을 정리하고자 할 때
● 개념을 효과적으로 전달할 수 있는 설명과 시각 자료가 필요할 때
● 구현한 모델의 구조와 작동 원리를 정확히 이해하고자 할 때
주요 내용
● 딥러닝의 기본 원리와 신경망 구조
● 모델 훈련, 최적화, 성능 평가 기법
● CNN, 트랜스포머, 그래프 신경망 등 주요 구조
● GAN, VAE, 디퓨전 모델 등 생성 모델
● 강화 학습의 개념과 적용 방식
● 딥러닝의 일반화 능력과 작동 메커니즘
● AI 윤리와 기술의 사회적 책임
목차
옮긴이 머리말 xiii
베타리더 후기 xiv
시작하며 xvii
감사의 글 xix
CHAPTER 01 서론 1
1.1 지도 학습 2
1.2 비지도 학습 8
1.3 강화 학습 12
1.4 윤리 14
1.5 이 책의 구성 17
1.6 추천 도서 18
1.7 이 책을 읽는 방법 19
_참고 문헌 21
CHAPTER 02 지도 학습 23
2.1 지도 학습 개요 24
2.2 선형회귀 예 25
2.3 요약 30
_노트 30
_연습 문제 31
CHAPTER 03 얕은 신경망 33
3.1 신경망의 예 33
3.2 보편 근사 정리 37
3.3 다변량 입력과 출력 38
3.4 얕은 신경망: 일반적인 경우 43
3.5 용어 44
3.6 요약 45
_노트 46
_연습 문제 50
_참고 문헌 53
CHAPTER 04 심층 신경망 55
4.1 신경망 결합 55
4.2 네트워크 결합을 통한 심층 신경망 구성 58
4.3 심층 신경망 59
4.4 행렬 표기법 63
4.5 얕은 신경망 vs. 심층 신경망 65
4.6 요약 67
_노트 68
_연습 문제 71
_참고 문헌 74
CHAPTER 05 손실 함수 75
5.1 최대 우도 76
5.2 손실 함수 구성 방법 80
5.3 예제 1: 단변량 회귀분석 80
5.4 예제 2: 이진 분류 86
5.5 예제 3: 다중 클래스 분류 88
5.6 다중 출력 91
5.7 교차 엔트로피 손실 92
5.8 요약 94
_노트 95
_연습 문제 97
_참고 문헌 101
CHAPTER 06 모델 적합 103
6.1 경사 하강법 103
6.2 확률적 경사 하강법 110
6.3 모멘텀 113
6.4 적응 모멘트 추정 115
6.5 훈련 알고리즘 하이퍼파라미터 118
6.6 요약 119
_노트 120
_연습 문제 124
_참고 문헌 127
CHAPTER 07 기울기와 초기화 129
7.1 문제 정의 129
7.2 미분 계산 131
7.3 간단한 예시 133
7.4 역전파 알고리즘 137
7.5 매개변수 초기화 143
7.6 훈련 코드 예제 147
7.7 요약 149
_노트 149
_연습 문제 153
_참고 문헌 157
CHAPTER 08 성능 측정 159
8.1 간단한 모델 훈련 159
8.2 오차의 원인 161
8.3 오차 줄이기 166
8.4 이중 하강 170
8.5 하이퍼파라미터 선택 174
8.6 요약 175
_노트 176
_연습 문제 181
_참고 문헌 183
CHAPTER 09 정칙화 185
9.1 명시적 정칙화 185
9.2 암묵적 정칙화 189
9.3 성능 향상을 위한 경험적 방법 192
9.4 요약 202
_노트 203
_연습 문제 212
_참고 문헌 214
CHAPTER 10 합성곱 네트워크 219
10.1 불변성과 등변성 220
10.2 1차원 입력에 대한 합성곱 네트워크 221
10.3 2차원 입력에 대한 합성곱 네트워크 229
10.4 다운샘플링과 업샘플링 230
10.5 응용 233
10.6 요약 239
_노트 240
_연습 문제 246
_참고 문헌 249
CHAPTER 11 잔차 신경망 253
11.1 순차 처리 253
11.2 잔차 연결과 잔차 블록 256
11.3 잔차 신경망의 기울기 폭발 260
11.4 배치 정규화 262
11.5 일반적인 잔차 신경망 264
11.6 잔차 연결이 있는 신경망의 성능이 우수한 이유 271
11.7 요약 272
_노트 272
_연습 문제 280
_참고 문헌 282
CHAPTER 12 트랜스포머 285
12.1 텍스트 데이터 처리 285
12.2 점곱 셀프 어텐션 286
12.3 점곱 셀프 어텐션 확장 292
12.4 트랜스포머 층 295
12.5 자연어 처리를 위한 트랜스포머 296
12.6 인코더 모델의 예: BERT 300
12.7 디코더 모델의 예: GPT-3 303
12.8 인코더-디코더 모델의 예: 기계 번역 308
12.9 긴 시퀀스 처리를 위한 트랜스포머 310
12.10 이미지 처리를 위한 트랜스포머 311
12.11 요약 316
_노트 316
_연습 문제 328
_참고 문헌 330
CHAPTER 13 그래프 신경망 337
13.1 그래프란 무엇일까? 337
13.2 그래프 표현 340
13.3 그래프 신경망, 작업, 손실 함수 344
13.4 그래프 합성곱 네트워크 346
13.5 그래프 분류 예 349
13.6 귀납적 모델 vs. 전이적 모델 350
13.7 노드 분류 예 352
13.8 그래프 합성곱 네트워크 층 355
13.9 에지 그래프 359
13.10 요약 360
_노트 361
_연습 문제 370
_참고 문헌 373
CHAPTER 14 비지도 학습 377
14.1 비지도 학습 모델 분류 378
14.2 좋은 생성 모델의 특징 380
14.3 성능 정량화 381
14.4 요약 384
_노트 384
_참고 문헌 386
CHAPTER 15 생성적 적대 신경망 387
15.1 판별을 신호로 사용하기 387
15.2 안정성 향상 393
15.3 점진적 증가, 미니배치 판별, 절단 399
15.4 조건부 생성 402
15.5 이미지 변환 405
15.6 StyleGAN 410
15.7 요약 412
_노트 413
_연습 문제 419
_참고 문헌 421
CHAPTER 16 정규화 흐름 427
16.1 1차원 예제 427
16.2 일반 사례 430
16.3 역변환 가능한 신경망 층 433
16.4 다중 크기 흐름 442
16.5 응용 443
16.6 요약 447
_노트 448
_연습 문제 453
_참고 문헌 456
CHAPTER 17 변분 오토인코더 461
17.1 잠재변수 모델 461
17.2 비선형 잠재변수 모델 463
17.3 훈련 465
17.4 ELBO 속성 468
17.5 변분 근사 470
17.6 변분 오토인코더 471
17.7 재매개변수화 기법 474
17.8 응용 475
17.9 요약 480
_노트 481
_연습 문제 486
_참고 문헌 488
CHAPTER 18 확산 모델 493
18.1 개요 493
18.2 인코더(순방향 과정) 494
18.3 디코더 모델(역과정) 501
18.4 훈련 502
18.5 손실 함수의 재매개변수화 507
18.6 구현 510
18.7 요약 516
_노트 516
_연습 문제 521
_참고 문헌 524
CHAPTER 19 강화 학습 527
19.1 마르코프 결정 과정, 반환 및 정책 528
19.2 기대 수익 532
19.3 표 형식 강화 학습 536
19.4 Q-러닝 적합 541
19.5 정책 경사 방법 545
19.6 행위자-비평자 방법 551
19.7 오프라인 강화 학습 552
19.8 요약 554
_노트 555
_연습 문제 561
_참고 문헌 564
CHAPTER 20 왜 딥러닝이 효과적일까? 567
20.1 딥러닝에 반하는 사례 567
20.2 적합 성능에 영향을 미치는 요소 569
20.3 손실 함수의 특성 575
20.4 일반화 결정 요인 579
20.5 정말로 많은 매개변수가 필요한가? 584
20.6 신경망은 깊어야 할까? 587
20.7 요약 590
_연습 문제 591
_참고 문헌 592
CHAPTER 21 딥러닝과 윤리 597
21.1 가치 정렬 598
21.2 의도적인 오용 606
21.3 그 밖의 사회적, 윤리적, 전문적 문제 608
21.4 사례 연구 611
21.5 과학의 가치 중립적 이상 612
21.6 집단적인 행동 문제 관점에서의 책임 있는 AI 연구 614
21.7 앞으로 나아갈 길 615
21.8 요약 617
_연습 문제 618
_참고 문헌 620
APPENDIX A 표기법 627
A.1 스칼라, 벡터, 행렬, 텐서 627
A.2 변수와 매개변수 627
A.3 집합 628
A.4 함수 628
A.5 최소화와 최대화 629
A.6 확률분포 629
A.7 점근 표기법 630
A.8 기타 630
APPENDIX B 수학 개념 631
B.1 함수 631
B.2 이항계수 634
B.3 벡터, 행렬, 텐서 635
B.4 특수한 형태의 행렬 639
B.5 행렬 미적분 641
APPENDIX C 확률 643
C.1 확률변수와 확률분포 643
C.2 기댓값 647
C.3 정규 확률분포 652
C.4 샘플링 656
C.5 확률분포 사이의 거리 657
찾아보기 661
책속에서
심층 신경망은 크기가 매우 크고 길이가 가변적이며 다양한 종류의 내부 구조를 갖는 입력을 처리할 수 있다. 하나의 실수(회귀), 여러 숫자(다변량 회귀) 또는 2개 또는 그 이상의 클래스에 대한 확률(각각 이진 분류, 다중 클래스 분류)을 출력할 수 있다. 다음 절에서 살펴보겠지만 심층 신경망의 출력 또한 매우 크고 길이가 가변적인 내부 구조를 갖고 있을 수 있다.
종종 동일한 모델을 사용하여 하나 이상의 예측을 하려고 할 때, 예측의 대상이 되는 출력 y는 벡터가 된다. 예를 들어 분자의 녹는점과 끓는점 예측(다변량 회귀분석 문제, 그림 1.2b)이나 또는 이미지의 모든 점에서의 객체 클래스(다변량 분류 문제, 그림 1.4a) 예측이 있다. 다변량 확률분포를 정의하고 신경망을 사용하여 모델의 매개변수를 입력에 대한 함수로 모델링할 수도 있지만, 일반적으로 각 예측을 독립적으로 처리하게 된다.