logo
logo
x
바코드검색
BOOKPRICE.co.kr
책, 도서 가격비교 사이트
바코드검색

인기 검색어

실시간 검색어

검색가능 서점

도서목록 제공

Deep Learning: Foundations and Concepts

Deep Learning: Foundations and Concepts (Hardcover, 2024)

크리스토퍼 비숍, Hugh Bishop (지은이)
  |  
Springer
2023-11-02
  |  
115,000원

일반도서

검색중
서점 할인가 할인률 배송비 혜택/추가 실질최저가 구매하기
알라딘 115,000원 -0% 0원 3,450원 111,550원 >
yes24 로딩중
교보문고 로딩중
notice_icon 검색 결과 내에 다른 책이 포함되어 있을 수 있습니다.

중고도서

검색중
로딩중

e-Book

검색중
서점 정가 할인가 마일리지 실질최저가 구매하기
로딩중

해외직구

책 이미지

Deep Learning: Foundations and Concepts

책 정보

· 제목 : Deep Learning: Foundations and Concepts (Hardcover, 2024) 
· 분류 : 외국도서 > 컴퓨터 > 인공지능(AI)
· ISBN : 9783031454677
· 쪽수 : 649쪽

목차

Preface 3

1 The Deep Learning Revolution 19

1.1 The Impact of Deep Learning . . . . . . . . . . . . . . . . . . . . 20

1.1.1 Medical diagnosis . . . . . . . . . . . . . . . . . . . . . . 20

1.1.2 Protein structure . . . . . . . . . . . . . . . . . . . . . . . 21

1.1.3 Image synthesis . . . . . . . . . . . . . . . . . . . . . . . . 22

1.1.4 Large language models . . . . . . . . . . . . . . . . . . . . 23

1.2 A Tutorial Example . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.2.1 Synthetic data . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.2.2 Linear models . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.2.3 Error function . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.2.4 Model complexity . . . . . . . . . . . . . . . . . . . . . . 27

1.2.5 Regularization . . . . . . . . . . . . . . . . . . . . . . . . 30

1.2.6 Model selection . . . . . . . . . . . . . . . . . . . . . . . . 32

1.3 A Brief History of Machine Learning . . . . . . . . . . . . . . . . 34

1.3.1 Single-layer networks . . . . . . . . . . . . . . . . . . . . 35

1.3.2 Backpropagation . . . . . . . . . . . . . . . . . . . . . . . 36

1.3.3 Deep networks . . . . . . . . . . . . . . . . . . . . . . . . 38

2 Probabilities 41

2.1 The Rules of Probability . . . . . . . . . . . . . . . . . . . . . . . 43

2.1.1 A medical screening example . . . . . . . . . . . . . . . . 43

2.1.2 The sum and product rules . . . . . . . . . . . . . . . . . . 44

2.1.3 Bayes' theorem . . . . . . . . . . . . . . . . . . . . . . . . 46

2.1.4 Medical screening revisited . . . . . . . . . . . . . . . . . 48

2.1.5 Prior and posterior probabilities . . . . . . . . . . . . . . . 49

2.1.6 Independent variables . . . . . . . . . . . . . . . . . . . . 49

2.2 Probability Densities . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.2.1 Example distributions . . . . . . . . . . . . . . . . . . . . 51

2.2.2 Expectations and covariances . . . . . . . . . . . . . . . . 52

2.3 The Gaussian Distribution . . . . . . . . . . . . . . . . . . . . . . 54

2.3.1 Mean and variance . . . . . . . . . . . . . . . . . . . . . . 55

2.3.2 Likelihood function . . . . . . . . . . . . . . . . . . . . . . 55

2.3.3 Bias of maximum likelihood . . . . . . . . . . . . . . . . . 57

2.3.4 Linear regression . . . . . . . . . . . . . . . . . . . . . . . 58

2.4 Transformation of Densities . . . . . . . . . . . . . . . . . . . . . 60

2.4.1 Multivariate distributions . . . . . . . . . . . . . . . . . . . 62

2.5 Information Theory . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2.5.1 Entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2.5.2 Physics perspective . . . . . . . . . . . . . . . . . . . . . . 65

2.5.3 Differential entropy . . . . . . . . . . . . . . . . . . . . . . 67

2.5.4 Maximum entropy . . . . . . . . . . . . . . . . . . . . . . 68

2.5.5 Kullback-Leibler divergence . . . . . . . . . . . . . . . . . 69

2.5.6 Conditional entropy . . . . . . . . . . . . . . . . . . . . . 71

2.5.7 Mutual information . . . . . . . . . . . . . . . . . . . . . . 72

2.6 Bayesian Probabilities . . . . . . . . . . . . . . . . . . . . . . . . 72

2.6.1 Model parameters . . . . . . . . . . . . . . . . . . . . . . . 73

2.6.2 Regularization . . . . . . . . . . . . . . . . . . . . . . . . 74

2.6.3 Bayesian machine learning . . . . . . . . . . . . . . . . . . 75

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3 Standard Distributions 83

3.1 Discrete Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.1.1 Bernoulli distribution . . . . . . . . . . . . . . . . . . . . . 84

3.1.2 Binomial distribution . . . . . . . . . . . . . . . . . . . . . 85

3.1.3 Multinomial distribution . . . . . . . . . . . . . . . . . . . 86

3.2 The Multivariate Gaussian . . . . . . . . . . . . . . . . . . . . . . 88

3.2.1 Geometry of the Gaussian . . . . . . . . . . . . . . . . . . 89

3.2.2 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

3.2.3 Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . 93

3.2.4 Conditional distribution . . . . . . . . . . . . . . . . . . . 94

3.2.5 Marginal distribution . . . . . . . . . . . . . . . . . . . . . 97

3.2.6 Bayes' theorem . . . . . . . . . . . . . . . . . . . . . . . . 99

3.2.7 Maximum likelihood . . . . . . . . . . . . . . . . . . . . . 102

3.2.8 Sequential estimation . . . . . . . . . . . . . . . . . . . . . 103

3.2.9 Mixtures of Gaussians . . . . . . . . . . . . . . . . . . . . 104

3.3 Periodic Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 107

3.3.1 Von Mises distribution . . . . . . . . . . . . . . . . . . . . 107

3.4 The Exponential Family . . . . . . . . . . . . . . . . . . . . . . . 112

3.4.1 Sufficient statistics . . . . . . . . . . . . . . . . . . . . . . 115

3.5 Nonparametric Methods . . . . . . . . . . . . . . . . . . . . . . . 116

3.5.1 Histograms . . . . . . . . . . . . . . . . . . . . . . . . . . 116

3.5.2 Kernel densities . . . . . . . . . . . . . . . . . . . . . . . . 118

3.5.3 Nearest-neighbours . . . . . . . . . . . . . . . . . . . . . . 121

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

4 Single-layer Networks: Regression 129

4.1 Linear Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 130

4.1.1 Basis functions . . . . . . . . . . . . . . . . . . . . . . . . 130

4.1.2 Likelihood function . . . . . . . . . . . . . . . . . . . . . . 132

4.1.3 Maximum likelihood . . . . . . . . . . . . . . . . . . . . . 133

4.1.4 Geometry of least squares . . . . . . . . . . . . . . . . . . 135

4.1.5 Sequential learning . . . . . . . . . . . . . . . . . . . . . . 135

4.1.6 Regularized least squares . . . . . . . . . . . . . . . . . . . 136

4.1.7 Multiple outputs . . . . . . . . . . . . . . . . . . . . . . . 137

4.2 Decision theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

4.3 The Bias-Variance Trade-off . . . . . . . . . . . . . . . . . . . . . 141

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

5 Single-layer Networks: Classification 149

5.1 Discriminant Functions . . . . . . . . . . . . . . . . . . . . . . . . 150

5.1.1 Two classes . . . . . . . . . . . . . . . . . . . . . . . . . . 150

5.1.2 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . 152

5.1.3 1-of-K coding . . . . . . . . . . . . . . . . . . . . . . . . 153

5.1.4 Least squares for classification . . . . . . . . . . . . . . . . 154

5.2 Decision Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

5.2.1 Misclassification rate . . . . . . . . . . . . . . . . . . . . . 157

5.2.2 Expected loss . . . . . . . . . . . . . . . . . . . . . . . . . 158

5.2.3 The reject option . . . . . . . . . . . . . . . . . . . . . . . 160

5.2.4 Inference and decision . . . . . . . . . . . . . . . . . . . . 161

5.2.5 Classifier accuracy . . . . . . . . . . . . . . . . . . . . . . 165

5.2.6 ROC curve . . . . . . . . . . . . . . . . . . . . . . . . . . 166

5.3 Generative Classifiers . . . . . . . . . . . . . . . . . . . . . . . . 168

5.3.1 Continuous inputs . . . . . . . . . . . . . . . . . . . . . . 170

5.3.2 Maximum likelihood solution . . . . . . . . . . . . . . . . 171

5.3.3 Discrete features . . . . . . . . . . . . . . . . . . . . . . . 174

5.3.4 Exponential family . . . . . . . . . . . . . . . . . . . . . . 174

5.4 Discriminative Classifiers . . . . . . . . . . . . . . . . . . . . . . 175

5.4.1 Activation functions . . . . . . . . . . . . . . . . . . . . . 176

5.4.2 Fixed basis functions . . . . . . . . . . . . . . . . . . . . . 176

5.4.3 Logistic regression . . . . . . . . . . . . . . . . . . . . . . 177

5.4.4 Multi-class logistic regression . . . . . . . . . . . . . . . . 179

5.4.5 Probit regression . . . . . . . . . . . . . . . . . . . . . . . 181

5.4.6 Canonical link functions . . . . . . . . . . . . . . . . . . . 182

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

6 Deep Neural Networks 189

6.1 Limitations of Fixed Basis Functions . . . . . . . . . . . . . . . . 190

6.1.1 The curse of dimensionality . . . . . . . . . . . . . . . . . 190

6.1.2 High-dimensional spaces . . . . . . . . . . . . . . . . . . . 193

6.1.3 Data manifolds . . . . . . . . . . . . . . . . . . . . . . . . 194

6.1.4 Data-dependent basis functions . . . . . . . . . . . . . . . 196

6.2 Multilayer Networks . . . . . . . . . . . . . . . . . . . . . . . . . 198

6.2.1 Parameter matrices . . . . . . . . . . . . . . . . . . . . . . 199

6.2.2 Universal approximation . . . . . . . . . . . . . . . . . . . 199

6.2.3 Hidden unit activation functions . . . . . . . . . . . . . . . 200

6.2.4 Weight-space symmetries . . . . . . . . . . . . . . . . . . 203

6.3 Deep Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

6.3.1 Hierarchical representations . . . . . . . . . . . . . . . . . 205

6.3.2 Distributed representations . . . . . . . . . . . . . . . . . . 205

6.3.3 Representation learning . . . . . . . . . . . . . . . . . . . 206

6.3.4 Transfer learning . . . . . . . . . . . . . . . . . . . . . . . 207

6.3.5 Contrastive learning . . . . . . . . . . . . . . . . . . . . . 209

6.3.6 General network architectures . . . . . . . . . . . . . . . . 211

6.3.7 Tensors . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

6.4 Error Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

6.4.1 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 212

6.4.2 Binary classification . . . . . . . . . . . . . . . . . . . . . 214

6.4.3 multiclass classification . . . . . . . . . . . . . . . . . . . 215

6.5 Mixture Density Networks . . . . . . . . . . . . . . . . . . . . . . 216

6.5.1 Robot kinematics example . . . . . . . . . . . . . . . . . . 216

6.5.2 Conditional mixture distributions . . . . . . . . . . . . . . 217

6.5.3 Gradient optimization . . . . . . . . . . . . . . . . . . . . 219

6.5.4 Predictive distribution . . . . . . . . . . . . . . . . . . . . 220

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

7 Gradient Descent 227

7.1 Error Surfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

7.1.1 Local quadratic approximation . . . . . . . . . . . . . . . . 229

7.2 Gradient Descent Optimization . . . . . . . . . . . . . . . . . . . 231

7.2.1 Use of gradient information . . . . . . . . . . . . . . . . . 232

7.2.2 Batch gradient descent . . . . . . . . . . . . . . . . . . . . 232

7.2.3 Stochastic gradient descent . . . . . . . . . . . . . . . . . . 232

7.2.4 Mini-batches . . . . . . . . . . . . . . . . . . . . . . . . . 234

7.2.5 Parameter initialization . . . . . . . . . . . . . . . . . . . . 234

7.3 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

7.3.1 Momentum . . . . . . . . . . . . . . . . . . . . . . . . . . 238

7.3.2 Learning rate schedule . . . . . . . . . . . . . . . . . . . . 240

7.3.3 RMSProp and Adam . . . . . . . . . . . . . . . . . . . . . 241

7.4 Normalization . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

7.4.1 Data normalization . . . . . . . . . . . . . . . . . . . . . . 244

7.4.2 Batch normalization . . . . . . . . . . . . . . . . . . . . . 245

7.4.3 Layer normalization . . . . . . . . . . . . . . . . . . . . . 247

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

8 Backpropagation 251

8.1 Evaluation of Gradients . . . . . . . . . . . . . . . . . . . . . . . 252

8.1.1 Single-layer networks . . . . . . . . . . . . . . . . . . . . 252

8.1.2 General feed-forward networks . . . . . . . . . . . . . . . 253

8.1.3 A simple example . . . . . . . . . . . . . . . . . . . . . . 256

8.1.4 Numerical differentiation . . . . . . . . . . . . . . . . . . . 257

8.1.5 The Jacobian matrix . . . . . . . . . . . . . . . . . . . . . 258

8.1.6 The Hessian matrix . . . . . . . . . . . . . . . . . . . . . . 260

8.2 Automatic Differentiation . . . . . . . . . . . . . . . . . . . . . . 262

8.2.1 Forward-mode automatic differentiation . . . . . . . . . . . 264

8.2.2 Reverse-mode automatic differentiation . . . . . . . . . . . 267

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268

9 Regularization 271

9.1 Inductive Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272

9.1.1 Inverse problems . . . . . . . . . . . . . . . . . . . . . . . 272

9.1.2 No free lunch theorem . . . . . . . . . . . . . . . . . . . . 273

9.1.3 Symmetry and invariance . . . . . . . . . . . . . . . . . . . 274

9.1.4 Equivariance . . . . . . . . . . . . . . . . . . . . . . . . . 277

9.2 Weight Decay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278

9.2.1 Consistent regularizers . . . . . . . . . . . . . . . . . . . . 280

9.2.2 Generalized weight decay . . . . . . . . . . . . . . . . . . 282

9.3 Learning Curves . . . . . . . . . . . . . . . . . . . . . . . . . . . 284

9.3.1 Early stopping . . . . . . . . . . . . . . . . . . . . . . . . 284

9.3.2 Double descent . . . . . . . . . . . . . . . . . . . . . . . . 286

9.4 Parameter Sharing . . . . . . . . . . . . . . . . . . . . . . . . . . 288

9.4.1 Soft weight sharing . . . . . . . . . . . . . . . . . . . . . . 289

9.5 Residual Connections . . . . . . . . . . . . . . . . . . . . . . . . 292

9.6 Model Averaging . . . . . . . . . . . . . . . . . . . . . . . . . . . 295

9.6.1 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

10 Convolutional Networks 305

10.1 Computer Vision . . . . . . . . . . . . . . . . . . . . . . . . . . . 306

10.1.1 Image data . . . . . . . . . . . . . . . . . . . . . . . . . . 307

10.2 Convolutional Filters . . . . . . . . . . . . . . . . . . . . . . . . . 308

10.2.1 Feature detectors . . . . . . . . . . . . . . . . . . . . . . . 308

10.2.2 Translation equivariance . . . . . . . . . . . . . . . . . . . 309

10.2.3 Padding . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312

10.2.4 Strided convolutions . . . . . . . . . . . . . . . . . . . . . 312

10.2.5 Multi-dimensional convolutions . . . . . . . . . . . . . . . 313

10.2.6 Pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314

10.2.7 Multilayer convolutions . . . . . . . . . . . . . . . . . . . 316

10.2.8 Example network architectures . . . . . . . . . . . . . . . . 317

10.3 Visualizing Trained CNNs . . . . . . . . . . . . . . . . . . . . . . 320

10.3.1 Visual cortex . . . . . . . . . . . . . . . . . . . . . . . . . 320

10.3.2 Visualizing trained filters . . . . . . . . . . . . . . . . . . . 321

10.3.3 Saliency maps . . . . . . . . . . . . . . . . . . . . . . . . 323

10.3.4 Adversarial attacks . . . . . . . . . . . . . . . . . . . . . . 324

10.3.5 Synthetic images . . . . . . . . . . . . . . . . . . . . . . . 326

10.4 Object Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

10.4.1 Bounding boxes . . . . . . . . . . . . . . . . . . . . . . . 327

10.4.2 Intersection-over-union . . . . . . . . . . . . . . . . . . . . 328

10.4.3 Sliding windows . . . . . . . . . . . . . . . . . . . . . . . 329

10.4.4 Detection across scales . . . . . . . . . . . . . . . . . . . . 331

10.4.5 Non-max suppression . . . . . . . . . . . . . . . . . . . . . 332

10.4.6 Fast region CNNs . . . . . . . . . . . . . . . . . . . . . . . 332

10.5 Image Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . 333

10.5.1 Convolutional segmentation . . . . . . . . . . . . . . . . . 333

10.5.2 Up-sampling . . . . . . . . . . . . . . . . . . . . . . . . . 334

10.5.3 Fully convolutional networks . . . . . . . . . . . . . . . . . 336

10.5.4 The U-net architecture . . . . . . . . . . . . . . . . . . . . 337

10.6 Style Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340

11 Structured Distributions 343

11.1 Graphical Models . . . . . . . . . . . . . . . . . . . . . . . . . . . 344

11.1.1 Directed graphs . . . . . . . . . . . . . . . . . . . . . . . . 344

11.1.2 Factorization . . . . . . . . . . . . . . . . . . . . . . . . . 345

11.1.3 Discrete variables . . . . . . . . . . . . . . . . . . . . . . . 347

11.1.4 Gaussian variables . . . . . . . . . . . . . . . . . . . . . . 350

11.1.5 Binary classifier . . . . . . . . . . . . . . . . . . . . . . . 352

11.1.6 Parameters and observations . . . . . . . . . . . . . . . . . 352

11.1.7 Bayes' theorem . . . . . . . . . . . . . . . . . . . . . . . . 354

11.2 Conditional Independence . . . . . . . . . . . . . . . . . . . . . . 355

11.2.1 Three example graphs . . . . . . . . . . . . . . . . . . . . 356

11.2.2 Explaining away . . . . . . . . . . . . . . . . . . . . . . . 359

11.2.3 D-separation . . . . . . . . . . . . . . . . . . . . . . . . . 361

11.2.4 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 362

11.2.5 Generative models . . . . . . . . . . . . . . . . . . . . . . 364

11.2.6 Markov blanket . . . . . . . . . . . . . . . . . . . . . . . . 365

11.2.7 Graphs as filters . . . . . . . . . . . . . . . . . . . . . . . . 366

11.3 Sequence Models . . . . . . . . . . . . . . . . . . . . . . . . . . . 367

11.3.1 Hidden variables . . . . . . . . . . . . . . . . . . . . . . . 370

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371

12 Transformers 375

12.1 Attention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376

12.1.1 Transformer processing . . . . . . . . . . . . . . . . . . . . 378

12.1.2 Attention coefficients . . . . . . . . . . . . . . . . . . . . . 379

12.1.3 Self-attention . . . . . . . . . . . . . . . . . . . . . . . . . 380

12.1.4 Network parameters . . . . . . . . . . . . . . . . . . . . . 381

12.1.5 Scaled self-attention . . . . . . . . . . . . . . . . . . . . . 384

12.1.6 Multi-head attention . . . . . . . . . . . . . . . . . . . . . 384

12.1.7 Transformer layers . . . . . . . . . . . . . . . . . . . . . . 386

12.1.8 Computational complexity . . . . . . . . . . . . . . . . . . 388

12.1.9 Positional encoding . . . . . . . . . . . . . . . . . . . . . . 389

12.2 Natural Language . . . . . . . . . . . . . . . . . . . . . . . . . . . 392

12.2.1 Word embedding . . . . . . . . . . . . . . . . . . . . . . . 393

12.2.2 Tokenization . . . . . . . . . . . . . . . . . . . . . . . . . 395

12.2.3 Bag of words . . . . . . . . . . . . . . . . . . . . . . . . . 396

12.2.4 Autoregressive models . . . . . . . . . . . . . . . . . . . . 397

12.2.5 Recurrent neural networks . . . . . . . . . . . . . . . . . . 398

12.2.6 Backpropagation through time . . . . . . . . . . . . . . . . 399

12.3 Transformer Language Models . . . . . . . . . . . . . . . . . . . . 400

12.3.1 Decoder transformers . . . . . . . . . . . . . . . . . . . . . 401

12.3.2 Sampling strategies . . . . . . . . . . . . . . . . . . . . . . 404

12.3.3 Encoder transformers . . . . . . . . . . . . . . . . . . . . . 406

12.3.4 Sequence-to-sequence transformers . . . . . . . . . . . . . 408

12.3.5 Large language models . . . . . . . . . . . . . . . . . . . . 408

12.4 Multimodal Transformers . . . . . . . . . . . . . . . . . . . . . . 412

12.4.1 Vision transformers . . . . . . . . . . . . . . . . . . . . . . 413

12.4.2 Generative image transformers . . . . . . . . . . . . . . . . 414

12.4.3 Audio data . . . . . . . . . . . . . . . . . . . . . . . . . . 417

12.4.4 Text-to-speech . . . . . . . . . . . . . . . . . . . . . . . . 418

12.4.5 Vision and language transformers . . . . . . . . . . . . . . 420

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421

13 Graph Neural Networks 425

13.1 Machine Learning on Graphs . . . . . . . . . . . . . . . . . . . . 427

13.1.1 Graph properties . . . . . . . . . . . . . . . . . . . . . . . 428

13.1.2 Adjacency matrix . . . . . . . . . . . . . . . . . . . . . . . 428

13.1.3 Permutation equivariance . . . . . . . . . . . . . . . . . . . 429

13.2 Neural Message-Passing . . . . . . . . . . . . . . . . . . . . . . . 430

13.2.1 Convolutional filters . . . . . . . . . . . . . . . . . . . . . 431

13.2.2 Graph convolutional networks . . . . . . . . . . . . . . . . 432

13.2.3 Aggregation operators . . . . . . . . . . . . . . . . . . . . 434

13.2.4 Update operators . . . . . . . . . . . . . . . . . . . . . . . 436

13.2.5 Node classification . . . . . . . . . . . . . . . . . . . . . . 437

13.2.6 Edge classification . . . . . . . . . . . . . . . . . . . . . . 438

13.2.7 Graph classification . . . . . . . . . . . . . . . . . . . . . . 438

13.3 General Graph Networks . . . . . . . . . . . . . . . . . . . . . . . 438

13.3.1 Graph attention networks . . . . . . . . . . . . . . . . . . . 439

13.3.2 Edge embeddings . . . . . . . . . . . . . . . . . . . . . . . 439

13.3.3 Graph embeddings . . . . . . . . . . . . . . . . . . . . . . 440

13.3.4 Over-smoothing . . . . . . . . . . . . . . . . . . . . . . . 440

13.3.5 Regularization . . . . . . . . . . . . . . . . . . . . . . . . 441

13.3.6 Geometric deep learning . . . . . . . . . . . . . . . . . . . 442

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443

14 Sampling 447

14.1 Basic Sampling Algorithms . . . . . . . . . . . . . . . . . . . . . 448

14.1.1 Expectations . . . . . . . . . . . . . . . . . . . . . . . . . 448

14.1.2 Standard distributions . . . . . . . . . . . . . . . . . . . . 449

14.1.3 Rejection sampling . . . . . . . . . . . . . . . . . . . . . . 451

14.1.4 Adaptive rejection sampling . . . . . . . . . . . . . . . . . 453

14.1.5 Importance sampling . . . . . . . . . . . . . . . . . . . . . 455

14.1.6 Sampling-importance-resampling . . . . . . . . . . . . . . 457

14.2 Markov Chain Monte Carlo . . . . . . . . . . . . . . . . . . . . . 458

14.2.1 The Metropolis algorithm . . . . . . . . . . . . . . . . . . 459

14.2.2 Markov chains . . . . . . . . . . . . . . . . . . . . . . . . 460

14.2.3 The Metropolis-Hastings algorithm . . . . . . . . . . . . . 463

14.2.4 Gibbs sampling . . . . . . . . . . . . . . . . . . . . . . . . 464

14.2.5 Ancestral sampling . . . . . . . . . . . . . . . . . . . . . . 468

14.3 Langevin Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . 469

14.3.1 Energy-based models . . . . . . . . . . . . . . . . . . . . . 470

14.3.2 Maximizing the likelihood . . . . . . . . . . . . . . . . . . 471

14.3.3 Langevin dynamics . . . . . . . . . . . . . . . . . . . . . . 472

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474

15 Discrete Latent Variables 477

15.1 K-means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 478

15.1.1 Image segmentation . . . . . . . . . . . . . . . . . . . . . 482

15.2 Mixtures of Gaussians . . . . . . . . . . . . . . . . . . . . . . . . 484

15.2.1 Likelihood function . . . . . . . . . . . . . . . . . . . . . . 486

15.2.2 Maximum likelihood . . . . . . . . . . . . . . . . . . . . . 488

15.3 Expectation-Maximization Algorithm . . . . . . . . . . . . . . . . 492

15.3.1 Gaussian mixtures . . . . . . . . . . . . . . . . . . . . . . 496

15.3.2 Relation to K-means . . . . . . . . . . . . . . . . . . . . . 498

15.3.3 Mixtures of Bernoulli distributions . . . . . . . . . . . . . . 499

15.4 Evidence Lower Bound . . . . . . . . . . . . . . . . . . . . . . . 503

15.4.1 EM revisited . . . . . . . . . . . . . . . . . . . . . . . . . 504

15.4.2 Independent and identically distributed data . . . . . . . . . 506

15.4.3 Parameter priors . . . . . . . . . . . . . . . . . . . . . . . 507

15.4.4 Generalized EM . . . . . . . . . . . . . . . . . . . . . . . 507

15.4.5 Sequential EM . . . . . . . . . . . . . . . . . . . . . . . . 508

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 508

16 Continuous Latent Variables 513

16.1 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . 515

16.1.1 Maximum variance formulation . . . . . . . . . . . . . . . 515

16.1.2 Minimum-error formulation . . . . . . . . . . . . . . . . . 517

16.1.3 Data compression . . . . . . . . . . . . . . . . . . . . . . . 519

16.1.4 Data whitening . . . . . . . . . . . . . . . . . . . . . . . . 520

16.1.5 High-dimensional data . . . . . . . . . . . . . . . . . . . . 522

16.2 Probabilistic Latent Variables . . . . . . . . . . . . . . . . . . . . 524

16.2.1 Generative model . . . . . . . . . . . . . . . . . . . . . . . 524

16.2.2 Likelihood function . . . . . . . . . . . . . . . . . . . . . . 525

16.2.3 Maximum likelihood . . . . . . . . . . . . . . . . . . . . . 527

16.2.4 Factor analysis . . . . . . . . . . . . . . . . . . . . . . . . 531

16.2.5 Independent component analysis . . . . . . . . . . . . . . . 532

16.2.6 Kalman filters . . . . . . . . . . . . . . . . . . . . . . . . . 533

16.3 Evidence Lower Bound . . . . . . . . . . . . . . . . . . . . . . . 534

16.3.1 Expectation maximization . . . . . . . . . . . . . . . . . . 536

16.3.2 EM for PCA . . . . . . . . . . . . . . . . . . . . . . . . . 537

16.3.3 EM for factor analysis . . . . . . . . . . . . . . . . . . . . 538

16.4 Nonlinear Latent Variable Models . . . . . . . . . . . . . . . . . . 540

16.4.1 Nonlinear manifolds . . . . . . . . . . . . . . . . . . . . . 540

16.4.2 Likelihood function . . . . . . . . . . . . . . . . . . . . . . 542

16.4.3 Discrete data . . . . . . . . . . . . . . . . . . . . . . . . . 544

16.4.4 Four approaches to generative modelling . . . . . . . . . . 545

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545

17 Generative Adversarial Networks 551

17.1 Adversarial Training . . . . . . . . . . . . . . . . . . . . . . . . . 552

17.1.1 Loss function . . . . . . . . . . . . . . . . . . . . . . . . . 553

17.1.2 GAN training in practice . . . . . . . . . . . . . . . . . . . 554

17.2 Image GANs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557

17.2.1 CycleGAN . . . . . . . . . . . . . . . . . . . . . . . . . . 557

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562

18 Normalizing Flows 565

18.1 Coupling Flows . . . . . . . . . . . . . . . . . . . . . . . . . . . . 567

18.2 Autoregressive Flows . . . . . . . . . . . . . . . . . . . . . . . . . 570

18.3 Continuous Flows . . . . . . . . . . . . . . . . . . . . . . . . . . 572

18.3.1 Neural differential equations . . . . . . . . . . . . . . . . . 572

18.3.2 Neural ODE backpropagation . . . . . . . . . . . . . . . . 573

18.3.3 Neural ODE flows . . . . . . . . . . . . . . . . . . . . . . 575

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 577

19 Autoencoders 581

19.1 Deterministic Autoencoders . . . . . . . . . . . . . . . . . . . . . 582

19.1.1 Linear autoencoders . . . . . . . . . . . . . . . . . . . . . 582

19.1.2 Deep autoencoders . . . . . . . . . . . . . . . . . . . . . . 583

19.1.3 Sparse autoencoders . . . . . . . . . . . . . . . . . . . . . 584

19.1.4 Denoising autoencoders . . . . . . . . . . . . . . . . . . . 585

19.1.5 Masked autoencoders . . . . . . . . . . . . . . . . . . . . . 585

19.2 Variational Autoencoders . . . . . . . . . . . . . . . . . . . . . . . 587

19.2.1 Amortized inference . . . . . . . . . . . . . . . . . . . . . 590

19.2.2 The reparameterization trick . . . . . . . . . . . . . . . . . 592

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596

20 Diffusion Models 599

20.1 Forward Encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . 600

20.1.1 Diffusion kernel . . . . . . . . . . . . . . . . . . . . . . . 601

20.1.2 Conditional distribution . . . . . . . . . . . . . . . . . . . 602

20.2 Reverse Decoder . . . . . . . . . . . . . . . . . . . . . . . . . . . 603

20.2.1 Training the decoder . . . . . . . . . . . . . . . . . . . . . 605

20.2.2 Evidence lower bound . . . . . . . . . . . . . . . . . . . . 606

20.2.3 Rewriting the ELBO . . . . . . . . . . . . . . . . . . . . . 607

20.2.4 Predicting the noise . . . . . . . . . . . . . . . . . . . . . . 609

20.2.5 Generating new samples . . . . . . . . . . . . . . . . . . . 610

20.3 Score Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612

20.3.1 Score loss function . . . . . . . . . . . . . . . . . . . . . . 613

20.3.2 Modified score loss . . . . . . . . . . . . . . . . . . . . . . 614

20.3.3 Noise variance . . . . . . . . . . . . . . . . . . . . . . . . 615

20.3.4 Stochastic differential equations . . . . . . . . . . . . . . . 616

20.4 Guided Diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 617

20.4.1 Classifier guidance . . . . . . . . . . . . . . . . . . . . . . 618

20.4.2 Classifier-free guidance . . . . . . . . . . . . . . . . . . . 618

Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621

Appendix A Linear Algebra 627

A.1 Matrix Identities . . . . . . . . . . . . . . . . . . . . . . . . . . . 627

A.2 Traces and Determinants . . . . . . . . . . . . . . . . . . . . . . . 628

A.3 Matrix Derivatives . . . . . . . . . . . . . . . . . . . . . . . . . . 629

A.4 Eigenvectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 630

Appendix B Calculus of Variations 635

Appendix C Lagrange Multipliers 639

Bibliography 643

Index 659


저자소개

크리스토퍼 비숍 (지은이)    정보 더보기
마이크로소프트 리서치 케임브리지의 부 디렉터이자 에든버러 대학교 컴퓨터 공학과의 학과장을 맡고 있다. 또한, 케임브리지 다윈 칼리지와 왕립 공학회의 펠로우이기도 하다. 크리스는 양자론에 관한 논문으로 세인트 캐서린 대학과 옥스퍼드 대학교에서 물리학 학사, 에든버러 대학교에서 이론 물리학 박사 학위를 취득했다.
펼치기
Hugh Bishop (지은이)    정보 더보기
펼치기
이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
도서 DB 제공 : 알라딘 서점(www.aladin.co.kr)
최근 본 책