SlideShare a Scribd company logo
1 of 37
모든 것을 확률로 생각하자!
Setosa
Versicolor
Virginica
Iris Feature
Sepal Length
Sepal Width
Petal Length
⋮
Distribution
⋮
Classification 문제도 확률로 생각하자!
𝑃 𝑆𝑒𝑡𝑜𝑠𝑎 𝒙 = 𝟎. 𝟏
𝑃 𝑉𝑒𝑟𝑠𝑖𝑐𝑜𝑙𝑜𝑟 𝒙 = 𝟎. 𝟖𝟓
𝑃 𝑉𝑖𝑟𝑔𝑖𝑛𝑖𝑐𝑎 𝒙 = 𝟎. 𝟎𝟓
argmax
𝑖
𝑃(𝐶𝑙𝑎𝑠𝑠𝑖|𝒙)
𝐶𝑙𝑎𝑠𝑠0 = 𝑆𝑒𝑡𝑜𝑠𝑎
𝐶𝑙𝑎𝑠𝑠1 = 𝑉𝑒𝑟𝑠𝑖𝑐𝑜𝑙𝑜𝑟
𝐶𝑙𝑎𝑠𝑠2 = 𝑉𝑖𝑟𝑔𝑖𝑛𝑖𝑐𝑎
Generation 등 여러 작업을 확률로 표현할 수 있다.
face 𝑃𝑋
male
female
gender 𝑃𝑌
Sampling
Generation
𝑥~𝑃𝑋(𝑥)
𝑃𝑌|𝑋
Classification
(discrimination)
실제 우리가 얻을 수 있는 데이터는 너무 적다!
Sample space
Event set
차원의 저주
Adopted from https://bigsnarf.wordpress.com/2013/06/14/curse-of-dimensionality/)
기존 ML과 Deep Learning의 차이
Adopted from Goodfellow, 2016
Super high dimensional function
Neural NetworkInput Desired output
Super high dimensional function
Neural Network
Input distribution:
X
Desired output
distribution: Y
𝐹 𝑥 = 𝑃 𝑦 𝑥 =
𝑃 𝑥 𝑦 𝑃(𝑦)
𝑝(𝑥)
Taxonomy of deep learning
Adopted from Goodfellow, 2016
Linear activation function
Input layer Hidden layer 1 Hidden layer 2 Hidden layer 3 Output layer
𝑶𝒖𝒕𝒑𝒖𝒕 = 𝑰𝒏𝒑𝒖𝒕 × 𝑾𝟏 × 𝑾𝟐 × 𝑾𝟑 = 𝑰𝒏𝒑𝒖𝒕 × 𝑾
𝑾𝟏 𝑾𝟐 𝑾𝟑𝑰𝒏𝒑𝒖𝒕 𝑶𝒖𝒕𝒑𝒖𝒕
Input layer Hidden layer Output layer
𝑾𝑰𝒏𝒑𝒖𝒕 𝑶𝒖𝒕𝒑𝒖𝒕
딥러닝의 특징과 Conveltional한 딥러닝
• 딥러닝은 최적화 문제를 잘 푼다.
• 최적화하고자 하는 Objective function을 정해주면 그 objective function을 최적화
하기 위해 feature extraction까지 해가며 최적화하는데, 이는 그 구조가 매우 복잡
하고 높은 성능의 Optimizer 때문에 가능하다.
Conventional한 딥러닝 어플리케이션 설계
1. 학습시키고자 하는 작업을 확률분포로 생각하고, 해당 확률분포를 어떠한 확률분
포로 가정한다.
2. 가정한 확률분포를 근사하기 위한 Objective function(예를 들어 Maximize
likelihood)를 정의하여 Optimization 문제로 바꾼다.
3. Deep Neural Network 구조를 해당하는 작업의 Input에서 특징을 잘 뽑아낼 수 있
게 만든다. (Input이 이미지인 경우 보통 Convolution) (또한 학습이 잘 되게 하기
위한 구조로 만든다. ReLU, Residual connection 등)
4. Deep Learning을 이용하여 학습시킨다. (Network의 Weight를 Optimizer를 이용해
Update한다.)
Bayes’s theorem
𝑃 𝐴 𝐵 =
𝑃 𝐵 𝐴 𝑃(𝐴)
𝑃(𝐵)
A : 남성 or 여성
B: 머리카락의 길이
𝑃 𝐵 𝐴 : 남성 또는 여성의 머리카락이 x cm일 확률
𝑃 𝐴 𝐵 : x cm의 머리카락이 있을 때, 이 머리카락이
남성 또는 여성으로부터 나왔을 확률.
Bayes’s theorem
MLE MAP
남성 90%, 여성 10% 라는 prior가 적용되고 안되고의 차이
Bayes’s theorem
Generating human face
미간 넓이의 분포
턱수염은 남자만 있다.
피부색의 분포
머리카락 길이 분포
남자는 보통 여자보다 얼굴이 크다.
탈모는 남자만 있다.
⋮
• 복잡한 문제의 경우 prior가 뭐가 있는지도 알기 힘들다.
• 잘못된 prior가 입력될 수 있다. (운 좋게 잘못된 걸 알 수 있는 sample을 뽑았을
경우 update 가능)
• Prior의 정확한 분포를 얻기가 힘들다.
Bayesian inference
𝑃 𝐻 𝐸 =
𝑃 𝐸 𝐻 𝑃(𝐻)
𝑝(𝐸)
H : hypothesis
E: evidence
𝑃(𝐻) : Prior probability
𝑃 𝐸 𝐻 : likelihood
𝑃 𝐻 𝐸 : Posterior probability
Bayesian inference
𝑝 𝜃 𝑿, 𝛼 =
𝑝 𝑿 𝜃 𝑝(𝜃|𝛼)
𝑝(𝑿|𝛼)
∝ 𝑝 𝑿 𝜃 𝑝(𝜃|𝛼)
x: a general data point
𝜃: the parameter of the data point’s distribution
𝛼: the hyperparameter of the parameter distribution
𝑿: sample data, a set of n observed data points, i. e., 𝑥1, ⋯ , 𝑥 𝑛
𝑥: a new data point whose distribution is to be predicted.
p(𝜃|𝛼): prior distribution
𝑝 𝑿 𝜃 : sampling distribution
𝑝(𝑿|𝛼): marginal distribution
𝑝 𝜃 𝑿, 𝛼 : posterior distribution
Bayesian prediction
𝑝 𝑥 𝑿, 𝛼 = 𝑝 𝑥 𝜃 𝑝(𝜃|𝑿, 𝛼)𝑑𝜃
Posterior predictive distribution
Prior predictive distribution
𝑝 𝑥 𝛼 = 𝑝 𝑥 𝜃 𝑝 𝜃 𝛼 𝑑𝜃
Bayesian prediction
𝑝 𝑿 𝜃 = 𝑖=1
𝑛
𝑝(𝑥𝑖|𝜃)
If 𝑿 is i.i.d.
Likelihood
Log-Likelihood
log 𝑝 𝑿 𝜃 =
𝑖=1
𝑛
log 𝑝(𝑥𝑖|𝜃)
Maximum likelihood estimation
10 sample 50 sample
키 측정.
Ground truth: 1.78 m, gaussian dist, sigma: 0.1
Sigma는 알고 있다고 가정. 키 측정 (point estimate)
(sample mean값은 week law of large numbers에 의하여 실제 평균으로 수렴함.
(unbiased,
Maximum likelihood estimation
100 sample
Maximize a Posterior estimation
Fine prior Wrong prior
P=0.5인 coin flip에 대한 parameter estimation ( Bernoulli distribution)
Prior (beta distribution – conjugate prior distribution)
Maximize a Posterior estimation
No prior (maximum entropy) Strong prior
P=0.5인 coin flip에 대한 parameter estimation ( Bernoulli distribution)
Prior (beta distribution – conjugate prior distribution)
Maximize a Posterior estimation
1 sample per step 3 sample per step
Exponential Family
• Normal
• Exponential
• Gamma
• Chi-squared
• Beta
• Dirichlet
• Bernoulli
• Categorical
• Poisson
• Wishart
• Invert Wishart
• geometric
• Binomial (with fixed number of trials)
• Multinomial (with fixed number of trials)
• Negative binomial (with fixed number of failures)
Exponential Family
𝑓𝑥 𝑥 𝜃 = ℎ 𝑥 exp(𝜂 𝜃 ∙ 𝑇 𝑥 − 𝐴 𝜃 )
When 𝑇 𝑥 , ℎ 𝑥 , 𝜂 𝜃 , and 𝐴 𝜃 are known function.
The value 𝜃 is called the parameter of the family.
Exponential Family
𝑓𝑥 𝑥 𝜃 = ℎ 𝑥 exp(𝜂 𝜃 ∙ 𝑇 𝑥 − 𝐴 𝜃 )
𝑃 𝑥 𝜇, 𝜎2
=
1
2𝜋𝜎2
exp −
𝑥 − 𝜇 2
2𝜎2
=
1
2𝜋𝜎2
exp −
1
2𝜎2
(𝑥2 − 2𝑥𝜇 + 𝜇2)
=
1
2𝜋𝜎2
exp −
1
2𝜎2
𝑥2 exp
𝜇
𝜎2
𝑥 −
1
2𝜎2
𝜇2
• ℎ 𝑥 =
1
2𝜋𝜎2
exp −
1
2𝜎2 𝑥2
• 𝜂 𝜃 =
𝜃
𝜎2
• 𝑇 𝑥 = 𝑥
• 𝐴 𝜃 =
1
2𝜎2 𝜃2
• 𝜃 = 𝜇
Exponential Family
• 𝜃 = 𝜇
Gaussian Distribution: Linear regression
• 𝜃 = log(
𝜙
1−𝜙
)
Binomial Distribution: Sigmoid regression
𝜙 =
1
1 + 𝑒−𝜃
Multinomial Distribution: Softmax regression
• 𝜃 = log(
𝜋 𝑘
𝜋 𝐾
) 𝜋 𝑘 =
𝑒 𝜃𝑘
𝑗=1
𝐾
𝑒 𝜃𝑗
𝜇 = 𝜃
Parameter regularization
MAP for 𝜃
argmax
𝜃
𝑃 𝑦 𝑥; 𝜃 𝑃(𝜃)
𝜃 𝑀𝐴𝑃 = argmax
𝜃
log
𝑖=1
𝑚
𝑃 𝑦 𝑖
𝑥 𝑖
; 𝜃 𝑃 𝜃
= argmax
𝜃
𝑖=1
𝑚
𝑙𝑜𝑔𝑃 𝑦 𝑖
𝑥 𝑖
; 𝜃 + log 𝑃 𝜃
log 𝑃 𝜃 = 𝐶1 − 𝐶2 𝜃2
𝐶2 𝜃2maximize minimize
Information theory
Entropy
H 𝑝, 𝑞 = −
𝑖
𝑝𝑖 log 𝑞𝑖
H 𝑝 = −
𝑖
𝑝𝑖log(𝑝𝑖)
Cross Entropy
= 𝐻 𝑝 + 𝐷 𝐾𝐿(𝑝||𝑞)
Kullback-Leibler divergence
𝐷 𝐾𝐿(𝑝| 𝑞 =
𝑖
𝑝𝑖 log
𝑝𝑖
𝑞𝑖
= − 𝑖 𝑝𝑖 log 𝑞𝑖 − ( 𝑖 𝑝𝑖log(𝑝𝑖))
Information theory
Kullback-leibler divergence
P: target distribution
Q: estimated distribution
Forward KL divergence (MLE) Reverse KL divergence
Jensen-Shannon divergence
Mode collapsing
Jensen-Shannon divergence
JSD(𝑝| 𝑞 =
1
2
𝐷 𝐾𝐿(𝑝| 𝑚 +
1
2
𝐷 𝐾𝐿(𝑞| 𝑚
𝑤ℎ𝑒𝑟𝑒 𝑚 =
1
2
(𝑝 + 𝑞)
Maximum Entropy Distribution
Maximum Entropy Distribution
Continuous-value Distribution: Gaussian distribution
Binary classification: Binomial distribution
Multiple class classification: multinomial distribution
Continuous-value Distribution(regression): 주식 가격 변동
Binary classification: 남성 or 여성. True or false.
Multiple class classification: 사자 or 호랑이 or 침팬치
Schedule
• 다음 시간: 딥러닝 (solver, batch, ensemble 등) or 머신러닝에
필요한 통계 기본
• 다다음 시간: 문제를 딥러닝으로 설계하기
Deep learning study 1

More Related Content

What's hot

파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강Woong won Lee
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answeringWoong won Lee
 
강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1
강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1
강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1Euijin Jeong
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO
 
강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2Dongmin Lee
 
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)Euijin Jeong
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhleeDongheon Lee
 
Lecture 4: Neural Networks I
Lecture 4: Neural Networks ILecture 4: Neural Networks I
Lecture 4: Neural Networks ISang Jun Lee
 
해커에게 전해들은 머신러닝 #3
해커에게 전해들은 머신러닝 #3해커에게 전해들은 머신러닝 #3
해커에게 전해들은 머신러닝 #3Haesun Park
 
Differentiable Neural Computer
Differentiable Neural ComputerDifferentiable Neural Computer
Differentiable Neural ComputerTaehoon Kim
 
02. naive bayes classifier revision
02. naive bayes classifier   revision02. naive bayes classifier   revision
02. naive bayes classifier revisionJeonghun Yoon
 
[머가]Chap11 강화학습
[머가]Chap11 강화학습[머가]Chap11 강화학습
[머가]Chap11 강화학습종현 최
 
Lecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningLecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningSang Jun Lee
 
Reinforcement learning v0.5
Reinforcement learning v0.5Reinforcement learning v0.5
Reinforcement learning v0.5SANG WON PARK
 
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)WON JOON YOO
 
02.09 naive bayesian classifier
02.09 naive bayesian classifier02.09 naive bayesian classifier
02.09 naive bayesian classifierDea-hwan Ki
 
한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서Euijin Jeong
 
Dsh data sensitive hashing for high dimensional k-nn search
Dsh  data sensitive hashing for high dimensional k-nn searchDsh  data sensitive hashing for high dimensional k-nn search
Dsh data sensitive hashing for high dimensional k-nn searchWooSung Choi
 
08. spectal clustering
08. spectal clustering08. spectal clustering
08. spectal clusteringJeonghun Yoon
 

What's hot (20)

Variational AutoEncoder(VAE)
Variational AutoEncoder(VAE)Variational AutoEncoder(VAE)
Variational AutoEncoder(VAE)
 
파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answering
 
강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1
강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1
강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
 
강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2
 
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhlee
 
Lecture 4: Neural Networks I
Lecture 4: Neural Networks ILecture 4: Neural Networks I
Lecture 4: Neural Networks I
 
해커에게 전해들은 머신러닝 #3
해커에게 전해들은 머신러닝 #3해커에게 전해들은 머신러닝 #3
해커에게 전해들은 머신러닝 #3
 
Differentiable Neural Computer
Differentiable Neural ComputerDifferentiable Neural Computer
Differentiable Neural Computer
 
02. naive bayes classifier revision
02. naive bayes classifier   revision02. naive bayes classifier   revision
02. naive bayes classifier revision
 
[머가]Chap11 강화학습
[머가]Chap11 강화학습[머가]Chap11 강화학습
[머가]Chap11 강화학습
 
Lecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningLecture 3: Unsupervised Learning
Lecture 3: Unsupervised Learning
 
Reinforcement learning v0.5
Reinforcement learning v0.5Reinforcement learning v0.5
Reinforcement learning v0.5
 
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
 
02.09 naive bayesian classifier
02.09 naive bayesian classifier02.09 naive bayesian classifier
02.09 naive bayesian classifier
 
한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서
 
Dsh data sensitive hashing for high dimensional k-nn search
Dsh  data sensitive hashing for high dimensional k-nn searchDsh  data sensitive hashing for high dimensional k-nn search
Dsh data sensitive hashing for high dimensional k-nn search
 
08. spectal clustering
08. spectal clustering08. spectal clustering
08. spectal clustering
 

Similar to Deep learning study 1

Probability with MLE, MAP
Probability with MLE, MAPProbability with MLE, MAP
Probability with MLE, MAPJunho Lee
 
03. linear regression
03. linear regression03. linear regression
03. linear regressionJeonghun Yoon
 
Variational Auto Encoder, Generative Adversarial Model
Variational Auto Encoder, Generative Adversarial ModelVariational Auto Encoder, Generative Adversarial Model
Variational Auto Encoder, Generative Adversarial ModelSEMINARGROOT
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]강민국 강민국
 
Neural network (perceptron)
Neural network (perceptron)Neural network (perceptron)
Neural network (perceptron)Jeonghun Yoon
 
Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Jeonghun Yoon
 
04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )Jeonghun Yoon
 
3.neural networks
3.neural networks3.neural networks
3.neural networksHaesun Park
 
Multinomial classification and application of ML
Multinomial classification and application of MLMultinomial classification and application of ML
Multinomial classification and application of ML희수 박
 
Crash Course on Graphical models
Crash Course on Graphical modelsCrash Course on Graphical models
Crash Course on Graphical modelsJong Wook Kim
 
Linear regression
Linear regressionLinear regression
Linear regression전 희천
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational InferenceKyeongUkJang
 
0307 1 estimation_theory
0307 1 estimation_theory0307 1 estimation_theory
0307 1 estimation_theoryJeonghun Yoon
 
Eigendecomposition and pca
Eigendecomposition and pcaEigendecomposition and pca
Eigendecomposition and pcaJinhwan Suk
 
Gaussian Mixture Model
Gaussian Mixture ModelGaussian Mixture Model
Gaussian Mixture ModelKyeongUkJang
 
Deep Learning from scratch 5장 : backpropagation
 Deep Learning from scratch 5장 : backpropagation Deep Learning from scratch 5장 : backpropagation
Deep Learning from scratch 5장 : backpropagationJinSooKim80
 
패턴인식-베이즈결정이론기반 분류기 part1
패턴인식-베이즈결정이론기반 분류기 part1패턴인식-베이즈결정이론기반 분류기 part1
패턴인식-베이즈결정이론기반 분류기 part1jdo
 
패턴 인식 2 classifiers based on bayes decision theory part 1
패턴 인식 2 classifiers based on bayes decision theory part 1패턴 인식 2 classifiers based on bayes decision theory part 1
패턴 인식 2 classifiers based on bayes decision theory part 1jdo
 

Similar to Deep learning study 1 (20)

Probability with MLE, MAP
Probability with MLE, MAPProbability with MLE, MAP
Probability with MLE, MAP
 
03. linear regression
03. linear regression03. linear regression
03. linear regression
 
Vae
VaeVae
Vae
 
Variational Auto Encoder, Generative Adversarial Model
Variational Auto Encoder, Generative Adversarial ModelVariational Auto Encoder, Generative Adversarial Model
Variational Auto Encoder, Generative Adversarial Model
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]
 
Neural network (perceptron)
Neural network (perceptron)Neural network (perceptron)
Neural network (perceptron)
 
Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)
 
04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )
 
3.neural networks
3.neural networks3.neural networks
3.neural networks
 
Multinomial classification and application of ML
Multinomial classification and application of MLMultinomial classification and application of ML
Multinomial classification and application of ML
 
Crash Course on Graphical models
Crash Course on Graphical modelsCrash Course on Graphical models
Crash Course on Graphical models
 
Linear regression
Linear regressionLinear regression
Linear regression
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational Inference
 
0307 1 estimation_theory
0307 1 estimation_theory0307 1 estimation_theory
0307 1 estimation_theory
 
Eigendecomposition and pca
Eigendecomposition and pcaEigendecomposition and pca
Eigendecomposition and pca
 
Gaussian Mixture Model
Gaussian Mixture ModelGaussian Mixture Model
Gaussian Mixture Model
 
Deep Learning from scratch 5장 : backpropagation
 Deep Learning from scratch 5장 : backpropagation Deep Learning from scratch 5장 : backpropagation
Deep Learning from scratch 5장 : backpropagation
 
패턴인식-베이즈결정이론기반 분류기 part1
패턴인식-베이즈결정이론기반 분류기 part1패턴인식-베이즈결정이론기반 분류기 part1
패턴인식-베이즈결정이론기반 분류기 part1
 
패턴 인식 2 classifiers based on bayes decision theory part 1
패턴 인식 2 classifiers based on bayes decision theory part 1패턴 인식 2 classifiers based on bayes decision theory part 1
패턴 인식 2 classifiers based on bayes decision theory part 1
 
07. PCA
07. PCA07. PCA
07. PCA
 

More from San Kim

20230419-LLaMA-Adapter_ Efficient Fine-tuning of Language Models with Zero-in...
20230419-LLaMA-Adapter_ Efficient Fine-tuning of Language Models with Zero-in...20230419-LLaMA-Adapter_ Efficient Fine-tuning of Language Models with Zero-in...
20230419-LLaMA-Adapter_ Efficient Fine-tuning of Language Models with Zero-in...San Kim
 
2023 EMNLP day_san.pptx
2023 EMNLP day_san.pptx2023 EMNLP day_san.pptx
2023 EMNLP day_san.pptxSan Kim
 
LongT5_Efficient Text-toText Transformer for Long Sequences_san.pptx
LongT5_Efficient Text-toText Transformer for Long Sequences_san.pptxLongT5_Efficient Text-toText Transformer for Long Sequences_san.pptx
LongT5_Efficient Text-toText Transformer for Long Sequences_san.pptxSan Kim
 
slide-acl2022-combined_san.pptx
slide-acl2022-combined_san.pptxslide-acl2022-combined_san.pptx
slide-acl2022-combined_san.pptxSan Kim
 
Compeition-Level Code Generation with AlphaCode.pptx
Compeition-Level Code Generation with AlphaCode.pptxCompeition-Level Code Generation with AlphaCode.pptx
Compeition-Level Code Generation with AlphaCode.pptxSan Kim
 
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tu...
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tu...Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tu...
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tu...San Kim
 
AI2 day.pptx
AI2 day.pptxAI2 day.pptx
AI2 day.pptxSan Kim
 
Temporal reasoning task
Temporal reasoning taskTemporal reasoning task
Temporal reasoning taskSan Kim
 
Answering complex open domain questions with multi-hop dense retrieval
Answering complex open domain questions with multi-hop dense retrievalAnswering complex open domain questions with multi-hop dense retrieval
Answering complex open domain questions with multi-hop dense retrievalSan Kim
 
Measuring massive multitask language understanding
Measuring massive multitask language understandingMeasuring massive multitask language understanding
Measuring massive multitask language understandingSan Kim
 
Abductive commonsense reasoning
Abductive commonsense reasoningAbductive commonsense reasoning
Abductive commonsense reasoningSan Kim
 
XLnet RoBERTa Reformer
XLnet RoBERTa ReformerXLnet RoBERTa Reformer
XLnet RoBERTa ReformerSan Kim
 
Transformer xl
Transformer xlTransformer xl
Transformer xlSan Kim
 
Face recognition v1
Face recognition v1Face recognition v1
Face recognition v1San Kim
 
Gan seminar
Gan seminarGan seminar
Gan seminarSan Kim
 
Deep learning study 3
Deep learning study 3Deep learning study 3
Deep learning study 3San Kim
 
Deep learning study 2
Deep learning study 2Deep learning study 2
Deep learning study 2San Kim
 
Back propagation
Back propagationBack propagation
Back propagationSan Kim
 

More from San Kim (19)

20230419-LLaMA-Adapter_ Efficient Fine-tuning of Language Models with Zero-in...
20230419-LLaMA-Adapter_ Efficient Fine-tuning of Language Models with Zero-in...20230419-LLaMA-Adapter_ Efficient Fine-tuning of Language Models with Zero-in...
20230419-LLaMA-Adapter_ Efficient Fine-tuning of Language Models with Zero-in...
 
2023 EMNLP day_san.pptx
2023 EMNLP day_san.pptx2023 EMNLP day_san.pptx
2023 EMNLP day_san.pptx
 
LongT5_Efficient Text-toText Transformer for Long Sequences_san.pptx
LongT5_Efficient Text-toText Transformer for Long Sequences_san.pptxLongT5_Efficient Text-toText Transformer for Long Sequences_san.pptx
LongT5_Efficient Text-toText Transformer for Long Sequences_san.pptx
 
slide-acl2022-combined_san.pptx
slide-acl2022-combined_san.pptxslide-acl2022-combined_san.pptx
slide-acl2022-combined_san.pptx
 
Compeition-Level Code Generation with AlphaCode.pptx
Compeition-Level Code Generation with AlphaCode.pptxCompeition-Level Code Generation with AlphaCode.pptx
Compeition-Level Code Generation with AlphaCode.pptx
 
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tu...
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tu...Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tu...
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tu...
 
AI2 day.pptx
AI2 day.pptxAI2 day.pptx
AI2 day.pptx
 
Temporal reasoning task
Temporal reasoning taskTemporal reasoning task
Temporal reasoning task
 
Answering complex open domain questions with multi-hop dense retrieval
Answering complex open domain questions with multi-hop dense retrievalAnswering complex open domain questions with multi-hop dense retrieval
Answering complex open domain questions with multi-hop dense retrieval
 
Measuring massive multitask language understanding
Measuring massive multitask language understandingMeasuring massive multitask language understanding
Measuring massive multitask language understanding
 
Abductive commonsense reasoning
Abductive commonsense reasoningAbductive commonsense reasoning
Abductive commonsense reasoning
 
Electra
ElectraElectra
Electra
 
XLnet RoBERTa Reformer
XLnet RoBERTa ReformerXLnet RoBERTa Reformer
XLnet RoBERTa Reformer
 
Transformer xl
Transformer xlTransformer xl
Transformer xl
 
Face recognition v1
Face recognition v1Face recognition v1
Face recognition v1
 
Gan seminar
Gan seminarGan seminar
Gan seminar
 
Deep learning study 3
Deep learning study 3Deep learning study 3
Deep learning study 3
 
Deep learning study 2
Deep learning study 2Deep learning study 2
Deep learning study 2
 
Back propagation
Back propagationBack propagation
Back propagation
 

Deep learning study 1

  • 1.
  • 2. 모든 것을 확률로 생각하자! Setosa Versicolor Virginica Iris Feature Sepal Length Sepal Width Petal Length ⋮ Distribution ⋮
  • 3. Classification 문제도 확률로 생각하자! 𝑃 𝑆𝑒𝑡𝑜𝑠𝑎 𝒙 = 𝟎. 𝟏 𝑃 𝑉𝑒𝑟𝑠𝑖𝑐𝑜𝑙𝑜𝑟 𝒙 = 𝟎. 𝟖𝟓 𝑃 𝑉𝑖𝑟𝑔𝑖𝑛𝑖𝑐𝑎 𝒙 = 𝟎. 𝟎𝟓 argmax 𝑖 𝑃(𝐶𝑙𝑎𝑠𝑠𝑖|𝒙) 𝐶𝑙𝑎𝑠𝑠0 = 𝑆𝑒𝑡𝑜𝑠𝑎 𝐶𝑙𝑎𝑠𝑠1 = 𝑉𝑒𝑟𝑠𝑖𝑐𝑜𝑙𝑜𝑟 𝐶𝑙𝑎𝑠𝑠2 = 𝑉𝑖𝑟𝑔𝑖𝑛𝑖𝑐𝑎
  • 4. Generation 등 여러 작업을 확률로 표현할 수 있다. face 𝑃𝑋 male female gender 𝑃𝑌 Sampling Generation 𝑥~𝑃𝑋(𝑥) 𝑃𝑌|𝑋 Classification (discrimination)
  • 5. 실제 우리가 얻을 수 있는 데이터는 너무 적다! Sample space Event set
  • 6. 차원의 저주 Adopted from https://bigsnarf.wordpress.com/2013/06/14/curse-of-dimensionality/)
  • 7. 기존 ML과 Deep Learning의 차이 Adopted from Goodfellow, 2016
  • 8. Super high dimensional function Neural NetworkInput Desired output
  • 9. Super high dimensional function Neural Network Input distribution: X Desired output distribution: Y 𝐹 𝑥 = 𝑃 𝑦 𝑥 = 𝑃 𝑥 𝑦 𝑃(𝑦) 𝑝(𝑥)
  • 10. Taxonomy of deep learning Adopted from Goodfellow, 2016
  • 11. Linear activation function Input layer Hidden layer 1 Hidden layer 2 Hidden layer 3 Output layer 𝑶𝒖𝒕𝒑𝒖𝒕 = 𝑰𝒏𝒑𝒖𝒕 × 𝑾𝟏 × 𝑾𝟐 × 𝑾𝟑 = 𝑰𝒏𝒑𝒖𝒕 × 𝑾 𝑾𝟏 𝑾𝟐 𝑾𝟑𝑰𝒏𝒑𝒖𝒕 𝑶𝒖𝒕𝒑𝒖𝒕 Input layer Hidden layer Output layer 𝑾𝑰𝒏𝒑𝒖𝒕 𝑶𝒖𝒕𝒑𝒖𝒕
  • 12. 딥러닝의 특징과 Conveltional한 딥러닝 • 딥러닝은 최적화 문제를 잘 푼다. • 최적화하고자 하는 Objective function을 정해주면 그 objective function을 최적화 하기 위해 feature extraction까지 해가며 최적화하는데, 이는 그 구조가 매우 복잡 하고 높은 성능의 Optimizer 때문에 가능하다. Conventional한 딥러닝 어플리케이션 설계 1. 학습시키고자 하는 작업을 확률분포로 생각하고, 해당 확률분포를 어떠한 확률분 포로 가정한다. 2. 가정한 확률분포를 근사하기 위한 Objective function(예를 들어 Maximize likelihood)를 정의하여 Optimization 문제로 바꾼다. 3. Deep Neural Network 구조를 해당하는 작업의 Input에서 특징을 잘 뽑아낼 수 있 게 만든다. (Input이 이미지인 경우 보통 Convolution) (또한 학습이 잘 되게 하기 위한 구조로 만든다. ReLU, Residual connection 등) 4. Deep Learning을 이용하여 학습시킨다. (Network의 Weight를 Optimizer를 이용해 Update한다.)
  • 13. Bayes’s theorem 𝑃 𝐴 𝐵 = 𝑃 𝐵 𝐴 𝑃(𝐴) 𝑃(𝐵) A : 남성 or 여성 B: 머리카락의 길이 𝑃 𝐵 𝐴 : 남성 또는 여성의 머리카락이 x cm일 확률 𝑃 𝐴 𝐵 : x cm의 머리카락이 있을 때, 이 머리카락이 남성 또는 여성으로부터 나왔을 확률.
  • 14. Bayes’s theorem MLE MAP 남성 90%, 여성 10% 라는 prior가 적용되고 안되고의 차이
  • 15. Bayes’s theorem Generating human face 미간 넓이의 분포 턱수염은 남자만 있다. 피부색의 분포 머리카락 길이 분포 남자는 보통 여자보다 얼굴이 크다. 탈모는 남자만 있다. ⋮ • 복잡한 문제의 경우 prior가 뭐가 있는지도 알기 힘들다. • 잘못된 prior가 입력될 수 있다. (운 좋게 잘못된 걸 알 수 있는 sample을 뽑았을 경우 update 가능) • Prior의 정확한 분포를 얻기가 힘들다.
  • 16. Bayesian inference 𝑃 𝐻 𝐸 = 𝑃 𝐸 𝐻 𝑃(𝐻) 𝑝(𝐸) H : hypothesis E: evidence 𝑃(𝐻) : Prior probability 𝑃 𝐸 𝐻 : likelihood 𝑃 𝐻 𝐸 : Posterior probability
  • 17. Bayesian inference 𝑝 𝜃 𝑿, 𝛼 = 𝑝 𝑿 𝜃 𝑝(𝜃|𝛼) 𝑝(𝑿|𝛼) ∝ 𝑝 𝑿 𝜃 𝑝(𝜃|𝛼) x: a general data point 𝜃: the parameter of the data point’s distribution 𝛼: the hyperparameter of the parameter distribution 𝑿: sample data, a set of n observed data points, i. e., 𝑥1, ⋯ , 𝑥 𝑛 𝑥: a new data point whose distribution is to be predicted. p(𝜃|𝛼): prior distribution 𝑝 𝑿 𝜃 : sampling distribution 𝑝(𝑿|𝛼): marginal distribution 𝑝 𝜃 𝑿, 𝛼 : posterior distribution
  • 18. Bayesian prediction 𝑝 𝑥 𝑿, 𝛼 = 𝑝 𝑥 𝜃 𝑝(𝜃|𝑿, 𝛼)𝑑𝜃 Posterior predictive distribution Prior predictive distribution 𝑝 𝑥 𝛼 = 𝑝 𝑥 𝜃 𝑝 𝜃 𝛼 𝑑𝜃
  • 19. Bayesian prediction 𝑝 𝑿 𝜃 = 𝑖=1 𝑛 𝑝(𝑥𝑖|𝜃) If 𝑿 is i.i.d. Likelihood Log-Likelihood log 𝑝 𝑿 𝜃 = 𝑖=1 𝑛 log 𝑝(𝑥𝑖|𝜃)
  • 20. Maximum likelihood estimation 10 sample 50 sample 키 측정. Ground truth: 1.78 m, gaussian dist, sigma: 0.1 Sigma는 알고 있다고 가정. 키 측정 (point estimate) (sample mean값은 week law of large numbers에 의하여 실제 평균으로 수렴함. (unbiased,
  • 22. Maximize a Posterior estimation Fine prior Wrong prior P=0.5인 coin flip에 대한 parameter estimation ( Bernoulli distribution) Prior (beta distribution – conjugate prior distribution)
  • 23. Maximize a Posterior estimation No prior (maximum entropy) Strong prior P=0.5인 coin flip에 대한 parameter estimation ( Bernoulli distribution) Prior (beta distribution – conjugate prior distribution)
  • 24. Maximize a Posterior estimation 1 sample per step 3 sample per step
  • 25. Exponential Family • Normal • Exponential • Gamma • Chi-squared • Beta • Dirichlet • Bernoulli • Categorical • Poisson • Wishart • Invert Wishart • geometric • Binomial (with fixed number of trials) • Multinomial (with fixed number of trials) • Negative binomial (with fixed number of failures)
  • 26. Exponential Family 𝑓𝑥 𝑥 𝜃 = ℎ 𝑥 exp(𝜂 𝜃 ∙ 𝑇 𝑥 − 𝐴 𝜃 ) When 𝑇 𝑥 , ℎ 𝑥 , 𝜂 𝜃 , and 𝐴 𝜃 are known function. The value 𝜃 is called the parameter of the family.
  • 27. Exponential Family 𝑓𝑥 𝑥 𝜃 = ℎ 𝑥 exp(𝜂 𝜃 ∙ 𝑇 𝑥 − 𝐴 𝜃 ) 𝑃 𝑥 𝜇, 𝜎2 = 1 2𝜋𝜎2 exp − 𝑥 − 𝜇 2 2𝜎2 = 1 2𝜋𝜎2 exp − 1 2𝜎2 (𝑥2 − 2𝑥𝜇 + 𝜇2) = 1 2𝜋𝜎2 exp − 1 2𝜎2 𝑥2 exp 𝜇 𝜎2 𝑥 − 1 2𝜎2 𝜇2 • ℎ 𝑥 = 1 2𝜋𝜎2 exp − 1 2𝜎2 𝑥2 • 𝜂 𝜃 = 𝜃 𝜎2 • 𝑇 𝑥 = 𝑥 • 𝐴 𝜃 = 1 2𝜎2 𝜃2 • 𝜃 = 𝜇
  • 28. Exponential Family • 𝜃 = 𝜇 Gaussian Distribution: Linear regression • 𝜃 = log( 𝜙 1−𝜙 ) Binomial Distribution: Sigmoid regression 𝜙 = 1 1 + 𝑒−𝜃 Multinomial Distribution: Softmax regression • 𝜃 = log( 𝜋 𝑘 𝜋 𝐾 ) 𝜋 𝑘 = 𝑒 𝜃𝑘 𝑗=1 𝐾 𝑒 𝜃𝑗 𝜇 = 𝜃
  • 29. Parameter regularization MAP for 𝜃 argmax 𝜃 𝑃 𝑦 𝑥; 𝜃 𝑃(𝜃) 𝜃 𝑀𝐴𝑃 = argmax 𝜃 log 𝑖=1 𝑚 𝑃 𝑦 𝑖 𝑥 𝑖 ; 𝜃 𝑃 𝜃 = argmax 𝜃 𝑖=1 𝑚 𝑙𝑜𝑔𝑃 𝑦 𝑖 𝑥 𝑖 ; 𝜃 + log 𝑃 𝜃 log 𝑃 𝜃 = 𝐶1 − 𝐶2 𝜃2 𝐶2 𝜃2maximize minimize
  • 30. Information theory Entropy H 𝑝, 𝑞 = − 𝑖 𝑝𝑖 log 𝑞𝑖 H 𝑝 = − 𝑖 𝑝𝑖log(𝑝𝑖) Cross Entropy = 𝐻 𝑝 + 𝐷 𝐾𝐿(𝑝||𝑞) Kullback-Leibler divergence 𝐷 𝐾𝐿(𝑝| 𝑞 = 𝑖 𝑝𝑖 log 𝑝𝑖 𝑞𝑖 = − 𝑖 𝑝𝑖 log 𝑞𝑖 − ( 𝑖 𝑝𝑖log(𝑝𝑖))
  • 32. Kullback-leibler divergence P: target distribution Q: estimated distribution Forward KL divergence (MLE) Reverse KL divergence
  • 33. Jensen-Shannon divergence Mode collapsing Jensen-Shannon divergence JSD(𝑝| 𝑞 = 1 2 𝐷 𝐾𝐿(𝑝| 𝑚 + 1 2 𝐷 𝐾𝐿(𝑞| 𝑚 𝑤ℎ𝑒𝑟𝑒 𝑚 = 1 2 (𝑝 + 𝑞)
  • 35. Maximum Entropy Distribution Continuous-value Distribution: Gaussian distribution Binary classification: Binomial distribution Multiple class classification: multinomial distribution Continuous-value Distribution(regression): 주식 가격 변동 Binary classification: 남성 or 여성. True or false. Multiple class classification: 사자 or 호랑이 or 침팬치
  • 36. Schedule • 다음 시간: 딥러닝 (solver, batch, ensemble 등) or 머신러닝에 필요한 통계 기본 • 다다음 시간: 문제를 딥러닝으로 설계하기

Editor's Notes

  1. Iris 꽃에는 꽃잎의 넓이, 꽃잎의 길이, 꽃받침의 길이, 꽃의 색깔, 잎의 모양 등 수없이 많은 feature들이 있다. 각 feature들은 distribution으로 생각할 수 있고, Iris 꽃의 분포는 이러한 모든 feature distribution들의 joint probability distribution으로 생각할 수 있다.
  2. Classification문제는 P(class|x)를 최대화하는 class를 찾는 문제로 생각 할 수 있다.
  3. 문제를 확률분포로 생각하자. 얼굴의 확률분포 p_x를 알면 sampling을 하는 행위는 얼굴을 생성하는 행위일 것이다. 얼굴이 남자인지 여자인지 classification하는 문제의 경우, 남성 or 여성의 2가지 class를 가지고 있는 베르누이 분포 p_y가 있다고 할때 P(Y|X) 분포로 볼 수 있다.
  4. Feature의 갯수가 무한하면 sample space가 무한하기 때문에 우리가 아무리 많은 데이터를 얻는다고 해도 극히 일부에 지나지 않는다.
  5. 차원이 늘어날 수록 필요한 데이터 수가 너무 많아진다. 따라서 우리는 distribution을 estimation하기 전에 해당 분포를 가장 잘 표현하는 feature들만 사용하여 차원을 줄일 필요가 있다.
  6. Classic ML과 Deep learning의 차이점은 ‘feature를 사람이 뽑아내는가?’이다. 일반적인 CNN구조를 보면 convolution layer들은 input domain인 image에서 가정한 분포를 최적화하는 feature를 뽑아내는 영역으로 생각 할 수 있고, full connected layer는 뽑아낸 feature들로부터 가정한 분포를 estimation하는 영역으로 생각할 수도 있다. (일반적으로 optimization의 objective function으로 multi-class classification의 경우 cross entropy를 사용하기 때문에.)
  7. Ian goodfellow의 taxonomy. MLE를 한다고 했을때, 분포를 우리가 아는 어떠한 분포로 가정하고 Estimation하느냐, 가정하지 않고 Esimation하느냐에 따라서 Explicit density, implicit density로 나눠 생각할 수 있다. Explicit density는 또한 가정한 분포가 tractable하느냐에 따라 tractable density로 구분지어 생각할 수 있고, intractable한 경우에는 density를 approximate하는 수 밖에 없다.
  8. Linear activation function을 사용하면, 여러개의 layer를 쓰는 것이 하나의 layer를 쓰는 것과 같아진다. (물론 layer의 연산이 linear라는 가정. Eg. Full connected layer, linear neural network in pytorch)
  9. Exponential family는 distribution의 parameter를 알 수 있기 때문에 편하고, log를 씌웠을때 간단해져서 좋다.
  10. Binomial distribution과 multinomial distribution은 parameter가 각각 𝜙, 𝜋 𝑘 에 대한 식으로 나타나며, maximize log likelihood를 계산 했을때, 이 또한 𝜙, 𝜋 𝑘 에 대한 식으로 나타나기 때문에, output layer에서 마지막에 각각 parameter 𝜃에 sigmoid와 softmax를 취해줘서 값을 변환해준다. 이는 나중에 conventional한 deep learning을 설명하며 언급할 예정.
  11. 베이지안 추론에서 MAP을 하면 parameter에 대한 prior를 추가적으로 고려하게 된다. (MAP에서 marginal likelihood는 생략한다고 가정). 이는 위와 같은 과정을 통해 parameter가 너무 커지는 것을 방지하는 것을 확인할 수 있는데, 보통 이를 parameter regularization이라고 한다.
  12. Entropy는 불확실성을 나타내는 척도이다. Information theory에 의하면 log의 밑수가 2이면, 해당 분포에서 sampling한 sample을 표현하는데 필요한 최소 bit수이다.
  13. Cross entropy와, mutual information, conditional distribution의 entropy.
  14. P가 target이고, q가 우리가 학습시킨 분포라고 했을때, p가 앞에 있으면 forward KL divergence, p가 뒤에 있으면 reverse KL divergence라고 부른다. Minimize forward KL divergence는 MLE (or minimize negative log likelihood)와 계산하면 같아진다. 위 그림은 서로 평균이 다른 2개의 normal distribution을 1개의 normal distribution으로 estimation하려고한 결과다. Minimize forward KL divergence는 전체 분포를 포함하려고 하는데, 이는 p의 0인 부분이 KL divergence 값 계산에 영향을 미치지 않고, 0이 아닌 부분은 크게 영향을 미치기 때문이다. 반대로 reverse KL divergence는 한 분포에 최적화 되는데, 이는 q가 0인 부분이 KL divergence 값 계산에 영향을 미치지 않기 때문이다.
  15. Jensen-Shannon divergence는 KL divergence와는 달리 교환법칙이 성립한다. 따라서 두 distribution 간 정량적인 차이를 구할 수 있다. 앞서 언급했듯이, reverse KL divergence는 아래 그림과 같은 mode collapsing이 일어나게 하는 원인이 된다. 아래 그림의 오른쪽 그림이 target인데, 아래 줄을 보면 전체적으로 분포를 학습하지 않고 옮겨 가는 것을 볼 수 있다. (보통 Generative Adversarial Network에서 학습의 불안정성 때문에 종종 이러한 현상을 보인다.)
  16. MLE에서는 모든 prior를 제외하기 위하여 보통 문제를 Maximum Entropy distribution으로 가정한다.
  17. 각 constraint 별 Maximum entropy distribution. Wekipedia에서 Maximum entropy function을 보면 constraint 별 다양한 distribution을 확인할 수 있다.