Probability with MLE, MAP

Learning
A computer program is said to
• Learn from experience E
• With respect to some class of tasks T
• And performance measure P, if its performance at tasks in T,
as measured by P, improves with experience E

Rule Based Learning
하늘 기온 습도 바람 수온 예보 Picnic
맑음 따뜻 적당 적당 따듯 변동 없음 가능
맑음 따뜻 높음 강함 따듯 변동 없음 가능
구름 추움 높음 적당 차가움 변화 불가능
비 추움 높음 강함 차가움 변동 없음 불가능
If Else 문장의 나열
Picnic|하늘 = True, Picnic|기온 = True, …. Everything is True!!
 Function Approximation

Probability Theory
불확실성(uncertainty)는 현실에서 중요한 개념 중 하나
결정장애(햄릿 증후군)
-

불확실성이 발생하는 이유?
• 너무 적은양의 데이터 (위험 요소 회피)
• 너무 많은 데이터 (너무 많은 데이터)
• 관찰데이터에 포함된 노이즈
Probability Theory
• 불확실성을 정확하고 정량적으로 표현
• 신뢰 할 만한 수학적인 프레임워크를 제공

Probability
𝑃 𝐸 ∈ 𝑅 𝑃 𝐸 ≥ 0 𝑃 Ω = 1
𝑃 𝐸1 ∪ 𝐸2 ⋯ =
𝑖=1
∞
𝑃 𝐸𝑖 𝑤ℎ𝑒𝑛 𝑎 𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒 𝑜𝑓 𝑚𝑢𝑡𝑢𝑎𝑙𝑙𝑦 𝑒𝑥𝑐𝑙𝑢𝑠𝑖𝑣𝑒
𝑖𝑓 𝐴 ⊆ 𝐵 𝑡ℎ𝑒𝑛 𝑃 𝐴 ≤ 𝑃 𝐵 𝑃 ∅ = 0 0 ≤ 𝑃 𝐸 ≤ 1
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 ∩ 𝐵 𝑃 𝐸 𝑐 = 1 − 𝑃(𝐸)

𝑝 𝑋 = 𝑥𝑖, 𝑌 = 𝑦𝑖 =
𝑛𝑖𝑗
𝑁
𝑝 𝑋 = 𝑥𝑖 =
𝑐𝑖
𝑁
𝑝 𝑌 = 𝑦𝑖 =
𝑟𝑖
𝑁

Probability densities 확률 밀도
𝑅 x , 𝑥 + 𝛿𝑥
lim
𝛿𝑥→0
𝑝 𝑥 ∈ 𝑎, 𝑏 = 𝑝(𝑥)
오른쪽 그림에서 P(x)는 확률의 누적식
(Cumulative distribution function, CDF)
이고, p(x)는 확률 밀도가 된다.

Expectations 평균
“무게 중심”
Deviation 편차
“중심과의 거리”

Variance 분산
“분포된 정도”
Covariance 공분산
“상관 관계”

https://drive.google.com/open?id=16V7CycZHB7IqcuDFi
g9zPsosuSqb1GJ8 : 상관계수 소스코드

Distribution
확률분포
https://blog.cloudera.com/blog/2015/12/common-
probability-distributions-the-data-scientists-crib-sheet/

MLE(Maximum Likelihood Estimation)
50 : 50 ? : ?

머리가 나올 확률 p 𝐻 =
2
5

Binomial
Distribution
• 불연속된 값들의 분포
• Yes / No Question
• Bernoulli trial
• 상호 독립적인 사건 (i.i.d)
• Notation : B(n, p)
• Mean : np
• Variance : np(1 – p)

p(HTHTT) = 𝜃 (1 − 𝜃) 𝜃 1 − 𝜃 1 − 𝜃
p(H) = 𝜃 p(H) = 1 - 𝜃

p(Data | 𝜃) = 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇
Data =
p(H) = 𝜃
가정 : 𝜃 가 실제 압정을 던졌을때 머리가 나오는 확률이다.
1. 목소리를 크게 낸다.
2. 아득바득 우겨본다.
3. 압정을 계속 던져본다
4. 최적화 되어있는 𝜃 를 찾아본다

관측된 데이터가 최대화 되는 𝜃 를 찾는 방법
𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑃 𝐷 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇
최대,최소 문제 해결에는 미분  곱 연산으로 되어있는 부분  로그 함수(단조 증가)
𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑙𝑛𝑃 𝐷 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 ln 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃{𝑎 𝐻 𝑙𝑛𝜃 + 𝑎 𝑇 ln 1 − 𝜃 }
𝑑
𝑑𝜃
𝑎 𝐻 𝑙𝑛𝜃 + 𝑎 𝑇 ln 1 − 𝜃 = 0
𝑎 𝐻
𝜃
−
𝑎 𝑇
1 − 𝜃
= 0
𝑎 𝐻
𝜃
=
𝑎 𝑇
1 − 𝜃
𝜃 =
𝑎 𝐻
𝑎 𝐻+𝑎 𝑇
압정 머리가 나오는 수
전체 경우의 수
 MLE 관점에서 바라본 최적화된 𝜃 =
𝑎 𝐻
𝑎 𝐻+𝑎 𝑇

𝑝(𝐻) =
1
2
𝑁 = 𝑎 𝐻 + 𝑎 𝑇 , 𝜃 =
𝑎 𝐻
𝑎 𝐻 + 𝑎 𝑇
𝑀𝐿𝐸 , 𝜃∗ (𝑡𝑟𝑢𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟)
𝒑 𝜽 − 𝜽∗ ≥ 𝜺 ≤ 𝟐𝒆−𝟐𝑵𝜺 𝟐
Error Bound Function
- Hoeffding's inequality
Probably Approximate Correct (PAC) Learning
- Probably (5% case)
- Approximately (𝜀 = 0.1 )

단순성의 원리
- 복잡하면 이해하기 어렵다
딥러닝에서 표현하는 특징이 너무 많아지면
Overfitting에 빠지기 쉽다.
Overfitting의 해결책
- Feature 수를 줄이는 방법
𝒑 𝜽 − 𝜽∗ ≥ 𝜺 ≤ 𝟐𝒆−𝟐𝑵𝜺 𝟐

Conditional probability
• Conditional probability of A given B
𝑃 𝐴 𝐵 ≜
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
Bayes’ rule
𝑃 𝐵 𝐴 =
𝑃(𝐵 ∩ 𝐴)
𝑃(𝐴)
=
𝑃(𝐴 ∩ 𝐵 )
𝑃(𝐴)
=
𝑃 𝐴 𝐵 𝑃(𝐵)
𝑃(𝐴)
Independent event
𝐴 𝑎𝑛𝑑 𝐵 ∶ 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝑃(𝐵)
𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 ≠ 𝑑𝑖𝑠𝑗𝑜𝑖𝑛𝑡, 𝑚𝑢𝑡𝑢𝑎𝑙𝑙𝑦 𝑒𝑥𝑐𝑙𝑢𝑠𝑖𝑣𝑒

𝐻𝑒𝑎𝑑 𝑜𝑟 𝑇𝑎𝑖𝑙 = 50 ∶ 50
𝑝 𝜃 𝐷 ) =
𝑝 𝐷 𝜃 𝑝(𝜃)
𝑝(𝐷)
=
𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∗ 𝑃𝑟𝑖𝑜𝑟 𝐾𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒
𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑖𝑛𝑔 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡
MAP(Maximum a Posteriori Estimation)

𝑝 𝜃 𝐷 ) =
𝑝 𝐷 𝜃 𝑝(𝜃)
𝑝(𝐷)
=
𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∗ 𝑃𝑟𝑖𝑜𝑟 𝐾𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒
𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑖𝑛𝑔 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡
𝑝 𝜃 𝐷 ) = 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇
𝑝 𝜃 𝑖𝑠 𝑡ℎ𝑒 𝑝𝑎𝑟𝑡 𝑜𝑓 𝑡ℎ𝑒 𝑝𝑟𝑖𝑜𝑟 𝑘𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒
𝑝 𝜃 𝐷 ) ∝ 𝑃 𝐷 𝜃 𝑃 𝜃 ∝ 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 𝑃(𝜃)
𝑃 𝜃 = ? ? ? ?

Beta
Distribution
• 두개의 매개변수로 표현
• [0,1] 구간에서 정의되는
연속 확률 분포
• Notation : 𝐵𝑒𝑡𝑎(𝛼, 𝛽)
• Mean :
𝛼
𝛼+𝛽
• Variance :
𝛼𝛽
(𝛼+𝛽)2(𝛼+𝛽+1)

𝑝 𝜃 𝐷 ) ∝ 𝑃 𝐷 𝜃 𝑃 𝜃 ∝ 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 𝑃(𝜃)
𝑃 𝜃 를 beta distribution으로 표현하면
∝ 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 𝜃 𝛼−1(1 − 𝜃) 𝛽−1
𝑃 𝜃 =
𝜃 𝛼−1(1 − 𝜃) 𝛽−1
𝐵(𝛼, 𝛽)
𝐵 𝛼, 𝛽 =
Γ 𝛼 Γ(𝛽)
Γ(𝛼 + 𝛽 )
Γ 𝛼 = 𝛼 − 1 !
= 𝜃 𝑎 𝐻+𝛼−1 1 − 𝜃 𝑎 𝑇+𝛽 −1
MLE(관점)
• 𝜃로 부터 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑃(𝐷|𝜃)
𝜃 =
𝑎 𝐻
𝑎 𝐻 + 𝑎 𝑇
𝑃 𝐷 𝜃 = 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇
MAP(관점)
• 𝜃로 부터 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑃 𝜃 𝐷
𝑝 𝜃 𝐷 ) ∝ 𝜃 𝑎 𝐻+𝛼−1 1 − 𝜃 𝑎 𝑇+𝛽 −1
𝜃 =
𝑎 𝐻 + 𝛼 − 1
𝑎 𝐻 + 𝛼 − 1 + 𝑎 𝑇 + 𝛽 − 1

빈도론자(Frequentist) 베이지언(Bayesian)
• 𝜃 는 알려지지 않은 고정된 파라미터
• Maximum Likelihood 가 대표적인 추정치
(estimator)를 최대로 만드는(argmax) 𝜃 를
찾아야한다.
• ML분야에서는 주로 log-likelihood를 사용한
다.
• 통계적으로 모델의 정확도를 평가하기 위한
방법으로 Bootstrap 기법을 사용한다
• 파라미터 𝜃를 랜덤 변수로 간주하여 확률 분
포에 사용한다.
• 여기에서 가지고 있는 정보 D는 고정된다
• MLE에서 압정을 3번 던져서 모두 머리가 나
온경우 𝜃의 값이 1로 고정되지만, 베이지언
방식에서는 사전 확률로 인해 이 값이 보정된
다.

About Bootstrapping
Training set의 데이터 분포가 고르지 않은 경우 사용
모델 학습과정
1. 전체 training sample 중 n개를 추출하여 모델을 train
2. 학습된 모델을 이용하여 training sample을 test(classify)
3. 잘못된 분류가 된 training data가 선택될 probability를 높이고,
제대로 분류된 data의 선택 probability를 낮춘다.
4. 궁극적으로 분류가 제대로 안된(분류하기 어려운) 샘플의 비율이
커지는 방향으로 학습한다

모델결과
over fitting을 줄이는 방향으로 사용(Bagging)
회색 선이 각 모델들의 결과
빨간 선이 각 모델들의 평균
(그 중에는 over fit 된 것 들도 섞여있다.)
각 모델들의 결과를 가지고 평균을 내면
over fitting에 대한 걱정이 감소

= 30개
= 10개
= 20개
= 20개
?
X Y

= 30개
= 10개
= 20개
= 20개
X Y
?
𝑃 𝐵 𝐴 =
𝑃 𝐴 𝐵 𝑃(𝐵)
𝑃(𝐴)
=
𝐿𝑖𝑘𝑒𝑙𝑦ℎ𝑜𝑜𝑑 ∗𝑃𝑟𝑖𝑜𝑟 𝐾𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒
𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡
= 𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
P(B) = 어떤 사탕을 골랐던지 상관없이 X를 골랐을 확률. 문제에서는 상자을 임의로 선택한 것이므로 0.5라고 가정할 수 있습니다. 이를 데이터
를 보기 전의 가설의 확률, 즉 사전확률입니다.
P(A|B) = X에서 노란색 사탕이 나올 확률. 3/4입니다. 이를 데이터가 가설에 포함될 확률, 즉 우도입니다.
P(A) = 노란 사탕을 고를 확률입니다. X, Y에 50개 노란 사탕과 30개의 파란 사탕이 들어있으므로 P(A)는 5/8이 됩니다. 이를 어떤 가설에든
포함되는 데이터의 비율, 즉 한정상수입니다.
P(B|A) = 노란색 사탕이 X박스에서 나왔을 확률. 우리가 알고 싶은 확률입니다. 이를 데이터를 확인한 이후의 가설 확률, 즉 사후확률입니다.
=
3
4
∗
1
2
5
8
=
3
8
5
8
=
3
5
= 0.6

Term Frequency - Inverse Document Frequency(TF-IDF)
TF-IDF는 TF X IDF 연산 결과
TF : (단어 빈도, Term Frequency)
IDF : (역문서 빈도, Inverse Document Frequency)
DF : (문서 빈도, Document Frequency)
TF 표현식
Boolean Frequency : 𝑡𝑓 𝑡, 𝑑 = 0 𝑜𝑟 1
Log scale Frequency : 𝑡𝑓 𝑡, 𝑑 = log(𝑓 𝑡, 𝑑 + 1)
IDF 표현식
𝑖𝑑𝑓 𝑡, 𝐷 = log
𝐷
𝑑 ∈ 𝐷 ∶ 𝑡 ∈ 𝑑 +1

Probability with MLE, MAP

Recommended

Recommended

More Related Content

What's hot

What's hot (6)

Similar to Probability with MLE, MAP

Similar to Probability with MLE, MAP (20)

Probability with MLE, MAP

Editor's Notes