SlideShare a Scribd company logo
1 of 40
Why AI?
“결정”
Learning
A computer program is said to
• Learn from experience E
• With respect to some class of tasks T
• And performance measure P, if its performance at tasks in T,
as measured by P, improves with experience E
Rule Based Learning
하늘 기온 습도 바람 수온 예보 Picnic
맑음 따뜻 적당 적당 따듯 변동 없음 가능
맑음 따뜻 높음 강함 따듯 변동 없음 가능
구름 추움 높음 적당 차가움 변화 불가능
비 추움 높음 강함 차가움 변동 없음 불가능
If Else 문장의 나열
Picnic|하늘 = True, Picnic|기온 = True, …. Everything is True!!
 Function Approximation
In real World
Probability Theory
불확실성(uncertainty)는 현실에서 중요한 개념 중 하나
결정장애(햄릿 증후군)
-
불확실성이 발생하는 이유?
• 너무 적은양의 데이터 (위험 요소 회피)
• 너무 많은 데이터 (너무 많은 데이터)
• 관찰데이터에 포함된 노이즈
Probability Theory
• 불확실성을 정확하고 정량적으로 표현
• 신뢰 할 만한 수학적인 프레임워크를 제공
Probability
𝑃 𝐸 ∈ 𝑅 𝑃 𝐸 ≥ 0 𝑃 Ω = 1
𝑃 𝐸1 ∪ 𝐸2 ⋯ =
𝑖=1
∞
𝑃 𝐸𝑖 𝑤ℎ𝑒𝑛 𝑎 𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒 𝑜𝑓 𝑚𝑢𝑡𝑢𝑎𝑙𝑙𝑦 𝑒𝑥𝑐𝑙𝑢𝑠𝑖𝑣𝑒
𝑖𝑓 𝐴 ⊆ 𝐵 𝑡ℎ𝑒𝑛 𝑃 𝐴 ≤ 𝑃 𝐵 𝑃 ∅ = 0 0 ≤ 𝑃 𝐸 ≤ 1
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 ∩ 𝐵 𝑃 𝐸 𝑐 = 1 − 𝑃(𝐸)
𝑝 𝑋 = 𝑥𝑖, 𝑌 = 𝑦𝑖 =
𝑛𝑖𝑗
𝑁
𝑝 𝑋 = 𝑥𝑖 =
𝑐𝑖
𝑁
𝑝 𝑌 = 𝑦𝑖 =
𝑟𝑖
𝑁
Probability densities 확률 밀도
𝑅 x , 𝑥 + 𝛿𝑥
lim
𝛿𝑥→0
𝑝 𝑥 ∈ 𝑎, 𝑏 = 𝑝(𝑥)
오른쪽 그림에서 P(x)는 확률의 누적식
(Cumulative distribution function, CDF)
이고, p(x)는 확률 밀도가 된다.
Expectations 평균
“무게 중심”
Deviation 편차
“중심과의 거리”
Variance 분산
“분포된 정도”
Covariance 공분산
“상관 관계”
https://drive.google.com/open?id=16V7CycZHB7IqcuDFi
g9zPsosuSqb1GJ8 : 상관계수 소스코드
Distribution
확률분포
https://blog.cloudera.com/blog/2015/12/common-
probability-distributions-the-data-scientists-crib-sheet/
Probability
MLE(Maximum Likelihood Estimation)
50 : 50 ? : ?
머리가 나올 확률 p 𝐻 =
2
5
Binomial
Distribution
• 불연속된 값들의 분포
• Yes / No Question
• Bernoulli trial
• 상호 독립적인 사건 (i.i.d)
• Notation : B(n, p)
• Mean : np
• Variance : np(1 – p)
머리가 나올 확률 p 𝐻 =
2
5
p(H) = 𝜃 p(H) = 1 - 𝜃
p(HTHTT) = 𝜃 (1 − 𝜃) 𝜃 1 − 𝜃 1 − 𝜃
p(H) = 𝜃 p(H) = 1 - 𝜃
p(Data | 𝜃) = 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇
Data =
p(H) = 𝜃
가정 : 𝜃 가 실제 압정을 던졌을때 머리가 나오는 확률이다.
1. 목소리를 크게 낸다.
2. 아득바득 우겨본다.
3. 압정을 계속 던져본다
4. 최적화 되어있는 𝜃 를 찾아본다
관측된 데이터가 최대화 되는 𝜃 를 찾는 방법
𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑃 𝐷 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇
최대,최소 문제 해결에는 미분  곱 연산으로 되어있는 부분  로그 함수(단조 증가)
𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑙𝑛𝑃 𝐷 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 ln 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃{𝑎 𝐻 𝑙𝑛𝜃 + 𝑎 𝑇 ln 1 − 𝜃 }
𝑑
𝑑𝜃
𝑎 𝐻 𝑙𝑛𝜃 + 𝑎 𝑇 ln 1 − 𝜃 = 0
𝑎 𝐻
𝜃
−
𝑎 𝑇
1 − 𝜃
= 0
𝑎 𝐻
𝜃
=
𝑎 𝑇
1 − 𝜃
𝜃 =
𝑎 𝐻
𝑎 𝐻+𝑎 𝑇
압정 머리가 나오는 수
전체 경우의 수
 MLE 관점에서 바라본 최적화된 𝜃 =
𝑎 𝐻
𝑎 𝐻+𝑎 𝑇
𝑝(𝐻) =
1
2
𝑁 = 𝑎 𝐻 + 𝑎 𝑇 , 𝜃 =
𝑎 𝐻
𝑎 𝐻 + 𝑎 𝑇
𝑀𝐿𝐸 , 𝜃∗ (𝑡𝑟𝑢𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟)
𝒑 𝜽 − 𝜽∗ ≥ 𝜺 ≤ 𝟐𝒆−𝟐𝑵𝜺 𝟐
Error Bound Function
- Hoeffding's inequality
Probably Approximate Correct (PAC) Learning
- Probably (5% case)
- Approximately (𝜀 = 0.1 )
단순성의 원리
- 복잡하면 이해하기 어렵다
딥러닝에서 표현하는 특징이 너무 많아지면
Overfitting에 빠지기 쉽다.
Overfitting의 해결책
- Feature 수를 줄이는 방법
𝒑 𝜽 − 𝜽∗ ≥ 𝜺 ≤ 𝟐𝒆−𝟐𝑵𝜺 𝟐
Conditional probability
• Conditional probability of A given B
𝑃 𝐴 𝐵 ≜
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
Bayes’ rule
𝑃 𝐵 𝐴 =
𝑃(𝐵 ∩ 𝐴)
𝑃(𝐴)
=
𝑃(𝐴 ∩ 𝐵 )
𝑃(𝐴)
=
𝑃 𝐴 𝐵 𝑃(𝐵)
𝑃(𝐴)
Independent event
𝐴 𝑎𝑛𝑑 𝐵 ∶ 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝑃(𝐵)
𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 ≠ 𝑑𝑖𝑠𝑗𝑜𝑖𝑛𝑡, 𝑚𝑢𝑡𝑢𝑎𝑙𝑙𝑦 𝑒𝑥𝑐𝑙𝑢𝑠𝑖𝑣𝑒
𝐻𝑒𝑎𝑑 𝑜𝑟 𝑇𝑎𝑖𝑙 = 50 ∶ 50
𝑝 𝜃 𝐷 ) =
𝑝 𝐷 𝜃 𝑝(𝜃)
𝑝(𝐷)
=
𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∗ 𝑃𝑟𝑖𝑜𝑟 𝐾𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒
𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑖𝑛𝑔 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡
MAP(Maximum a Posteriori Estimation)
𝑝 𝜃 𝐷 ) =
𝑝 𝐷 𝜃 𝑝(𝜃)
𝑝(𝐷)
=
𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∗ 𝑃𝑟𝑖𝑜𝑟 𝐾𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒
𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑖𝑛𝑔 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡
𝑝 𝜃 𝐷 ) = 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇
𝑝 𝜃 𝑖𝑠 𝑡ℎ𝑒 𝑝𝑎𝑟𝑡 𝑜𝑓 𝑡ℎ𝑒 𝑝𝑟𝑖𝑜𝑟 𝑘𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒
𝑝 𝜃 𝐷 ) ∝ 𝑃 𝐷 𝜃 𝑃 𝜃 ∝ 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 𝑃(𝜃)
𝑃 𝜃 = ? ? ? ?
Beta
Distribution
• 두개의 매개변수로 표현
• [0,1] 구간에서 정의되는
연속 확률 분포
• Notation : 𝐵𝑒𝑡𝑎(𝛼, 𝛽)
• Mean :
𝛼
𝛼+𝛽
• Variance :
𝛼𝛽
(𝛼+𝛽)2(𝛼+𝛽+1)
𝑝 𝜃 𝐷 ) ∝ 𝑃 𝐷 𝜃 𝑃 𝜃 ∝ 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 𝑃(𝜃)
𝑃 𝜃 를 beta distribution으로 표현하면
∝ 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 𝜃 𝛼−1(1 − 𝜃) 𝛽−1
𝑃 𝜃 =
𝜃 𝛼−1(1 − 𝜃) 𝛽−1
𝐵(𝛼, 𝛽)
𝐵 𝛼, 𝛽 =
Γ 𝛼 Γ(𝛽)
Γ(𝛼 + 𝛽 )
Γ 𝛼 = 𝛼 − 1 !
= 𝜃 𝑎 𝐻+𝛼−1 1 − 𝜃 𝑎 𝑇+𝛽 −1
MLE(관점)
• 𝜃로 부터 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑃(𝐷|𝜃)
𝜃 =
𝑎 𝐻
𝑎 𝐻 + 𝑎 𝑇
𝑃 𝐷 𝜃 = 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇
MAP(관점)
• 𝜃로 부터 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑃 𝜃 𝐷
𝑝 𝜃 𝐷 ) ∝ 𝜃 𝑎 𝐻+𝛼−1 1 − 𝜃 𝑎 𝑇+𝛽 −1
𝜃 =
𝑎 𝐻 + 𝛼 − 1
𝑎 𝐻 + 𝛼 − 1 + 𝑎 𝑇 + 𝛽 − 1
빈도론자(Frequentist) 베이지언(Bayesian)
• 𝜃 는 알려지지 않은 고정된 파라미터
• Maximum Likelihood 가 대표적인 추정치
(estimator)를 최대로 만드는(argmax) 𝜃 를
찾아야한다.
• ML분야에서는 주로 log-likelihood를 사용한
다.
• 통계적으로 모델의 정확도를 평가하기 위한
방법으로 Bootstrap 기법을 사용한다
• 파라미터 𝜃를 랜덤 변수로 간주하여 확률 분
포에 사용한다.
• 여기에서 가지고 있는 정보 D는 고정된다
• MLE에서 압정을 3번 던져서 모두 머리가 나
온경우 𝜃의 값이 1로 고정되지만, 베이지언
방식에서는 사전 확률로 인해 이 값이 보정된
다.
About Bootstrapping
Training set의 데이터 분포가 고르지 않은 경우 사용
모델 학습과정
1. 전체 training sample 중 n개를 추출하여 모델을 train
2. 학습된 모델을 이용하여 training sample을 test(classify)
3. 잘못된 분류가 된 training data가 선택될 probability를 높이고,
제대로 분류된 data의 선택 probability를 낮춘다.
4. 궁극적으로 분류가 제대로 안된(분류하기 어려운) 샘플의 비율이
커지는 방향으로 학습한다
모델결과
over fitting을 줄이는 방향으로 사용(Bagging)
회색 선이 각 모델들의 결과
빨간 선이 각 모델들의 평균
(그 중에는 over fit 된 것 들도 섞여있다.)
각 모델들의 결과를 가지고 평균을 내면
over fitting에 대한 걱정이 감소
= 30개
= 10개
= 20개
= 20개
?
X Y
= 30개
= 10개
= 20개
= 20개
X Y
?
𝑃 𝐵 𝐴 =
𝑃 𝐴 𝐵 𝑃(𝐵)
𝑃(𝐴)
=
𝐿𝑖𝑘𝑒𝑙𝑦ℎ𝑜𝑜𝑑 ∗𝑃𝑟𝑖𝑜𝑟 𝐾𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒
𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡
= 𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
P(B) = 어떤 사탕을 골랐던지 상관없이 X를 골랐을 확률. 문제에서는 상자을 임의로 선택한 것이므로 0.5라고 가정할 수 있습니다. 이를 데이터
를 보기 전의 가설의 확률, 즉 사전확률입니다.
P(A|B) = X에서 노란색 사탕이 나올 확률. 3/4입니다. 이를 데이터가 가설에 포함될 확률, 즉 우도입니다.
P(A) = 노란 사탕을 고를 확률입니다. X, Y에 50개 노란 사탕과 30개의 파란 사탕이 들어있으므로 P(A)는 5/8이 됩니다. 이를 어떤 가설에든
포함되는 데이터의 비율, 즉 한정상수입니다.
P(B|A) = 노란색 사탕이 X박스에서 나왔을 확률. 우리가 알고 싶은 확률입니다. 이를 데이터를 확인한 이후의 가설 확률, 즉 사후확률입니다.
=
3
4
∗
1
2
5
8
=
3
8
5
8
=
3
5
= 0.6
Term Frequency - Inverse Document Frequency(TF-IDF)
TF-IDF는 TF X IDF 연산 결과
TF : (단어 빈도, Term Frequency)
IDF : (역문서 빈도, Inverse Document Frequency)
DF : (문서 빈도, Document Frequency)
TF 표현식
Boolean Frequency : 𝑡𝑓 𝑡, 𝑑 = 0 𝑜𝑟 1
Log scale Frequency : 𝑡𝑓 𝑡, 𝑑 = log(𝑓 𝑡, 𝑑 + 1)
IDF 표현식
𝑖𝑑𝑓 𝑡, 𝐷 = log
𝐷
𝑑 ∈ 𝐷 ∶ 𝑡 ∈ 𝑑 +1
Probability with MLE, MAP

More Related Content

What's hot

03. linear regression
03. linear regression03. linear regression
03. linear regressionJeonghun Yoon
 
02.09 naive bayesian classifier
02.09 naive bayesian classifier02.09 naive bayesian classifier
02.09 naive bayesian classifierDea-hwan Ki
 
02. naive bayes classifier revision
02. naive bayes classifier   revision02. naive bayes classifier   revision
02. naive bayes classifier revisionJeonghun Yoon
 
0124 1 linear_algebra_basic_vector
0124 1 linear_algebra_basic_vector0124 1 linear_algebra_basic_vector
0124 1 linear_algebra_basic_vectorJeonghun Yoon
 

What's hot (6)

03. linear regression
03. linear regression03. linear regression
03. linear regression
 
02.09 naive bayesian classifier
02.09 naive bayesian classifier02.09 naive bayesian classifier
02.09 naive bayesian classifier
 
02. naive bayes classifier revision
02. naive bayes classifier   revision02. naive bayes classifier   revision
02. naive bayes classifier revision
 
Decision tree
Decision treeDecision tree
Decision tree
 
0314 1 anova
0314 1 anova0314 1 anova
0314 1 anova
 
0124 1 linear_algebra_basic_vector
0124 1 linear_algebra_basic_vector0124 1 linear_algebra_basic_vector
0124 1 linear_algebra_basic_vector
 

Similar to Probability with MLE, MAP

Deep learning study 1
Deep learning study 1Deep learning study 1
Deep learning study 1San Kim
 
통계 기초 용어1
통계 기초 용어1통계 기초 용어1
통계 기초 용어1Seong-Bok Lee
 
Multinomial classification and application of ML
Multinomial classification and application of MLMultinomial classification and application of ML
Multinomial classification and application of ML희수 박
 
Crash Course on Graphical models
Crash Course on Graphical modelsCrash Course on Graphical models
Crash Course on Graphical modelsJong Wook Kim
 
Variational Auto Encoder, Generative Adversarial Model
Variational Auto Encoder, Generative Adversarial ModelVariational Auto Encoder, Generative Adversarial Model
Variational Auto Encoder, Generative Adversarial ModelSEMINARGROOT
 
ESM Mid term Review
ESM Mid term ReviewESM Mid term Review
ESM Mid term ReviewMario Cho
 
패턴 인식 2 classifiers based on bayes decision theory part 1
패턴 인식 2 classifiers based on bayes decision theory part 1패턴 인식 2 classifiers based on bayes decision theory part 1
패턴 인식 2 classifiers based on bayes decision theory part 1jdo
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational InferenceKyeongUkJang
 
Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Kiho Hong
 
패턴인식-베이즈결정이론기반 분류기 part1
패턴인식-베이즈결정이론기반 분류기 part1패턴인식-베이즈결정이론기반 분류기 part1
패턴인식-베이즈결정이론기반 분류기 part1jdo
 
데이터처리와 통계 기본 머신러닝
데이터처리와 통계 기본 머신러닝데이터처리와 통계 기본 머신러닝
데이터처리와 통계 기본 머신러닝Sunggon Song
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]강민국 강민국
 
Linear regression
Linear regressionLinear regression
Linear regression전 희천
 
3 Generative models for discrete data
3 Generative models for discrete data3 Generative models for discrete data
3 Generative models for discrete dataJungkyu Lee
 
Python Machine Learning - ML03 Support Vector Machine(서포트 벡터 머신)
Python Machine Learning - ML03 Support Vector Machine(서포트 벡터 머신)Python Machine Learning - ML03 Support Vector Machine(서포트 벡터 머신)
Python Machine Learning - ML03 Support Vector Machine(서포트 벡터 머신)건환 손
 
3.neural networks
3.neural networks3.neural networks
3.neural networksHaesun Park
 
확률변수와 분포함수
확률변수와 분포함수확률변수와 분포함수
확률변수와 분포함수Yoonwhan Lee
 
Neural network (perceptron)
Neural network (perceptron)Neural network (perceptron)
Neural network (perceptron)Jeonghun Yoon
 

Similar to Probability with MLE, MAP (20)

Deep learning study 1
Deep learning study 1Deep learning study 1
Deep learning study 1
 
통계 기초 용어1
통계 기초 용어1통계 기초 용어1
통계 기초 용어1
 
Multinomial classification and application of ML
Multinomial classification and application of MLMultinomial classification and application of ML
Multinomial classification and application of ML
 
Crash Course on Graphical models
Crash Course on Graphical modelsCrash Course on Graphical models
Crash Course on Graphical models
 
Variational Auto Encoder, Generative Adversarial Model
Variational Auto Encoder, Generative Adversarial ModelVariational Auto Encoder, Generative Adversarial Model
Variational Auto Encoder, Generative Adversarial Model
 
ESM Mid term Review
ESM Mid term ReviewESM Mid term Review
ESM Mid term Review
 
패턴 인식 2 classifiers based on bayes decision theory part 1
패턴 인식 2 classifiers based on bayes decision theory part 1패턴 인식 2 classifiers based on bayes decision theory part 1
패턴 인식 2 classifiers based on bayes decision theory part 1
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational Inference
 
Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)
 
패턴인식-베이즈결정이론기반 분류기 part1
패턴인식-베이즈결정이론기반 분류기 part1패턴인식-베이즈결정이론기반 분류기 part1
패턴인식-베이즈결정이론기반 분류기 part1
 
데이터처리와 통계 기본 머신러닝
데이터처리와 통계 기본 머신러닝데이터처리와 통계 기본 머신러닝
데이터처리와 통계 기본 머신러닝
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]
 
Variational AutoEncoder(VAE)
Variational AutoEncoder(VAE)Variational AutoEncoder(VAE)
Variational AutoEncoder(VAE)
 
Linear regression
Linear regressionLinear regression
Linear regression
 
3 Generative models for discrete data
3 Generative models for discrete data3 Generative models for discrete data
3 Generative models for discrete data
 
Python Machine Learning - ML03 Support Vector Machine(서포트 벡터 머신)
Python Machine Learning - ML03 Support Vector Machine(서포트 벡터 머신)Python Machine Learning - ML03 Support Vector Machine(서포트 벡터 머신)
Python Machine Learning - ML03 Support Vector Machine(서포트 벡터 머신)
 
06.확률분포
06.확률분포06.확률분포
06.확률분포
 
3.neural networks
3.neural networks3.neural networks
3.neural networks
 
확률변수와 분포함수
확률변수와 분포함수확률변수와 분포함수
확률변수와 분포함수
 
Neural network (perceptron)
Neural network (perceptron)Neural network (perceptron)
Neural network (perceptron)
 

Probability with MLE, MAP

  • 2. Learning A computer program is said to • Learn from experience E • With respect to some class of tasks T • And performance measure P, if its performance at tasks in T, as measured by P, improves with experience E
  • 3. Rule Based Learning 하늘 기온 습도 바람 수온 예보 Picnic 맑음 따뜻 적당 적당 따듯 변동 없음 가능 맑음 따뜻 높음 강함 따듯 변동 없음 가능 구름 추움 높음 적당 차가움 변화 불가능 비 추움 높음 강함 차가움 변동 없음 불가능 If Else 문장의 나열 Picnic|하늘 = True, Picnic|기온 = True, …. Everything is True!!  Function Approximation
  • 5. Probability Theory 불확실성(uncertainty)는 현실에서 중요한 개념 중 하나 결정장애(햄릿 증후군) -
  • 6. 불확실성이 발생하는 이유? • 너무 적은양의 데이터 (위험 요소 회피) • 너무 많은 데이터 (너무 많은 데이터) • 관찰데이터에 포함된 노이즈 Probability Theory • 불확실성을 정확하고 정량적으로 표현 • 신뢰 할 만한 수학적인 프레임워크를 제공
  • 7. Probability 𝑃 𝐸 ∈ 𝑅 𝑃 𝐸 ≥ 0 𝑃 Ω = 1 𝑃 𝐸1 ∪ 𝐸2 ⋯ = 𝑖=1 ∞ 𝑃 𝐸𝑖 𝑤ℎ𝑒𝑛 𝑎 𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒 𝑜𝑓 𝑚𝑢𝑡𝑢𝑎𝑙𝑙𝑦 𝑒𝑥𝑐𝑙𝑢𝑠𝑖𝑣𝑒 𝑖𝑓 𝐴 ⊆ 𝐵 𝑡ℎ𝑒𝑛 𝑃 𝐴 ≤ 𝑃 𝐵 𝑃 ∅ = 0 0 ≤ 𝑃 𝐸 ≤ 1 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 ∩ 𝐵 𝑃 𝐸 𝑐 = 1 − 𝑃(𝐸)
  • 8.
  • 9. 𝑝 𝑋 = 𝑥𝑖, 𝑌 = 𝑦𝑖 = 𝑛𝑖𝑗 𝑁 𝑝 𝑋 = 𝑥𝑖 = 𝑐𝑖 𝑁 𝑝 𝑌 = 𝑦𝑖 = 𝑟𝑖 𝑁
  • 10.
  • 11. Probability densities 확률 밀도 𝑅 x , 𝑥 + 𝛿𝑥 lim 𝛿𝑥→0 𝑝 𝑥 ∈ 𝑎, 𝑏 = 𝑝(𝑥) 오른쪽 그림에서 P(x)는 확률의 누적식 (Cumulative distribution function, CDF) 이고, p(x)는 확률 밀도가 된다.
  • 12. Expectations 평균 “무게 중심” Deviation 편차 “중심과의 거리”
  • 13. Variance 분산 “분포된 정도” Covariance 공분산 “상관 관계”
  • 14.
  • 19. 머리가 나올 확률 p 𝐻 = 2 5
  • 20. Binomial Distribution • 불연속된 값들의 분포 • Yes / No Question • Bernoulli trial • 상호 독립적인 사건 (i.i.d) • Notation : B(n, p) • Mean : np • Variance : np(1 – p)
  • 21. 머리가 나올 확률 p 𝐻 = 2 5
  • 22. p(H) = 𝜃 p(H) = 1 - 𝜃
  • 23. p(HTHTT) = 𝜃 (1 − 𝜃) 𝜃 1 − 𝜃 1 − 𝜃 p(H) = 𝜃 p(H) = 1 - 𝜃
  • 24. p(Data | 𝜃) = 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇 Data = p(H) = 𝜃 가정 : 𝜃 가 실제 압정을 던졌을때 머리가 나오는 확률이다. 1. 목소리를 크게 낸다. 2. 아득바득 우겨본다. 3. 압정을 계속 던져본다 4. 최적화 되어있는 𝜃 를 찾아본다
  • 25. 관측된 데이터가 최대화 되는 𝜃 를 찾는 방법 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑃 𝐷 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇 최대,최소 문제 해결에는 미분  곱 연산으로 되어있는 부분  로그 함수(단조 증가) 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑙𝑛𝑃 𝐷 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 ln 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃{𝑎 𝐻 𝑙𝑛𝜃 + 𝑎 𝑇 ln 1 − 𝜃 } 𝑑 𝑑𝜃 𝑎 𝐻 𝑙𝑛𝜃 + 𝑎 𝑇 ln 1 − 𝜃 = 0 𝑎 𝐻 𝜃 − 𝑎 𝑇 1 − 𝜃 = 0 𝑎 𝐻 𝜃 = 𝑎 𝑇 1 − 𝜃 𝜃 = 𝑎 𝐻 𝑎 𝐻+𝑎 𝑇 압정 머리가 나오는 수 전체 경우의 수  MLE 관점에서 바라본 최적화된 𝜃 = 𝑎 𝐻 𝑎 𝐻+𝑎 𝑇
  • 26. 𝑝(𝐻) = 1 2 𝑁 = 𝑎 𝐻 + 𝑎 𝑇 , 𝜃 = 𝑎 𝐻 𝑎 𝐻 + 𝑎 𝑇 𝑀𝐿𝐸 , 𝜃∗ (𝑡𝑟𝑢𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟) 𝒑 𝜽 − 𝜽∗ ≥ 𝜺 ≤ 𝟐𝒆−𝟐𝑵𝜺 𝟐 Error Bound Function - Hoeffding's inequality Probably Approximate Correct (PAC) Learning - Probably (5% case) - Approximately (𝜀 = 0.1 )
  • 27. 단순성의 원리 - 복잡하면 이해하기 어렵다 딥러닝에서 표현하는 특징이 너무 많아지면 Overfitting에 빠지기 쉽다. Overfitting의 해결책 - Feature 수를 줄이는 방법 𝒑 𝜽 − 𝜽∗ ≥ 𝜺 ≤ 𝟐𝒆−𝟐𝑵𝜺 𝟐
  • 28. Conditional probability • Conditional probability of A given B 𝑃 𝐴 𝐵 ≜ 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) Bayes’ rule 𝑃 𝐵 𝐴 = 𝑃(𝐵 ∩ 𝐴) 𝑃(𝐴) = 𝑃(𝐴 ∩ 𝐵 ) 𝑃(𝐴) = 𝑃 𝐴 𝐵 𝑃(𝐵) 𝑃(𝐴) Independent event 𝐴 𝑎𝑛𝑑 𝐵 ∶ 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝑃(𝐵) 𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 ≠ 𝑑𝑖𝑠𝑗𝑜𝑖𝑛𝑡, 𝑚𝑢𝑡𝑢𝑎𝑙𝑙𝑦 𝑒𝑥𝑐𝑙𝑢𝑠𝑖𝑣𝑒
  • 29. 𝐻𝑒𝑎𝑑 𝑜𝑟 𝑇𝑎𝑖𝑙 = 50 ∶ 50 𝑝 𝜃 𝐷 ) = 𝑝 𝐷 𝜃 𝑝(𝜃) 𝑝(𝐷) = 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∗ 𝑃𝑟𝑖𝑜𝑟 𝐾𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒 𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑖𝑛𝑔 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡 MAP(Maximum a Posteriori Estimation)
  • 30. 𝑝 𝜃 𝐷 ) = 𝑝 𝐷 𝜃 𝑝(𝜃) 𝑝(𝐷) = 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∗ 𝑃𝑟𝑖𝑜𝑟 𝐾𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒 𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑖𝑛𝑔 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡 𝑝 𝜃 𝐷 ) = 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇 𝑝 𝜃 𝑖𝑠 𝑡ℎ𝑒 𝑝𝑎𝑟𝑡 𝑜𝑓 𝑡ℎ𝑒 𝑝𝑟𝑖𝑜𝑟 𝑘𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒 𝑝 𝜃 𝐷 ) ∝ 𝑃 𝐷 𝜃 𝑃 𝜃 ∝ 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 𝑃(𝜃) 𝑃 𝜃 = ? ? ? ?
  • 31. Beta Distribution • 두개의 매개변수로 표현 • [0,1] 구간에서 정의되는 연속 확률 분포 • Notation : 𝐵𝑒𝑡𝑎(𝛼, 𝛽) • Mean : 𝛼 𝛼+𝛽 • Variance : 𝛼𝛽 (𝛼+𝛽)2(𝛼+𝛽+1)
  • 32. 𝑝 𝜃 𝐷 ) ∝ 𝑃 𝐷 𝜃 𝑃 𝜃 ∝ 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 𝑃(𝜃) 𝑃 𝜃 를 beta distribution으로 표현하면 ∝ 𝜃 𝑎 𝐻 1 − 𝜃 𝑎 𝑇 𝜃 𝛼−1(1 − 𝜃) 𝛽−1 𝑃 𝜃 = 𝜃 𝛼−1(1 − 𝜃) 𝛽−1 𝐵(𝛼, 𝛽) 𝐵 𝛼, 𝛽 = Γ 𝛼 Γ(𝛽) Γ(𝛼 + 𝛽 ) Γ 𝛼 = 𝛼 − 1 ! = 𝜃 𝑎 𝐻+𝛼−1 1 − 𝜃 𝑎 𝑇+𝛽 −1 MLE(관점) • 𝜃로 부터 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑃(𝐷|𝜃) 𝜃 = 𝑎 𝐻 𝑎 𝐻 + 𝑎 𝑇 𝑃 𝐷 𝜃 = 𝜃 𝑎 𝐻(1 − 𝜃) 𝑎 𝑇 MAP(관점) • 𝜃로 부터 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑃 𝜃 𝐷 𝑝 𝜃 𝐷 ) ∝ 𝜃 𝑎 𝐻+𝛼−1 1 − 𝜃 𝑎 𝑇+𝛽 −1 𝜃 = 𝑎 𝐻 + 𝛼 − 1 𝑎 𝐻 + 𝛼 − 1 + 𝑎 𝑇 + 𝛽 − 1
  • 33. 빈도론자(Frequentist) 베이지언(Bayesian) • 𝜃 는 알려지지 않은 고정된 파라미터 • Maximum Likelihood 가 대표적인 추정치 (estimator)를 최대로 만드는(argmax) 𝜃 를 찾아야한다. • ML분야에서는 주로 log-likelihood를 사용한 다. • 통계적으로 모델의 정확도를 평가하기 위한 방법으로 Bootstrap 기법을 사용한다 • 파라미터 𝜃를 랜덤 변수로 간주하여 확률 분 포에 사용한다. • 여기에서 가지고 있는 정보 D는 고정된다 • MLE에서 압정을 3번 던져서 모두 머리가 나 온경우 𝜃의 값이 1로 고정되지만, 베이지언 방식에서는 사전 확률로 인해 이 값이 보정된 다.
  • 34. About Bootstrapping Training set의 데이터 분포가 고르지 않은 경우 사용 모델 학습과정 1. 전체 training sample 중 n개를 추출하여 모델을 train 2. 학습된 모델을 이용하여 training sample을 test(classify) 3. 잘못된 분류가 된 training data가 선택될 probability를 높이고, 제대로 분류된 data의 선택 probability를 낮춘다. 4. 궁극적으로 분류가 제대로 안된(분류하기 어려운) 샘플의 비율이 커지는 방향으로 학습한다
  • 35. 모델결과 over fitting을 줄이는 방향으로 사용(Bagging) 회색 선이 각 모델들의 결과 빨간 선이 각 모델들의 평균 (그 중에는 over fit 된 것 들도 섞여있다.) 각 모델들의 결과를 가지고 평균을 내면 over fitting에 대한 걱정이 감소
  • 36. = 30개 = 10개 = 20개 = 20개 ? X Y
  • 37.
  • 38. = 30개 = 10개 = 20개 = 20개 X Y ? 𝑃 𝐵 𝐴 = 𝑃 𝐴 𝐵 𝑃(𝐵) 𝑃(𝐴) = 𝐿𝑖𝑘𝑒𝑙𝑦ℎ𝑜𝑜𝑑 ∗𝑃𝑟𝑖𝑜𝑟 𝐾𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡 = 𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 P(B) = 어떤 사탕을 골랐던지 상관없이 X를 골랐을 확률. 문제에서는 상자을 임의로 선택한 것이므로 0.5라고 가정할 수 있습니다. 이를 데이터 를 보기 전의 가설의 확률, 즉 사전확률입니다. P(A|B) = X에서 노란색 사탕이 나올 확률. 3/4입니다. 이를 데이터가 가설에 포함될 확률, 즉 우도입니다. P(A) = 노란 사탕을 고를 확률입니다. X, Y에 50개 노란 사탕과 30개의 파란 사탕이 들어있으므로 P(A)는 5/8이 됩니다. 이를 어떤 가설에든 포함되는 데이터의 비율, 즉 한정상수입니다. P(B|A) = 노란색 사탕이 X박스에서 나왔을 확률. 우리가 알고 싶은 확률입니다. 이를 데이터를 확인한 이후의 가설 확률, 즉 사후확률입니다. = 3 4 ∗ 1 2 5 8 = 3 8 5 8 = 3 5 = 0.6
  • 39. Term Frequency - Inverse Document Frequency(TF-IDF) TF-IDF는 TF X IDF 연산 결과 TF : (단어 빈도, Term Frequency) IDF : (역문서 빈도, Inverse Document Frequency) DF : (문서 빈도, Document Frequency) TF 표현식 Boolean Frequency : 𝑡𝑓 𝑡, 𝑑 = 0 𝑜𝑟 1 Log scale Frequency : 𝑡𝑓 𝑡, 𝑑 = log(𝑓 𝑡, 𝑑 + 1) IDF 표현식 𝑖𝑑𝑓 𝑡, 𝐷 = log 𝐷 𝑑 ∈ 𝐷 ∶ 𝑡 ∈ 𝑑 +1

Editor's Notes

  1. 가정 : 적혀있는 변수가 모든 사건에 대해서 설명 가능해야함. 절대 다른 오차는 존재하지 않음 랜덤 변수는 존재하지 않음 결정 트리
  2. 인터넷이 발달하면서 데이터양이 늘어나고 어느 순간부터 사람이 감당할 수 있는 범위를 넘어서게 되었습니다. 데이터 양이 늘어나면서 사람은 모든 데이터를 확인할 수 없게되었고, 정보의 홍수라는 표현까지 등장했습니다. 이 시점에서 사람들은 어느 순간부터 본인들에게 장애를 부여하게 됩니다. ‘결정장애' 이는 데이터가 너무 많은 나머지 데이터를 다 검토하지 못했다는 하나의 이유로 본인을 결정 장애에 빠뜨립니다. 이런상황에서 누군가 합리적으로 대신 선택해주기를 바라고, 그 결과로 큐레이션 커머스 마켓이 등장하게 됩니다.
  3. 이러한 불확실성이라는 부분이 발생하는 이유는 ~ 맛집 탐방 예시 그래서 우리는 확률을 통해 ~~ 가장 신뢰할만한 도구인 수학이라는 프레임으로 불확실성을 풀고자 합니다.
  4. Set (집합) theory Function or Mapping f : U  V Domain U, codomain V image f(A) = V(codomain)에서 투영되는 대응 값 Range f(U)  Domain이 들어갔을때 V에 해당되는 범위 Inverse image or preimage  역으로 V에 해당하는 U의 값 우리가 원하는게 preimage 이미지 처리에서 강아지 사진을 넣고 강아지를 찾고자 합니다 그러면 어떤 잘 학습된 모델에서 강아지의 피쳐들과 내 사진의 피쳐들이 잘 맞아떨어질때 모델에서는 그 codomain에 해당하는 레이블을 리턴해주는거죠
  5. 확률은 집합이라는 개념을 이용해서 특정 공간으로 매핑될수있다.
  6. 그림과 같이 특정 공간안에서 X데이터가 표현되는 것을 가지고 나머지 3개의 그래프를 그릴 수 있다. 그래프 설명 약간
  7. 지금까지는 불연속적인 discreate한 확률 분포를 보았다면 이번에는 연속적인 확률분포에 대해서 얘기해보도록 하겠슴다 몸무게를 가지고 확률을 나열하고 싶지만 쉽지 않다 70kg 와 70.5kg에도 많은 실수가 존재 각각에 개별적인 확률값 가지는건 불가능한 방법 그래서 확률값을 구간으로 표현
  8. 상관계수는 p자 처럼 생긴에 이름 로 -1 <= 로 <= 1 로 = 1 완전 선형 상관관계 로 = 0 무상관 로 = -1 완전선형 반상관관계
  9. 공분산에 대한 그래프입니다 X가 증가할때 y도 증가하면 a X가 증가할때 y가 감소하면 b X랑 y가 아무런 관계가 없으면 c입니다 X와 Y의 단위의 크기에 영향을 받는다는 것이다. 즉 다시말해 100점만점인 두과목의 점수 공분산은 별로 상관성이 부족하지만 100점만점이기 때문에 큰 값이 나오고 10점짜리 두과목의 점수 공분산은 상관성이 아주 높을지만 10점만점이기 때문에 작은값이 나온다. 상관계수(Correlation)가 나타난다. 상관계수라는 개념이 왜 나왔는지 생각하다 보면 의외로 간단하다. 확률변수의 절대적 크기에 영향을 받지 않도록 단위화 시켰다고 생각하면 된다. 수식을 보면 공분산을 분산의 크기로 나누었다.
  10. 확률 분포(probability distribution)는 확률 변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다 Bernoulli Distribution 베르누이 분포는 분포중에서 가장 쉽다. 흔히 확률하면 떠오르는 것이 동전이다. 즉 동전 앞뒤를 나타내는 분포이다. 0(앞)이 나오거나 1(뒤)이 나오거나.... 동전일 경우 앞이나오든 뒤가나오든 확률이 1/2겠지만 좀더 확장시켜 확률이 p 와 (1-p)인 경우까지 베르누이 분포에 포함한다. 즉, 동전에서 멈추지 말고 성공과 실패라는 두가지 경우와 성공확률p와 실패확률 1-p가 있는 분포라 생각하면 된다. Uniform distribution 앞서서 동전을 던졌을때 1/2의 확률로 0과 1이 나온다고 하였다. 만약 주사위라면? 1부터 6까지 각 확률이 1/6으로 나올것이다. 여기서 1을 0으로, 6을 1로 해서 0과 1의 사이를 균등하게 나누어 각 부분이 1/6이 되게 해보자. 그다음 그것을 무한히 쪼개서 가루가 되도록 쪼개면?? 연속확률변수가 되면서 0부터 1까지 pdf가 수평선처럼 가로로 그어질 것이다. 그 높이의 합이 1이고. Binomial Distribution Binomial은 동전을 여러번 던지는 것과 같다. 20번 던졌을때 앞이 4번 나올 확률은? 정리하자면 던지는 횟수는 n번, 성공확률은 p번, 성공횟수는 k번 이렇게 정리할 수 있다. 상자에 흰공 여러개와 까만공 여러개를 넣고 (수가 같으면 확률은 1/2) 공을 하나 꺼내보자. 공을 꺼냈을때 검은공이면? 성공횟수를 더한다. 그리고 꺼낸 공을 다시 상자안에 넣고 섞고 이 횟수를 n 번 반복하는 것과도 같다. 위 상자에서 만약 다시채워넣지 않는다면 Hypergeometric Distribution 단위 시간 안에 어떤 사건이 몇번 일어날 것인지? 그것의 정도를 람다(λ)로 표현한것이 Poisson Distribution Geometric은 성공할때까지 몇번 시도 했는지를 표현하는 Geometric Distribution X가 몇번 성공하기까지 얼마나 던졌는지 를 표현한 Negative Binomial Distribution 등등 다양한 확률분포가 있고 이제 그걸 써먹어 보겠습니다
  11. 다음과 같은 결과가 나왔습니다 만약 칩이 있다면 어디에 거시겠습니까?
  12. 헤드가 나오던지 테일이 나오던지 2가지 경우 bionomial distribution 몇번이 나오는지 해보는 실험 (Bernoulli experiment) Iid contidtion 압정의 각 사건이 연관성이 없이 독립적이며, 시도할때 압정은 훼손되지 않아 항상 똑같다.
  13. 다음과 같은 결과가 나왔습니다 만약 칩이 있다면 어디에 거시겠습니까?
  14. 확률 0<= theta <= 1
  15. MLE 관점에서는 확률이 요동치면서 전체 시도 횟수가 증가함에 따라서 특정부분으로 수렴하게 된다. 호에프딩 부등식 설명 MLE 관점에서 추론된 세타 햇과 진짜 확률인 세타 스타와의 차이  오차가 특정 에러 범위보다 클 확률입니다. 에러 바운드 즉 오차 범위를 넘어설 확률 오차범위 안에 존재하지 않을 확률 에러 바운드가 커지면 오차 범위가 늘어나고 우향이 작아지므로 에러 바운드 안에 오차가 존재할 확률이 작아집니다. 같은 오차범위안에서 던지는 횟수가 늘어나면 마찬가지로 에러 바운드 안에 오차가 존재할 확률이 작아지게 됩니다. PAC 러닝 수학적으로 머신러닝 모델을 분석하는 framework 높은 확률로 (Probably) 주어진 모델이 작은 error를 가진다 (Approximatly Correct)
  16. Training data의 개수가 많으면 많을수록 (N이 클수록) 모델은 더 generalize되고, overfitting의 위험성도 작아진다. Model complexity가 높을수록 (2에 해당하는 부분 가 클수록) 모델 generalization은 더 어려워지고, overfitting의 위험성 역시 커진다. Model의 성능을 끌어올리려면 (true error를 줄이려면) train error를 줄이거나, training sample을 늘리거나, 모델 complexity를 줄여야한다. 에러바운드가 존재하되 그게 너무 크지 않으면서 데이터들을 잘 포함해야한다. 에러바운드가 존재하지 않는다는것은 학습 모델에 특화되었다.
  17. 조금 MLE라는 관점 말고 다른 관점을 위한 약간의 정보를 알아보겠습니다 =위 삼각형 : 정의
  18. 현실적으로 보면 우리는 확률을 접근할때 추측을 합니다. 대충 이러면 이러겠다, 그러한 사전정보를 가미한 방법을 제시합니다 사전정보를 가미한 세타 P(theta) = 사전정보 베이지안 공식 = 데이터를 관측할 확률은 데이터가 존재할 확률 분에 사전정보 * likelihood Normalizing constant 는 크게 중요하지 않음 세타에 대한 사전정보 세타에서 우리가 원하는 데이터가 관측될 확률 데이터가 주어졌을때 세타가 사실일 확률을 표현가능
  19. Likelihood 세타를 가정했을때 데이터가 관측될 확률 Prior knowledge 사전정보 Likelihood 는 binomial distribution, Bernoulli trial 로 모델링을 했었다
  20. MLE라는 것은 아까 계산을 했는데 Argmax P(D|theta)를 계산 MAP라는것은 argmax P(theta|D)를 계산하는것 궁극적으로는 MLE, MAP라는 관점에 따라서 관측횟수가 적다면 다르게 나올수도있다.
  21. 강아지와 고양이를 구분하는 classifier 강아지 사진 100장 고양이 사진 1만장 그러면 고양이 사진만 실컷 찍어도 99%의 트레이닝 정확도 이런 상황이면 데이터가 적은 클래스의 error가 무시되는 방향으로 트레이닝 된다. 이럴때 주로 사용되는 방법이 3가지가 있는데 Weight를 다룰 수 있는 알고리즘을 사용하는것이고, 두번째가 bootstapping을 이용해서 강아지 사진의 데이터 수를 늘리는것이고, 마지막은 고양이 데이터를 줄이는 방법이다.
  22. Overfitting을 줄이는데 데이터가 고르게 많이 있는게 가장 좋지만 그게 마땅치 않을 경우도 있다. 그렇다고 모델의 complexity를 줄이게되면 모델의 정확도에도 악영향을 미칠 수 rㅏㅁ있다. 그래서 여러 개의 모델을 이용해서 여러 모델을 통해 결과를 뽑고, 그 값들을 평균하여 값을 산출하는 방법을 통해서 모델의 안정성을 높일 수 있다. 각 모델이 over fit 되어있어도 평균내면서 서로 상쇄되어 general한 모델이 된다는 느낌이다. 마찬가지로 적은 training data를 random으로 sampling 하면서 N번 학습을 하면 N개의 다른 모델이 만들어진다. N개 모델 전체를 가지고 평균을 내서 결정하면 Over fit 걱정이 감소한다. 는 방식의 알고리즘이 boot strapping이다.
  23. 수식으로는 조건부 확률을 뒤집어 놓아 무슨 의미가 있나 싶습니다. 하지만 기존과는 다르게 베이지안 확률은 빈도의 개념이 아니라 믿음의 정도로 해석합니다. 사건이 발생하지 않아도 믿음이 생길 수 있습니다. 흔히 말하는 의심이라는 단어로 표현되긴 합니다. 그래서 베이지안 확률은 불확실한 경우에도 모델링이 가능하다는점이 독특합니다. 한가지 예시로, 북극 얼음이 향후 50년간 녹아 없어질 확률을 구해보고자 합니다. 사전 확률 모델을 만들고 추가 다양한 정보를 종합하면서 사후확률을 보정할 수 있습니다.
  24. 상호배제(mutually exclusive) : 집합 중 하나의 가설만 참이다 전체포괄(collectively exhaustive) : 고려 대상 가설 이외에 다른 가설이 전혀 없는 경우
  25. TFIDF는 정보검색(그러니까 검색엔진)이나 텍스트마이닝과 관련된 곳에서 흔히 등장하는 용어입니다.  조금 구체적이면서도 간단히 정의를 적어보면 이렇습니다. 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 쉽게 생각하면 단어게 부여된 가중치 값이라고 생각하시면 됩니다. 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다 분자 : 문서 집합 D의 크기, 또는 전체 문서의 수 분모 : 단어 가 포함된 문서의 수.