classification 의 validation
I. Information Theory(정보이론)
- Information Gain(정보 이득량)
자주발생 하지 않는 사건> 자주발생하는 사건 (크다는 것은 정보량이 많다.)
I(x) = -log(P(x))
P(x) : 예측값
Entropy(불확실성의 척도)
: 불확실성이 클 수록 정보량이 많다.(Error율이 높다)
(ex: 해는 항상 뜨지만(자주발생하는 사건), 만약에 해가 안뜬다면(자주발생하지 않는 사건) 거기에서 오는 충격(error율)은 크다)
확률 변수의 평균 정보량(기댓값)
a. Engropy = E(-log(p(x)))
b. -sum(p(x)*log(p(x)))
c. 놀람의 평균 정도
d. 불확실성(entropy)가 낮으면 분류 정확도가 높아짐
* 서로 다른 사건의 확률을 곱하여 Entropy를 계산
Y: 실제값 , Y_hat:예측값
y를 corss entropy의 가중치로 적용(이진분류: 0 or 1)
Binary Classifcation Loss = -y*log(y_hat) - (1-y)*log(1-y_hat)
y=0 : -y*log(y_hat)
y=1 : -(1-y)*log(1-y_hat)
III. 다중분류(이진 분류가 아닌 다중 분류)
CEE : -y*log(y_hat)
'인공지능(AI)' 카테고리의 다른 글
Supervised - Descision Tree (0) | 2020.10.19 |
---|---|
Supervised - Logistic Regression and Validation (0) | 2020.10.19 |
Supervised - Logistic Regression(확률적 회귀) (0) | 2020.10.19 |
Model Validation (0) | 2020.10.15 |
Supervised - Linear Regression - Gradient Descent(경사하강법) (0) | 2020.10.15 |