인공지능(AI)

Supervised - Logistic Regression and Validation

sysman 2020. 10. 19. 14:50

One-Hot Encoding

하나의 값만 True(1), 나머지 값은 False(0)

 

'bird' -> [1,0,0]

'dog' -> [0,1,0]

'cat' -> [0,0,1]

 

문자형 변수를 숫자형으로 변환

 

Scaling(범위)

- 다른 변수와의 범위를 비슷하게 맞추기 위한 목적

- ex)  X0: 1에서10사이 스케일, X1:1000에서 100만사이 스케일

 

Nomalization(정규화)

- 변수 스케일을 0~10사이 범위로 맞추는것

- X = (X-min(X)) /(max(X)-min(X))

 

Standardization(표준화)

- 변수의 평균을 0, 표준편차를 1로 만들어 정규분포의 특증을 만듬

- 표준화는 가중치(w) 학습으 더 쉽게함.

  X_stand = (X-mean(X))/std(X)

 

Confusion Matrix

-이진 혼돈 행렬

- Positive(양성), Negative(음성), True(맞게 분류), False(틀리게 분류)

Accuracy(정확도)

Precision(정밀도)

Recall(재현율)=Sensitivity

 

'정밀도'와 '재현률'은 서로 반비례하므로 어디를 우선으로 데이터를 뽑을 지 정해야 함.

 

 

만약 정밀도와 재현율의 중간 지점을 원할 경우 조화평균 사용

F1-Score : 정밀도와 재현율의 조화평균

조화평균