- Gini index
- 모든 class가 균등하게 분포되어 있으면 GINI index는 max가 됨.
- 하나의 class만을 가지고 있으면 GINI index는 0이 됨.
- Decision Tree 중 CART 에서 사용됨.
- CART
- 1. attributes 별로 best split을 찾음
- 2. 1에서 찾은 best splits 중에 가장 작은 GINI index를 가지는 splits를 구함.
- 3. stopping rules가 만족할 때까지 2번을 반복함.
- 단점
- GINI index가 가장 작은 것을 기준으로 partition을 나누는데, 그게 꼭 best가 되지 않을 수도 있음.
- Information Gain
- 0 이면 모든 records가 하나의 class만을 가지고 있는 것임.
- max 값을 가지면 모든 클래스가 균등하게 분포하고 있는 것을 의미함.
- Information Gain은 split으로 인한 entropy의 감소를 의미함.
- Decision Tree 중 ID3에서 사용함.
- 단점
- partition을 많이 나누는 것을 더 선호나는 경향이 있음.
- Gain Ratio
- GINI, Information Gain, Gain Ratio 정리
- GINI
- multivalued attributes에 편향되어 있음
- class의 개수가 많을 때 적합하지 않음.
- Information Gain
- multivalued attributes에 편향되어 있음.
- Gain Ratio
- 하나의 partition이다른 것들보다 유독 작은 unbalanced split을 더 선호함.
Freakombination
2018년 4월 6일 금요일
Measures of Node Impurity
라벨:
data,
entropy,
gain,
gain_ratio,
gini,
information_gain
피드 구독하기:
댓글 (Atom)
댓글 없음:
댓글 쓰기