2018년 4월 6일 금요일

Measures of Node Impurity

  • Gini index
    •  
    • 모든 class가 균등하게 분포되어 있으면 GINI index는 max가 됨.
    • 하나의 class만을 가지고 있으면 GINI index는 0이 됨. 
    • Decision Tree 중 CART 에서 사용됨.
      • CART
        • 1. attributes 별로 best split을 찾음
        • 2. 1에서 찾은 best splits 중에 가장 작은 GINI index를 가지는 splits를 구함.
        • 3. stopping rules가 만족할 때까지 2번을 반복함.
    • 단점
      • GINI index가 가장 작은 것을 기준으로 partition을 나누는데, 그게 꼭 best가 되지 않을 수도 있음.
  • Information Gain
    •  
    • 0 이면 모든 records가 하나의 class만을 가지고 있는 것임.
    • max 값을 가지면 모든 클래스가 균등하게 분포하고 있는 것을 의미함.
    •  
    • Information Gain은 split으로 인한 entropy의 감소를 의미함. 
    • Decision Tree 중 ID3에서 사용함.
    • 단점
      • partition을 많이 나누는 것을 더 선호나는 경향이 있음.
  • Gain Ratio
  • GINI, Information Gain, Gain Ratio 정리
    • GINI
      •  multivalued attributes에 편향되어 있음
      • class의 개수가 많을 때 적합하지 않음.
    • Information Gain
      • multivalued attributes에 편향되어 있음.
    • Gain Ratio
      • 하나의 partition이다른 것들보다 유독 작은 unbalanced split을 더 선호함.

댓글 없음:

댓글 쓰기