2018년 5월 1일 화요일

Machine learning 할 때 Class imbalance 문제 해결법

  • 더 많은 데이터를 모은다
    • 가장 좋은 방법이지만, 현실적으로 불가능할 경우가 많음
  • Performance metric을 바꾼다.
    • Kappa
      • class imbalance를 고려하여 normalize한 accuracy 지표
    • ROC curve
    • Precision
    • Recall
    • F-score 
  • Resampling
    • over-sampling
      • class수가 작은 class의 copy를 추가함
    • under-sampling
      • class수가 많은 class의 데이터를 제거함
  • 다른 알고리즘을 사용하여 prediction함
  • Penalized models를 사용함
    • class 수가 작은 class(minority class)에 대해 mistake할 때 추가적인 penalty를 주면서 학습을 함.
    • penalized-SVM, penalized-LDA
  • 출처: https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

댓글 없음:

댓글 쓰기