- 더 많은 데이터를 모은다
- 가장 좋은 방법이지만, 현실적으로 불가능할 경우가 많음
- Performance metric을 바꾼다.
- Kappa
- class imbalance를 고려하여 normalize한 accuracy 지표
- ROC curve
- Precision
- Recall
- F-score
- Resampling
- over-sampling
- class수가 작은 class의 copy를 추가함
- under-sampling
- class수가 많은 class의 데이터를 제거함
- 다른 알고리즘을 사용하여 prediction함
- Penalized models를 사용함
- class 수가 작은 class(minority class)에 대해 mistake할 때 추가적인 penalty를 주면서 학습을 함.
- penalized-SVM, penalized-LDA
- 출처: https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/
Freakombination
2018년 5월 1일 화요일
Machine learning 할 때 Class imbalance 문제 해결법
피드 구독하기:
댓글 (Atom)
댓글 없음:
댓글 쓰기