- Missing data를 어떻게 처리할까?
- 해당 tuple을 배제하는 것은 NOT effective.
- manually 채우는 것은 너무 미련한 짓.
- 스마트하게 자동으로 채우는 방법?
- 같은 class에 속한 샘플의 mean 값으로 대체함.
- 베이즈 추정 혹은 Decision tree를 사용하여 missing data를 추정함.
- Noisy Data를 어떻게 처리할까?
- Binning
- 데이터를 sorting한 후에 partitioning함. 그 후에 mean or median or boundaries를 통하여 smoothing을 진행함.
- Regression
- 데이터를 regression function에 맞춤.
- Clustering
- 클러스링을 한 후에 outliers를 제거함.
- 의심스러운 values를 detection한 후에, 사람이 직접 확인함.
댓글 없음:
댓글 쓰기