2018년 4월 5일 목요일

Data Cleaning

  • Missing data를 어떻게 처리할까?
    • 해당 tuple을 배제하는 것은 NOT effective.
    • manually 채우는 것은 너무 미련한 짓.
    • 스마트하게 자동으로 채우는 방법?
      • 같은 class에 속한 샘플의 mean 값으로 대체함.
      • 베이즈 추정 혹은 Decision tree를 사용하여 missing data를 추정함.
  • Noisy Data를 어떻게 처리할까?
    • Binning
      • 데이터를 sorting한 후에 partitioning함. 그 후에 mean or median or boundaries를 통하여 smoothing을 진행함.
    • Regression
      • 데이터를 regression function에 맞춤.
    • Clustering
      • 클러스링을 한 후에 outliers를 제거함.
    • 의심스러운 values를 detection한 후에, 사람이 직접 확인함.

댓글 없음:

댓글 쓰기