FREAKOMBINATION: Data Cleaning

2018년 4월 5일 목요일

Data Cleaning

Missing data를 어떻게 처리할까?

해당 tuple을 배제하는 것은 NOT effective.
manually 채우는 것은 너무 미련한 짓.
스마트하게 자동으로 채우는 방법?

같은 class에 속한 샘플의 mean 값으로 대체함.
베이즈 추정 혹은 Decision tree를 사용하여 missing data를 추정함.

Noisy Data를 어떻게 처리할까?

Binning

데이터를 sorting한 후에 partitioning함. 그 후에 mean or median or boundaries를 통하여 smoothing을 진행함.

Regression

데이터를 regression function에 맞춤.

Clustering

클러스링을 한 후에 outliers를 제거함.

의심스러운 values를 detection한 후에, 사람이 직접 확인함.

댓글 없음:

댓글 쓰기

피드 구독하기: 댓글 (Atom)