- Data reduction하는 이유
- curse of dimensionality
- dimensionality가 커지면 데이터가 엄청 sparse하게 됨.
- 클러스터링을 할 경우, 각 points와의 차이(혹은 distance)가 커야 의미이쓰는데, dimension이 클 수록 유의미한 distance를 구하기가 힘듦. ( Dimensionality가 증가함에 따라서 log((MAX_DIST - MIN_DIST)/MIN_DIST) 가 엄청 작아짐.)
- Dimensionality Reduction
- 동기
- curse of dimensionality를 피할 수 있음
- 데이터 마이닝을 하는데 시간과 메모리 사용량을 줄일 수 있음
- 쉽게 시각화할 수 있음
- 관련없는 features와 노이즈를 제거할 수 있음
- Techniques
- Wavelet transform
- wavelet: 기존 function이나 signal을 다른 scale components로 바꾸는 수학적 function을 말함.
- DWT(Discrete Wavelet transform)
- Haar Wavelet
- one-dimensional Haar wavelet transform
- Pricinple Component analysis(PCA)
- correlated variables를 uncorrelated variables(called principle components)의 set으로 변형시킴.
- principle components의 수는 original variables의 수보다 작거나 같음.
- 가장 큰 variance를 가진 principle component를 가지도록 transformation을 함.
- Feature selection
- redundant하고 irrelevant한 features를 제거함
- 휴리스틱
- Stepwise forward selection
- best single attribute부터 순차적으로 선택함.
- Stepwise backward elimination
- worst attribute를 순차적으로 제거함.
- Combination of forward and backward
- Decision tree induction
- Numerosity reduction
- 다른 data representation을 사용하여 데이터를 표현함으로써 데이터 크기를 줄임
- 종류
- Parametric methods
- ex. regression
- Non-parametric methods
- 모델을 가정하지 않음
- histogram, clustering, sampling
- Sampling
- 데이터 중에 일부만을 선택하여 사용함
- 종류
- simple random sampling
- sampling without replacement
- sampling with replacement
- stratified sampling
- 비율에 맞추어서 샘플링함
- Data cube aggregation
- 목적에 적합한 기준으로 값을 합침
- 예를 들어, 판매량을 개별적으로 사용하지 말고, 일별, 주별, 월별 판매량을 사용함.
- Data Compression
- 기존 representation보다 적은 bits로 표현할 수 있도록 encoding함.
- disk I/O cost를 줄일 수 있음
- ex. Run-length encoding, Dictionary encoding
- Data transformation
- Normalization
- min-max normalization
- z-score normalization
- Discretization
Freakombination
2018년 4월 5일 목요일
Data Reduction
피드 구독하기:
댓글 (Atom)
댓글 없음:
댓글 쓰기