- 데이터의 성질에 기반하여 유사한 데이터를 찾아 그룹화하는것.성질이 다른 것은 다른 그룹으로.
- 사전에 정의된 classes없이 학습하는 unsupervised learning.
- 사용처
- stand-alone tool로서 데이터 분포에 대한 insight를 얻기 위해서 사용함.
- 다른 알고리즘의 전처리(preprocessing) 목적으로 사용함.
- 고려사항
- Partitioning 방법
- Single level vs. hierarchical partitioning
- Separation of clusters
- Exclusive vs. non-exclusive
- Similiarity measure
- Distance-based vs. connectivity-based
- Clustering space
- Full space(low dimensional 일 경우에 사용) vs. subspaces(high-dimensional일 경우에 사용)
- 주요 클러스터링 방법
- Partitioning approach
- 다수의 partitions를 만들고 특정 기준에 따라 partitions를 평가함. ex. minimizing the sum of square errors.
- ex. k-means, k-medoids. CLARANS
- Hierarchical approach
- 특정 기준으로 바탕으로 데이터를 hierarchical decomposition함.
- ex. BIRCH
- Density-based approach
- connectivity와 density function에 기반함.
- ex. DBSCAN
- Grid-based approach
- multiple-level granularity 구조에 기반함.
- ex. STING, WaveGluster, CLIQUE
- Model-based
- 각각의 클러스터에 가장 적합한 모델이 가정됨.
- ex. EM
- Frequent pattern-based
- frequent patterns 분석에 기반함.
- ex. p-Cluster
- User-guided or constraint based
- user-specific or application-specific constraints를 고려하여 클러스터링
- ex. COD, constrained clustering
- Link-based clustering
- Objects가 다양한 방법으로 함께 연결(link)시킴.
- massive links가 데이터를 클러스터하는데 사용됨.
- ex. SImRank, LinkClus
Freakombination
2018년 4월 6일 금요일
Clustering Overview
피드 구독하기:
댓글 (Atom)
댓글 없음:
댓글 쓰기