FREAKOMBINATION: Clustering Overview

2018년 4월 6일 금요일

Clustering Overview

데이터의 성질에 기반하여 유사한 데이터를 찾아 그룹화하는것.성질이 다른 것은 다른 그룹으로.
사전에 정의된 classes없이 학습하는 unsupervised learning.
사용처

stand-alone tool로서 데이터 분포에 대한 insight를 얻기 위해서 사용함.
다른 알고리즘의 전처리(preprocessing) 목적으로 사용함.

고려사항

Partitioning 방법

Single level vs. hierarchical partitioning

Separation of clusters

Exclusive vs. non-exclusive

Similiarity measure

Distance-based vs. connectivity-based

Clustering space

Full space(low dimensional 일 경우에 사용) vs. subspaces(high-dimensional일 경우에 사용)

주요 클러스터링 방법

Partitioning approach

다수의 partitions를 만들고 특정 기준에 따라 partitions를 평가함. ex. minimizing the sum of square errors.
ex. k-means, k-medoids. CLARANS

Hierarchical approach

특정 기준으로 바탕으로 데이터를 hierarchical decomposition함.
ex. BIRCH

Density-based approach

connectivity와 density function에 기반함.
ex. DBSCAN

Grid-based approach

multiple-level granularity 구조에 기반함.
ex. STING, WaveGluster, CLIQUE

Model-based

각각의 클러스터에 가장 적합한 모델이 가정됨.
ex. EM

Frequent pattern-based

frequent patterns 분석에 기반함.
ex. p-Cluster

User-guided or constraint based

user-specific or application-specific constraints를 고려하여 클러스터링
ex. COD, constrained clustering

Link-based clustering

Objects가 다양한 방법으로 함께 연결(link)시킴.
massive links가 데이터를 클러스터하는데 사용됨.
ex. SImRank, LinkClus

댓글 없음:

댓글 쓰기

피드 구독하기: 댓글 (Atom)