2018년 4월 6일 금요일

Clustering Overview

  • 데이터의 성질에 기반하여 유사한 데이터를 찾아 그룹화하는것.성질이 다른 것은 다른 그룹으로.
  • 사전에 정의된 classes없이 학습하는 unsupervised learning.
  • 사용처
    • stand-alone tool로서 데이터 분포에 대한 insight를 얻기 위해서 사용함.
    • 다른 알고리즘의 전처리(preprocessing) 목적으로 사용함.
  • 고려사항
    • Partitioning 방법
      • Single level vs. hierarchical partitioning
    • Separation of clusters
      • Exclusive vs. non-exclusive
    • Similiarity measure
      • Distance-based vs. connectivity-based
    • Clustering space
      • Full space(low dimensional 일 경우에 사용) vs. subspaces(high-dimensional일 경우에 사용)
  • 주요 클러스터링 방법
    • Partitioning approach
      • 다수의 partitions를 만들고 특정 기준에 따라 partitions를 평가함. ex. minimizing the sum of square errors.
      • ex. k-means, k-medoids. CLARANS
    • Hierarchical approach
      • 특정 기준으로 바탕으로 데이터를 hierarchical decomposition함.
      • ex. BIRCH
    • Density-based approach
      • connectivity와 density function에 기반함.
      • ex. DBSCAN
    • Grid-based approach
      • multiple-level granularity 구조에 기반함.
      • ex. STING, WaveGluster, CLIQUE
    • Model-based
      • 각각의 클러스터에 가장 적합한 모델이 가정됨.
      • ex. EM
    • Frequent pattern-based
      • frequent patterns 분석에 기반함.
      • ex. p-Cluster
    • User-guided or constraint based
      • user-specific or application-specific constraints를 고려하여 클러스터링
      • ex. COD, constrained clustering
    • Link-based clustering
      • Objects가 다양한 방법으로 함께 연결(link)시킴.
      • massive links가 데이터를 클러스터하는데 사용됨.
      • ex. SImRank, LinkClus

댓글 없음:

댓글 쓰기