2018년 4월 8일 일요일

EM clustering

  • Model-based Clustering
  • 가정
    • 데이터는 확률 분포의 조합(mixture of probability distribution)에 의해 생성됨.
  • 목적
    • 위의 가정하에, 모델의 가장 적절한(maximum likelihood) 파라미터를 찾아내야함.
    • 보통 Gaussian distribution을 가정하기 때문에 Gaussian distribution의 파라미터를 추측하는게 목적임
  • EM(Expectation Maximization) 
    • 랜덤하게 파라미터(mean과 variance)를 선택함.
    • E와 M의 단계를 반복함.
    • Expectation
      • 주어진 파라미터를 가지고 각 data가 각 클러스터의 분포에 속할 가능성을 구함.
    • Maximization
      • E 단계에 구해진 '각 data가 각 클러스터의 분포에 속할 가능성'을 최대로 하는 파라미터(means and variances)를 구함.

댓글 없음:

댓글 쓰기