- Model-based Clustering
- 가정
- 데이터는 확률 분포의 조합(mixture of probability distribution)에 의해 생성됨.
- 목적
- 위의 가정하에, 모델의 가장 적절한(maximum likelihood) 파라미터를 찾아내야함.
- 보통 Gaussian distribution을 가정하기 때문에 Gaussian distribution의 파라미터를 추측하는게 목적임
- EM(Expectation Maximization)
- 랜덤하게 파라미터(mean과 variance)를 선택함.
- E와 M의 단계를 반복함.
- Expectation
- 주어진 파라미터를 가지고 각 data가 각 클러스터의 분포에 속할 가능성을 구함.
- Maximization
- E 단계에 구해진 '각 data가 각 클러스터의 분포에 속할 가능성'을 최대로 하는 파라미터(means and variances)를 구함.
댓글 없음:
댓글 쓰기