2018년 4월 3일 화요일

Similarity & Dissimilarity

  • Dissimilarity
    • Jaccard coefficient
      • similarity measure for asymmetric binary variables
  • Distance
    • Manhattan
      • ex. Hamming distance: 두 binary vectors 간에 다른 bits의 수
    • Euclidean
      •  
    • Supremum
      • vectors의attributes의 차이 중에 가장 큰 차이. 
  • Similarity
    • Cosine Similarity
      •     cos⁡(d1, d2) =  (d1 · d2)/(||d1|| ||d2||)
      • 사용처
        • 어떤 개수의 차원에서도 적용이 가능하여 흔히 다차원의 양수 공간에서 유사도 측정을 하는데 사용됨.
        • 특히 정보 검색 및 텍스트 마이닝 분야에서 많이 사용됨.
        • 데이터 마이닝 분야에서 클러스터들간의 응집도를 측정하는 방법으로도 사용됨.
  • Handling Mixed types
    • 각 objects를 normalization한 다음, distance를 구하고, weighted sum을 함.

댓글 없음:

댓글 쓰기