- Dissimilarity
- Jaccard coefficient
- similarity measure for asymmetric binary variables
- Distance
- Manhattan
- ex. Hamming distance: 두 binary vectors 간에 다른 bits의 수
- Euclidean
- Supremum
- vectors의attributes의 차이 중에 가장 큰 차이.
- Similarity
- Cosine Similarity
- cos(d1, d2) = (d1 · d2)/(||d1|| ||d2||)
- 사용처
- 어떤 개수의 차원에서도 적용이 가능하여 흔히 다차원의 양수 공간에서 유사도 측정을 하는데 사용됨.
- 특히 정보 검색 및 텍스트 마이닝 분야에서 많이 사용됨.
- 데이터 마이닝 분야에서 클러스터들간의 응집도를 측정하는 방법으로도 사용됨.
- Handling Mixed types
- 각 objects를 normalization한 다음, distance를 구하고, weighted sum을 함.
Freakombination
2018년 4월 3일 화요일
Similarity & Dissimilarity
피드 구독하기:
댓글 (Atom)
댓글 없음:
댓글 쓰기