- (Term Frequency - Inverse Document Frequency)
- 정보 검색과 텍스트 마이닝에서 이용하는 가중치
- 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치
- TF(단어 빈도, term frequency)
- 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값
- 이 값이 높을수록 문서에서 중요하다고 생각할 수 있음.
- DF(문서 빈도, document frequency)
- 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미함.
- DF(역문서 빈도, inverse document frequency)
- DF(문서 빈도, document frequency)의 역수
- TF-IDF(Term Frequency - Inverse Document Frequency)
- TF와 IDF를 곱한 값
- 특정 문서 내에서 단어 빈도가 높을 수록, 그리고 전체 문서들 중 그 단어를 포함한 문서가 적을 수록 TF-IDF값이 높아짐.
- 모든 문서에 흔하게 나타나는 단어를 걸러내는 효과를 얻을 수 있음.
- IDF의 로그 함수값은 항상 1 이상이므로, IDF값과 TF-IDF값은 항상 0 이상이 됨.
- 출처: 위키피디아
Freakombination
2018년 4월 25일 수요일
TF-IDF
피드 구독하기:
댓글 (Atom)
댓글 없음:
댓글 쓰기