2018년 4월 25일 수요일

TF-IDF

  • (Term Frequency - Inverse Document Frequency)
  • 정보 검색과 텍스트 마이닝에서 이용하는 가중치
  • 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치
  • TF(단어 빈도, term frequency)
    • 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값
    • 이 값이 높을수록 문서에서 중요하다고 생각할 수 있음.
  •   DF(문서 빈도, document frequency)
    • 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미함.
  •  DF(역문서 빈도, inverse document frequency)
    • DF(문서 빈도, document frequency)의 역수
  • TF-IDF(Term Frequency - Inverse Document Frequency)
    • TF와 IDF를 곱한 값
    • 특정 문서 내에서 단어 빈도가 높을 수록, 그리고 전체 문서들 중 그 단어를 포함한 문서가 적을 수록 TF-IDF값이 높아짐.
    • 모든 문서에 흔하게 나타나는 단어를 걸러내는 효과를 얻을 수 있음.
    • IDF의 로그 함수값은 항상 1 이상이므로, IDF값과 TF-IDF값은 항상 0 이상이 됨.
  • 출처: 위키피디아

댓글 없음:

댓글 쓰기