TF-IDF 벡터
TF-IDF 벡터는 TF-IDF를 바탕으로 단어를 표현하는 벡터를 만드는 기법이다. 그렇다면 먼저 TF-IDF가 무엇인지 알아야 한다. TF-IDF를 풀어서 쓰면, Term Frequency - Inverse Document Frequency이다. TF(Term Frequency)는 특정 단어가 하나의 텍스트 데이터에 등장하는 횟수를 의미한다. DF(Document Frequency)는 단어의 문서 빈도값으로 특정 단어가 여러 문서에 얼마나 자주 등장하는지를 나타낸다. IDF(Inverse Document Frequency)는 DF의 역수로, 특정 단어가 다른 문서에 등장하지 않을 수록 큰 값을 가진다. TF-IDF는 TF 값와 IDF 값을 곱한 값으로 해당 단어가 특정 문서에만 자주 등장할 수록 높은 값을 가지게 된다. 특히 조사의 경우 TF는 큰 값을 가지지만 IDF값은 작으므로 TF-IDF는 작은 값을 가진다. 따라서 TF-IDF를 통하여 중요한 단어를 찾아낼 수 있어서 One-hot 인코딩이 가진 문제점을 해결할 수 있다.
댓글 없음:
댓글 쓰기