2019년 6월 25일 화요일

Bag of Words(BoW)

* 본 내용은 (가제)'글로벌 기업과 한전의 인공지능 이야기. 들어볼래?' 책 작성 중 자연어 처리 개요에 대한 부분이다. 저작권자의 허락 없이 무단 복제를 금한다.


Bag of Words(BoW)
Bag of Words(BoW) 벡터 표현은 가장 일반적으로 사용되는 전통적인 벡터 표현이다.
한국말로 직역한다면 단어가 들어 있는 가방이란 뜻이다. , 문서나 문장에 사용되는 단어를 하나의 가방에 넣기 때문에, 문서에 등장하는 단어의 순서는 무시되고, 해당 단어가 몇 개 있는지만 알 수 있다. Bag of Words는 셋(Set)의 특성을 가진다고 할 수 있다. 예를 들어 단어의 출현 수만이 텍스트 기반의 문서를 표현하는데 사용된다. 예를 들어, “옆집 고양이보다 우리 집 고양이가 더 예쁘다"라는 문장이 있다고 한다면, {“":1, “”:2, “고양이":2, “보다":1, “우리":1, “":1, “":1, “예쁘다":1} 와 같이 Bag of Words 형식으로 표현될 수 있다. 불용어(Stop words)와 조사 등을 제거한다면, Bag of Words를 통하여 텍스트의 키워드를 추출하고 그를 기반으로 텍스트의 특성을 반영하여 표현할 수 있다. 그러나 앞서 말한 것처럼 어순, 문맥을 무시하고 단어의 출현 빈도로만 텍스트를 표현하기에 복잡한 텍스트의 특성을 파악할 수 없으며, 주어진 단어의 의미와 관련하여 어떤 정보도 인코딩하지 않는다는 것입니다. Bag of Words는 텍스트 전반의 특성을 파악하는 용도로만 사용될 수 있다.

댓글 없음:

댓글 쓰기