* 본 내용은 (가제)'글로벌 기업과 한전의 인공지능 이야기. 들어볼래?' 책 작성 중 자연어 처리 개요에 대한 부분이다. 저작권자의 허락 없이 무단 복제를 금한다.
글로브
CBOW와 Skip-Gram은 주변의 단어들(Local Context)만 고려한다는 점에서 예측 기반 모델이다. Word2Vec은 전체 단어들과의 유사도 관계 및 전체 텍스트에서 비중(Global Context)을 이용하지 않는다.
LSA와 같은 카운트 기반의 전통적인 방법은 전체 코퍼스의 통계 정보를 효율적으로 활용하지만 주변 단어와의 관계를 포함하지 않기 때문에 의미론적으로 비슷한 단어를 발견하는 것과 같은 유추 작업에 상대적으로 적절하지 않다. CBOW와 skip-gram과 같은 Word2Vec 메소드는 유추 작업에서 더 잘할 수 있지만 전역 수준에서 코퍼스 통계를 제대로 활용하지 못하기 때문에 코퍼스 전체의 특성을 반영하지는 못한다.
Glove의 경우 Local context와 Global context를 모두 사용한다. GloVe의 아이디어를 한 줄로 요약하면 '임베딩 된 중심 단어와 주변 단어 벡터의 내적이 전체 코퍼스에서의 동시 등장 확률이 되도록 만드는 것'이다. Local Context 관련 값(임베딩된 중심 단어와 주변 단어 벡터의 내적)과 Global Context(전체 코퍼스에서의 동시 등장 확률)을 같게 학습함으로써, Local Context와 Global Context 모두의 특성을 포함하는 임베딩 벡터를 생성할 수 있다.
댓글 없음:
댓글 쓰기