본문 바로가기

RNNLM

(1)

Text Embedding Text Embedding은 사람이 이해할 수 있는 text를, 컴퓨터가 이해할 수 있는 vector 형태로 나태낸 것을 의미합니다. 본 포스트에선 통계 기반 단어 임베딩부터, Word2Vec 이전의 NNLM 모델을 거쳐 Word2vec까지 설명하겠습니다. 1. Word Embedding Word Embedding은 단어를 제한된 차원의 vector로 나타내는 방법입니다. One-hot encoding과 달리, 단어 벡터 간의 유사도를 코사인 유사도로 구할 수도 있고, 필요한 벡터 차원의 수도 적습니다. 근처에 나온 단어, 비슷한 단어일수록 벡터 간의 유사도가 높습니다. 벡터의 위치와 거리가 실제 단어 간의 관계를 반영합니다. 2. 통계 기반 단어 임베딩 2-1. 분포 가설(distributional h..

이전 1 다음

티스토리툴바