word2vec (2) 썸네일형 리스트형 Word2vec 만들어보기 관련글: Word2Vec 개념 Python을 이용해 한국어 Word2Vec을 만들어 보자. 대략적인 과정은 아래와 같다. 한국어로 된 글 모으기 형태소 분석 등 전처리하기 gensim을 통해 Word2Vec 만들기 아래 튜토리얼을 따라하려면 아래와 같은 것이 설치되어 있어야 한다. Python 2.7, 3.3 이상 python의 pip으로 필요한 라이브러리 설치 python -m pip install gensim konlpy 한국어로 된 글 모으기 웹 상에서 손쉽게 구할 수 있는 한국어로 된 글은 아래와 같다. Wikipedia: link pages-articles.xml.bz2 파일을 받으면 된다. (참고) 한국어판: 다운로드 나무위키: link 기타 등등.. Wikipedia Wikiepdia 덤프는.. Text Embedding Text Embedding은 사람이 이해할 수 있는 text를, 컴퓨터가 이해할 수 있는 vector 형태로 나태낸 것을 의미합니다. 본 포스트에선 통계 기반 단어 임베딩부터, Word2Vec 이전의 NNLM 모델을 거쳐 Word2vec까지 설명하겠습니다. 1. Word Embedding Word Embedding은 단어를 제한된 차원의 vector로 나타내는 방법입니다. One-hot encoding과 달리, 단어 벡터 간의 유사도를 코사인 유사도로 구할 수도 있고, 필요한 벡터 차원의 수도 적습니다. 근처에 나온 단어, 비슷한 단어일수록 벡터 간의 유사도가 높습니다. 벡터의 위치와 거리가 실제 단어 간의 관계를 반영합니다. 2. 통계 기반 단어 임베딩 2-1. 분포 가설(distributional h.. 이전 1 다음