본문 바로가기

전체 글

(66)

Transformer Transformer? Seq2Seq와 동일한 인코더-디코더 구조를 Attention만으로 구현한 모델입니다. 'Attention is all you need'에서 나온 모델이며, 이 Transformer 구조를 기반으로 수많은 모델이 나오고 있습니다. Transformar 모델은 기존의 RNN, CNN 구조의 한계를 넘어섰습니다. CNN은 필터를 슬라이딩하는 방식이므로, local적인 feature는 잘 추출하지만 끝부분에 있는 의미를 파악하기 어렵습니다. RNN은 연쇄적인 연산을 이용하기 때문에, 이전 문장의 특징을 반영할 수 있지만 문장이 길어질수록 끝부분이 반영되기 어렵습니다. RN은 길이가 길어져도 양 끝을 모두 다 반영할 수 있지만 연산량이 매우 많은 문제가 있습니다. CNN: $ht = f(..

Word2vec 만들어보기 관련글: Word2Vec 개념 Python을 이용해 한국어 Word2Vec을 만들어 보자. 대략적인 과정은 아래와 같다. 한국어로 된 글 모으기 형태소 분석 등 전처리하기 gensim을 통해 Word2Vec 만들기 아래 튜토리얼을 따라하려면 아래와 같은 것이 설치되어 있어야 한다. Python 2.7, 3.3 이상 python의 pip으로 필요한 라이브러리 설치 python -m pip install gensim konlpy 한국어로 된 글 모으기 웹 상에서 손쉽게 구할 수 있는 한국어로 된 글은 아래와 같다. Wikipedia: link pages-articles.xml.bz2 파일을 받으면 된다. (참고) 한국어판: 다운로드 나무위키: link 기타 등등.. Wikipedia Wikiepdia 덤프는..

Word2vec 1. Word2vec의 필요성 Naive Bayes를 이용한 문서 분류 같이, NLP (Natural Language Processing, 자연어처리) Task를 처리해 왔습니다. NLP (Natural Language Processing, 자연어처리) : 컴퓨터가 인간이 사용하는 언어를 이해하고 분석할 수 있게 하는 분야 ex) 'Naive Bayes'를 사용한 스팸 메일 분류기 성능 자체는 좋지만, 단어가 다른 단어와 어떤 차이점을 가지는지는 이해할 수 없다 -> 벡터화 고안 SVD 같은 통계 기반으로도 단어의 벡터화는 가능하다. 그러나 SVD는 O(n^3)이나 되는 무거운 알고리즘이라서, 수십, 수백만 단위의 어휘에 적용하기 어렵다. 학습 속도를 높이기 위해 Word2Vec 사용 2. One-hot..

Attention Network, Attention Model 본 포스트는 Attention Network, Attention Model의 정의, 구조, 및 활용에 대해 설명합니다. Natural Language Inference, Sentence representation and Attention Mechanism 논문을 요약 및 정리하고 추가적인 내용을 덧붙였습니다. Attention Model이란 딥러닝 모델이 vector sequence 중에서 가장 중요한 vector에 집중하도록 하는 모델입니다. State를 고려해서 가장 중요도가 높은 vector를 중심으로 하나의 vector로 정리하는 모델입니다. Attention Model의 input은 입력 벡터와 context가 있습니다. 입력 벡터($y_1, y_2, ..., y_n$): 1차원 데이터 뿐만 아..

이전 1 ··· 4 5 6 7 8 9 10 ··· 17 다음

티스토리툴바