본문 바로가기

Paper review/NLP

(4)
[논문 리뷰] Multi channel CNN for Korean Sentiment Analysis Multi channel CNN for Korean Sentiment Analysis Submit : Kim, Min. HCLT (2018) Paper : https://www.researchgate.net/publication/329609677_Multi-channel_CNN_for_Korean_Sentiment_Analysis Code : 0. Abstract 한국어 문장의 형태소, 음절, 자소를 동시에 각자 다른 conv layer를 통과시키는 Multi-channel CNN 제안 오타 포함하는 구어체 문장들의 경우에 형태소 기반 CNN으로 추출할 수 없는 특징들을 음절, 자소에서 추출할 수 있다. 1. Introduction 비젼을 위해 고안된 CNN이지만, 이후 NLP에도 쓸모가 있다는 것이 증..
[논문 리뷰] Character Aware Neural Language Models Submit: Yoon Kim, AAAI (2016) Paper : https://arxiv.org/pdf/1508.06615.pdf 1. Abstract CNN, highway network, LSTM, RNN-LM을 사용했다. 60%적은 파라미터를 사용해도 높은 성능을 낸다 형태소가 많은 언어에서 유리하다 (아랍어, 체코어, 프랑스어..) character inputs는 언어모델링에 충분하다 2. Conclusion character level의 인풋만을 넣는 모델을 소개했다 매개변수가 적음에도 불구하고 이 모델은 인풋 레이어에서 단어/형태소 임베딩을 이용하는 기존 모델보다 우수 모델에 단어 임베딩이 꼭 필요한지에 대한 의문을 제기했다 3. Introduction 배경지식 언어 모델은 확률 분포로 공..
토큰화 : Tokenize Tokenize 1) 토큰화 a. 문장으로 토큰화 nltk.tokenize.sent_tokenize : 주어진 텍스트를 개별 문장으로 토큰화. 예시import nltk from nltk.tokenize import sent_tokenize text = "a! bc. d. e? f~ g)" text2 = "hi! my name is soyoung. and you? um~ ex)" print(sent_tokenize(text)) print(sent_tokenize(text2)) * 결과['a!', 'bc.', 'd. e?', 'f~ g)'] ['hi!', 'my name is soyoung.', 'and you?&#..
한국어 문법 짚고 넘어가기 한국어 문법 짚고 넘어가기 한국어 NLP 를 위하여 한국어 문법에 대해 조금 더 자세히 알아보도록 한다. 한국어의 상,하 개념 :문단 > 문장 > 구절(구,절) > 어절 > 단어 > 형태소 > 음절 > 음운(음소,운소) 1. 음운 말의 뜻을 구별해 주는 소리의 가장 작은 단위. 음운 = 음소 + 운소 음소 더 이상 작게 나눌 수 없는 음운론상의 최소 단위 국어의 자음, 모음 운소 단어의 의미를 분화하는 데 관여하는 음소 이외의 운율적 특징 음의 높낮이, 길이, 세기 * 자소와 음소 자소 : 글자 상의 분절표기 요소 음소 : 발음 상의 분절음 요소 ex) 국물 : ㄱㅜㄱㅁㅜㄹ 발음 상으로는 ㄱㅜㅇㅁㅜㄹ 자소 'ㄱ'은 음소 'ㄱ', 'ㅇ'와 대응 2. 음절 하나의 ..