반응형
Multi channel CNN for Korean Sentiment Analysis
Submit : Kim, Min. HCLT (2018)
Paper : https://www.researchgate.net/publication/329609677_Multi-channel_CNN_for_Korean_Sentiment_Analysis
Code :
0. Abstract
- 한국어 문장의 형태소, 음절, 자소를 동시에 각자 다른 conv layer를 통과시키는 Multi-channel CNN 제안
- 오타 포함하는 구어체 문장들의 경우에 형태소 기반 CNN으로 추출할 수 없는 특징들을 음절, 자소에서 추출할 수 있다.
1. Introduction
- 비젼을 위해 고안된 CNN이지만, 이후 NLP에도 쓸모가 있다는 것이 증명되었다
- 1개의 conv layer를 가진 CNN을 unsupervised neural language model에서 얻은 word vectors로 훈련
- 사용된 word vector : from google news, 1000억 개의 단어
- 아주 조금의 파라미터 조정. word vector는 static하게 -> 훌륭한 결과
- multiple channel를 가짐으로써 pre-trained & task-specific voector를 함께 사용할 수 있게 모델 조금 수정
- Naive Bayes, Logistic Regression 등으로 기계 학습을 사용했지만 최근에는 딥러닝 기반 기술 사용
- 대부분의 감정분석 연구들은 영어에 초점
- 영어 대상 모델을 그대로 한국어 감정분석에 적용하면 부정확한 결과 나올 수 있다
2. Related works
- 영화 리뷰 w2v, CNN분석
- 네이버 영화 리뷰를 twitter 형태소 분석기를 사용해 형태소로 나눔, word2vec 학습
- CNN input으로 사용
- Bayes model보다 8% 정확
- 음절 기반 CNN 모델 제안
- 단어와 character 같이 사용하는 multi-channel CNN (단어기반, 글자기반 CNN보다 뛰어남)
- 감정분류에서 word2vec, glove 등의 word embedding을 multi-channel CNN에 동시 사용하면 하나 사용하는 것보다 성능 향상
- 한국어) 문장의 자소, 형태소를 동시 사용해 분류
- 문장의 음절 고려 X
- 이미 정형화 된 데이터 사용
3. Method
- 형태소, 자소, 음절 모두를 이용하는 multi-channel model을 통해 감정분류 성능을 높임
- 특징이 다른 두개의 데이터 셋에 실험 -> 2.4%, 1.12% 향상
- 여러 한국어 단위를 조합한 CNN에 대한 실험을 통하여 최적화 된 CNN의 한국어 문장 입력 단위 조합을 제시
- 구성
- 3개의 입력 채널
- 형태소 : 길이 50token
- 음절 : 길이 50token
- 자소 : 길이 150token
- word embedding : 300차원으로 랜덤 초기화됨
- conv layer : 서로 다른 크기의 filter window로 구성 (총 3개)
- max pooling O
- 활성화 함수 : softmax
- 3개의 입력 채널
4. Experiments
(1) Setting
- 어절 단위로 문장 분리해 CNN에 인풋으로
- 형태소 단위로 문장 분리(사내 형태소 분석기)해 CNN에 인풋으로
- 음절 단위로 문장 분리해 CNN에 인풋으로
- 자소 단위로 문장 분리해 CNN에 인풋으로
- (fin) 형태소, 음절, 자소 단위로 문장 분리해 CNN에 인풋으로 (가장 뛰어난 성과)
(2) results
- 형태소 기반 CNN이 올바르게 분류하지 못한 문장을 음절/자소서 기반 CNN이 분류하기도 함
- 형태소, 음절, 자소를 함께 사용하기에 OOV(Out of Vocabulary) 문제를 많이 해결
- 구어체 문장, 오타 포함하는 문장에서 효과적인 성과
- 부정 감정 분류 성능이 많이 높아짐 -> 부정적인 댓글들에 구어체, 합성어가 많아서
5. conclusion
- 형태소, 자소, 음절 기반 Multichannel CNN 제안
- OOV 문제 가지는 형태소 기반 CNN 문제점 대폭 해결
- 음절과 자소에서 추출한 특징 벡터를 형태소 기반의 특징벡터와 상호보완적으로 사용 가능
반응형
'Paper review > NLP' 카테고리의 다른 글
[논문 리뷰] Character Aware Neural Language Models (0) | 2020.06.14 |
---|---|
토큰화 : Tokenize (0) | 2020.04.12 |
한국어 문법 짚고 넘어가기 (0) | 2020.04.12 |