본문 바로가기

Paper review/NLP

[논문 리뷰] Multi channel CNN for Korean Sentiment Analysis

반응형

Multi channel CNN for Korean Sentiment Analysis

Submit : Kim, Min. HCLT (2018)

Paper : https://www.researchgate.net/publication/329609677_Multi-channel_CNN_for_Korean_Sentiment_Analysis

Code :


0. Abstract

  • 한국어 문장의 형태소, 음절, 자소를 동시에 각자 다른 conv layer를 통과시키는 Multi-channel CNN 제안
  • 오타 포함하는 구어체 문장들의 경우에 형태소 기반 CNN으로 추출할 수 없는 특징들을 음절, 자소에서 추출할 수 있다.

1. Introduction

  • 비젼을 위해 고안된 CNN이지만, 이후 NLP에도 쓸모가 있다는 것이 증명되었다
  • 1개의 conv layer를 가진 CNN을 unsupervised neural language model에서 얻은 word vectors로 훈련
  • 사용된 word vector : from google news, 1000억 개의 단어
  • 아주 조금의 파라미터 조정. word vector는 static하게 -> 훌륭한 결과
  • multiple channel를 가짐으로써 pre-trained & task-specific voector를 함께 사용할 수 있게 모델 조금 수정
  • Naive Bayes, Logistic Regression 등으로 기계 학습을 사용했지만 최근에는 딥러닝 기반 기술 사용
  • 대부분의 감정분석 연구들은 영어에 초점
  • 영어 대상 모델을 그대로 한국어 감정분석에 적용하면 부정확한 결과 나올 수 있다

2. Related works

  • 영화 리뷰 w2v, CNN분석
    • 네이버 영화 리뷰를 twitter 형태소 분석기를 사용해 형태소로 나눔, word2vec 학습
    • CNN input으로 사용
    • Bayes model보다 8% 정확
  • 음절 기반 CNN 모델 제안
  • 단어와 character 같이 사용하는 multi-channel CNN (단어기반, 글자기반 CNN보다 뛰어남)
  • 감정분류에서 word2vec, glove 등의 word embedding을 multi-channel CNN에 동시 사용하면 하나 사용하는 것보다 성능 향상
  • 한국어) 문장의 자소, 형태소를 동시 사용해 분류
    • 문장의 음절 고려 X
    • 이미 정형화 된 데이터 사용

3. Method

  • 형태소, 자소, 음절 모두를 이용하는 multi-channel model을 통해 감정분류 성능을 높임
  • 특징이 다른 두개의 데이터 셋에 실험 -> 2.4%, 1.12% 향상
  • 여러 한국어 단위를 조합한 CNN에 대한 실험을 통하여 최적화 된 CNN의 한국어 문장 입력 단위 조합을 제시
  • 구성
    • 3개의 입력 채널
      • 형태소 : 길이 50token
      • 음절 : 길이 50token
      • 자소 : 길이 150token
      • word embedding : 300차원으로 랜덤 초기화됨
      • conv layer : 서로 다른 크기의 filter window로 구성 (총 3개)
      • max pooling O
      • 활성화 함수 : softmax

4. Experiments

(1) Setting

  • 어절 단위로 문장 분리해 CNN에 인풋으로
  • 형태소 단위로 문장 분리(사내 형태소 분석기)해 CNN에 인풋으로
  • 음절 단위로 문장 분리해 CNN에 인풋으로
  • 자소 단위로 문장 분리해 CNN에 인풋으로
  • (fin) 형태소, 음절, 자소 단위로 문장 분리해 CNN에 인풋으로 (가장 뛰어난 성과)

(2) results

  • 형태소 기반 CNN이 올바르게 분류하지 못한 문장을 음절/자소서 기반 CNN이 분류하기도 함
  • 형태소, 음절, 자소를 함께 사용하기에 OOV(Out of Vocabulary) 문제를 많이 해결
  • 구어체 문장, 오타 포함하는 문장에서 효과적인 성과
  • 부정 감정 분류 성능이 많이 높아짐 -> 부정적인 댓글들에 구어체, 합성어가 많아서

5. conclusion

  • 형태소, 자소, 음절 기반 Multichannel CNN 제안
  • OOV 문제 가지는 형태소 기반 CNN 문제점 대폭 해결
  • 음절과 자소에서 추출한 특징 벡터를 형태소 기반의 특징벡터와 상호보완적으로 사용 가능
반응형

'Paper review > NLP' 카테고리의 다른 글

[논문 리뷰] Character Aware Neural Language Models  (0) 2020.06.14
토큰화 : Tokenize  (0) 2020.04.12
한국어 문법 짚고 넘어가기  (0) 2020.04.12