본문 바로가기

논문 리뷰

(6)
[논문 리뷰] Multi channel CNN for Korean Sentiment Analysis Multi channel CNN for Korean Sentiment Analysis Submit : Kim, Min. HCLT (2018) Paper : https://www.researchgate.net/publication/329609677_Multi-channel_CNN_for_Korean_Sentiment_Analysis Code : 0. Abstract 한국어 문장의 형태소, 음절, 자소를 동시에 각자 다른 conv layer를 통과시키는 Multi-channel CNN 제안 오타 포함하는 구어체 문장들의 경우에 형태소 기반 CNN으로 추출할 수 없는 특징들을 음절, 자소에서 추출할 수 있다. 1. Introduction 비젼을 위해 고안된 CNN이지만, 이후 NLP에도 쓸모가 있다는 것이 증..
[논문 리뷰] ObamaNet: Photo realistic lip sync from text ObamaNet: Photo realistic lip sync from text Submit : Rithesh Kumar, Jose Sotelo, Kundan Kumar, Alexandre de Brebisson, Yoshua Bengio. arxiv(2017) Paper : https://arxiv.org/abs/1801.01442 Code : https://github.com/acvictor/Obama-Lip-Sync 0. Abstract text, audio -> video : higher dimensional signal lip motion에 대한 문제가 있다 -> 입 주의 부분을 어떻게 싱크로맞추냐 얼굴의 다른 부분 (눈, 머리, 윗입술, 백그라운드) 를 원래 있었던 비디오의 footage에서 ..
[논문 리뷰] Everybody Dance Now Submit: Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros. ICCV (2019) Paper: https://arxiv.org/abs/1808.07371 0. Summary "do as I do" motion transfer하는 간단한 method 제안 각 frame별 img2img translation source에서 pose ditection을 해 target에 mapping 얼굴은 GAN 사용하여 더 자연스럽게 1. Learning pix2pix 아키텍처를 가져와 문제에 맞게 customize Train conditional GAN 기반 이미지 -> pose estimation -> true image(dist) / pose estima..
[논문 리뷰] Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Submit : Shi, Baoguang, Xiang Bai, and Cong Yao.CVPR(2017) Paper : https://arxiv.org/abs/1507.05717 Code : https://github.com/deepmind/kinetics-i3d 1. introduction imagenet으로 이미지 분류를 하면서 알게된게 굉장히 큰 데이터셋으로 프리트레이닝하면 다른 도메인의 문제로도 확대 적용하는데 굉장히 많은 도움 된다 네트워크 구조 바뀌어도 도움된다 큰 비디오 데이터셋이 있다면 → 프리트레이닝으로 퍼포먼스 높일 수 있지 않을까 kinetics라는 큰 비디오 데이..
[논문 리뷰] Character Aware Neural Language Models Submit: Yoon Kim, AAAI (2016) Paper : https://arxiv.org/pdf/1508.06615.pdf 1. Abstract CNN, highway network, LSTM, RNN-LM을 사용했다. 60%적은 파라미터를 사용해도 높은 성능을 낸다 형태소가 많은 언어에서 유리하다 (아랍어, 체코어, 프랑스어..) character inputs는 언어모델링에 충분하다 2. Conclusion character level의 인풋만을 넣는 모델을 소개했다 매개변수가 적음에도 불구하고 이 모델은 인풋 레이어에서 단어/형태소 임베딩을 이용하는 기존 모델보다 우수 모델에 단어 임베딩이 꼭 필요한지에 대한 의문을 제기했다 3. Introduction 배경지식 언어 모델은 확률 분포로 공..
[논문 리뷰] Fast R-CNN Fast R-CNN Submit : Girshick, R. (2015). Paper : https://arxiv.org/pdf/1504.08083.pdf Code : https://github.com/rbgirshick/fast-rcnn 1. Method 한 image에 대하여 Deep Convolution Network(논문에선 VGG의 fc6)를 이용해 feature map을 추출한다. Object가 있을 법한 후보군인 region of interest(RoI)를 추출한다. 후보군은 R-CNN과 마찬가지로 selective search를 사용하여 추출. RoI pooling layer: RoI 영역의 일부라도 포함하고 있는 feature들을 각각 Max Pooling한다. RoI feature vec..