본문 바로가기

Paper review

(15)
[논문 리뷰] Conditional Generative Adversarial Nets Submit : Mirza, Mehdi, and Simon Osindero. arxiv (2014) Paper : arxiv.org/abs/1411.1784 Code : github.com/zhangqianhui/Conditional-GAN.git 이 논문은 GAN에 대해서 미리 아시면 좋습니다. 0. Abstraction Generative Adversarial Nets(GAN)은 기존에 생성 모델을 훈련하는 방법 중 하나로 소개되었습니다. 본 논문에서 저자는 Generator와 Discriminator 모두에 조건부 데이터 y를 제공하여 구성할 수있는 CGAN을 소개합니다. 이 모델에서는 클래스 label에 따라 MNIST 숫자를 지목해 생성 할 수 있습니다. 또한 이를 사용하여 multi-modal..
[논문 리뷰] BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer submit : Sun, Fei, et al. ACM (2019) paper : https://arxiv.org/abs/1904.06690 repo : https://github.com/FeiSun/BERT4Rec 이 논문은 BERT에 대해서 미리 아시면 좋습니다. 0. Abstraction 추천 시스템이란 유저가 좋아할 만한 상품(영화,도서 등)을 추천하는 것을 일컫습니다. 오늘 날에도 우리의 실생활에서 쉽게 볼 수 있는 추천 시스템은 기업에게 아주 좋은 실적을 보여줍니다. 아마존 : 상품 판매의 1/3이상이 추천에 의해 발생합니다. Google News : 1/3이상의 조회가 추천에 의해 발생합니다. 넷플릭스 : 시청 상품의 ¾이상이 추천에 의해 발생합니다. 또한 Netflix Prize라는 대회를 ..
[논문 리뷰] Learning Spatiotemporal Features with 3D Convolutional Networks Submit : Tran, Du. ICCV (2015) Paper : https://arxiv.org/pdf/1412.0767.pdf 아직 정제되지 않은 글입니다. 0. Abstract deep한 3차원의 conv network를 사용해 시공간적인 특징을 학습 3가지 특징 시공간적인 특징을 학습하기에 2D conv에 비해 3D conv가 더 적합 3D conv에서 3_3_3 conv kernel이 가장 좋은 성능을 보였다 C3D가 4개의 다른 벤치마크 중에서 가장 뛰어난 성능을 보였다 특징이 명확 단지 10차원에서 UCF101에서 52.8%의 정확도를 보였다. 빠른 conv 추론덕에 계산하기 효율이 좋다. 개념적으로 아주 심플하고 학습시키지 쉽다 1. Introduction video를 이해하는 것에서는..
[논문 리뷰] Multi channel CNN for Korean Sentiment Analysis Multi channel CNN for Korean Sentiment Analysis Submit : Kim, Min. HCLT (2018) Paper : https://www.researchgate.net/publication/329609677_Multi-channel_CNN_for_Korean_Sentiment_Analysis Code : 0. Abstract 한국어 문장의 형태소, 음절, 자소를 동시에 각자 다른 conv layer를 통과시키는 Multi-channel CNN 제안 오타 포함하는 구어체 문장들의 경우에 형태소 기반 CNN으로 추출할 수 없는 특징들을 음절, 자소에서 추출할 수 있다. 1. Introduction 비젼을 위해 고안된 CNN이지만, 이후 NLP에도 쓸모가 있다는 것이 증..
[논문 리뷰] ObamaNet: Photo realistic lip sync from text ObamaNet: Photo realistic lip sync from text Submit : Rithesh Kumar, Jose Sotelo, Kundan Kumar, Alexandre de Brebisson, Yoshua Bengio. arxiv(2017) Paper : https://arxiv.org/abs/1801.01442 Code : https://github.com/acvictor/Obama-Lip-Sync 0. Abstract text, audio -> video : higher dimensional signal lip motion에 대한 문제가 있다 -> 입 주의 부분을 어떻게 싱크로맞추냐 얼굴의 다른 부분 (눈, 머리, 윗입술, 백그라운드) 를 원래 있었던 비디오의 footage에서 ..
[논문 리뷰] Everybody Dance Now Submit: Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros. ICCV (2019) Paper: https://arxiv.org/abs/1808.07371 0. Summary "do as I do" motion transfer하는 간단한 method 제안 각 frame별 img2img translation source에서 pose ditection을 해 target에 mapping 얼굴은 GAN 사용하여 더 자연스럽게 1. Learning pix2pix 아키텍처를 가져와 문제에 맞게 customize Train conditional GAN 기반 이미지 -> pose estimation -> true image(dist) / pose estima..
[논문 리뷰] Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Submit : Shi, Baoguang, Xiang Bai, and Cong Yao.CVPR(2017) Paper : https://arxiv.org/abs/1507.05717 Code : https://github.com/deepmind/kinetics-i3d 1. introduction imagenet으로 이미지 분류를 하면서 알게된게 굉장히 큰 데이터셋으로 프리트레이닝하면 다른 도메인의 문제로도 확대 적용하는데 굉장히 많은 도움 된다 네트워크 구조 바뀌어도 도움된다 큰 비디오 데이터셋이 있다면 → 프리트레이닝으로 퍼포먼스 높일 수 있지 않을까 kinetics라는 큰 비디오 데이..
[논문 리뷰] Character Aware Neural Language Models Submit: Yoon Kim, AAAI (2016) Paper : https://arxiv.org/pdf/1508.06615.pdf 1. Abstract CNN, highway network, LSTM, RNN-LM을 사용했다. 60%적은 파라미터를 사용해도 높은 성능을 낸다 형태소가 많은 언어에서 유리하다 (아랍어, 체코어, 프랑스어..) character inputs는 언어모델링에 충분하다 2. Conclusion character level의 인풋만을 넣는 모델을 소개했다 매개변수가 적음에도 불구하고 이 모델은 인풋 레이어에서 단어/형태소 임베딩을 이용하는 기존 모델보다 우수 모델에 단어 임베딩이 꼭 필요한지에 대한 의문을 제기했다 3. Introduction 배경지식 언어 모델은 확률 분포로 공..