본문 바로가기

-

(66)
[논문 리뷰] Image-to-Image Translation with Conditional Adversarial Networks (Pix2pix) Submit : Isola, Phillip, et al. CVPR (2017) Paper : arxiv.org/pdf/1611.07004.pdf Code : github.com/phillipi/pix2pix 0. Abstract cGAN을 이용하여 한 유형의 이미지를 다른 유형의 이미지를 변환할 수 있는 framework를 제시했습니다. GAN을 사용하기 때문에 L1, L2 loss를 사용할 때보다 더 선명한 이미지를 얻을 수 있습니다. 또한, L1 loss를 사용했기 때문에 pixel 간의 관계를 고려한 scturcted loss 개념도 적용되었습니다. 이미지의 빈 영역을 그럴싸하게 채우러면 대상 영상의 semantic을 정확하게 이해해야 합니다. 그러나, L1/L2 loss를 이용하는 것만으로는 복원..
[논문 리뷰] Conditional Generative Adversarial Nets Submit : Mirza, Mehdi, and Simon Osindero. arxiv (2014) Paper : arxiv.org/abs/1411.1784 Code : github.com/zhangqianhui/Conditional-GAN.git 이 논문은 GAN에 대해서 미리 아시면 좋습니다. 0. Abstraction Generative Adversarial Nets(GAN)은 기존에 생성 모델을 훈련하는 방법 중 하나로 소개되었습니다. 본 논문에서 저자는 Generator와 Discriminator 모두에 조건부 데이터 y를 제공하여 구성할 수있는 CGAN을 소개합니다. 이 모델에서는 클래스 label에 따라 MNIST 숫자를 지목해 생성 할 수 있습니다. 또한 이를 사용하여 multi-modal..
[논문 리뷰] BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer submit : Sun, Fei, et al. ACM (2019) paper : https://arxiv.org/abs/1904.06690 repo : https://github.com/FeiSun/BERT4Rec 이 논문은 BERT에 대해서 미리 아시면 좋습니다. 0. Abstraction 추천 시스템이란 유저가 좋아할 만한 상품(영화,도서 등)을 추천하는 것을 일컫습니다. 오늘 날에도 우리의 실생활에서 쉽게 볼 수 있는 추천 시스템은 기업에게 아주 좋은 실적을 보여줍니다. 아마존 : 상품 판매의 1/3이상이 추천에 의해 발생합니다. Google News : 1/3이상의 조회가 추천에 의해 발생합니다. 넷플릭스 : 시청 상품의 ¾이상이 추천에 의해 발생합니다. 또한 Netflix Prize라는 대회를 ..
F1 score 분류 모델을 만들어 성능을 평가해야할 때, 어떠한 모델이 더 성능이 좋은지를 판단하려면 기준이 되는 지표가 필요합니다. 이러한 지표 중 대표적인 것이 F1 score(F-measure)입니다. F1 score를 계산하기 위해서는 precision, recall, accuracy에 대한 개념을 알아야 합니다. 우선 다음과 같이 A,B,C,D가 있다고 합니다. 각각은 실험을 진행했을 때 결과의 True/False에 따라 나뉘어 집니다. A : 실제 정답이 True & 실험 결과 True (TT) B : 실제 정답이 True & 실험 결과 False (TF) C : 실제 정답이 False & 실험 결과 True (FT) D : 실제 정답이 False & 실험 결과 False (FF) precision 실험 결..
[논문 리뷰] Learning Spatiotemporal Features with 3D Convolutional Networks Submit : Tran, Du. ICCV (2015) Paper : https://arxiv.org/pdf/1412.0767.pdf 아직 정제되지 않은 글입니다. 0. Abstract deep한 3차원의 conv network를 사용해 시공간적인 특징을 학습 3가지 특징 시공간적인 특징을 학습하기에 2D conv에 비해 3D conv가 더 적합 3D conv에서 3_3_3 conv kernel이 가장 좋은 성능을 보였다 C3D가 4개의 다른 벤치마크 중에서 가장 뛰어난 성능을 보였다 특징이 명확 단지 10차원에서 UCF101에서 52.8%의 정확도를 보였다. 빠른 conv 추론덕에 계산하기 효율이 좋다. 개념적으로 아주 심플하고 학습시키지 쉽다 1. Introduction video를 이해하는 것에서는..
[논문 리뷰] Multi channel CNN for Korean Sentiment Analysis Multi channel CNN for Korean Sentiment Analysis Submit : Kim, Min. HCLT (2018) Paper : https://www.researchgate.net/publication/329609677_Multi-channel_CNN_for_Korean_Sentiment_Analysis Code : 0. Abstract 한국어 문장의 형태소, 음절, 자소를 동시에 각자 다른 conv layer를 통과시키는 Multi-channel CNN 제안 오타 포함하는 구어체 문장들의 경우에 형태소 기반 CNN으로 추출할 수 없는 특징들을 음절, 자소에서 추출할 수 있다. 1. Introduction 비젼을 위해 고안된 CNN이지만, 이후 NLP에도 쓸모가 있다는 것이 증..
[논문 리뷰] ObamaNet: Photo realistic lip sync from text ObamaNet: Photo realistic lip sync from text Submit : Rithesh Kumar, Jose Sotelo, Kundan Kumar, Alexandre de Brebisson, Yoshua Bengio. arxiv(2017) Paper : https://arxiv.org/abs/1801.01442 Code : https://github.com/acvictor/Obama-Lip-Sync 0. Abstract text, audio -> video : higher dimensional signal lip motion에 대한 문제가 있다 -> 입 주의 부분을 어떻게 싱크로맞추냐 얼굴의 다른 부분 (눈, 머리, 윗입술, 백그라운드) 를 원래 있었던 비디오의 footage에서 ..
[논문 리뷰] Everybody Dance Now Submit: Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros. ICCV (2019) Paper: https://arxiv.org/abs/1808.07371 0. Summary "do as I do" motion transfer하는 간단한 method 제안 각 frame별 img2img translation source에서 pose ditection을 해 target에 mapping 얼굴은 GAN 사용하여 더 자연스럽게 1. Learning pix2pix 아키텍처를 가져와 문제에 맞게 customize Train conditional GAN 기반 이미지 -> pose estimation -> true image(dist) / pose estima..