본문 바로가기

Paper review/Vision

(10)
[논문 리뷰] Conditional Generative Adversarial Nets Submit : Mirza, Mehdi, and Simon Osindero. arxiv (2014) Paper : arxiv.org/abs/1411.1784 Code : github.com/zhangqianhui/Conditional-GAN.git 이 논문은 GAN에 대해서 미리 아시면 좋습니다. 0. Abstraction Generative Adversarial Nets(GAN)은 기존에 생성 모델을 훈련하는 방법 중 하나로 소개되었습니다. 본 논문에서 저자는 Generator와 Discriminator 모두에 조건부 데이터 y를 제공하여 구성할 수있는 CGAN을 소개합니다. 이 모델에서는 클래스 label에 따라 MNIST 숫자를 지목해 생성 할 수 있습니다. 또한 이를 사용하여 multi-modal..
[논문 리뷰] Learning Spatiotemporal Features with 3D Convolutional Networks Submit : Tran, Du. ICCV (2015) Paper : https://arxiv.org/pdf/1412.0767.pdf 아직 정제되지 않은 글입니다. 0. Abstract deep한 3차원의 conv network를 사용해 시공간적인 특징을 학습 3가지 특징 시공간적인 특징을 학습하기에 2D conv에 비해 3D conv가 더 적합 3D conv에서 3_3_3 conv kernel이 가장 좋은 성능을 보였다 C3D가 4개의 다른 벤치마크 중에서 가장 뛰어난 성능을 보였다 특징이 명확 단지 10차원에서 UCF101에서 52.8%의 정확도를 보였다. 빠른 conv 추론덕에 계산하기 효율이 좋다. 개념적으로 아주 심플하고 학습시키지 쉽다 1. Introduction video를 이해하는 것에서는..
[논문 리뷰] ObamaNet: Photo realistic lip sync from text ObamaNet: Photo realistic lip sync from text Submit : Rithesh Kumar, Jose Sotelo, Kundan Kumar, Alexandre de Brebisson, Yoshua Bengio. arxiv(2017) Paper : https://arxiv.org/abs/1801.01442 Code : https://github.com/acvictor/Obama-Lip-Sync 0. Abstract text, audio -> video : higher dimensional signal lip motion에 대한 문제가 있다 -> 입 주의 부분을 어떻게 싱크로맞추냐 얼굴의 다른 부분 (눈, 머리, 윗입술, 백그라운드) 를 원래 있었던 비디오의 footage에서 ..
[논문 리뷰] Everybody Dance Now Submit: Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros. ICCV (2019) Paper: https://arxiv.org/abs/1808.07371 0. Summary "do as I do" motion transfer하는 간단한 method 제안 각 frame별 img2img translation source에서 pose ditection을 해 target에 mapping 얼굴은 GAN 사용하여 더 자연스럽게 1. Learning pix2pix 아키텍처를 가져와 문제에 맞게 customize Train conditional GAN 기반 이미지 -> pose estimation -> true image(dist) / pose estima..
[논문 리뷰] Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Submit : Shi, Baoguang, Xiang Bai, and Cong Yao.CVPR(2017) Paper : https://arxiv.org/abs/1507.05717 Code : https://github.com/deepmind/kinetics-i3d 1. introduction imagenet으로 이미지 분류를 하면서 알게된게 굉장히 큰 데이터셋으로 프리트레이닝하면 다른 도메인의 문제로도 확대 적용하는데 굉장히 많은 도움 된다 네트워크 구조 바뀌어도 도움된다 큰 비디오 데이터셋이 있다면 → 프리트레이닝으로 퍼포먼스 높일 수 있지 않을까 kinetics라는 큰 비디오 데이..
[논문 리뷰] Adversarial Examples Are Not Bugs, They Are Features submit: Ilyas, Andrew, et al., NIPS (2019) paper: https://arxiv.org/abs/1905.02175 1. introduction adversarial examples deep learning network는 조잡한 perturbation에 취약 ex) 돼지 -> 91돼지 / 돼지+노이즈 -> 비행기 adversarial attacks exist? model approach boundary tilting: 모델이 오버피팅되었기 때문에 boundary에 있는 데이터에 대해선 잘 동작하지 않음 local linearity: ReLU가 0 이상인 값에 대해선 linearity를 가지고 있음. data approach 이미지 앞에는 이미 로버스트하지 않은 데이터가 ..
[논문 리뷰] A Closer Look at Few shot Classification submit: Chen, Wei-Yu, et al. ICLR (2019) paper: arxiv.org/abs/1904.04232 기존의 few-shot classification 알고리즘 비교 few-shot classification에 대한 baseline 모델 제안 1. Method Few-shot classification: class당 example이 극히 적을 때 classification을 분류하는 방법 Domain Shift가 조금 있을 수 있으나, 주된 문제라고 볼 순 없다. Novel Class (새로운 class가 등장) novel data(outliers) - 다른 관측치와 비교해서 많이 벗어나 있는 관측치 많은 train data로 backbone 학습(base) --> featu..
[논문 리뷰] Fast R-CNN Fast R-CNN Submit : Girshick, R. (2015). Paper : https://arxiv.org/pdf/1504.08083.pdf Code : https://github.com/rbgirshick/fast-rcnn 1. Method 한 image에 대하여 Deep Convolution Network(논문에선 VGG의 fc6)를 이용해 feature map을 추출한다. Object가 있을 법한 후보군인 region of interest(RoI)를 추출한다. 후보군은 R-CNN과 마찬가지로 selective search를 사용하여 추출. RoI pooling layer: RoI 영역의 일부라도 포함하고 있는 feature들을 각각 Max Pooling한다. RoI feature vec..