본문 바로가기

Paper review/Vision

[논문 리뷰] ObamaNet: Photo realistic lip sync from text

반응형

ObamaNet: Photo realistic lip sync from text

Submit : Rithesh Kumar, Jose Sotelo, Kundan Kumar, Alexandre de Brebisson, Yoshua Bengio. arxiv(2017)

Paper : https://arxiv.org/abs/1801.01442

Code : https://github.com/acvictor/Obama-Lip-Sync


0. Abstract

  • text, audio -> video : higher dimensional signal
  • lip motion에 대한 문제가 있다 -> 입 주의 부분을 어떻게 싱크로맞추냐
  • 얼굴의 다른 부분 (눈, 머리, 윗입술, 백그라운드) 를 원래 있었던 비디오의 footage에서 풀려고 함
  • 오바마 비디오의 특징은 대통령 연설 부분이 있기 떄문에 컨트롤 된 환경에서 녹화된 것.
  • 일반적인 유투브 비디오가 아니고 사람이 비디오의 한 가운데만 있음

1. Introduction

  • input, output
    • 인풋: 텍스트
    • 아웃풋: 비디오
  • 3 모듈로 분리

01 텍스트로부터 오디오로 변환

  • 텍스트->스피치: 저자들의 다른 모델인 Char2Wav 사용

02 오디오로부터 keypoint로 변환 (입 주변)

  • Time-Delayed LSTM 사용

03 keypoints에서 비디오 프레임으로 generate

  • pix2pix 네트워크를 사용해서 비디오를 생성하도록 함
  • 이 논문의 특별한 점 : 각각의 모듈이 학습가능한 뉴럴 네트워크로 되어있음
  • 02, 03에 초점 (01도 중요하지만 text2speech는 다른데서 하는게 낫다.. 너무 할게많음??)

  • synthesizing obama : learning Lip Sync from Audio (2017)

2. Method

(1) Keypoint generation

image

  • input: audio features
    • vocoder frames extracted from 16kHz audio
    • WORLD vocoder 사용
  • output: mouth shape representation
    • 각 프레임 비디오에서, 모든 포인트를 사용하는건 아니고 프레임을 캡쳐한 다음에 각각의 프레임에서 68 마우스 키포인트를 추출 (dlib사용)
  • normalizations
    • face location: mean normalization
    • face rotation (in-plane): projection into a horizontal axis
    • face size: 68 vectors의 norm을 구하고 그걸로 나눠줌
  • Apply PCA
    • reduce dimensionality and decorrelate the 20 normalizaed keypoints (40-D vector)
    • PCA의 첫 5 coefficients 를 캡쳐 > 98% variability
      • flow자체는 이전 논문과 비슷
  • network: time-delay LSTM (see next slide)
    • time delayed LSTM?
      • 무언가를 말하기 전에 입이 먼저 말하는 것 ex) uhhh에서 오바마는 이미 입이 열려있다
      • 그래서 future context를 더해줘야 한다
      • output을 time delay해도 이 어플리케이션에서는 어느정도 됨

image

(2) video generation

image

  • input
    • 아래 그림과 같이 인풋,아웃풋 페어가 있다
    • 얼굴 이미지가 있고 거기서 입 부분을 크롭 (bbox사용)
    • 대신 크롭한데다가 opencv로 아웃라인에 그림
  • output
    • complete face image with in-painted mouth area
    • 나중에 입부분이 generation되면 normalization부분이 있음. 거길 de-normalization이 되어야 타겟과 스케일이 잘 맞음.
  • 네트워크: pix2pix
  • l1 loss만 해도 충분
반응형