반응형
- R. Girshick, J. Donahue, T. Darrell and J. Malik. IEEE (2015)
- paper: ieeexplore.ieee.org/document/7112511
물체가 있을 법한 영역을 찾아내서 CNN으로 classification을 수행하는 방법.
1. Method
- 이미지를 Input으로 받는다.
- 2000여 개의 region 후보군을 추출한다.
Selective search 기법을 이용해서 region 추출 - 추출된 region별로 feature를 계산한다.
CNN architecture를 이용하여 feature 추출 (TorontoNet, OxfordNet) 모델이 출력하는 feature는 4096 차원임. - Classification을 수행한다.
Region proposal별로 추출된 4096차원 feature를 가지고 Linear SVM 수행.
Object가 있는지, 있다면 어떤 object인지 classification한다.
(1) Selective search
이미지를 최대한 작은 단위로 나눈 뒤, color, texture, size, fill의 요소를 이용해 유사한 region들을 합쳐 가면서 region을 추출하는 방법
(2) Object category classifier에 대한 세부사항
- CNN에서 나온 4096차원짜리 feature를 이용해 linear SVM 수행.
- Region proposal에 실제로 object가 있는지, object가 있다면 어떤 object가 있는지 classification을 수행한다.
- Region이 한 object의 일부만을 포함하고 있을 때: IoU overlap threshold가 0.3 이상일 때만 positive로 보아서 validation 수행
(3) Localization에 대한 세부사항
- Region proposal 내 물체가 중앙에 있지 않아도 CNN이 높은 classification score를 예측하는 만큼, 물체의 정확한 위치를 찾아내기에 부족한 면이 있다
- Bounding-box regression을 이용해 region의 위치를 보정해 줄 수 있다.
반응형
'Paper review > Vision' 카테고리의 다른 글
[논문 리뷰] Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset (0) | 2020.06.14 |
---|---|
[논문 리뷰] Adversarial Examples Are Not Bugs, They Are Features (0) | 2020.06.14 |
[논문 리뷰] A Closer Look at Few shot Classification (0) | 2020.06.14 |
[논문 리뷰] Fast R-CNN (0) | 2020.05.24 |
[논문 리뷰] You Only Look Once: Unified, Real-Time Object Detection (0) | 2020.05.24 |