Detection

R-CNN

Untitled

image를 input으로 받는다.
Selectiver Search를 통해 RoI를 추출한다.
추출된 roi의 갯수가 2000개라면 이 2000개를 모두 227x227로 waping 후 backbone 모델(alexnet)에 넣어서 2000개의 feature map을 산출한다.
산출된 2000개의 feature map에 대해서 모두 regession, classfication을 진행함.(using SVM)

SPP-Net

Untitled

R-CNN에서는 2000번의 CNN 연산이 수행되었음.
SPP-Net에서는 CNN연산이 단 1번 수행된다.

Fast R-CNN

Untitled

selective search를 통해 roi를 추출한다.
rcnn과 달리 모든 roi를 backbone 망에 넣는 것이 아니라 단순 input image만 backbone망에 넣는다!(여기서 rcnn대비 많은 시간 단축!! 하나의 image만 넣기 때문에)
input image를 넣어서 나온 하나의 feature map에 대해서 아까 1번에서 추출한 roi를 위치에 맞게 대입한다.(Roi projection)