Detection
R-CNN

- image를 input으로 받는다.
- Selectiver Search를 통해 RoI를 추출한다.
- 추출된 roi의 갯수가 2000개라면 이 2000개를 모두 227x227로 waping 후 backbone 모델(alexnet)에 넣어서 2000개의 feature map을 산출한다.
- 산출된 2000개의 feature map에 대해서 모두 regession, classfication을 진행함.(using SVM)
SPP-Net

- R-CNN에서는 2000번의 CNN 연산이 수행되었음.
- SPP-Net에서는 CNN연산이 단 1번 수행된다.
Fast R-CNN

- selective search를 통해 roi를 추출한다.
- rcnn과 달리 모든 roi를 backbone 망에 넣는 것이 아니라 단순 input image만 backbone망에 넣는다!(여기서 rcnn대비 많은 시간 단축!! 하나의 image만 넣기 때문에)
- input image를 넣어서 나온 하나의 feature map에 대해서 아까 1번에서 추출한 roi를 위치에 맞게 대입한다.(Roi projection)