Object detction¶

위키피디아에 따르면 Object detction은 비디오나 사진에서 Object를 감지하는 작업이다. 그렇다면 어떻게 Object를 감지할 수 있을까? 감지하는 과정은 크게 2가지로 나눌 수 있다.

먼저, 비디오나 사진에서 어떤 물체가 있는지 분류 (Classification)한다. 그리고 분류된 Object가 어디에 있는지 파악하는 과정 (Localization)을 통해 Object를 감지할 수 있다. 방금 언급한 내용이 아래 그림의 2번째 그림이다.

출처: 제이스핀, Object Detection

하지만 실제 비디오나 사진에는 여러 가지 Object가 있을 수 있기 때문에 결과적으로 세 번째 그림과 같이 여러 개의 Object를 분류하고 (Multi-labeled classification), Object들의 위치를 파악하는 것 (Localization)이 Object detection이라고 할 수 있다.

Classification과 관련된 내용은 Convolutional Neural Network 부분에서 많이 다뤘기 때문에, 여기서는 Object localization부터 하나씩 다루려고 한다.

SIFT
R-CNN (Regions with CNN features)
SPPNet (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)
Fast-RCNN
Faster-RCNN

Reference

라온피플 (Laon People) - ZFNet [2], GoogLeNet [6], ResNet [4], ResNet [5], ResNet [6]