Object detction

위키피디아에 따르면 Object detction은 비디오나 사진에서 Object를 감지하는 작업이다. 그렇다면 어떻게 Object를 감지할 수 있을까? 감지하는 과정은 크게 2가지로 나눌 수 있다.

먼저, 비디오나 사진에서 어떤 물체가 있는지 분류 (Classification)한다. 그리고 분류된 Object가 어디에 있는지 파악하는 과정 (Localization)을 통해 Object를 감지할 수 있다. 방금 언급한 내용이 아래 그림의 2번째 그림이다.

../../_images/object_detction.png

출처: 제이스핀, Object Detection

하지만 실제 비디오나 사진에는 여러 가지 Object가 있을 수 있기 때문에 결과적으로 세 번째 그림과 같이 여러 개의 Object를 분류하고 (Multi-labeled classification), Object들의 위치를 파악하는 것 (Localization)이 Object detection이라고 할 수 있다.

Classification과 관련된 내용은 Convolutional Neural Network 부분에서 많이 다뤘기 때문에, 여기서는 Object localization부터 하나씩 다루려고 한다.

  • SIFT

  • R-CNN (Regions with CNN features)

  • SPPNet (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

  • Fast-RCNN

  • Faster-RCNN

Reference