본문 바로가기
ML, DL/논문

Cascade R-CNN, Cai et al, 2018

by Wordbe 2019. 8. 4.
728x90

0. Abstract

객체 탐색(object detection)에서, IoU(intersection over union) 임계값(thresold)는 양수나 음수로 정의되어야 합니다.

하지만, 디텍터 성능은 IoU thresold가 증가함에 따라 감소하는 양상을 보입니다.

두 가지 주요 원인이 있는데,

 

1) 지수적으로 양의 샘플(positive sample)이 사라지기 때문에 나타나는, 훈련 중에서의 과대적합(overfitting)현상입니다.
2) 디텍터가 최적이되는 IoU와 입력 가설 IoU 사이의 inference-time mismatch가 생기기 때문입니다.

 

다단계(multi-stage) 객체 탐색 구조인 Cascade R-CNN은 위 두 문제를 다룹니다.

Cascade R-CNN은 순차적으로 close false positive에 대하여 더 선택할 확률이 높은, IoU thresold가 증가하며 학습되는 디텍터의 시퀀스로 구성되어 있습니다.

각 단계마다 학습되는 결과에 따라, 다음 디텍터의 질을 학습시키는 좋은 분포를 가진 디텍터의 출력에 영향을 줍니다.

(원리는 아래에서 자세히 다루겠습니다.)

 

더욱이, Cascade R-CNN은 디텍터 구조에서 널리 적용될수 있니다.

기존의 기본 디텍터에 큰 성능향상을 이룰 수 있게 해줍니다.

1. Introduction

디텍터는 인식(recognition) 문제를 해결해야 합니다.

배경으로부터 객체를 분리하고, 각 객체에 알맞은 클래스 레이블을 붙여야 합니다

또한 디텍터는 지역(localization) 문제를 해결해야 합니다.

각 다른 객체에 정확한 bounding box를 그려내야 합니다.

 

IoU를 계산하기 위해 주로 사용되는 threshold는 u = 0.5 입니다.

그 결과, 디텍터는 노이지한 bbox를 주로 만들게 됩니다.

 

Cascade R-CNN은 이와 같은 문제를 해결하고, 다음과 같은 이점을 제공합니다.

1) close false positive 에 대해서 순차적으로 더 선택적인 cascade 안으로 디텍터 stage가 깊어집니다.

    즉, 각 스테이지는 학습의 다음 스테이지에 대하여 더 좋은 close false positive 셋을 찾는 것을 목표로 합니다.

2) Cascade R-CNN은 실행기 꽤 간단한 편이고, end-to-end로 학습이 가능합니다.

 

 

2. Related Work

 

3. Object Detection

3.1 Bounding Box Regression

3.2 Detection Quality

4. Cascade R-CNN

4.1 Cacaded Bounding Box Regression

4.2 Cascaded Detection

5. Experimental Results

5.1 Implementation Details

5.1.1 Basesline Networks

  • Faster R-CNN (VGG)
  • R-FCN (ResNet)
  • FPN (RestNet)

5.2 Quality Mismatch

5.3 Comparison with Iterative bbox and Integral Loss

5.4 Ablation Experiments

5.5 Comparison with the state-of-art

5.6 Generalization Capacity

5.7 Results on PASCAL VOC

6. Conclusion

728x90

댓글