0. Abstract
객체 탐색(object detection)에서, IoU(intersection over union) 임계값(thresold)는 양수나 음수로 정의되어야 합니다.
하지만, 디텍터 성능은 IoU thresold가 증가함에 따라 감소하는 양상을 보입니다.
두 가지 주요 원인이 있는데,
1) 지수적으로 양의 샘플(positive sample)이 사라지기 때문에 나타나는, 훈련 중에서의 과대적합(overfitting)현상입니다.
2) 디텍터가 최적이되는 IoU와 입력 가설 IoU 사이의 inference-time mismatch가 생기기 때문입니다.
다단계(multi-stage) 객체 탐색 구조인 Cascade R-CNN은 위 두 문제를 다룹니다.
Cascade R-CNN은 순차적으로 close false positive에 대하여 더 선택할 확률이 높은, IoU thresold가 증가하며 학습되는 디텍터의 시퀀스로 구성되어 있습니다.
각 단계마다 학습되는 결과에 따라, 다음 디텍터의 질을 학습시키는 좋은 분포를 가진 디텍터의 출력에 영향을 줍니다.
(원리는 아래에서 자세히 다루겠습니다.)
더욱이, Cascade R-CNN은 디텍터 구조에서 널리 적용될수 있니다.
기존의 기본 디텍터에 큰 성능향상을 이룰 수 있게 해줍니다.
1. Introduction
디텍터는 인식(recognition) 문제를 해결해야 합니다.
배경으로부터 객체를 분리하고, 각 객체에 알맞은 클래스 레이블을 붙여야 합니다
또한 디텍터는 지역(localization) 문제를 해결해야 합니다.
각 다른 객체에 정확한 bounding box를 그려내야 합니다.
IoU를 계산하기 위해 주로 사용되는 threshold는 u = 0.5 입니다.
그 결과, 디텍터는 노이지한 bbox를 주로 만들게 됩니다.
Cascade R-CNN은 이와 같은 문제를 해결하고, 다음과 같은 이점을 제공합니다.
1) close false positive 에 대해서 순차적으로 더 선택적인 cascade 안으로 디텍터 stage가 깊어집니다.
즉, 각 스테이지는 학습의 다음 스테이지에 대하여 더 좋은 close false positive 셋을 찾는 것을 목표로 합니다.
2) Cascade R-CNN은 실행기 꽤 간단한 편이고, end-to-end로 학습이 가능합니다.
2. Related Work
3. Object Detection
3.1 Bounding Box Regression
3.2 Detection Quality
4. Cascade R-CNN
4.1 Cacaded Bounding Box Regression
4.2 Cascaded Detection
5. Experimental Results
5.1 Implementation Details
5.1.1 Basesline Networks
- Faster R-CNN (VGG)
- R-FCN (ResNet)
- FPN (RestNet)
5.2 Quality Mismatch
5.3 Comparison with Iterative bbox and Integral Loss
5.4 Ablation Experiments
5.5 Comparison with the state-of-art
5.6 Generalization Capacity
5.7 Results on PASCAL VOC
6. Conclusion
'ML, DL > 논문' 카테고리의 다른 글
Grad-CAM(Gradient-weighted Class Activation Mapping), 코드포함 (6) | 2019.08.08 |
---|---|
Faster R-CNN, 2016 (0) | 2019.08.06 |
[MMDetection] 논문 정리 및 모델 구현 (1) | 2019.07.28 |
The Open Images Dataset V4, Kuznetsova, Google AI, 2018 (0) | 2019.07.18 |
Mask-RCNN (0) | 2019.07.16 |
댓글