본문 바로가기
ML, DL/논문

Mask-RCNN

by Wordbe 2019. 7. 16.
728x90
  • Facebok AI Research (FAIR), Kaiming He, 24 Jan 2018
  • Marr Prize at ICCV 2017

Abstract

object instance segmentation 을 위한 프레임워크.
학습이 쉽고 Faster R-CNN에 조금의 overhead만 추가해서 5 fps의 빠르기 정도로 실행된다.
COCO 셋에서 instance segmentation, bbox object detection, person keypoint detection 에서 가장 높은 결과를 보였다.

1. Introduction

instance segmentation은 두 가지 과제를 합친 것이다.

  1. object detection : bbox를 이용하여 object를 분류하고, 위치를 찾는 것.

  2. semantic segmentation : object instance는 구별하지 않지만, 정해진 카테고리별로 각각의 pixel을 분류하는 것

    Faster R-CNN 에서 RoIAlign을 추가하였고, 큰 영향을 주었는데, accuracy를 10% 에서 50%으로 향상시켰다.
    mask와 class의 prediction을 나누어서 하였다.

3. Mask R-CNN

기존 Faster R-CNN 은 두 개의 output이 있는데,

  • class label
  • bounding-box offset
    Mask R-CNN은 여기 하나의 브랜치를 추가한다.
  • object mask
    pixel-to-pixel alignment 방식으로 loss를 계산한다.

RoIAlign

RoIAlingn은 feature map에서 근처 격자점으로부터 각 샘플링 점을 양선형 보간법(bilinear interpolation)으로 계산한다.

4. Experiment: Instance Segmentation

5. Mask R-CNN for Human Pose Estimation

keypoint types 반환할 수 있게 만들었다.
Mask R-CNN은 이처럼 다른 분야에 응용하기가 쉽다!

reference
[https://github.com/facebookresearch/Detectron] - Caffe2, pytorch
[https://arxiv.org/abs/1703.06870]

728x90

댓글