computer vision 26

M2Det: A Single-Shot Object Detector based on Multi-Level Feature PyramidNetwork

AbstractFeature pyramid는 object instance에 scale variation로부터 발생하는 문제를 완화하기 위해 sota one stage detector와 two stage detector에 이용됐다. feature pyramid를 가진 detector가 좋은 결과를 보였지만, 약간의 제한을 가졌다.-> Multi-Level feature pyramid network(MLFPN)을 제시 - MLFPN 방법1. 기존 feature인 backbone에서 추출된 multi-level feature를 융합2. alternating joint Thinned U-shape Module과 feature fusion module의 block에 base feature를 얻고, object를 ..

2 stage detector 주요 model 정리

1. R-CNN region을 사용한 recognition paradigm을 사용함으로써 cnn localization 문제를 해결 -  R-CNN 과정1. 약 2000개의 region proposal을 추출하기 위해서 test image에서 selective search2. 각 proposal을 왜곡하고 feature를 계산하기 위해서 cnn을 통해 region proposal을 forward propagate3. class에 대해 학습된 svm을 사용해서 추출된 feature vector에 점수를 매김4. image에서 모든 scored region을 고려했을 때, 학습된 threshold보다 더 높은 score인 region과 겹친다면 region을 제거하는 greedy non maximum sup..

1 stage vs 2 stage detector

1 stage Detectorregional proposal와 classification이 동시에 이루어진다.-> classification과 localization문제를 동시에 해결하는 방법   1-stage detector는 비교적 빠르지만 정확도가 낮다. 2 stage DetectorRegional Proposal과 Classification을 순차적으로 진행-> classification과 localization문제를 순차적으로 해결하는 방법 Region Proposal 기존에는 image에서 object detection을 위해 sliding window 방식을 이용 Sliding window 방식: 이미지에서 모든 영역을 다양한 크기의 window(differenct scale & ratio)..

mAP(mean Average Precision)

- Confusion Matrixex) 이진분류 기준: 실제 object는 car라고 가정 TP: 실제 car를 car라고 예측해서 올바르게 detection함TN: 실제 car가 아닌 것을 car가 아닌 것으로 예측해서 올바르게 detection함FP: 실제 car가 아니였지만 car라고 예측해서 틀리게 detection함FN: 실제 car였지만 car가 아니라고 예측해서 틀리게 detection함 ex) 다중 분류 기준: class = Apple, Banana, CherryTP: 실제 apple을 apple로 예측해서 올바르게 detection함TN: 실제 apple이 아닌 것(banana, cherry)을 apple가 아닌 것으로 예측해서 올바르게 detection함FP: 실제 apple가 아니였지..

Single-Shot Refinement Neural Network for Object Detection

Abstract object detection에서 two stage 방법(Faster R-CNN)은 가장 높은 정확도를 달성하고 반면에, one stage 방법(ex: SSD)는 고효율의 장점을 가진다. 단점을 보완하기 위해 두 방법의 장점만 받기 위해서, two stage 방법보다 더 나은 정확도를 보이고 one stage 방법의 효율을 유지하는 새로운 single shot에 기반된 detector인 RefineDet을 제안한다. RefineDet은 두 inter-connected module(anchor refinement module, object detection module)로 구성된다. anchor refinement module 1. classifier로 search space를 줄이기 위해..

YOLOv3: An Incremental Improvement

Abstract YOLO 업데이트 소개한다. 320x320에서 YOLOv3는 28.2mAP로 22ms걸렸고 SSD보다 3배 더 빨랐다. 0.5 IOU mAP detection metric YOLOv3는 꽤 좋다. Titan x에서 51ms로 57.9 $AP_{50}$으로 Retinanet보다 3.8배 정도 빨라졌다. Introduction 폰의 발전으로 많은 연구를 하지 않았고 GAN 연구를 약간 했다. 그리고 지난 연도에 연구되어 있는것으로 YOLO를 개선할 수 있었다. The Deal * Bounding Box prediction 우리의 system은 anchor box처럼 차원 cluster를 사용하는 bounding box를 예측한다. network는 각 bounding box에 4 좌표를 예측한..

Mask R-CNN

Abstract instance segmentation에 대해 간단하고 일반적인 framework를 제시. 각 instance에 대해 고성능 segmentation을 동시에 생성하는 동안, image에서 object를 효율적으로 detect한다. Mask R-CNN이라고 불리는 방법은 bounding box recognition에 대한 존재하는 branch와 동시에 object mask를 예측하는 branch를 추가함으로써 faster R-CNN을 확장한다. Mask R-CNN은 학습하기 간단하고 5 fps로 실행되는 Faster R-CNN에 작은 overhead를 추가한다. 게다가 다른 task(human pose estimate)를 일반화하기 쉽다. COCO suite challenge의 세가지 tr..

Focal Loss for Dense Object Detection

Abstract 지금까지 가장 높은 정확도인 object detector는 classifier가 후보 object location의 희소 set에 적용되는 R-CNN에 의해 인기있는 two stage 방법이다. 반면에, possible object location의 규칙적이고 dense sampling에 적용된 one stage detector는 가장 빠르고 간단하게 되는 가능성을 가지지만 지금까지 two stage detector의 정확도를 따라간다. 왜 one stage detector는 빠르지만 정확도가 낮은지 : dense detector의 training 동안에 극심한 foreground background class imbalance 잘 분류된 example에 할당된 loss를 down wei..

R-FCN: Object Detection viaRegion-based Fully Convolutional Networks

Abstract 정확하고 효율적인 object detection을 위해 region에 기반된 fully convolutional network를 제안 비용이 많이 드는 region당 subnetwork를 수백번 적용하는 이전 region에 기반된 detector(Fast/Faster R-CNN)과 대조해서, R-FCN은 전체 image에 공유된 거의 모든 연산으로 fully convolution한다. 이것을 하기위해, 우리는 image classification에서 translation invariance와 object detection에서 translation variance 간에 딜레마를 다루기 위해 position sensitive socre map을 제안한다. R-FCN은 object detect..

Training Region-based Object Detectors with Online Hard Example Mining

Abstract object detection의 분야는 region에 기반된 convnet의 흐름을 타서 상당한 발전이 있었다. 하지만 training 절차는 tuning하기 위해 많은 경험적인 방법과 hyperparameter를 여전히 포함한다. 그러나 우리는 region에 기반된 convnet detector를 training하기 위해 효과적인 online hard example mining(OHEM) 알고리즘을 제시한다. 우리의 동기는 압도적인 easy example의 수와 hard example의 작은 수를 포함하는 것에서 됐다. hard example의 자동 선택은 더 효율적이고 효과적으로 training한다. OHEM은 일반적으로 사용하는 여러 경험적인 방법과 hyperparameter을 제거..