2 stage detector 주요 model 정리

computer vision/object detection

2 stage detector 주요 model 정리

loosiu 2024. 5. 20. 17:04

1. R-CNN

region을 사용한 recognition paradigm을 사용함으로써 cnn localization 문제를 해결

- R-CNN 과정

1. 약 2000개의 region proposal을 추출하기 위해서 test image에서 selective search

2. 각 proposal을 왜곡하고 feature를 계산하기 위해서 cnn을 통해 region proposal을 forward propagate

3. class에 대해 학습된 svm을 사용해서 추출된 feature vector에 점수를 매김

4. image에서 모든 scored region을 고려했을 때, 학습된 threshold보다 더 높은 score인 region과 겹친다면 region을 제거하는 greedy non maximum suppression을 적용

- label된 data 부족(cnn 학습되는 양 부족)

-> supervised fine tuning을 하고 나서 unsupervised pretraining을 해서 해결함

- region proposal

selective search 방식: 인접한 영역끼리 유사성을 측정해 큰 영역으로 차례대로 통합해 나가는 과정

물체가 있을 법한 위치를 찾는 region proposal 방식

selective search 순서

1. “Efficient Graph Based Image Segmentation” 방법으로 초기 영역 지정

2. region끼리 영역 유사도를 계산

3. 위 작업을 반복해서 2000개의 region proposal 추출

- Non Maximum suppresion (NMS)

region을 reject하는 greedy non-maximum suppression를 적용

남은 bounding box들 중 가장 큰 것을 기준으로 잡고, IoU가 threshold 이상인 bounding box들은 제거한다.

-> 많이 겹쳐진 것은 같은 물체를 검출하고 있다는 것을 의미하고 이를 제거한다.

-> Confidense threshold가 높을수록, IoU threshold가 낮을수록 더 많은 bounding box가 제거

출처: https://lee-jaewon.github.io/deep_learning_study/r_cnn/

[논문 리뷰] Rich feature hierarchies for accurate object detection and semantic segmentation(R-CNN)

[CVPR, 2014] Rich feature hierarchies for accurate object detection and semantic segmentation 논문 리뷰

lee-jaewon.github.io

https://hhhhhsk.tistory.com/2

[논문 리뷰] Rich feature hierarchies for accurate object detection and semantic segmentation

Abstract 이전 Object detection은 여러 개의 low-level image feature를 high-level context와 결합하는 앙상블 시스템이다. 이 논문에서 제안하는 알고리즘의 두 가지 핵심은 다음과 같다. 객체의 localization과 segmen

hhhhhsk.tistory.com

2. SPPnet

CNN은 FC layer에서 고정길이 벡터만 받을 수 있어서 고정된 사이즈의 image만 입력받았음

-> 일정한 사이즈만 입력 받으면 성능에 영향을 미치는 것을 해결하기 위해 ‘spatial pyramid pooling’ 기법을 제안

R-CNN에서는 생성된 roi 2000개를 모두 input해야했지만 SPPnet은 image를 1번만 input하면 됨

- CNN 문제점

fc layer가 고정된 사이즈의 벡터만 입력으로 받기 때문에 image를 자르거나 왜곡시켜서 resize해야함

-> convolution filter는 image를 sliding window식으로 훑어가서 성능저하가 우려됨

원본 영상을 입력으로 넣고 fc layer에 맞게 고정 길이의 벡터로 압축하는 pooling 방법 제안

- Spatial Pyramid Pooling Layer

input image가 고정 사이즈가 아니었기 때문에 최종 Conv를 거친 feature map은 사이즈가 임의적이다.

-> feature map을 pyramid pooling하면 bin x 256으로 feature를 고정된 사이즈로 압축가능

다양한 사이즈를 동일한 feature map에 적용해서 전부 Concat하는 구조

- R-CNN 적용

1. Selective Search를 적용해서 Roi 후보군을 추출

2. crop&warp 하지 않고, 그대로 Convnet 입력(2000->1번)

3. convolution으로 나온 최종 feature map에 원본 영상에 압축된 비율과 동일하게 2000개 roi도 전부 축소시켜서 feature map에 적용

4. feature map에서 추출한 roi feature에 SPP 적용

5. 압축한 벡터를 SVM에 입력해서 class 분류

6. b-box 회귀 진행

7. NMS로 객체별 최종 b-box 예측

- SPPnet 문제점

1. end to end가 아니여서 feature를 저장해서 알고리즘을 각각 따로 학습시켜야함

2. 각각 학습하기 때문에 CNN 알고리즘도 svm과 regressor의 결과와 독립적으로 학습되서 아쉬움

출처: https://inhovation97.tistory.com/68

[논문 리뷰] SPPNet(2014) 설명 (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

R-CNN에 이어 SPPNet 논문을 리뷰합니다. 사실 SPPNet은 풀링기법을 제안하는 논문이라서 object detection뿐만 아니라 CNN에 전부 적용할 수 있지만, R-CNN에서의 큰 단점을 커버하면서 추천되는 object detecti

inhovation97.tistory.com

https://deep-learning-study.tistory.com/445

[논문 리뷰] SPPnet (2014) 리뷰, Spatial Pyramid Pooling Network

이번에 리뷰할 논문은 SPPnet 'Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition' 입니다. SPPnet 등장 배경 SPPnet은 CNN 구조가 고정된 입력 이미지 크기를 입력으로 취하는 데에서 발생한 문

deep-learning-study.tistory.com

3. Fast R-CNN

- R-CNN 결점

1. 학습에 multi stage pipeline

2. 학습에 저장공간과 시간이 많이 듦

3. detection이 느림

R-CNN은 공유 연산 없이 각 object proposal에 대해 convnet forward pass를 해서 느림

-> SPPnet은 연산을 공유해서 속도를 높이려고함

- SPPnet 결점

R-CNN과 달리 fine tuning 알고리즘은 spatial pyramid pooling 앞에 있는 convolutional layer를 업데이트하지 않음

-> network가 깊어지면 정확도가 낮아짐

- Fast R-CNN 장점

1. R-CNN, SPPnet보다 높은 detection 품질(mAP)

2. multi task loss를 사용하는 single stage로 학습

3. 전체 network layer 업데이트 가능

4. feature caching에 disk용량이 필요없다.

- Fast R-CNN architecture

1. Fast R-CNN network는 전체 image와 object proposal의 set을 input으로 함

2. conv feature map을 만들기 위해 convolution과 max pooling layer로 전체 image를 먼저 처리

3. 각 object proposal에 대한 ROI pooling layer가 feature map에서 고정된 길이의 feature vector를 추출

4. 각 k개의 object class에 대한 4개의 실수값을 출력하는 다른 layer와 background class를 더해서 object class에 대한 softmax 확률을 추정

5. 각 4개의 value set은 K개의 class 중 하나에 대한 개선된 bounding box 위치를 encode

1장의 image를 입력 받고 roi pooling으로 고정된 크기의 feature vector를 fc layer에 전달함

multi-task loss를 사용해서 모델을 한번에 학습시킴

- roi pooling layer

roi pooling: feature map에서 region proposal에 해당하는 ROI를 지정한 크기의 grid로 나누고 max pooling을 수행하는 방법

- Multi-task loss

feature vector를 multi-task loss를 사용해서 Classifier와 bounding box regressor를 동시에 학습

각 roi에 multi task loss를 사용해서 학습

-> 각 모델을 독립적으로 학습시켜야 하는 번거로움이 없다는 장점

- Hierarchical Sampling

R-CNN model은 region proposal이 서로 다른 image에서 추출되서 학습 시 연산을 공유할 수 없다는 단점이 있음

-> 학습 시 feature sharing을 가능하게 하는 Hierarchical sampling 방법을 제시

SGD mini-batch를 구성할 때, N개의 image를 sampling하고, 총 R개의 region proposal을 사용한다고 할 때, 각 image로부터 R/N개의 region proposal을 sampling하는 방법

-> 같은 image에서 추출된 region proposal끼리는 forward, backward propogation 시, 연산과 메모리를 공유할 수 있음

- Truncated SVD

Fast R-CNN model은 detection 시, roi를 처리할 때 fc layer에서 많은 시간이 걸림

-> detection 시간을 감소시키기 위해 Truncated SVD를 통해 fc layer를 압축하는 방법을 제시(30% 정도 시간 단축)

출처: https://herbwood.tistory.com/8

Fast R-CNN 논문 리뷰

이번 포스팅에서는 Fast R-CNN 논문(Fast R-CNN)을 읽고 정리해봤습니다. 기존 R-CNN 모델은 학습 시간이 매우 오래 걸리며, detection 속도 역시, 이미지 한 장당 47초나 걸려 매우 느린 추론 속도를 보였습

herbwood.tistory.com

4. Faster R-CNN

SPPnet과 Fast R-CNN은 detection 시간을 크게 줄였지만 region proposal 단계에서 병목현상이 생기는 단점이 있음

Fast R-CNN: 기본적으로 GPU 사용하지만 region proposal은 CPU로 수행

-> region proposal에서 병목 현상 발생

-> region proposal network 기법인 RPN을 제시

RPN은 object detection network와 전체 image의 convolutional feature를 공유하기 때문에 roi 생성도 CNN level에서 수행해서 속도도 빨라지고 region proposal에 연산이 거의 없다.

그리고 각 position에서 object bound와 objectness score를 동시에 예측하는 fully convolutional network이고 end to end로 학습됨

Faster R-CNN = RPN + Fast R-CNN

- Faster R-CNN의 두가지 모듈

1. deep convolution network

2. object detection 모듈

- Faster R-CNN 구조

1. input image를 conv layer로 합성곱 연산 수행

2. convnet으로 feature map을 만들고 동시에 RPN과 classifier에 전달

3. RPN은 feature map을 기반으로 object가 있을 만한 곳을 찾아서 region proposal을 하고, Roi pooling한다.

4. feature map과 region proposal bounding box를 활용해서 객체 탐지 수행하고,

RPN은 객체가 어디 있는지, detector가 어디에 주목해야하는지 알려준다.

- Region Proposal Network

크기에 상관없이 전체 image를 input으로 받고 region proposal bounding box를 반환함

각 bounding box는 object가 있는지 없는지를 점수로 나타냄

RPN은 region proposal bounding box를 만들기 위해 sliding window 방식 사용

RPN 구조

sliding window로 구한 feature map은 분류 layer(cls layer)와 bounding box regression layer(reg layer)에 input됨

* Anchors

Dense Sampling: 원본 image를 일정 간격의 grid로 나눠서 grid cell을 bounding box로 간주해서 feature map에 encode하는 것

고정된 크기의 bounding box를 사용하면 다양한 크기의 object를 인지하지 못해서 서로 다른 scale(크기)와 aspect ratio(가로세로비)를 가지는 bounding box인 Anchor box를 생성

anchor box는 원본 이미지의 각 grid cell의 중심을 기준으로 생성함

각 sliding window의 중심 위치마다 여러 bounding box를 예측함

각 sliding window 위치마다 최대로 예측할 수 있는 bounding box 개수는 k개이다.

reg layer는 bounding box 하나에 4개의 좌표값이 있어서 4k개의 좌표값을 가짐

cls layer는 bounding box 하나에 object인지 아닌지 두가지 확률값이여서 2k개의 점수값을 가짐

** Translation-Invariant Anchors

Translation-Invariance: image 안에 object 위치가 바뀌더라도 같은 object로 인식하는 특성

RPN은 sliding window로 image의 전체 영역을 훑기 때문에 위치가 변해도 같은 object로 인식함

MultiBox 방법은 Translation Invariance가 없어서 object 위치가 변하면 같은 object로 인지 못함

-> Translation-Invariance 때문에 parameter도 훨씬 작아짐

** Multi-scale anchors as regression reference

multi-scale 예측 방법

1. image pyramid 방식(Overfeat, SPPnet)

input image를 multi scale로 resize해서 각 scale마다 feature map을 구함

-> 시간이 오래 걸림

2. filter pyramid 방식

sliding window(filter)를 multi scale로 사용하는 방법

feature map은 하나지만 다양한 filter로 pooling하는 방식

3. anchor box 방식

다양한 크기의 anchor box로 object classification, bounding box regression을 수행

추가 연산 없이 feature를 공유할 수 있어서 효율적임

Loss function

RPN과 Fast R-CNN을 학습시키기 위해 Multi-task loss 사용

RPN에서는 object 존재 여부만 분류

Fast R-CNN는 background를 포함해서 class 분류

RPN을 학습하기 위해 각 anchor box마다 이진 분류(객체 존재 여부) 수행

여러 anchor box를 만들어서 region proposal을 하지만 모든 anchor box마다 loss function을 적용하면 negative label에 치우침

image에 object의 비율보다 background 비율이 더 크기 때문에 negative label이 많음

-> 하나의 image에서 anchor box 256개를 random으로 sampling함

Alternating training 방식

1. anchor box와 원본 이미지의 ground truth box를 사용하여 Anchor target layer에서 RPN을 학습시킬 positive/negative 데이터셋을 구성해서 RPN 학습, pretrain된 VGG16도 같이 학습

2. anchor box와 학습된 RPN에 원본 이미지를 입력하여 얻은 feature map을 사용하여 proposals layer에서 region proposals를 추출하고 Proposal target layer에 전달해서 Fast R-CNN model을 학습시킬 positive/negative 데이터셋을 구성하고, pretrain된 VGG16도 같이 학습

3. 학습시킨 RPN과 Fast R-CNN에서 RPN에 해당하는 부분만 fine tuning하고 두 network끼리 공유하는 convoltuional layer인 pretrain된 VGG16은 freeze한다.

4. 추출한 region proposals를 활용하여 Fast R-CNN을 fine tuning하고, RPN과 pre-trained된 VGG16은 freeze한다.

출처: https://velog.io/@jus6886/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-Faster-R-CNN-Towards-Real-Time-Object-Detection-with-Region-Proposal-Networks

[논문리뷰] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

최신 객체 탐지 모델은 객체 위치를 추정하기 위해 영역 추정(region proposal) 알고리즘을 사용했다. SPP-net과 Fast R-CNN은 객체 탐지 시간을 크게 줄인 모델이지만 여전히 영역 추정 단계에서 병목(bott

velog.io

https://herbwood.tistory.com/10

Faster R-CNN 논문(Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks) 리뷰

이번 포스팅에서는 Faster R-CNN 논문(Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks)을 읽고 정리해봤습니다. 기존 Fast R-CNN 모델은 여전히 Selective search 알고리즘을 통해 region proposals

herbwood.tistory.com

5. OHEM

object detection할 때, background 영역에 해당하는 region proposal 수가 많아서 class 불균형이 발생함

이 문제를 해결하기 위해 Hard Negative Mining 방법을 적용

하지만 학습 속도가 느려지고 성능 향상이 안됨

-> 새로운 bootstrapping 방법인 OHEM을 제시

- Hard Negative Mining

일반적으로 image 내 object가 존재하는 영역보다 object가 없는 영역이 훨씬 많아서 추출되는 region proposal에는 foreground(객체 있는 영역)보다 background(배경)이 더 많다.

-> class imbalance 문제가 발생해서 학습이 잘 안됨

-> Hard Negative Mining 방법 제시

Hard Negative Mining: model이 제대로 예측하지 못한 region proposal을 sampling하고 forward, backward pass를 수행하는 방법

모델이 예측하기 어려운 sample은 주로 False Positive sample이다.

빨간 box: positive sample(객체가 있는 영역), 파란 box: negative sample(배경)

Hard Negative Mining을 이용해서 model이 예측하기 어려운 sample을 추출하고, 학습 데이터에 포함시켜 False Positive 오류에 robust하도록 학습함

Hard Negative Mining 과정

1. 전체 region proposal 중 positive/negative sample을 적절히 섞어 mini-batch로 구성한 후 model에 input해서 model을 학습

2. Hard Negative Mining 방법을 적용해서 학습된 model이 False Positive로 판단한 sample을 학습 데이터셋에 추가

3. 다음 epoch부터 model은 False Positive sample이 추가된 mini-batch를 입력받아 학습

4. 마지막 epoch까지 1~3번 과정 반복

- Hard Negative Mining 문제

1. model이 False Positive를 판단해서 학습 데이터셋에 추가하고 mini-batch를 구성하는 과정

->끝날 때까지 model을 update할 수 없어 학습이 느려짐

2. 기존에는 positive/negative sample을 특정 비율에 맞춰 mini-batch를 구성

-> 지정해줘야하는 hyper parameter가 많아 시행착오가 많이 필요함

- OHEM

OHEM: 모든 region proposal을 forward pass하고 loss를 계산해서 높은 loss를 가지는 region proposal에 대해서 backward pass를 수행하는 방법

online: data를 순차적으로 mini-batch로 구성해서 학습하는 Online learning을 의미

OHEM 과정

1. t번째 iteration 시, image를 conv layer(=pretrained VGG16)에 입력해서 feature map 얻음

2. Selective search를 통해 얻은 모든 ROI와 1번 과정에서 얻은 feature map으로 ROI pooling 수행

3. fc layer와 Classifier, Bounding box regressor를 거쳐 각 ROI별로 loss를 계산한다.

4. loss에 따라 ROI를 정렬하고 B/N개의 sample만 선택해서 backward pass 수행

OHEM 장점

1. roi끼리 겹치는 영역이 있어서 연산이 공유됨

-> forward pass시 추가되는 연산량은 상대적으로 적다.

2. 적은 수의 roi가 model을 update하는데 사용되어서 기존 방식으로 backward pass할 때와 차이가 크게 안남

비슷한 영역에 있는 roi가 모두 backward pass 시 포함되어 loss가 두 번 계산될 수 있어 NMS를 사용

- readonly network(roi network)

forward pass시에만 메모리를 할당

각 iteration마다 conv featuremap을 input하면 readonly network는 forward pass를 수행하고 모든 roi에 대해서 loss를 계산

Hard roi Sampler는 hard example만을 추출해서 roi network에 입력하고

hard example만 forward, backward pass 수행하고 gradient를 축적해서 convnet에 전달

출처: https://herbwood.tistory.com/12

OHEM 논문(Training Region-based Object Detectors with Online Hard Example Mining) 리뷰

이번 포스팅에서는 OHEM(Online Hard Example Mining) 논문(Training Region-based Object Detectors with Online Hard Example Mining)을 리뷰해보도록 하겠습니다. 일반적으로 object detection 시, 배경 영역에 해당하는 region prop

herbwood.tistory.com

6. R-FCN

2 stage detector는 서로 다른 task를 수행하는 두 sub-network간 학습하는 속성에 차이가 발생함(translation invariance)

그래서 conv layer 사이에 roi pooling을 삽입

하지만 많은 roi를 개별적으로 conv, fc layer에 입력시켜야함

-> 학습, 추론 시 많은 시간 소요

- R-FCN architecture

backbone network + RPN으로 구성

backbone network: feature extract 수행

- Translation invariance Dilemma

Translation invariance: input값의 위치가 변해도 output값은 동일할 경우에 해당하는 함수의 속성

Translation invariance <-> Translation variance(=equivalence)

image classification task: image 내 object 위치가 바뀌어도 동일한 object로 인식해야 함

-> translation invariacne 선호

object detection task: object 위치가 변하는 것을 포착하는 것이 중요함

-> translation variance 선호

feature map은 위치 정보가 소실된 채로 detection network에 input됨

-> 두 network의 충돌로 mAP값이 하락(translation invariance dilmma)

conv layer 사이에 roi pooling layer를 추가

-> roi pooling layer 이후 conv layer는 translation variance 학습 가능

-> 모든 roi를 개별적으로 conv, fc layer에 입력해서 학습 및 추론 속도 느려짐

- R-FCN

RPN을 통해 추출된 roi끼리 연산을 공유해서 object 위치에 대한 정보를 포함한 feature map을 사용하는 구조

Position sensitive score maps & Position-sensitive roi pooling

RPN을 통해 얻은 roi에 대해 class별 위치 정보를 encode하기 위해 roi를 k x k의 grid로 나눔

roi를 9개의 구간으로 나눠서 class별로 위치 정보인 {top-left, top-center, top-right, ..., bottom-right}에 해당하는 정보를 encode

position-sensitive score map과 roi를 활용해서 Position-sensitive roi pooling 수행

각 class별로 w/k x h/k만큼 roi grid에 대해 average pooling을 수행

각 class 별로 k x k feature map의 각 요소들의 평균(voting)

출처: https://herbwood.tistory.com/16

R-FCN 논문(R-FCN: Object Detection via Region-based Fully Convolutional Networks) 리뷰

이번 포스팅에서는 R-FCN 논문(R-FCN: Object Detection via Region-based Fully Convolutional Networks) 을 읽고 리뷰해보도록 하겠습니다. 일반적으로 2-stage detector는 서로 다른 task를 수행하는 두 sub-network간에 주로

herbwood.tistory.com

7. FPN

image 내 존재하는 다양한 크기의 object를 인식하는 것은 detection task의 핵심적인 문제

model이 크기에 상관없이 detection하는 방식(기존 방식)을 사용하면 model의 추론 속도가 너무 느려져서 메모리를 많이 사용함

-> 컴퓨팅 자원을 적게 차지하면서 다양한 크기의 object를 인식하는 방법인 Feature Pyramid Network(FPN) 제시

- FPN preview

Bottom-up pathway: convolutional network에 input해서 forward pass를 수행하고, 각 stage마다 서로 다른 scale을 가지는 4개의 feature map을 추출하는 과정

1. Bottom-up pathway 수행

2. Top-down pathway를 통해 각 feature map에 1x1 conv 연산을 적용해서 모두 256 channel을 가지도록 조정하고 upsampling을 수행

3. Lateral connections 과정으로 pyramid level 바로 아래 있는 feature map과 element-wise addition 연산을 수행

4. 얻은 4개의 feature map에 3x3 conv 연산을 적용

- pyramid

Pyramid: convolutional network에서 얻을 수 있는 서로 다른 해상도의 feature map을 쌓아올린 형태

level: pyramid의 각 layer에 해당하는 feature map

input에 가까운 feature map은 높은 해상도, low level feature

output에 가까울수록 낮은 해상도와 class를 추론할 수 있는 high level feature

- 기존 방식 문제점

(a) Featurized image pyramid

input의 크기를 resize해서 다양한 scale의 이미지를 network에 입력하는 방법

-> 다양한 크기의 object를 잘 포착하지만 resize된 각 이미지에 CNN을 적용해야 하므로 많은 연산량과 시간이 소모됨

(b) single feature map

단일 scale의 input을 network에 입력해서 단일 scale의 feature map을 통해 object detection을 수행하는 방법

-> 학습 및 추론 속도가 매우 빠르지만 성능이 떨어짐(작은 object 정보 소실)

network에서 미리 지정한 conv layer마다 feature map을 추출해서 detect하는 방법

-> multi-scale feature map을 사용해서 성능이 높지만 feature map 간 해상도 차이로 인해 학습하는 representation에서 차이인 semantic gap이 발생

-> model이 얕은 layer에서 추출한 feature map에서 low level feature까지 학습하면 representational capacity를 손상시켜서 object 인식률이 낮아짐

- FPN

임의의 크기의 single scale image를 convolutional network에 입력해서 다양한 scale의 feature map을 출력하는 network

* Bottom-up pathway

image를 cnn에 입력해서 forward pass해서 2배씩 작아지는 feature map을 추출하는 과정

같은 크기의 feature map을 출력하는 layer를 같은 stage라고 생각하고 각 stage의 마지막 layer의 output feature map을 pyramid level로 지정

-> 더 깊은 layer일수록 강력한 feature를 가지고 있기 때문

conv1 feature map은 너무 많은 메모리를 차지해서 제외

* Top-down pathway and Lateral connections

Top-down Pathway: 각 pyramid level에 있는 feature map을 2배로 upsampling하고 channel 수를 동일하게 맞춰주는 과정

-> 바로 아래 level의 feature map의 크기와 같아짐

Lateral connection: upsample된 feature map과 아래 level의 feature map과 element-wise addition 연산을 하는 과정

FPN은 single scale image를 입력해서 4개의 서로 다른 scale을 가지는 feature map을 얻음

-> 단일 크기의 image를 입력하기 때문에 기존 방식인 (a)에 비해 빠르고 메모리를 덜 차지하고 multi-scale feature map을 출력하기 때문에 (b)방식보다 더 높은 detection 성능을 보여준다.

-> 고해상도 feature map의 특징을 element-wise addition을 통해 저해상도 feature map에 전달하기 때문에 (c)에 비해 작은 object를 더 잘 detect한다.

출처: https://herbwood.tistory.com/18

FPN 논문(Feature Pyramid Networks for Object Detection) 리뷰

이번 포스팅에서는 FPN 논문(Feature Pyramid Networks for Object Detection)을 리뷰해보도록 하겠습니다. 이미지 내 존재하는 다양한 크기의 객체를 인식하는 것은 Object dection task의 핵심적인 문제입니다. 모

herbwood.tistory.com

https://oh2279.tistory.com/162

FPN : Feature Pyramid Net 논문 리뷰

목차 0. Abstract 1. Feature Pyramid 2. Pyramid 3. FPN 4. Bottom-Up pathway 5. Top-Down pathway and Lateral connections 6. Application 7. Experiments and Conclusion Abstract 등장 배경? - 다양한 크기의 객체 인식 필요 - 기존 방식은 많

oh2279.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'computer vision > object detection' 카테고리의 다른 글

M2Det: A Single-Shot Object Detector based on Multi-Level Feature PyramidNetwork (0)	2024.06.11
1 stage vs 2 stage detector (0)	2024.05.20
mAP(mean Average Precision) (0)	2024.05.17
Single-Shot Refinement Neural Network for Object Detection (0)	2024.04.09
YOLOv3: An Incremental Improvement (0)	2024.04.03

현재글2 stage detector 주요 model 정리