분류 전체보기 43

You Only Look Once: Unified, Real-Time Object Detection

Abstract detection을 하기 위해 classifier를 고치는 것 대신에 우리는 분리된 bounding box와 연관된 class 확률에 regression 문제로서 object detection frame을 설정한다. single neural network는 한 번의 평가에서 full image로부터 bounding box와 class 확률을 예측한다. 전체 detection pipeline은 single network때문에 detection 구현에서 end to end로 최적화될 수 있다. 우리의 base yolo model은 실시간에서 초당 45 frame으로 image를 처리한다. network의 더 작은 version인 fast yolo는 다른 실시간 detector의 mAP에 두배..

Deep Residual Learning for Image Recognition

Abstract 더 깊은 neural network는 학습하기 더 어렵다. 이전에 사용된 더 깊은 network의 학습을 완화하기 위해서 residual learning framework를 제시한다. unreferenced function 학습 대신에, layer input에 reference를 가진 residual function을 학습함으로써 layer를 새로 표현한다. 상당한 증가된 깊이로부터 정확도를 얻을 수 있다. imagenet dataset에서 VGG net보다 8배 더 깊은 152 layer 깊이를 가진 residual net을 평가한다. 하지만 여전히 더 낮은 복잡도를 가진다. residual net의 ensemble은 imagenet test set에서 3.57% error를 달성한다...

Learning Deep Features for Discriminative Localization

Abstract image level label에 학습되는 것에도 불구하고 주목할만한 localization ability를 가지기 위해 cnn을 어떻게 명쾌하게 할 수 있는지 빛을 비춘다. 이 기술은 이전에 정규화 학습에 대해 평균으로 제안되어지는 동안, 우리는 image에서 cnn에 내포된 attention을 드러내는 일반적인 지역화할 수 있는 깊은 representation을 만든다는 것을 알아냈다. global average pooling의 분명한 단순성에도 불구하고 bounding box annotation 학습없이 ILSVRC 2014에서 object localization에 대해 37.1% top 5 error를 달성 할 수 있다. classification task를 해결하는 것에 대해 학..

XAI 2023.11.20

VQA: Visual Question Answering

Abstract free form과 open end인 Visual Question Answering(VQA)의 task를 제안 image와 image에 대한 자연어 질문이 주어질 때, task는 정확한 자연어 대답을 제공하는 것이다. visual question은 background 세부사항과 근본적인 context를 포함하는 image의 다른 영역을 선택적으로 target한다. 결과적으로, VQA에 성공적인 시스템은 포괄적인 image caption 시스템보다 더 세부적인 image의 이해와 복잡한 추론이 필요하다. VQA에 대한 많은 baseline과 방법이 제공되어지고 사람의 성과와 비교되어진다. Introduction 이상적인 task는 single sub domain 이후에 multi model..

multi modal 2023.11.09

Very Deep Convolutional Networks For Large-Scale Image Recognition

Abstract 이 작업에서 우리는 큰 규모의 image recognition 설정에서 정확도에 convolutional network의 효과를 연구한다. 우리의 주요 기여는 매우 작은(3x3) convolutional filter가 있는 architecture를 사용해서 깊이가 증가하는 network를 철저히 평가하는 것인데, 이는 깊이를 16~19개의 weight layer로 푸쉬함으로써 이전 기술 구성에 대한 상당한 개선을 달성할 수 있음을 보여준다. 이 결과는 우리의 팀이 localization과 classification track에서 각각 1등, 2등을 확보하는 우리의 imagenet challenge 2014 제출의 기반이다. 우리는 우리의 표현이 그들의 sota 결과를 달성하는 다른 dat..

U-Net: Convolutional Networks for Biomedical Image Segmentation

Abstract deep network의 성공적인 학습은 수천개의 annotate된 학습 sample이 필요하다. 이 논문에서, 우리는 더 효율적으로 가능한 annotate된 sample을 사용하기 위해 데이터 증강의 강력한 사용에 의존하는 network와 학습 전략을 나타낸다. 구조는 context를 저장하기 위해 contracting path(인코딩)와 정확한 localization을 하는 대칭적인 expanding path(디코딩)로 구성한다. 우리는 network같은 것이 매우 적은 image로 end to end 학습이 되어질 수 있고, electron microscopic stack에서 neuronal 구조의 segmentation을 위해 ISBI challenge에서 이전의 최고 방법을 능가..

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Abstract object detection network sota는 object 위치를 가설하기 위해 region proposal 알고리즘에 의존한다. SPPnet과 Fast R-CNN과 같은 발전은 bottleneck으로 region proposal 계산을 나타내는 detection network의 실행시간을 줄였다. 이 작업에서 우리는 거의 무료인 region proposal을 가능하게 하는 detection network로 full image convolutional feature를 공유하여 region proposal network를 소개하다. RPN은 각 position에서 object bound와 objectness score를 동시에 예측하는 fully convoulutional netw..

Fast R-CNN

Abstract 이 논문은 object detection에 대한 convolutional network 방법(fast r-cnn)에 기반된 fast region을 제안한다. fast r-cnn은 deep convolutional network를 사용하는 object proposal을 분류하기 위해 효율적으로 이전 작업에서 만들었다. 이전 작업과 비교해서 fast r-cnn은 detection 정확도를 높이는 동시에 학습과 테스트 속도를 향상시키는 여러가지 혁신이 쓰인다. fast r-cnn은 r-cnn보다 9배 더 빠른 매우 깊은 vgg16 network를 학습하고, test time에는 213배 더 빠르며 pascal voc 2012에서 더 높은 mAP를 달성한다. SPPnet과 비교하면, fast r..

Going deeper with convolutions

Abstract 우리는 ILSRVRC14에서 classification과 detection에 대한 새로운 sota에 책임이 있는 inception이라는 코드네임이 붙여진 deep cnn 구조를 제안한다. inception의 주요 특징은 network에 있는 향상된 computing resource의 활용이다. computational budget을 일정하게 유지하는 동안 network의 깊이와 필터 수를 증가시키는 설계에 의해 달성했다. 품질을 최적화하기 위해서, 구조적인 결정은 hebbin 원칙과 multiscale processing의 직관에 기반되어졌다. ILSVRC14에 대해 제출에 사용된 것은 googlenet이라고 불렸고 22개의 deep network이며, classification과 det..

Rich feature hierarchies for accurate object detection and semantic segmentation

Abstract 가장 성능이 좋은 방법은 고차원 context와 많은 저차원 image feature를 결합하는 복잡한 앙상블 시스템이다. 이 논문은 voc 2012에서 53.3%의 mean average precision(mAP)을 달성한 이전의 가장 최고 결과와 비교하여 mAP를 30% 더 많이 향상시키는 간단하고 scalable한 detection 알고리즘을 제안함 Combine two key insight object를 localize와 segment하기 위해 bottom up region proposal로 고성능 cnn에 적용하는 것 label된 training data가 부족할 때, 보조 task에 대한 supervised pretraining은 domain에 상당한 성능을 올려주는 fine ..