분류 전체보기 43

Transformers in Vision: A Survey

Abstractnatural language task에서 transformer model로부터 놀라운 결과로 computer vision에 적용하는 연구에 흥미가 생겼다.중요한 장점 중에서, transformer는 input sequence 요소 간에 long dependency를 modeling하는 것이고, recurrent network와 비교해서 sequence의 병렬 처리를 도와준다.convolutional network와 달리, Transformer는 최소의 inductive bias를 필요로 한다.transformer의 간단한 design은 multiple modality를 처리하고, 큰 capacity network와 큰 dataset에 대한 훌륭한 확장성을 입증했다.   Introducti..

카테고리 없음 2024.09.24

Vision-Language Models for Vision Tasks: A Survey

Abstract vision recognition 연구 = DNN에 있는 crowd labeled data에 의존-> 힘들고 시간 소모 많음 zero shot 예측이 가능하고 web scale image-text pair로 vision-language 상관관계를 학습하는 Vision-Language Model(VLM)을 제시   Introductionmachine learning에서 deep learning으로 변하면서 두가지 문제 발생-> 1. DNN의 느린 수렴     2. large-scale, task-specific, crowd-labeled data의 힘든 수집 pretraining, fine tuning, prediction은 visual recognition task에서 효과적이였음DNN ..

survey 2024.09.11

A Review of Deep Learning-Based Semantic Segmentation for Point Cloud

Abstract3D scene을 이해하는 것으로 주요 단계로서 point cloud의 semantic segmentation은 주목을 받고 있다.간접 세분화에서 직접 세분화까지 다양한 측면을 다루는 survey를 제공한다.point 순서를 포함하는 다른 관점, multi scale, feature fusion, graph convolutional neural network(GCNN)의 fusion으로부터 직접적인 segmentation 방법뿐만 아니라 multi view, voxel grid에 기반된 간접적인 segmentation의 방법을 review한다.point cloud segmentation에 대한 일반적인 dataset은 연구자가 task에 대해 가장 적합한 것을 고르게 도와준다.  Intro..

survey 2024.07.02

deep learning 학습 방법 종류

크게 deep learning 학습 방법에는 supervised learning과 unsupervised learning이 있었다.하지만 대표적인 두 학습 방법 말고도 학습 방법인 weakly-supervised, semi-supervised, self-supervised learning 등 많이 생겨났다. Supervised Learning: target data에 label을 달아서 학습하는 방법 Unsupervised Learning: target data에 label 없이 학습하는 방법 Weakly-supervised Learning weak 정보(class에 대한 label 정보나 위치)만으로 학습하는 방법 -> detection, segmentation에서 사용(label하기가 어려워서)   ..

Deep learning 2024.07.02

Domain adaptation vs generalization

Domain 이란?:  특정 data 또는 모델이 작동하는 환경  Domain adaptation: source domain 데이터 + unlabeled or few label target domain 데이터 source(학습 데이터), Target(평가 데이터) domain이 다를 경우 예측 label은 다를 수 있다.  두 domian에 대한 shift를 최소화 시키는 것이 목적domain adaptation으로 train(source)와 test(target)을 유사하게 학습할 수 있다.  source domain 데이터는 class label이 있다고 가정하고 target domain 데이터는 class label이 없어도 됨Task classifier는 label이 있어야 하고 Domain cl..

Deep learning 2024.07.02

Image Segmentation Using Deep Learning: A Survey

Abstractimage segmentation은 image processing과 computer vision에 주요 topic이다.ex) scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality  Introductionimage segmention는 많은 segment나 object로 image를 분할하는 것이다. 과거의 image segmentation approach1. thresholding2. histogram-based bundling3. region growing4. k-means clustering5. watersheds6. active contours7. grap..

survey 2024.06.24

1 stage detector 주요 model 정리

1. Overfeatclassification, localization and detection을 위해 convolutional network를 사용하는 integrated framework를 제시 - multi-scale input하나의 image를 다양한 크기로 입력받으면 image 내 존재하는 다양한 크기의 객체를 쉽게 포착하는 것이 가능하다.-> image scale이 커지면 더 작은 객체 탐지 가능   cnn model이 고정된 크기의 image를 입력받는 이유는 fc layer가 고정된 크기의 feature vector를 입력받기 때문-> fc layer를 conv layer로 대체해서 다양한 크기의 image 입력 받음 - Spatial outputs Non-spatial = 이미지 전체에 ..

model 정리 2024.06.13

M2Det: A Single-Shot Object Detector based on Multi-Level Feature PyramidNetwork

AbstractFeature pyramid는 object instance에 scale variation로부터 발생하는 문제를 완화하기 위해 sota one stage detector와 two stage detector에 이용됐다. feature pyramid를 가진 detector가 좋은 결과를 보였지만, 약간의 제한을 가졌다.-> Multi-Level feature pyramid network(MLFPN)을 제시 - MLFPN 방법1. 기존 feature인 backbone에서 추출된 multi-level feature를 융합2. alternating joint Thinned U-shape Module과 feature fusion module의 block에 base feature를 얻고, object를 ..

2 stage detector 주요 model 정리

1. R-CNN region을 사용한 recognition paradigm을 사용함으로써 cnn localization 문제를 해결 -  R-CNN 과정1. 약 2000개의 region proposal을 추출하기 위해서 test image에서 selective search2. 각 proposal을 왜곡하고 feature를 계산하기 위해서 cnn을 통해 region proposal을 forward propagate3. class에 대해 학습된 svm을 사용해서 추출된 feature vector에 점수를 매김4. image에서 모든 scored region을 고려했을 때, 학습된 threshold보다 더 높은 score인 region과 겹친다면 region을 제거하는 greedy non maximum sup..

1 stage vs 2 stage detector

1 stage Detectorregional proposal와 classification이 동시에 이루어진다.-> classification과 localization문제를 동시에 해결하는 방법   1-stage detector는 비교적 빠르지만 정확도가 낮다. 2 stage DetectorRegional Proposal과 Classification을 순차적으로 진행-> classification과 localization문제를 순차적으로 해결하는 방법 Region Proposal 기존에는 image에서 object detection을 위해 sliding window 방식을 이용 Sliding window 방식: 이미지에서 모든 영역을 다양한 크기의 window(differenct scale & ratio)..