Abstractnatural language task에서 transformer model로부터 놀라운 결과로 computer vision에 적용하는 연구에 흥미가 생겼다.중요한 장점 중에서, transformer는 input sequence 요소 간에 long dependency를 modeling하는 것이고, recurrent network와 비교해서 sequence의 병렬 처리를 도와준다.convolutional network와 달리, Transformer는 최소의 inductive bias를 필요로 한다.transformer의 간단한 design은 multiple modality를 처리하고, 큰 capacity network와 큰 dataset에 대한 훌륭한 확장성을 입증했다. Introducti..