Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet | 全面超越ResNet

與以前ViT、Detr、Deit等不一樣之處在於:本文針對ViT的特徵多樣性、結構化設計等進行了更深刻的思考,提出了一種新穎的Tokens-to-Token機制,用於同時建模圖像的局部結構信息與全局相關性,同時還借鑑了CNN架構設計思想引導ViT的骨幹設計。最終,僅僅依賴於ImageNet數據,而無需JFT-300M預訓練,所提方案便可取得全面超越ResNet的性能,且參數量與計算量顯著下降;與此
相關文章
相關標籤/搜索