使用 NVIDIA DGX SuperPOD 訓練最先進的 ImageNet-1K 視覺 Transformer 模型

Wed, 25 May 2022 03:39:00 +0000

最近的研究表明，在語義分割和目標檢測等計算機視覺任務中，大型 transformer 模型可以實現或提高 SOTA 。然而，與只能使用標準公共數據集的卷積網絡模型不同，它需要一個更大的專有數據集。新加坡 SEA AI 實驗室最近的項目 VOLO （ Vision Outlooker ）展示了一種高效且可擴展的 Vision transformer 模式體系結構，該體系結構僅使用 ImageNet-1K 數據集就大大縮小了差距。 VOLO 引入了一種新穎的 outlook attention ，并提出了一種簡單而通用的架構，稱為 Vision Outlooker 。與自我關注不同，自我關注側重于粗略級別的全局依賴關系建模， outlook 關注有效地將更精細級別的功能和上下文編碼為標記。這對識別性能極為有利，但在很大程度上被自我注意所忽視。實驗表明，

Source

]]>

Terry Yin – NVIDIA 技術博客

使用 NVIDIA DGX SuperPOD 訓練最先進的 ImageNet-1K 視覺 Transformer 模型