SuperPOD – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 29 Jun 2023 07:20:43 +0000 zh-CN hourly 1 196178272 利用 MLAG 最大限度地提高 AI 以太網結構性能 http://www.open-lab.net/zh-cn/blog/maximizing-hpc-cluster-ethernet-fabric-performance-with-mlag/ Wed, 21 Jun 2023 07:17:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=7287 Continued]]> 對于專門為人工智能訓練而構建的 HPC 集群,例如 NVIDIA DGX BasePOD 和 NVIDIA DGX SuperPOD,微調集群對于提高和優化整體性能至關重要,包括調整以太網結構、存儲結構和計算結構的性能。 本文討論了如何最大限度地提高以太網結構的整體吞吐量,通過使用Multi-Chassis Link Aggregation(MLAG),可在NVIDIA Cumulus Linux上實現。MLAG 使兩個獨立的交換機能夠向下游主機通告相同的 LACP 系統 ID,因此,下游主機會認為它們連接到單個 LACP 伙伴。 使用 MLAG 的一個好處是物理交換機級冗余。如果兩個上行鏈路交換機中的任何一個發生故障,則下游主機流量將不會受到影響。第二個好處是聚合債券的上行鏈可以同時使用。最后, MLAG 技術使用諸如 VRR / VRRP 之類的技術提供網關級冗余。

Source

]]>
7287
使用 NVIDIA DGX SuperPOD 訓練最先進的 ImageNet-1K 視覺 Transformer 模型 http://www.open-lab.net/zh-cn/blog/training-a-state-of-the-art-imagenet-1k-visual-transformer-model-using-nvidia-dgx-superpod/ Wed, 25 May 2022 03:39:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4126 Continued]]> 最近的研究表明,在語義分割和目標檢測等計算機視覺任務中,大型 transformer 模型可以實現或提高 SOTA 。然而,與只能使用標準公共數據集的卷積網絡模型不同,它需要一個更大的專有數據集。 新加坡 SEA AI 實驗室最近的項目 VOLO ( Vision Outlooker )展示了一種高效且可擴展的 Vision transformer 模式體系結構,該體系結構僅使用 ImageNet-1K 數據集就大大縮小了差距。 VOLO 引入了一種新穎的 outlook attention ,并提出了一種簡單而通用的架構,稱為 Vision Outlooker 。與自我關注不同,自我關注側重于粗略級別的全局依賴關系建模, outlook 關注有效地將更精細級別的功能和上下文編碼為標記。這對識別性能極為有利,但在很大程度上被自我注意所忽視。 實驗表明,

Source

]]>
4126
人人超碰97caoporen国产