Cumulus – NVIDIA 技術博客

用于提升數據中心冗余的解決方案比較

Fri, 29 Sep 2023 04:48:43 +0000

在當今的數據中心，通過連接到網絡的服務器實現系統冗余的方法有很多。客戶通常會尋求冗余來提高服務可用性(例如實現端到端 AI 工作負載)，并使用不同的多歸技術來提高系統效率。在本文中，我們將討論知名的專有多機箱鏈路聚合組 (MLAG) 與基于標準的 EVPN 多歸站 (EVPN-MH) 相比的優缺點。對于所有現代數據中心而言，多歸位都是必要的，這使得單個主機能夠連接到兩個或多個節點，并以全主動或單主動的方式提供服務。全主動側重于首先增加容量，其次是冗余。單主動主要側重于冗余。在互聯網服務提供商領域，多域名 (Multihoming) 是一個常見的概念，主要用于接入點位置，即客戶設備與提供商邊緣設備位置互連。此連接幾乎始終是第 3 層路由連接，不會帶來第 2 層世界的挑戰，因為它旨在解決冗余站點訪問或互聯網訪問。但是，在數據中心，

Source

]]>

利用 MLAG 最大限度地提高 AI 以太網結構性能

Wed, 21 Jun 2023 07:17:18 +0000

對于專門為人工智能訓練而構建的 HPC 集群，例如 NVIDIA DGX BasePOD 和 NVIDIA DGX SuperPOD，微調集群對于提高和優化整體性能至關重要，包括調整以太網結構、存儲結構和計算結構的性能。本文討論了如何最大限度地提高以太網結構的整體吞吐量，通過使用Multi-Chassis Link Aggregation（MLAG），可在NVIDIA Cumulus Linux上實現。MLAG 使兩個獨立的交換機能夠向下游主機通告相同的 LACP 系統 ID，因此，下游主機會認為它們連接到單個 LACP 伙伴。使用 MLAG 的一個好處是物理交換機級冗余。如果兩個上行鏈路交換機中的任何一個發生故障，則下游主機流量將不會受到影響。第二個好處是聚合債券的上行鏈可以同時使用。最后， MLAG 技術使用諸如 VRR / VRRP 之類的技術提供網關級冗余。

Source

]]>

使用 NVIDIA Spectrum-X 網絡平臺進行渦輪增壓生成 AI 工作負載

Mon, 29 May 2023 05:44:44 +0000

大型語言模型（ LLM ）和人工智能應用程序，如ChatGPT和 DALL-E 最近出現了快速增長。由于 GPU 、 CPU 、 DPU 、高速存儲和人工智能優化的軟件創新，人工智能現在可以廣泛使用。你甚至可以在云端或內部部署人工智能。然而，人工智能應用程序可能會對網絡造成很大負擔，這種增長給 CPU 和 GPU 服務器以及連接這些系統的現有底層網絡基礎設施帶來了負擔。傳統的以太網雖然足以處理主流和企業應用程序，如網絡、視頻或音頻流，但沒有經過優化以支持新一代人工智能工作負載。傳統以太網是松耦合應用、低帶寬流和高抖動的理想選擇。它可能足以滿足異構流量（如網絡、視頻或音頻流、文件傳輸和游戲），但在出現超額訂閱時并不理想 NVIDIA Spectrum-X 網絡平臺從頭開始設計，以滿足人工智能應用程序的性能需求，是一種針對高速網絡性能、

Source

]]>

使用 NVIDIA Cumulus Linux 實現數據中心網絡自動化

Tue, 09 May 2023 02:38:15 +0000

隨著數據中心的發展和不斷增長，基本保持不變的簡單網絡時代已經一去不復返了。當時，當需要更改配置時，網絡管理員只需逐行按設備進行更改即可。隨著數據中心從物理內部部署發展到數字化云基礎設施，傳統網絡也在發展。他們需要根據業務需求進行增長。這增加了網絡運營團隊管理、維護和不斷適應復雜而精確配置不斷變化的環境的負擔。為了克服手動管理網絡運營帶來的限制，數據中心必須實現自動化，使其更加敏捷。數據中心自動化釋放了人類的計算時間，但也有以下好處： EMA 關于Future of Data Center Network Automation聲明稱，技術組織相信數據中心網絡自動化可以提高運營效率、降低安全風險，并提高合規性和數字化靈活性。 NVIDIA Cumulus Linux通過在一種統一的語言 Linux 上進行標準化，提供了與任何標準自動化工具的完全集成。

Source

]]>

使用 NVIDIA WJH 更快地診斷網絡問題

Thu, 04 May 2023 03:49:59 +0000

人工智能已經無縫地融入了我們的生活，并以幾年前我們甚至無法想象的方式改變了我們。在過去，對人工智能的感知是一種未來主義和復雜的東西。只有大公司在其擁有 HPC 技術的超級計算機上使用人工智能來預測天氣，并在醫療保健和科學領域取得突破性發現。如今，由于 GPU 、 CPU 、高速存儲和人工智能優化的軟件創新，每個人都可以訪問人工智能。您甚至可以將人工智能作為服務（ SaaS ）或基礎設施（ IaaS ）部署在云中。我們見證了人工智能在每個行業的廣泛應用：醫療保健和金融、自動駕駛汽車、廣告推薦，以及最近創建和編輯視頻、圖像和音樂等內容的生成人工智能。隨著最近推出的 ChatGPT-4 ，它使用大型語言模型（ LLM ）來理解、響應，甚至像人類一樣生成文本，思考我們可以實現的無限潛力是令人興奮的。充分利用您的人工智能需要的不僅僅是昂貴的高端 GPU 和存儲系統。

Source

]]>

找出應用程序和網絡的交叉點

Wed, 28 Sep 2022 07:05:00 +0000

現代數據中心可以運行數千種服務和應用程序。當出現問題時，作為網絡管理員，您默認是有罪的。你必須每天證明自己的清白，因為很容易指責網絡。這是一個不公平的世界。很難將應用程序性能問題與網絡關聯起來。您可以從使用簡單的 ping 或 traceroute 檢查基本連接開始，檢查基于 SNMP 的監視工具、嗅探器，甚至讀取設備計數器以查找丟棄。與此同時，用戶遭受應用程序速度慢、性能差甚至不可用的困擾。不幸的是，所有這些經典的網絡故障排除方法都很耗時，不能保證成功，因為有時使用它們幾乎不可能查明問題。為了方便網絡故障排除， NVIDIA 開發了 NetQ – 一個可擴展的現代網絡操作工具集，可實時提供網絡可見性。 NetQ 團隊最近推出了獨特的 flow analysis 工具，以進一步增強可見性。流分析允許網絡管理員立即將服務流量流與結構中的路徑關聯起來，

Source

]]>

了解關鍵應用程序對時間敏感網絡的需求

Thu, 21 Jul 2022 05:16:00 +0000

在 10 Mbps 以太網的舊時代，早在 Time-Sensitive Networking 成為一種東西之前，最先進的共享網絡基本上要求數據包發生沖突。對于當時的原始技術來說，這是非常實用的……在計算上優于任何需要仔細管理訪問介質的解決方案。在破壞了彼此的數據后，兩個相互競爭的電臺將等待（隨機地浪費更多的時間），然后再嘗試傳輸。這被認為是正常的，因為最小大小的幀是 64 字節（ 512 位），并且合理估計該幀將消耗導線的時間是基于網絡速度（每秒 1000 萬位意味著每個位需要約 0.1 微秒），因此 512 位至少等于 51.2 微秒。以太網技術已從 80 年代初的 10 Mbps 發展到今天的 400Gbps ，未來計劃為 800Gbps 和 1.6Tbps （圖 1 ）。應該清楚的是，希望你的網絡運行得更快是一個持續的趨勢！因此，

Source

]]>

通過 NVIDIA NVUE 彌合 CLI 和自動化 IT 團隊之間的鴻溝

Thu, 23 Jun 2022 04:59:00 +0000

當網絡工程師第一次使用網絡設備時，他們會通過命令行界面（ CLI ）來完成。盡管 CLI 仍在廣泛使用，但網絡規模已達到新高，這使得 CLI 在管理和配置整個數據中心方面效率低下。就本機而言，隨著軟件行業向自動化發展，網絡也不例外。網絡供應商都提供了不同的方法來自動化網絡，因為他們從傳統的 CLI 語法中分離出來。不幸的是，這個行業的新分支將網絡工程師和 IT 組織分為兩組：精通 CLI 的團隊和精通自動化的團隊。這種分割產生了兩組問題。首先，精通 CLI 的團隊很難縮小自動化差距，從而限制了他們的增長速度。其次，尋找網絡自動化人才是一項挑戰，因為大多數開發人員不具備網絡技能，大多數網絡工程師也不具備自動化技能。為了合并這兩個組并解決這兩個問題， NVIDIA 在 CLI 方法中引入了一種稱為 NVIDIA 用戶體驗（ NVUE ）的范式轉換。

Source

]]>

使用最新版本的 NVIDIA NetQ 自動化網絡監控并減少停機時間

Wed, 01 Jun 2022 02:57:00 +0000

NVIDIA NetQ 是一種高度可擴展的現代網絡操作工具，為 NVIDIA Spectrum Ethernet 平臺提供可操作的可見性。它將高級遙測技術與用戶界面相結合，使網絡工作流程更易于故障排除和自動化，同時減少維護和停機時間。我們最近發布了 NetQ 4.2.0 ，其中包括：有關新功能和增強功能的更多信息，請參閱 NetQ 4.2.0 用戶指南。通過 NetQ 4.2 ，我們簡化了通過接口傳遞網絡事件的方式。事件的嚴重性各不相同。一些事件是網絡警報，可能需要進一步調查，而其他事件是信息性通知，可能不需要干預。在此版本之前， NetQ 將報警和信息事件顯示為兩個單獨的卡。 NetQ 4.2 版本將兩個卡合并為一個卡，擴展后，該卡將顯示一個儀表板，以幫助您快速可視化所有網絡事件。儀表板顯示事件的時間線，以及導致大多數事件的開關。

Source

]]>

從 Onyx 遷移到 NVIDIA Cumulus Linux

Mon, 09 May 2022 09:07:00 +0000

數據中心組織正在尋找能夠以可擴展的方式進行管理、監控和部署的更高效、現代化的網絡體系結構。新興的 DevOps 和 NetDevOps 運營模型將持續集成和持續開發（ CI / CD ）的敏捷開發模型引入數據中心基礎設施。 Cumulus Linux 操作系統是從頭開始構建的，旨在優化操作效率，從而實現數據中心操作的 DevOps 方法。這種以 DevOps 為中心的方法意味著可以在 NVIDIA Air 平臺上托管的數字孿生模型中模擬完整的數據中心網絡。使用數字雙胞胎進行驗證和自動化可以提高安全性、可靠性和生產率。 NVIDIA 建議遷移到 Cumulus Linux 的最新版本（即 2022 年 4 月的 5.x 版本）。在開始從 Onyx 到 Cumulus Linux 的遷移之前，請確保您與 NVIDIA 簽訂了有效的支持合同。首先，

Source

]]>