Cumulus – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Oct 2023 04:51:47 +0000 zh-CN hourly 1 196178272 用于提升數據中心冗余的解決方案比較 http://www.open-lab.net/zh-cn/blog/comparing-solutions-for-boosting-data-center-redundancy/ Fri, 29 Sep 2023 04:48:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=7965 Continued]]> 在當今的數據中心,通過連接到網絡的服務器實現系統冗余的方法有很多。客戶通常會尋求冗余來提高服務可用性(例如實現端到端 AI 工作負載),并使用不同的多歸技術來提高系統效率。 在本文中,我們將討論知名的專有多機箱鏈路聚合組 (MLAG) 與基于標準的 EVPN 多歸站 (EVPN-MH) 相比的優缺點。 對于所有現代數據中心而言,多歸位都是必要的,這使得單個主機能夠連接到兩個或多個節點,并以全主動或單主動的方式提供服務。全主動側重于首先增加容量,其次是冗余。單主動主要側重于冗余。 在互聯網服務提供商領域,多域名 (Multihoming) 是一個常見的概念,主要用于接入點位置,即客戶設備與提供商邊緣設備位置互連。 此連接幾乎始終是第 3 層路由連接,不會帶來第 2 層世界的挑戰,因為它旨在解決冗余站點訪問或互聯網訪問。但是,在數據中心,

Source

]]>
7965
利用 MLAG 最大限度地提高 AI 以太網結構性能 http://www.open-lab.net/zh-cn/blog/maximizing-hpc-cluster-ethernet-fabric-performance-with-mlag/ Wed, 21 Jun 2023 07:17:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=7287 Continued]]> 對于專門為人工智能訓練而構建的 HPC 集群,例如 NVIDIA DGX BasePOD 和 NVIDIA DGX SuperPOD,微調集群對于提高和優化整體性能至關重要,包括調整以太網結構、存儲結構和計算結構的性能。 本文討論了如何最大限度地提高以太網結構的整體吞吐量,通過使用Multi-Chassis Link Aggregation(MLAG),可在NVIDIA Cumulus Linux上實現。MLAG 使兩個獨立的交換機能夠向下游主機通告相同的 LACP 系統 ID,因此,下游主機會認為它們連接到單個 LACP 伙伴。 使用 MLAG 的一個好處是物理交換機級冗余。如果兩個上行鏈路交換機中的任何一個發生故障,則下游主機流量將不會受到影響。第二個好處是聚合債券的上行鏈可以同時使用。最后, MLAG 技術使用諸如 VRR / VRRP 之類的技術提供網關級冗余。

Source

]]>
7287
使用 NVIDIA Spectrum-X 網絡平臺進行渦輪增壓生成 AI 工作負載 http://www.open-lab.net/zh-cn/blog/turbocharging-ai-workloads-with-nvidia-spectrum-x-networking-platform/ Mon, 29 May 2023 05:44:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=7104 Continued]]> 大型語言模型( LLM )和人工智能應用程序,如ChatGPT和 DALL-E 最近出現了快速增長。由于 GPU 、 CPU 、 DPU 、高速存儲和人工智能優化的軟件創新,人工智能現在可以廣泛使用。你甚至可以在云端或內部部署人工智能。 然而,人工智能應用程序可能會對網絡造成很大負擔,這種增長給 CPU 和 GPU 服務器以及連接這些系統的現有底層網絡基礎設施帶來了負擔。 傳統的以太網雖然足以處理主流和企業應用程序,如網絡、視頻或音頻流,但沒有經過優化以支持新一代人工智能工作負載。傳統以太網是松耦合應用、低帶寬流和高抖動的理想選擇。它可能足以滿足異構流量(如網絡、視頻或音頻流、文件傳輸和游戲),但在出現超額訂閱時并不理想 NVIDIA Spectrum-X 網絡平臺從頭開始設計,以滿足人工智能應用程序的性能需求,是一種針對高速網絡性能、

Source

]]>
7104
使用 NVIDIA Cumulus Linux 實現數據中心網絡自動化 http://www.open-lab.net/zh-cn/blog/automating-data-center-networks-with-nvidia-cumulus-linux/ Tue, 09 May 2023 02:38:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=6908 Continued]]> 隨著數據中心的發展和不斷增長,基本保持不變的簡單網絡時代已經一去不復返了。當時,當需要更改配置時,網絡管理員只需逐行按設備進行更改即可。 隨著數據中心從物理內部部署發展到數字化云基礎設施,傳統網絡也在發展。他們需要根據業務需求進行增長。這增加了網絡運營團隊管理、維護和不斷適應復雜而精確配置不斷變化的環境的負擔。 為了克服手動管理網絡運營帶來的限制,數據中心必須實現自動化,使其更加敏捷。 數據中心自動化釋放了人類的計算時間,但也有以下好處: EMA 關于Future of Data Center Network Automation聲明稱,技術組織相信數據中心網絡自動化可以提高運營效率、降低安全風險,并提高合規性和數字化靈活性。 NVIDIA Cumulus Linux通過在一種統一的語言 Linux 上進行標準化,提供了與任何標準自動化工具的完全集成。

Source

]]>
6908
使用 NVIDIA WJH 更快地診斷網絡問題 http://www.open-lab.net/zh-cn/blog/diagnosing-network-issues-faster-with-wjh/ Thu, 04 May 2023 03:49:59 +0000 http://www.open-lab.net/zh-cn/blog/?p=6936 Continued]]> 人工智能已經無縫地融入了我們的生活,并以幾年前我們甚至無法想象的方式改變了我們。在過去,對人工智能的感知是一種未來主義和復雜的東西。只有大公司在其擁有 HPC 技術的超級計算機上使用人工智能來預測天氣,并在醫療保健和科學領域取得突破性發現。 如今,由于 GPU 、 CPU 、高速存儲和人工智能優化的軟件創新,每個人都可以訪問人工智能。您甚至可以將人工智能作為服務( SaaS )或基礎設施( IaaS )部署在云中。 我們見證了人工智能在每個行業的廣泛應用:醫療保健和金融、自動駕駛汽車、廣告推薦,以及最近創建和編輯視頻、圖像和音樂等內容的生成人工智能。隨著最近推出的 ChatGPT-4 ,它使用大型語言模型( LLM )來理解、響應,甚至像人類一樣生成文本,思考我們可以實現的無限潛力是令人興奮的。 充分利用您的人工智能需要的不僅僅是昂貴的高端 GPU 和存儲系統。

Source

]]>
6936
找出應用程序和網絡的交叉點 http://www.open-lab.net/zh-cn/blog/finding-out-where-your-application-and-network-intersect/ Wed, 28 Sep 2022 07:05:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5337 Continued]]> 現代數據中心可以運行數千種服務和應用程序。當出現問題時,作為網絡管理員,您默認是有罪的。你必須每天證明自己的清白,因為很容易指責網絡。這是一個不公平的世界。 很難將應用程序性能問題與網絡關聯起來。您可以從使用簡單的 ping 或 traceroute 檢查基本連接開始,檢查基于 SNMP 的監視工具、嗅探器,甚至讀取設備計數器以查找丟棄。與此同時,用戶遭受應用程序速度慢、性能差甚至不可用的困擾。 不幸的是,所有這些經典的網絡故障排除方法都很耗時,不能保證成功,因為有時使用它們幾乎不可能查明問題。 為了方便網絡故障排除, NVIDIA 開發了 NetQ – 一個可擴展的現代網絡操作工具集,可實時提供網絡可見性。 NetQ 團隊最近推出了獨特的 flow analysis 工具,以進一步增強可見性。流分析允許網絡管理員立即將服務流量流與結構中的路徑關聯起來,

Source

]]>
5337
了解關鍵應用程序對時間敏感網絡的需求 http://www.open-lab.net/zh-cn/blog/understanding-the-need-for-time-sensitive-networking-for-critical-applications/ Thu, 21 Jul 2022 05:16:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4662 Continued]]> 在 10 Mbps 以太網的舊時代,早在 Time-Sensitive Networking 成為一種東西之前,最先進的共享網絡基本上要求數據包發生沖突。對于當時的原始技術來說,這是非常實用的……在計算上優于任何需要仔細管理訪問介質的解決方案。 在破壞了彼此的數據后,兩個相互競爭的電臺將等待(隨機地浪費更多的時間),然后再嘗試傳輸。這被認為是正常的,因為最小大小的幀是 64 字節( 512 位),并且合理估計該幀將消耗導線的時間是基于網絡速度(每秒 1000 萬位意味著每個位需要約 0.1 微秒),因此 512 位至少等于 51.2 微秒。 以太網技術已從 80 年代初的 10 Mbps 發展到今天的 400Gbps ,未來計劃為 800Gbps 和 1.6Tbps (圖 1 )。 應該清楚的是,希望你的網絡運行得更快是一個持續的趨勢!因此,

Source

]]>
4662
通過 NVIDIA NVUE 彌合 CLI 和自動化 IT 團隊之間的鴻溝 http://www.open-lab.net/zh-cn/blog/bridging-the-divide-between-cli-and-automation-it-teams-with-nvue/ Thu, 23 Jun 2022 04:59:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4429 Continued]]> 當網絡工程師第一次使用網絡設備時,他們會通過命令行界面( CLI )來完成。盡管 CLI 仍在廣泛使用,但網絡規模已達到新高,這使得 CLI 在管理和配置整個數據中心方面效率低下。就本機而言,隨著軟件行業向自動化發展,網絡也不例外。 網絡供應商都提供了不同的方法來自動化網絡,因為他們從傳統的 CLI 語法中分離出來。不幸的是,這個行業的新分支將網絡工程師和 IT 組織分為兩組:精通 CLI 的團隊和精通自動化的團隊。 這種分割產生了兩組問題。首先,精通 CLI 的團隊很難縮小自動化差距,從而限制了他們的增長速度。其次,尋找網絡自動化人才是一項挑戰,因為大多數開發人員不具備網絡技能,大多數網絡工程師也不具備自動化技能。 為了合并這兩個組并解決這兩個問題, NVIDIA 在 CLI 方法中引入了一種稱為 NVIDIA 用戶體驗( NVUE )的范式轉換。

Source

]]>
4429
使用最新版本的 NVIDIA NetQ 自動化網絡監控并減少停機時間 http://www.open-lab.net/zh-cn/blog/automate-network-monitoring-and-reduce-downtime-with-the-latest-release-of-nvidia-netq/ Wed, 01 Jun 2022 02:57:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4251 Continued]]> NVIDIA NetQ 是一種高度可擴展的現代網絡操作工具,為 NVIDIA Spectrum Ethernet 平臺提供可操作的可見性。它將高級遙測技術與用戶界面相結合,使網絡工作流程更易于故障排除和自動化,同時減少維護和停機時間。 我們最近發布了 NetQ 4.2.0 ,其中包括: 有關新功能和增強功能的更多信息,請參閱 NetQ 4.2.0 用戶指南 。 通過 NetQ 4.2 ,我們簡化了通過接口傳遞網絡事件的方式。事件的嚴重性各不相同。一些事件是網絡警報,可能需要進一步調查,而其他事件是信息性通知,可能不需要干預。在此版本之前, NetQ 將報警和信息事件顯示為兩個單獨的卡。 NetQ 4.2 版本將兩個卡合并為一個卡,擴展后,該卡將顯示一個儀表板,以幫助您快速可視化所有網絡事件。 儀表板顯示事件的時間線,以及導致大多數事件的開關。

Source

]]>
4251
從 Onyx 遷移到 NVIDIA Cumulus Linux http://www.open-lab.net/zh-cn/blog/migrating-from-onyx-to-nvidia-cumulus-linux/ Mon, 09 May 2022 09:07:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3930 Continued]]> 數據中心組織正在尋找能夠以可擴展的方式進行管理、監控和部署的更高效、現代化的網絡體系結構。新興的 DevOps 和 NetDevOps 運營模型將持續集成和持續開發( CI / CD )的敏捷開發模型引入數據中心基礎設施。 Cumulus Linux 操作系統是從頭開始構建的,旨在優化操作效率,從而實現數據中心操作的 DevOps 方法。 這種以 DevOps 為中心的方法意味著可以在 NVIDIA Air 平臺 上托管的數字孿生模型中模擬完整的數據中心網絡。使用數字雙胞胎進行驗證和自動化可以提高安全性、可靠性和生產率。 NVIDIA 建議遷移到 Cumulus Linux 的最新版本(即 2022 年 4 月的 5.x 版本)。 在開始從 Onyx 到 Cumulus Linux 的遷移之前,請確保您與 NVIDIA 簽訂了有效的支持合同。 首先,

Source

]]>
3930
人人超碰97caoporen国产