硬件/半導體 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 18 Feb 2025 06:14:45 +0000 zh-CN hourly 1 196178272 適用于數據科學的 GPU 加速入門 http://www.open-lab.net/zh-cn/blog/get-started-with-gpu-acceleration-for-data-science/ Thu, 06 Feb 2025 04:11:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=12857 Continued]]> 在數據科學領域,運營效率是處理日益復雜和大型數據集的關鍵。GPU 加速已成為現代工作流程的關鍵,可顯著提高性能。 RAPIDS 是由 NVIDIA 開發的一套開源庫和框架,旨在使用 GPU 以盡可能減少代碼更改來加速數據科學流程。RAPIDS 提供用于數據操作的 cuDF 、用于機器學習的 cuML 和用于圖形分析的 cuGraph 等工具,可實現與現有 Python 庫的無縫集成,使數據科學家更容易實現更快、更高效的處理。 本文分享了從 CPU 數據科學庫過渡到 GPU 加速工作流程的技巧,特別適合經驗豐富的數據科學家。 開始使用 RAPIDS 非常簡單,但它確實有幾個依賴項。推薦的方法是遵循官方的 RAPIDS 安裝指南 ,該指南提供了詳細的本地安裝說明。您有多種安裝框架的路徑:通過 pip install、Docker 鏡像,或通過 Conda 等環境。

Source

]]>
12857
NVIDIA Spectrum-X 網絡平臺和合作伙伴提升 AI 存儲性能達48% http://www.open-lab.net/zh-cn/blog/accelerating-ai-storage-by-up-to-48-with-nvidia-spectrum-x-networking-platform-and-partners/ Tue, 04 Feb 2025 06:56:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=12761 Continued]]> AI 工廠依靠的不僅僅是計算網。當然,連接 GPU 的東西向網絡對于 AI 應用的性能至關重要,而連接高速存儲陣列的存儲網也不容忽視。存儲性能在運行 AI 業務過程中的多個階段中發揮著關鍵作用, 包括訓練過程中的Checkpoint操作、 推理過程中的檢索增強生成 (RAG) 等。 為了滿足這些需求,NVIDIA 和存儲生態合作伙伴正在將 NVIDIA Spectrum-X 網絡平臺 擴展到數據存儲網,從而帶來更高的性能和更快的實現AI的時間。由于 Spectrum-X 動態路由技術能夠緩解網絡中的流量沖突并增加有效帶寬,從而使存儲性能遠高于 RoCE v2,RoCE v2是大多數數據中心用于 AI 計算網和存儲網的以太網網絡協議。 Spectrum-X 將讀取帶寬加速了高達 48%,寫入帶寬加速了高達 41%。帶寬的增加可以更快地完成 AI 工作流中與存儲相關的操作,

Source

]]>
12761
為 NVIDIA Blackwell GeForce RTX 50 系列 GPU 發布全新 AI SDK 和工具 http://www.open-lab.net/zh-cn/blog/new-ai-sdks-and-tools-released-for-nvidia-blackwell-geforce-rtx-50-series-gpus/ Thu, 30 Jan 2025 05:23:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12907 Continued]]> NVIDIA 最近宣布推出 新一代 PC GPU – GeForce RTX 50 系列 ,以及面向開發者的全新 AI 賦能 SDK 和工具。GeForce RTX 50 系列由 NVIDIA Blackwell 架構 、第五代 Tensor Cores 和第四代 RT Cores 提供動力支持,在神經著色器、數字人技術、幾何圖形和照明等 AI 驅動渲染方面實現了突破。 今天,NVIDIA 發布了第一波適用于 GeForce RTX 50 Series GPUs 的 SDK。作為開發者,您可以開始將這些更新集成到您的應用中,以確保與 NVIDIA Blackwell RTX GPUs 的軟件兼容性和最佳性能,并展示 GeForce RTX 50 Series GPUs 的新功能。 本文詳細介紹了新的和更新的 SDK,這些 SDK 可助力開發者充分利用 NVIDIA…

Source

]]>
12907
NVIDIA Air 簡要介紹 http://www.open-lab.net/zh-cn/blog/an-introduction-to-nvidia-air/ Thu, 12 Dec 2024 09:14:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=12325 Continued]]> AI 的出現帶來了一種新型數據中心,即 AI 工廠 ,專門用于處理 AI 工作負載。AI 工作負載的范圍和規模可能會有很大差異,但在每種情況下,網絡都是確保高性能和更快實現價值的關鍵。 為縮短 AI 部署時間并提高投資回報率, NVIDIA Air 助力企業組織構建網絡基礎設施的數字孿生。在基于云的 NVIDIA Air 界面中,您可以對 AI 工廠中的每個交換機、適配器和電纜進行建模。 此數字孿生提供了一個虛擬環境,用于測試和驗證網絡調配、自動化、安全策略等。網絡管理員可以在單個硬件交付之前開始執行這些第 0 天操作。 NVIDIA Air 專門面向模擬真實的數據中心環境。它提供了執行此類壯舉所需的巨大速度、資源和網絡功能。您可以在幾秒鐘內啟動新服務器,幾分鐘內即可啟動數十甚至數百臺。 它還提供了多種版本的不同網絡操作系統,可安裝在您的交換機上,

Source

]]>
12325
探索采用自主 AI 和 NVIDIA 機密計算的超級協議案例 http://www.open-lab.net/zh-cn/blog/exploring-the-case-of-super-protocol-with-self-sovereign-ai-and-nvidia-confidential-computing/ Thu, 14 Nov 2024 07:06:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=12032 Continued]]> 機密和自主的 AI 是一種新的 AI 開發、訓練和推理方法,其中用戶的數據是去中心化的、私有的,并由用戶自己控制。本文將探討如何通過使用區塊鏈技術的去中心化來擴展 Confidential Computing(CC)的功能。 通過使用個人 AI 智能體,可以非常清楚地看到所解決的問題。這些服務可幫助用戶完成許多任務,包括撰寫電子郵件、準備報稅和查看醫療記錄。毋庸置疑,所處理的數據是敏感的個人數據。 在集中式系統中,這些數據由人工智能服務提供商在云中處理,通常不透明。當用戶的數據離開設備時,他們將失去對自己數據的控制,而這些數據可能會被用于訓練、泄露、出售或以其他方式被誤用。屆時無法追蹤個人數據。 這種信任問題阻礙了 AI 行業發展的某些特定方面,尤其是對于尚未獲得聲譽或證據來支持其真實意圖的初創公司和 AI 開發者而言。

Source

]]>
12032
在 SONiC 中通過安全啟動保護您的網絡 http://www.open-lab.net/zh-cn/blog/protect-your-network-with-secure-boot-in-sonic/ Tue, 29 Oct 2024 05:18:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=11772 Continued]]> NVIDIA 技術可幫助組織構建和維護安全、可擴展和高性能的網絡基礎設施。以 NVIDIA 為前沿的人工智能技術的進步每天都在推動安全方面的進步。NVIDIA 采取更直接的方法之一是通過安全的網絡操作系統(NOS)。 安全網絡操作系統(NOS)是一種專門類型的 NOS,專注于強大的安全功能,以保護網絡基礎設施免受各種威脅。 不同的系統 提供各種安全功能。有些系統提供內置防火墻、VPN 或監控工具。有些系統提供高級威脅檢測和響應功能。有些系統在啟動級別提供強化的安全性,甚至在操作系統加載之前就能防止攻擊。其中一項功能稱為 Secure Boot。 越來越多的 NVIDIA 平臺支持安全標準 Secure Boot。Secure Boot 是一項安全 UEFI(統一可擴展固件接口)功能,旨在防止在啟動過程和固件更新期間運行未經授權的固件或軟件。

Source

]]>
11772
利用 NVIDIA SHARP 網絡計算提升系統性能 http://www.open-lab.net/zh-cn/blog/advancing-performance-with-nvidia-sharp-in-network-computing/ Fri, 25 Oct 2024 06:13:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=11791 Continued]]> AI 和科學計算應用是分布式計算問題的絕佳示例。這些問題太大了,計算太密集,無法在單臺機器上運行。這些計算被分解為并行任務,這些任務分布在數千個計算引擎中,如 CPU 和 GPU。 為了實現可擴展的性能,該系統依賴于在多個節點上劃分工作負載,如訓練數據、模型參數或兩者。然后,這些節點必須頻繁交換信息,例如模型訓練中反向傳播期間新處理的模型計算的梯度,需要高效的集合通信,如 all-reduce、broadcast 以及 gather 和 scatter 操作。 這些集合通信模式可確保整個分布式系統中模型參數的同步和收斂。這些操作的效率對于最大限度地減少通信開銷和最大限度地提高并行計算至關重要,因為優化不佳的集合通信可能會導致瓶頸,限制可擴展性。 瓶頸源于以下幾個因素: 克服這一瓶頸需要改進網絡技術(例如 InfiniBand 或 RDMA)和算法優化(例如分層 all…

Source

]]>
11791
構建 AI 智能體以自動創建軟件測試案例 http://www.open-lab.net/zh-cn/blog/building-ai-agents-to-automate-software-test-case-creation/ Thu, 24 Oct 2024 05:04:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=11688 Continued]]> 在軟件開發中,測試對于確保最終產品的質量和可靠性至關重要。然而,創建測試計劃和規范可能耗時且需要大量人力,尤其是在復雜系統中管理多種需求和不同測試類型時。許多此類任務通常由測試工程師手動執行。 為了簡化這一過程, NVIDIA 的 DriveOS 團隊開發了 Hephaestus(HEPH),這是一個用于自動測試生成的 內部生成式 AI 框架。HEPH 可自動執行各種測試的設計和實施,包括集成測試和單元測試。它使用 大語言模型 (LLMs)進行輸入分析和代碼生成,顯著減少了創建測試用例所花費的時間。通過根據輸入文檔、代碼樣本和反饋循環生成上下文感知測試,HEPH 使測試更快、更高效。 本文概述了如何構建智能體框架以生成各種類型的軟件測試。該文介紹了如何使用大型語言模型(LLM)智能體確保文檔的可溯性,以及如何根據軟件要求創建可執行測試。

Source

]]>
11688
NVIDIA Grace CPU 實現全球頂級數據中心性能和突破性能效優勢 http://www.open-lab.net/zh-cn/blog/nvidia-grace-cpu-delivers-world-class-data-center-performance-and-breakthrough-energy-efficiency/ Wed, 09 Oct 2024 05:11:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=11758 Continued]]> NVIDIA 將 NVIDIA Grace CPU 設計為一種新型高性能數據中心 CPU,旨在提供突破性的 能效 ,并針對數據中心規模的性能進行了優化。 與傳統 CPU 計算相比,加速計算在性能和能效方面實現了巨大的飛躍。為了實現這些加速,需要數據中心規模的全棧創新,涵蓋芯片、系統、軟件和算法。為適合的工作負載選擇合適的架構并提供出色的節能性能對于最大限度地提高數據中心的性能和最小化占用空間至關重要。 隨著工作負載的加速程度不斷提高,目前仍有一些用例主要在傳統 CPU 上運行,尤其是圖形分析等稀疏和“分支”序列化任務的代碼。與此同時,數據中心受到越來越多的電力限制,限制了其能力的增長。這意味著所有可以加速的工作負載都應該加速。那些無法加速的工作負載必須在盡可能高效的計算上運行,而 CPU 必須針對這些工作負載進行優化。

Source

]]>
11758
在電路設計中使用生成式 AI 模型 http://www.open-lab.net/zh-cn/blog/using-generative-ai-models-in-circuit-design/ Fri, 06 Sep 2024 09:07:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=11314 Continued]]> 從智能文本生成大語言模型(LLMs)到創意圖像和視頻生成模型,生成式模型在過去幾年中掀起了巨大的浪潮。在 NVIDIA,我們正在探索使用生成式 AI 模型來加速電路設計流程,并提供更好的設計,以滿足對計算能力不斷增長的需求。 電路設計是一個具有挑戰性的優化問題。設計師通常需要平衡功率和面積等多個相互沖突的目標,并滿足特定時間等約束條件。設計空間通常是組合的,因此很難找到最優設計。之前對前綴電路設計的研究使用手工制作的啟發式和強化學習來探索廣闊的設計空間。有關更多詳細信息,請參閱《Towards Optimal Performance-Area Trade-Off in Adders by Synthesis of Parallel Prefix Structures and Cross-Layer Optimization for High Speed Adders: A…

Source

]]>
11314
NVIDIA Blackwell 平臺在 MLPerf Inference v4.1 中創下新的 LLM 推理記錄 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/ Wed, 28 Aug 2024 07:05:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=11091 Continued]]> 大型語言模型 (LLM) 推理是一項全棧挑戰。實現高吞吐量、低延遲推理需要強大的 GPU、高帶寬 GPU 之間的互連、高效的加速庫和高度優化的推理引擎。 MLPerf Inference v4.1 是廣受認可的熱門 MLPerf Inference 基準測試的最新版本,由 MLCommons 聯盟開發。該基準測試包括許多熱門 AI 模型,涵蓋從 LLM 和生成式 AI 到推薦系統和計算機視覺的各種用例。這些基準測試會定期更新,以確保市場相關性。 在這一輪中,NVIDIA 憑借整個 NVIDIA 技術堆棧的創新提交了許多出色的結果。亮點包括: 本文將對這些結果進行詳細介紹。 NVIDIA Blackwell 架構在 NVIDIA GTC 2024 上推出,是一種新型 AI 超級芯片。它由 2080 億個晶體管精心制作而成,并采用專為 NVIDIA 定制的 TSMC…

Source

]]>
11091
NVIDIA Spectrum-X 加速大規模 AI 工作負載優化 http://www.open-lab.net/zh-cn/blog/optimize-large-scale-ai-workloads-with-nvidia-spectrum-x/ Tue, 27 Aug 2024 07:34:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=11104 Continued]]> 在當今迅速發展的技術格局中,保持領先地位不僅僅是一個目標——這是一個必要條件。創新浪潮,尤其是 AI 領域的創新,正在推動整個技術堆棧的巨大變革。 見證深刻變革的一個領域是以太網(Ethernet)網絡,這是數字通信的基石,數十年來一直是企業和數據中心環境的基礎。 如今,每個數據中心都在加速,以支持現代 AI 工作負載,從而增加了對支持這些工作負載的基礎設施的需求。許多企業已經非常熟悉 Ethernet,將其作為可信網絡標準。然而,他們缺乏一種解決方案來充分支持使用 Ethernet 協議的 AI 工作負載的特性。 NVIDIA 的創新愿望通常是出于對理解和響應客戶不斷變化的需求的深刻承諾,確保我們的解決方案不僅滿足而且可以預測并超過預期。 進入 NVIDIA Spectrum-X 時代,NVIDIA Spectrum-X 是全球首款高性能以太網結構,

Source

]]>
11104
NVIDIA NVLink 和 NVIDIA NVSwitch 加速大語言模型推理性能 http://www.open-lab.net/zh-cn/blog/nvidia-nvlink-and-nvidia-nvswitch-supercharge-large-language-model-inference/ Mon, 12 Aug 2024 07:03:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=10993 Continued]]> 大型語言模型(LLM)越來越大,增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求,并為盡可能多的用戶提供服務,多GPU計算是必不可少的。這不僅能夠降低延遲,提高用戶體驗,還能夠提高吞吐量,降低服務成本。兩者同時重要。 即使大型模型可以裝入單個state-of-the-art GPU的內存中,該GPU生成令牌的速率也取決于可用于處理請求的總計算量。通過結合多個state-of-the-art GPU的計算能力,可以實現最新模型的實時用戶體驗。 為了解對每秒高令牌的需求,以下 GIF 展示了兩種情況: 通過使用多個 GPU 的組合計算性能和張量并行 (TP) 等技術來運行大型模型,可以快速處理推理請求,從而實現實時響應。通過精心選擇用于運行模型的 GPU 數量,云推理服務還可以同時優化用戶體驗和成本。

Source

]]>
10993
新一代的 FlashAttention http://www.open-lab.net/zh-cn/blog/next-generation-of-flashattention/ Thu, 11 Jul 2024 05:53:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=10670 Continued]]> NVIDIA 很高興能與 Colfax、Together.ai、Meta 和普林斯頓大學合作,利用 Hopper GPU 架構和 Tensor Core,加速關鍵的融合注意力內核,使用 CUTLASS 3。 FlashAttention-3 采用關鍵技術,相比使用 FP16 的 FlashAttention-2,性能提升 1.5–2.0 倍,最高可達 740 TFLOPS。另外,在使用 FP8 時,FlashAttention-3 可達到高達 1.2 PFLOPS,且誤差比基準 FP8 注意力小 2.6 倍。 CUTLASS 是一個開源 CUDA 庫,旨在支持深度學習和 HPC 從業者在 NVIDIA Tensor Core GPU 上實現高速性能,涵蓋自定義算法和研究、生產工作負載等多種場景。 有關協作的更多信息,請參閱 FlashAttention-3:

Source

]]>
10670
在 NVIDIA Air 上探索 SONiC http://www.open-lab.net/zh-cn/blog/exploring-sonic-on-nvidia-air/ Mon, 24 Jun 2024 05:45:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=10438 Continued]]> 測試網絡基礎設施和為新環境構建可工作的 PoC,往好了說可能很棘手,往壞了說可能非常可怕。你可能會遇到無法滿足的許可要求,或者為高級虛擬機軟件支付昂貴的費用。專有網絡系統可能花費數百或數千美元,只是為了建立一個可供使用的測試環境。你甚至可能會被迫在物理、可能過時的硬件上進行測試,你必須自己連接,如果你需要用更多的硬件進行測試,你必須找到并購買更多。 進入SONiC(云中開放網絡軟件),這是一個免費的、社區開發的、基于 Linux 的網絡操作系統(NOS),它在一些最大的云服務提供商的數據中心得到了加強 SONiC 是尋求低成本、可擴展和完全可控的 NOS 而又不犧牲靈活性或安全性的中心的理想選擇,它提供了開發人員所需的所有標準網絡功能,并隨著新功能和更新不斷發展。 Community SONiC 是開源的,與專有的 NOS 相比,它消除了許可和供應商鎖定墻,并顯著降低了成本,

Source

]]>
10438
人人超碰97caoporen国产