Dave Salvator – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 21 Mar 2025 08:38:53 +0000
zh-CN
hourly
1
196178272 -
AI 推理時代的 NVIDIA Blackwell Ultra
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-ultra-for-the-era-of-ai-reasoning/
Wed, 19 Mar 2025 08:34:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=13254
Continued]]>
多年來,AI 的進步一直通過預訓練擴展遵循清晰的軌跡:更大的模型、更多的數據和更豐富的計算資源帶來了突破性的功能。在過去 5 年中,預訓練擴展使計算需求以驚人的速度增加了 50M 倍。但是,構建更智能的系統不再只是預訓練更大的模型。相反,它是關于改進它們并讓它們思考。 通過將 AI 模型優化為專門任務,后訓練擴展可改進模型,以提供更多對話式響應。使用特定領域的合成數據調整模型,可增強其理解細微上下文并提供準確輸出的能力。合成數據生成作為訓練模型的可用內容沒有上限,這意味著在后訓練擴展中需要大量計算資源。 現在,一種增強智能的新 縮放定律 已經出現:測試時縮放(test-time scaling)。 測試時擴展也稱為 長思考 ,可在 AI 推理過程中動態增加計算量,從而實現更深入的推理。AI 推理模型不僅能一次性生成答案,還能積極思考、權衡多種可能性,并實時優化答案。
Source
]]>
13254
-
借助 NVIDIA H100 Tensor Core GPU 和 NVIDIA TensorRT-LLM 實現出色的推理性能
http://www.open-lab.net/zh-cn/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/
Wed, 13 Dec 2023 07:00:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=8494
Continued]]>
出色的 AI 性能需要高效的并行計算架構、高效的工具堆棧和深度優化的算法。NVIDIA 發布了 NVIDIA TensorRT-LLM,它包括專為 NVIDIA RTX GPU 設計的優化,以及針對 NVIDIA Hopper 架構 的優化,這些架構是 NVIDIA H100 Tensor Core GPU 的核心,位于 NVIDIA Omniverse 中。這些優化使得如 Lama 2 70B 等模型能夠在 H100 GPU 上利用加速的 FP8 運算進行執行,同時保持推理準確性。 在最近的一次發布活動中,AMD 談到了 H100 GPU 與其 MI300X 芯片相比的推理性能。分享的結果沒有使用經過優化的軟件,如果基準測試正確,H100 的速度會提高 2 倍。 以下是在 Llama 2 70B 模型上搭載 8 個 NVIDIA H100 GPU 的單個 NVIDIA…
Source
]]>
8494
-
新的 NVIDIA NeMo 框架功能和 NVIDIA H200 強效助力 LLM 訓練性能和通用性
http://www.open-lab.net/zh-cn/blog/new-nvidia-nemo-framework-features-and-nvidia-h200-supercharge-llm-training-performance-and-versatility/
Mon, 04 Dec 2023 05:37:31 +0000
http://www.open-lab.net/zh-cn/blog/?p=8419
Continued]]>
AI 在規模、復雜性和多樣性方面的快速增長推動了對 大型語言模型 (LLM) 訓練性能的不斷需求。要提供出色的性能,需要能夠在整個數據中心規模上高效地訓練模型。這是通過技術堆棧的每一層 — 包括芯片、系統和軟件 — 的卓越工藝來實現的。 我們的 NVIDIA NeMo 框架 是一個端到端的云原生框架,旨在構建、自定義和部署生成式 AI 模型。它整合了一系列先進的并行技術,以實現大規模 LLM 的高效訓練。 實際上,NeMo 支持 NVIDIA 最近在 MLPerf 訓練 行業標準基準測試中提交的出色 GPT-3 1750 億參數性能數據,每個 H100 GPU 可實現高達 797 TFLOPS 的性能。此外,在 NVIDIA 提交的最大規模測試中,使用了前所未有的 10752 個 H100 Tensor Core GPU,實現了創紀錄的性能和近線性的性能擴展。
Source
]]>
8419
-
新的 MLPerf 推理網絡部門展示 NVIDIA InfiniBand 和 GPUDirect RDMA 功能
http://www.open-lab.net/zh-cn/blog/new-mlperf-inference-network-division-showcases-infiniband-and-gpudirect-rdma-capabilities/
Thu, 06 Jul 2023 04:01:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=7377
Continued]]>
在 MLPerf Inference v3.0 中,NVIDIA 首次向新推出的 網絡分割 投入,現在是 MLPerf 推理數據中心套件的一部分。網絡分割旨在模擬真實的數據中心設置,努力將包括硬件和軟件在內的網絡效果納入端到端推理性能。 網絡部門中有兩種類型的節點:前端節點生成查詢,這些查詢通過標準網絡結構(如以太網或InfiniBand)發送,由加速器節點處理,加速器節點執行推理。 圖 1 顯示了 Closed 分區完全在單個節點上運行。在“網絡”部分中,查詢在“前端”節點上生成,并傳輸到“加速器”節點進行推理。 在網絡部分,加速器節點包含推理加速器以及所有網絡組件。這包括網絡接口控制器( NIC )、網絡交換機和網絡結構。因此,雖然網絡部門試圖衡量加速器節點和網絡的性能,但它排除了前端節點的影響,因為后者在基準測試中的作用有限。
Source
]]>
7377
-
在 MLPerf 推理 2.0 上獲得最佳性能
http://www.open-lab.net/zh-cn/blog/getting-the-best-performance-on-mlperf-inference-2-0/
Wed, 06 Apr 2022 06:41:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3595
Continued]]>
Megatron 530B 等機型正在擴大人工智能可以解決的問題范圍。然而,隨著模型的復雜性不斷增加,它們對人工智能計算平臺構成了雙重挑戰: 我們需要的是一個多功能的人工智能平臺,它可以在各種各樣的模型上提供所需的性能,用于訓練和推理。 為了評估這種性能, MLPerf 是唯一一個行業標準人工智能基準,用于測試六個應用程序中的數據中心和邊緣平臺,測量吞吐量、延遲和能效。 在 MLPerf 推理 2.0 , NVIDIA 交付領先的結果在所有工作負載和場景,同時數據中心 GPU 和最新的參賽者,NVIDIA Jetson AGX ORIN SOC 平臺,為邊緣設備和機器人建造。 除了硬件,還需要大量的軟件和優化工作才能充分利用這些平臺。 MLPerf 推理 2.0 的結果展示了如何獲得處理當今日益龐大和復雜的人工智能模型所需的性能。
Source
]]>
3595
-
AWS 推出首款基于 NVIDIA GPU 加速引力子的 Amazon EC2 G5g 實例
http://www.open-lab.net/zh-cn/blog/aws-launches-first-nvidia-gpu-accelerated-graviton-based-instance-with-amazon-ec2-g5g/
Mon, 29 Nov 2021 04:38:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2456
Continued]]>
今天,在 AWS re : Invent2021 大會上, AWS 宣布 推出了 Amazon EC2 G5g 實例,將第一個基于 NVIDIA GPU 的 Arm 加速實例引入 AWS 云。新的 EC2 G5g 實例以基于 64 位 Arm Neoverse 內核的 AWS Graviton2 處理器和 NVIDIA T4G Tensor Core GPU 為特色,增強了圖形密集型應用。 這種強大的組合為 Android 游戲內容創造了一個最佳的開發環境。它還帶來了更豐富的 Android 游戲體驗,可以流式傳輸到各種各樣的移動設備上。 EC2 G5g 實例使游戲開發人員能夠支持和優化游戲,以便在各種移動設備上實現高質量的流媒體傳輸。您可以在基于 Arm 的 Graviton2 處理器上開發 Android 游戲,使用 NVIDIA T4G GPU 加速圖形渲染和編碼,
Source
]]>
2456
-
利用 MLPerf 推斷 1.1 結果進一步提升 NVIDIA 績效領導力
http://www.open-lab.net/zh-cn/blog/furthering-nvidia-performance-leadership-with-mlperf-inference-1-1-results/
Wed, 22 Sep 2021 08:43:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=1755
Continued]]>
人工智能繼續推動跨行業的突破性創新,包括消費互聯網、醫療保健和生命科學、金融服務、零售、制造和超級計算。研究人員繼續推動快速發展的模型在規模、復雜度和多樣性方面的發展。此外,其中許多復雜的大規模模型需要為聊天機器人、數字助理和欺詐檢測等人工智能支持的服務提供實時結果。 考慮到人工智能推理的廣泛用途,評估性能對開發人員和基礎設施管理人員提出了許多挑戰。對于數據中心、 edge 和移動平臺上的 AI 推理, MLPerf 推理 1 . 1 是一個行業標準基準,用于衡量計算機視覺、醫學成像、自然語言和推薦系統的性能。這些基準由人工智能行業領導者組成的聯盟制定,為人工智能培訓和推理提供了當今最全面的同行評審績效數據集。 要在這一基準測試中完成大量測試,需要一個具有強大生態系統支持的全堆棧平臺,無論是框架還是網絡。 NVIDIA 是唯一一家提交所有數據中心和邊緣測試并提供全面領先性能的公司。
Source
]]>
1755
-
使用全棧方法贏得 MLPerf Inference 0.7
http://www.open-lab.net/zh-cn/blog/winning-mlperf-inference-0-7-with-full-stack-approach/
Wed, 21 Oct 2020 08:37:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=245
Continued]]>
三個趨勢繼續推動著人工智能推理市場的訓練和推理:不斷增長的數據集,日益復雜和多樣化的網絡,以及實時人工智能服務。 MLPerf 推斷 0 . 7 是行業標準 AI 基準測試的最新版本,它解決了這三個趨勢,為開發人員和組織提供了有用的數據,以便為數據中心和邊緣的平臺選擇提供信息。 基準測試擴展了推薦系統、語音識別和醫學成像系統。它已經升級了自然語言處理( NLP )的工作負載,以進一步挑戰測試中的系統。下表顯示了當前的一組測試。有關這些工作負載的更多信息,請參閱 MLPerf 公司。 GitHub repo 。 此外,針對數據中心和邊緣的多個場景進行了基準測試: NVIDIA 輕松贏得了數據中心和邊緣類別的所有測試和場景。雖然這種出色的性能大部分可以追溯到我們的 GPU 體系結構,但更多的是與我們的工程師所做的出色的優化工作有關,現在開發人員社區可以使用這些工作。
Source
]]>
245
人人超碰97caoporen国产