H100 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 24 Apr 2025 06:26:56 +0000 zh-CN hourly 1 196178272 NVIDIA Secure AI 正式發布 http://www.open-lab.net/zh-cn/blog/announcing-nvidia-secure-ai-general-availability/ Wed, 23 Apr 2025 05:39:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=13608 Continued]]> 隨著許多企業開始對其數據進行 AI 訓練或推理,需要保護數據和代碼,尤其是大語言模型 (LLMs) 。由于數據敏感性,許多客戶無法冒險將數據放在云端。此類數據可能包含個人身份信息 (PII) 或公司專有信息,且經過訓練的模型擁有寶貴的知識產權 (IP) 。 NVIDIA Confidential Computing (CC) 是保護大型 AI 模型和數據的出色解決方案。借助 NVIDIA CC,企業無需在性能和安全性之間做出權衡。NVIDIA 最初于 2023 年發布了 CC,并繼續與 CPU 合作伙伴、云提供商和獨立軟件供應商 (ISVs) 合作,以確保從傳統的加速工作負載到機密的加速工作負載的轉變是流暢和透明的。 本文將介紹基于 NVIDIA HGX H100 8-GPU 和 NVIDIA HGX H200 8-GPU 的安全 AI(即 Protected…

Source

]]>
13608
AI 生成的熱圖可保護老年人及其隱私 http://www.open-lab.net/zh-cn/blog/ai-generated-heat-maps-keep-seniors-and-their-privacy-safe/ Wed, 16 Apr 2025 05:08:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=13563 Continued]]> 到 2030 年,超過五分之一的美國人將年滿 65 歲,成為美國有史以來最大的老年人群體。 位于硅谷的初創公司 Butlr 開發了一個 AI 平臺,旨在保護老年人的安全,同時保護他們的隱私。 他們基于 AI 的平臺使用神經網絡來解釋不同的溫度數據,這些數據由戰略性地放置在老年人護理設施中的傳感器獲取。 然后,該模型會創建人員的實時紅外圖像,這些圖像雖然基本沒有特征且模糊不清,但足夠詳細,可以幫助老年人護理機構的助手密切關注患者。 “我們要做的是利用邊緣溫度數據來拯救生命,利用智能來保護個人信息的隱私,”Butlr 首席執行官兼聯合創始人 Honghao Deng 說。 Butlr 設計其 AI 解決方案的目的是與老年人護理助手合作,而不是取代他們。 該模型可以檢測患者是否跌倒或躺在床上太長時間,并在發現緊急情況時自動提醒護理人員。此外,

Source

]]>
13563
NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型 http://www.open-lab.net/zh-cn/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/ Sat, 05 Apr 2025 06:37:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13527 Continued]]> 最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速,在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token,并可作為 NVIDIA NIM 微服務 進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構,原生支持多模態和多語言。Llama 4 模型提供各種多模態功能,推動規模、速度和效率的提升,使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型,每個令牌活躍 17B,由 16 位專家組成,擁有 10M 上下文長度的窗口,并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例,包括多文檔摘要、解析大量用戶活動以執行個性化任務,以及對大量代碼庫進行推理。

Source

]]>
13527
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/ Wed, 02 Apr 2025 05:32:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=13408 Continued]]> 在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、

Source

]]>
13408
AI 推理時代的 NVIDIA Blackwell Ultra http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-ultra-for-the-era-of-ai-reasoning/ Wed, 19 Mar 2025 08:34:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13254 Continued]]> 多年來,AI 的進步一直通過預訓練擴展遵循清晰的軌跡:更大的模型、更多的數據和更豐富的計算資源帶來了突破性的功能。在過去 5 年中,預訓練擴展使計算需求以驚人的速度增加了 50M 倍。但是,構建更智能的系統不再只是預訓練更大的模型。相反,它是關于改進它們并讓它們思考。 通過將 AI 模型優化為專門任務,后訓練擴展可改進模型,以提供更多對話式響應。使用特定領域的合成數據調整模型,可增強其理解細微上下文并提供準確輸出的能力。合成數據生成作為訓練模型的可用內容沒有上限,這意味著在后訓練擴展中需要大量計算資源。 現在,一種增強智能的新 縮放定律 已經出現:測試時縮放(test-time scaling)。 測試時擴展也稱為 長思考 ,可在 AI 推理過程中動態增加計算量,從而實現更深入的推理。AI 推理模型不僅能一次性生成答案,還能積極思考、權衡多種可能性,并實時優化答案。

Source

]]>
13254
AI 模型為環保人士提供大規模保護漁業和野生動物的新工具 http://www.open-lab.net/zh-cn/blog/ai-model-offers-conservationists-new-tools-to-protect-fisheries-wildlife-at-scale/ Mon, 03 Mar 2025 06:06:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13143 Continued]]> 為了遏制非法捕撈,研究人員發布了一個新的開源 AI 模型,該模型可以準確識別世界上幾乎所有的航海船只的行為,包括船只是否可能非法捕撈。 位于西雅圖的 Ai2 (Allen Institute for AI) 最近發布了一個名為 Atlantes 的輕量級模型,用于分析全球近 600,000 艘遠洋船每天發出的超過五億個 GPS 信號。 該模型可以預測幾乎任何船只在任何時候的狀況,準確率約為 80%。 該模型集成到 Ai2 更大的海洋監測平臺 Skylight 中,如果船只似乎正在釣魚,則可以向海岸護衛隊、巡邏船只或其他類似用戶發出警報,以檢查是否有非法活動。 今年年初,在 Skylight 提醒一艘在其專屬經濟區內非法捕撈的船只出現可疑行為后,阿根廷海岸護衛隊攔截了該船只,并隨后對其實施了罰款。 Atlantes 是一個基于 4.7…

Source

]]>
13143
NVIDIA cuDSS 提高工程和科學計算中的求解器技術 http://www.open-lab.net/zh-cn/blog/nvidia-cudss-advances-solver-technologies-for-engineering-and-scientific-computing/ Tue, 25 Feb 2025 08:54:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=13042 Continued]]> NVIDIA cuDSS 是第一代稀疏直接求解器庫,旨在加速工程和科學計算。cuDSS 正越來越多地應用于數據中心和其他環境,并支持單 GPU、多 GPU 和多節點(MGMN)配置。 cuDSS 已成為加速多個領域 (例如結構工程、流體動力學、電磁學、電路模擬、優化和 AI 輔助工程問題) 的計算機輔助工程 (CAE) 工作流程和科學計算的關鍵工具。 本文重點介紹了 cuDSS v0.4.0 和 cuDSS v0.5.0 中提供的一些關鍵性能和可用性功能 (如表 1 中總結的內容),cuDSS v0.4.0 可顯著提升分解和求解步驟的性能,同時還引入了一些新功能,包括內存預測 API、自動混合內存選擇和可變批量支持。cuDSS v0.5.0 增加了主機執行模式,這對較小的矩陣特別有利,并且在分析階段使用混合內存模式和主機多線程實現了顯著的性能提升,

Source

]]>
13042
使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量 http://www.open-lab.net/zh-cn/blog/optimizing-qwen2-5-coder-throughput-with-nvidia-tensorrt-llm-lookahead-decoding/ Fri, 14 Feb 2025 04:58:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=12977 Continued]]> 專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,包括增強代碼、修復錯誤、生成測試和編寫文檔。 為促進開源 LLM 的開發,Qwen 團隊最近發布了 Qwen2.5-Coder,這是一系列先進的 LLM,用于跨熱門編程語言的代碼生成、推理和修復。本文將探討針對 NVIDIA TensorRT-LLM 支持 的 Qwen2.5-Coder 模型進行推理優化的優勢,以及借助 NVIDIA NIM 輕松部署以提升變革潛力和編碼效率的好處。 Qwen2.5-Coder 模型在熱門的學術基準測試中取得了出色的性能。 NVIDIA TensorRT-LLM 已對 Qwen2.5-Coder 系列的三種熱門模型 (1.5B、7B 和 32B 版本) 進行優化,以實現高吞吐量和低延遲。

Source

]]>
12977
新的 AI 模型提供癌癥細胞級視圖 http://www.open-lab.net/zh-cn/blog/new-ai-model-offers-cellular-level-view-of-cancerous-tumor/ Tue, 04 Feb 2025 04:42:37 +0000 http://www.open-lab.net/zh-cn/blog/?p=12880 Continued]]> 研究癌癥的研究人員推出了一種新的 AI 模型,該模型提供了癌細胞的細胞級映射和可視化,科學家希望該模型能夠揭示某些細胞間關系如何以及為什么會引發癌癥生長。 位于圣地亞哥的初創公司 BioTuring 宣布推出 一種 AI 模型,該模型可以以單細胞分辨率快速創建癌癥腫瘤的詳細可視化圖像。這種類型的顆粒數據顯示了細胞的大小、形狀、哪些基因被激活,關鍵是顯示了組織樣本中數百萬個不同細胞的相對空間位置。 與速度慢得多的傳統生物計算方法不同,新模型提供了有關腫瘤動力學以及癌細胞和免疫細胞相互作用的實時高分辨率見解。 BioTuring 首席執行官 Son Pham 表示:“人體大約有 30 萬億個細胞,如果進行大規模的腫瘤活檢,就會發現有幾百萬個細胞。“類比是 – 想象一下,您正在以非常高分辨率分析衛星圖像,試圖了解城市的運作方式。在生物學領域,我們的模型所做的是向您展示每棟房子、

Source

]]>
12880
借助 AI 驅動的細胞分析技術推進罕見疾病檢測 http://www.open-lab.net/zh-cn/blog/advancing-rare-disease-detection-with-ai-powered-cellular-profiling/ Wed, 29 Jan 2025 05:31:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=12913 Continued]]> 由于傳統基因組測序的局限性,罕見疾病很難診斷。哥倫比亞大學助理教授 Wolfgang Pernice 正在使用 AI 驅動的細胞分析來彌合這些差距,并推動個性化醫療的發展。 在 NVIDIA GTC 2024 大會上,Pernice 分享了他的實驗室對 Charcot-Marie-Tooth (CMT) 和線粒體疾病等疾病的研究成果。他的團隊開發了 CellNet,這是一種 AI 驅動的系統,使用患者細胞的高分辨率圖像來識別與疾病相關的細微模式,從而實現準確診斷并制定新的治療策略。 基因組醫學一直致力于將診斷轉化為個性化的治療或治療方法。雖然取得了一些進展,但許多患有 7,000 種已知罕見遺傳病之一的患者仍然需要有效的治療方法。Pernice 的實驗室正在利用計算機視覺和深度學習來解決罕見疾病診斷和治療中的主要障礙,從而致力于更快速、更可擴展的基因組醫學方法。

Source

]]>
12913
動態內存壓縮技術 http://www.open-lab.net/zh-cn/blog/dynamic-memory-compression/ Fri, 24 Jan 2025 05:39:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=12920 Continued]]> 盡管大語言模型(LLMs)作為通用 AI 工具取得了成功,但其對計算資源的高需求使其在許多真實場景中的部署具有挑戰性。模型的大小和對話狀態受到可用高帶寬內存的限制,限制了可服務的用戶數量和最大對話長度。 目前,兩種最熱門的 LLM 架構是 Transformers 和選擇性狀態空間模型 (SSMs),它們位于頻譜的另一端: 為此,NVIDIA 的研究人員開發了一項稱為動態內存壓縮(Dynamic Memory Compression,DMC)的新技術,該技術可以大幅提高 LLMs 部署的效率,并在不會耗盡內存的情況下將其視野擴展到更長的序列。 DMC 開啟了第三種方式,即訓練 Transformer 模型以自適應壓縮對話狀態并實現所需的壓縮率。這樣可以在不替換熟悉的 Transformer 架構的情況下顯著減少對話狀態大小。DMC 不需要從頭開始訓練,

Source

]]>
12920
AI 視覺技術助力綠色回收工廠智能化 http://www.open-lab.net/zh-cn/blog/ai-vision-helps-green-recycling-plants/ Thu, 19 Dec 2024 09:05:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=12480 Continued]]> 全球每年僅回收約 13% 的 20 多億噸城市垃圾。到 2050 年,全球每年的城市廢棄物量將達到 3.88 億噸。 但全球回收行業的效率遠遠不夠。每年,價值高達 120 億美元的可回收塑料 (更不用說紙張或金屬了) 最終進入垃圾填埋場,而不是使用回收材料制造的新產品。 英國的初創公司 Greyparrot 開發了一款由 AI 驅動的小型設備,可提供“廢棄物智能”功能,旨在幫助回收工廠變得更高效、更環保。 這款名為 Greyparrot Analyzer 的兩英尺方形時尚設備使用嵌入式攝像頭來識別和區分流經回收工廠的傳送帶上的材料。 該分析器使用機器學習物體檢測模型(ODM)連接到回收工廠,并幫助改造其基礎設施。ODM 根據數千萬張廢棄物圖像進行訓練,捕獲和分析快速廢棄物圖像只需不到 60 毫秒。 分析器的 ODM 使用 NVIDIA H100 Tensor…

Source

]]>
12480
聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求 http://www.open-lab.net/zh-cn/blog/spotlight-perplexity-ai-serves-400-million-search-queries-a-month-using-nvidia-inference-stack/ Thu, 05 Dec 2024 07:26:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=12401 Continued]]> 對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,同時平衡成本效益和最佳用戶體驗。Perplexity AI 的推理團隊面臨著這一挑戰。Perplexity AI 是一款由 AI 驅動的搜索引擎,每月可處理超過 435 million 個查詢。每個查詢代表多個 AI 推理請求。 為了滿足這一需求,Perplexity 推理團隊轉而使用 NVIDIA H100 Tensor Core GPUs 、 NVIDIA Triton Inference Server 和 NVIDIA TensorRT-LLM 來進行經濟高效的 大語言模型(LLM) 部署。本文根據他們的實操經驗,詳細介紹了一些部署最佳實踐和節省的 TCO。 為了支持其廣泛的用戶群并滿足搜索、總結和問答等方面的各種請求,

Source

]]>
12401
NVIDIA DOCA 2.9 借助新性能和安全功能強化人工智能和云計算基礎設施 http://www.open-lab.net/zh-cn/blog/nvidia-doca-2-9-enhances-ai-and-cloud-computing-infrastructure-with-new-performance-and-security-features/ Thu, 14 Nov 2024 07:22:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=12041 Continued]]> NVIDIA DOCA 通過為開發者提供全面的軟件框架來利用硬件加速來增強 NVIDIA 網絡平臺的功能,從而提高性能、安全性和效率。它的 API、庫和工具生態系統可簡化數據中心基礎設施的開發,實現工作負載卸載、加速和隔離,以支持現代、高效的數據中心。 如今,許多主要的 CSP 和 NVIDIA 云合作伙伴(NCP)都在使用 DOCA,并為快速開發和部署創新解決方案提供了標準化平臺。這種方法可縮短上市時間、降低成本,并使合作伙伴能夠在使用 NVIDIA 硬件加速的同時專注于自身的核心優勢。 DOCA 培育的開放生態系統促進了協作和互操作性,創造了各種互補解決方案。合作伙伴可以探索 AI 驅動的網絡、高級安全性和高性能存儲等新興市場,將自己定位在數據中心創新前沿。 DOCA 2.9 的最新版本標志著 AI 計算結構和云計算基礎設施的重大進步。這次全面更新引入了許多新功能和改進,

Source

]]>
12041
探索采用自主 AI 和 NVIDIA 機密計算的超級協議案例 http://www.open-lab.net/zh-cn/blog/exploring-the-case-of-super-protocol-with-self-sovereign-ai-and-nvidia-confidential-computing/ Thu, 14 Nov 2024 07:06:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=12032 Continued]]> 機密和自主的 AI 是一種新的 AI 開發、訓練和推理方法,其中用戶的數據是去中心化的、私有的,并由用戶自己控制。本文將探討如何通過使用區塊鏈技術的去中心化來擴展 Confidential Computing(CC)的功能。 通過使用個人 AI 智能體,可以非常清楚地看到所解決的問題。這些服務可幫助用戶完成許多任務,包括撰寫電子郵件、準備報稅和查看醫療記錄。毋庸置疑,所處理的數據是敏感的個人數據。 在集中式系統中,這些數據由人工智能服務提供商在云中處理,通常不透明。當用戶的數據離開設備時,他們將失去對自己數據的控制,而這些數據可能會被用于訓練、泄露、出售或以其他方式被誤用。屆時無法追蹤個人數據。 這種信任問題阻礙了 AI 行業發展的某些特定方面,尤其是對于尚未獲得聲譽或證據來支持其真實意圖的初創公司和 AI 開發者而言。

Source

]]>
12032
人人超碰97caoporen国产