Kyle Kranen – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 21 Mar 2024 07:19:18 +0000
zh-CN
hourly
1
196178272 -
在 LLM 架構中應用多專家模型
http://www.open-lab.net/zh-cn/blog/applying-mixture-of-experts-in-llm-architectures/
Thu, 14 Mar 2024 07:13:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=9407
Continued]]>
多專家模型 (MoE) 大型語言模型 (LLM) 架構最近出現了,無論是在 GPT-4 等專有 LLM 中,還是在開源版本的社區模型中,如 Mistral Mixtral 8x7B。Mixtral 模型的強勁相對性能引起了極大的興趣,并引發了許多關于 MoE 及其在 LLM 架構中使用的問題。那么,什么是 MoE,為什么它很重要? 多專家模型是神經網絡的架構模式,它將層或運算 (例如線性層、MLP 或注意力投影) 的計算拆分為多個“專家”子網絡。這些子網絡各自獨立執行自己的計算,并組合其結果以創建 MoE 層的最終輸出。MoE 架構可以是密集的,這意味著每個專家都用于每個輸入,也可以是稀疏的,這意味著每個輸入都使用一個專家子集。 本文主要探討MoE在LLM架構中的應用。如需了解MoE在其他領域的應用,請參閱使用稀疏的專家混合模型擴展視覺、
Source
]]>
9407
-
現已推出:適用于 GNN 的 NVIDIA AI 加速 DGL 和 PyG 容器
http://www.open-lab.net/zh-cn/blog/available-now-nvidia-ai-accelerated-dgl-and-pyg-containers-for-gnns/
Fri, 08 Dec 2023 04:55:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=8489
Continued]]>
從信用卡交易、社交網絡到推薦系統,再到生物學中的運輸網絡和蛋白質間的相互作用,圖形是建模和分析復雜連接的首選數據結構。圖形神經網絡 (GNN) 具有學習和推理圖形結構化數據的能力,已在各個領域成為改變游戲規則的技術。 但是,發現這些圖形中隱藏的模式和寶貴見解可能具有挑戰性,尤其是在 GNN 的數據采樣和端到端訓練中。 為了彌補這一差距,NVIDIA 推出了GNN 框架,這是專為 DGL 和 PyG 設計的容器,具備以下特點: 本文概述了 NVIDIA 加速 DGL 和 PyG 容器的優勢,展示了客戶在生產環境中使用這些容器的方式,并提供了性能指標。 深度圖形庫 (DGL) 是一款熱門的開源庫,它可以在現有的深度學習框架(如 PyTorch)上實現和訓練圖神經網絡 (GNN)。 我們很高興地宣布,DGL 現已通過其他 NVIDIA 庫進行加速,
Source
]]>
8489
-
利用圖形神經網絡和 NVIDIA GPU 優化金融服務欺詐檢測
http://www.open-lab.net/zh-cn/blog/optimizing-fraud-detection-in-financial-services-with-graph-neural-networks-and-nvidia-gpus/
Tue, 04 Oct 2022 07:48:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5362
Continued]]>
欺詐是許多金融服務公司的一個主要問題,據最近的一份報告 Federal Trade Commission report 稱,每年損失數十億美元。財務欺詐、虛假評論、機器人攻擊、賬戶接管和垃圾郵件都是在線欺詐和有害活動的例子。 盡管這些公司采用技術打擊在線欺詐,但這些方法可能有嚴重的局限性。簡單的基于規則的技術和基于特征的算法技術(邏輯回歸、貝葉斯信念網絡、 CART 等)不足以檢測所有欺詐或可疑的在線行為。 例如,欺詐者可能會建立許多協調賬戶,以避免觸發對個人賬戶的限制。此外,由于要篩選的數據量巨大(數十億行,數十 TB ),不斷改進方法的復雜性,以及訓練分類算法所需的欺詐活動真實案例的稀缺性,大規模檢測欺詐行為模式很困難。有關更多詳細信息,請參閱 Intelligent Financial Fraud Detection Practices: An Investigation 。
Source
]]>
5362
-
利用NVIDIA 時間序列預測平臺和 Triton 推理服務器進行時間序列預測
http://www.open-lab.net/zh-cn/blog/time-series-forecasting-with-the-nvidia-time-series-prediction-platform-and-triton-inference-server/
Tue, 15 Feb 2022 03:53:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3066
Continued]]>
在這篇文章中,我們詳細介紹了最近發布的 NVIDIA 時間序列預測平臺( TSPP ),這是一個設計用于輕松比較和實驗預測模型、時間序列數據集和其他配置的任意組合的工具。 TSPP 還提供了探索超參數搜索空間的功能,使用分布式訓練和自動混合精度( AMP )運行加速模型訓練,并在NVIDIA Triton 推理服務器上加速和運行加速模型格式的推理。 事實證明,在理解和管理復雜系統(包括但不限于電網、供應鏈和金融市場)時,使用以前的值準確預測未來的時間序列值至關重要。在這些預測應用中,預測精度的單位百分比提高可能會產生巨大的財務、生態和社會影響。除了需要精確之外,預測模型還必須能夠在實時時間尺度上運行。 滑動窗口預測問題,如圖 1 所示,涉及使用先前的數據和未來值的知識來預測未來的目標值。傳統的統計方法,如 ARIMA 及其變體,或 Holt-Winters 回歸,
Source
]]>
3066
人人超碰97caoporen国产