單個 GPU 上的 Mistral NeMo 12B 加速文本生成應用程序

Fri, 26 Jul 2024 08:11:40 +0000

NVIDIA 與 Mistral 合作構建了下一代語言模型，該模型可在其類別中的基準測試中實現領先的性能。隨著越來越多的語言模型專為選定任務而構建，NVIDIA Research 和 Mistral AI 結合力量，提供了一個通用、開放、高性能且在單個 GPU 上運行的語言模型。本文將探討 Mistral NeMo 的優勢、訓練和推理優化，以及其在各種用例中的適用性，最后討論與NVIDIA NIM的部署易用性。 Mistral NeMo 是一個 12B 參數、僅使用文本解碼器的密集 Transformer 模型，使用大小為 131K 的多語種詞匯表進行訓練。它在常見的基準測試中提供領先的準確性，涵蓋常識推理、世界知識、編碼、數學以及多語種和多回合聊天任務。該模型支持 128K 上下文長度，增強了理解能力和處理大量復雜信息的能力，從而實現更一致、

Source

]]>

用于 SQL 和代碼生成的新 LLM:Snowflake Arctic 模型

Fri, 26 Apr 2024 09:06:33 +0000

近年來，大型語言模型（LLM）徹底改變了自然語言處理（NLP），實現了文本摘要、問答和自然語言生成等廣泛的應用。由 Snowflake 開發的 Arctic 是一種新的開放 LLM，旨在實現高推理性能，同時在各種 NLP 任務上保持低成本。 Arctic Arctic 基于一種新的密集 MoE（專家混合物）混合變壓器架構，該架構將 10B 參數密集變壓器模型與殘差 128×3.66B MoE 多層感知器（MLP）相結合，從而有效地隱藏普通 MoE 模型在計算過程中施加的額外全對全通信開銷。這樣，該體系結構能夠在訓練和推理過程中更有效地使用資源。由此產生的網絡具有 480B 的總參數，并使用前 2 個門控讓專家選擇 17B 的活動參數。通過利用大量專家和總參數，該體系結構允許頂級智能，同時從許多但精簡的專家中進行選擇，僅使用適量的活動參數進行訓練和具有成本效益的推理。

Source

]]>

代碼/軟件生成 – NVIDIA 技術博客

單個 GPU 上的 Mistral NeMo 12B 加速文本生成應用程序

用于 SQL 和代碼生成的新 LLM:Snowflake Arctic 模型