• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    對話式人工智能

    IBM 全新推出的 GRANITE 3.0 生成式 AI 模型:小體積、高準確度、高效率

    今天,IBM 發布了第三代 IBM Granite,這是一個開放語言模型和輔助工具的集合。前幾代 Granite 專注于特定領域的用例;最新的 IBM Granite 模型在學術和企業基準測試中達到或超過領先的類似規模的開放模型的性能。

    對開發者友好的 Granite 3.0 生成式 AI 模型專為函數調用而設計,支持基于工具的用例。這些模型是作為主流企業模型開發的,能夠作為跨用例復雜工作流的主要構建塊,包括文本生成、代理 AI、分類、工具調用、摘要、實體提取、客戶服務聊天機器人等。

    隆重推出 IBM 的第三代 GRANITE 系列

    IBM 開發了 Granite 系列,可作為 NVIDIA NIM 微服務 供企業使用,在不影響性能的情況下優先考慮行業領先的信任、安全性和成本效益。

    總體而言,Granite 3.0 版本包

    • 密集的純文本 LLM:Granite 3.0 8B、Granite 3.0 2B
    • 多專家模型(MoE)LLMs:Granite 3.0 3B-A800M,Granite 3.0 1B-A400M
    • 基于 LLM 的輸入輸出護欄模型:Granite Guardian 8B、Granite Guardian 2B

    GRANITE 架構的核心組件包括:用于位置信息的 Group-query Attention (GQA) Rotary Position Encodings (RoPE)、采用 SwiGLU 激活的多層感知器 (MLP)、 RMSNorm 和共享輸入/輸出嵌入。

    通過預測解碼優化性能

    新的 8B 和 2B 模型基于精心策劃的企業數據的超過 12 萬億個令牌進行訓練,在性能和速度方面都比前代模型有了顯著改進。

    預測解碼是一種加速模型推理速度的優化技術,可幫助 LLM 在使用相同(或更少)的計算資源的同時更快地生成文本,并允許更多用戶同時使用模型。例如,在 IBM Research 最近的一項突破中,預測解碼用于將 Granite Code 20B 的延遲減半,同時將吞吐量提高四倍。

    標準推理 中,LLMs 處理其迄今為止生成的每個先前令牌,然后一次生成一個令牌。在預測解碼中,LLMs 還會評估在將要生成的令牌 之后 可能會出現的幾個潛在令牌。如果這些“預測”令牌經過驗證,具有足夠準確的準確性,則一次傳遞可以生成兩個或多個令牌,以一個令牌的計算“價格”計算。

    Benchmark Metric Mistral 7B Llama-3.1 8B Granite-3.0 8B
    IFEval 0-shot 49.93 50.37 52.27
    MT-Bench 7.62 8.21 8.22
    AGI-Eval 5-shot 37.15 41.07 40.52
    MMLU 5-shot 62.01 68.27 65.82
    MMLU-Pro 5-shot 30.34 37.97 34.45
    OBQA 0-shot 47.40 43.00 46.60
    SIQA 0-shot 59.64 65.01 71.21
    Hellaswag 10-shot 84.61 80.12 82.61
    WinoGrande 5-shot 78.85 78.37 77.51
    TruthfulQA 0-shot 59.68 54.07 60.32
    BoolQ 5-shot 87.34 87.25 88.65
    SQuAD 2.0 0-shot 18.66 21.49 21.58
    ARC-C 25-shot 63.65 60.67 64.16
    GPQA 0-shot 30.45 32.13 33.81
    BBH 3-shot 46.73 50.81 51.55
    HumanEvalSynthesis pass@1 34.76 63.41 64.63
    HumanEvalExplain pass@1 21.65 45.88 57.16
    HumanEvalFix pass@1 53.05 68.90 65.85
    MBPP pass@1 38.60 52.20 49.60
    GSM8k 5-shot, cot 37.68 65.04 68.99
    MATH 4-shot 13.10 34.46 30.94
    PAWS-X (7 langs) 0-shot 56.57 64.68 64.94
    MGSM (6 langs) 5-shot 35.27 43.00 48.20
    Average All 45.86 52.87 54.33
    Open LLM Leaderboard 1 65.54 68.58 69.04
    Open LLM Leaderboard 2 34.61 37.28 37.56
    LiveBench 22.40 27.60 26.20
    MixEval 73.55 73.35 76.5
    表 1. 與其他基礎語言模型在熱門基準測試中的準確性表現的 IBM Granite-3.0 8B Instruct 模型比較。

    GRANITE 3.0 8B Instruct 與 RAGBench 上的 Mistral 和 Llama 模型保持同步。RAGBench 是一個基準測試數據集,包含從行業語料庫(如用戶手冊)中提取的 100,000 個檢索增強生成(RAG)任務。

    IBM GRANITE 的首個 MoE 模型

    IBM Granite Generation 3 還包括 Granite 的首個混合專家模型 (MoE),即 Granite-3B-A800M-Instruct 和 Granite-1B-A400-Instruct。這些 Granite MoE 模型是在超過 10 萬億個數據令牌上訓練的,非常適合部署在設備上的應用程序或需要極低延遲的情況下。

    在此架構中,Dense 模型使用的 MLP 層被替換為 MoE 層。Granite MoE 架構的核心組件包括:細粒度專家; Dropless Token Routing ,確保 MoE 路由器不會丟棄單個輸入令牌(無論專家之間的負載不平衡如何),以及 負載平衡損失 作為保持專家負載均衡分布的策略。

    Benchmark Metric Llama-3.2 SmolLM Granite-3.0
    Active parameters 1B 1.7B 800M
    Total parameters 1B 1.7B 3B
    Instruction Following ? ? ?
    IFEval 0-shot 41.68 9.20 42.49
    MT-Bench 5.78 4.82 7.02
    Human Exams ? ? ?
    AGI-Eval 5-shot 19.63 19.50 25.70
    MMLU 5-shot 45.40 28.47 50.16
    MMLU-Pro 5-shot 19.52 11.13 20.51
    Commonsense ? ? ?
    OBQA 0-shot 34.60 39.40 40.80
    SIQA 0-shot 35.50 34.26 59.95
    Hellaswag 10-shot 59.74 62.61 71.86
    WinoGrande 5-shot 61.01 58.17 67.01
    TruthfulQA 0-shot 43.83 39.73 48.00
    Reading Comprehension ? ? ?
    BoolQ 5-shot 66.73 69.97 78.65
    SQuAD 2.0 0-shot 16.50 19.80 6.71
    Reasoning ? ? ?
    ARC-C 25-shot 41.38 45.56 50.94
    GPQA 0-shot 25.67 25.42 26.85
    BBH 3-shot 33.54 30.69 37.70
    Code ? ? ?
    HumanEvalSynthesis pass@1 35.98 18.90 39.63
    HumanEvalExplain pass@1 21.49 6.25 40.85
    HumanEvalFix pass@1 36.62 3.05 35.98
    MBPP 37.00 25.20 27.40
    Math ? ? ?
    GSM8k 5-shot,cot 26.16 0.61 47.54
    MATH 4-shot 17.62 0.14 19.86
    Multilingual ? ? ?
    PAWS-X (7 langs) 0-shot 34.44 17.86 50.23
    MGSM (6 langs) 5-shot 23.80 0.07 28.87
    Average All 34.07 24.82 40.20
    Open Leaderboards ? ? ?
    Open LLM Leaderboard 1 47.36 39.87 55.83
    Open LLM Leaderboard 2 26.50 18.30 27.79
    LiveBench 11.60 3.40 16.8
    表 2. IBM Granite-3.0 MoE 3B 模型與其他基礎 LLM 相比的準確性性能。

    GRANITE Guardian:領先的安全護欄

    新的 Guardian 3.0 8B 和 Granite Guardian 3.0 2B 是其各自大小相應的基礎預訓練 Granite 模型的變體, 經過微調 ,可評估模型的輸入和輸出,并將其分類為各類風險和傷害維度,包括越獄、偏見、暴力、冒犯、性內容和不道德行為。

    Granite Guardian 3.0 模型還涵蓋了一系列特定于 RAG 的問題,評估了接地性 (測量檢索到的文檔對輸出的支持程度)、上下文相關性 (衡量檢索到的文檔是否與輸入提示相關) 和答案相關性等品質。

    該模型系列對開發者友好,根據 Apache 2.0 許可提供,并隨附 IBM GitHub 上的 Granite 社區提供的新開發者方法。

    使用 NVIDIA NIM 在任意位置部署 GRANITE 模型

    NVIDIA 已與 IBM 合作,通過 NVIDIA NIM 提供 Granite 系列模型。NVIDIA NIM 是一套易于使用的微服務,旨在跨云、數據中心和工作站安全可靠地部署高性能 AI 模型推理。

    NIM 使用推理優化引擎、行業標準 API 和預構建容器,為需求提供高吞吐量的 AI 推理。

    NVIDIA NIM 可提供出色的吞吐量,使企業能夠更快地生成更多 token。對于生成式 AI 應用而言,token 處理是關鍵的性能指標,而 token 吞吐量的增加直接轉化為企業收入的增加和用戶體驗的改善。

    開始使用

    使用免費的 NVIDIA 云積分體驗 Granite 模型 。您可以開始大規模測試模型,并通過將應用連接到在完全加速的堆棧上運行的 NVIDIA 托管 API 端點來構建概念驗證 (POC)。

    訪問文檔頁面 ,下載模型并在任意 NVIDIA GPU 加速工作站、數據中心或云平臺上進行部署。

    ?

    ?

    標簽

    人人超碰97caoporen国产