今天,IBM 發布了第三代 IBM Granite,這是一個開放語言模型和輔助工具的集合。前幾代 Granite 專注于特定領域的用例;最新的 IBM Granite 模型在學術和企業基準測試中達到或超過領先的類似規模的開放模型的性能。
對開發者友好的 Granite 3.0 生成式 AI 模型專為函數調用而設計,支持基于工具的用例。這些模型是作為主流企業模型開發的,能夠作為跨用例復雜工作流的主要構建塊,包括文本生成、代理 AI、分類、工具調用、摘要、實體提取、客戶服務聊天機器人等。
隆重推出 IBM 的第三代 GRANITE 系列
IBM 開發了 Granite 系列,可作為 NVIDIA NIM 微服務 供企業使用,在不影響性能的情況下優先考慮行業領先的信任、安全性和成本效益。
總體而言,Granite 3.0 版本包
- 密集的純文本 LLM:Granite 3.0 8B、Granite 3.0 2B
- 多專家模型(MoE)LLMs:Granite 3.0 3B-A800M,Granite 3.0 1B-A400M
- 基于 LLM 的輸入輸出護欄模型:Granite Guardian 8B、Granite Guardian 2B
GRANITE 架構的核心組件包括:用于位置信息的 Group-query Attention (GQA) 和 Rotary Position Encodings (RoPE)、采用 SwiGLU 激活的多層感知器 (MLP)、 RMSNorm 和共享輸入/輸出嵌入。
通過預測解碼優化性能
新的 8B 和 2B 模型基于精心策劃的企業數據的超過 12 萬億個令牌進行訓練,在性能和速度方面都比前代模型有了顯著改進。
預測解碼是一種加速模型推理速度的優化技術,可幫助 LLM 在使用相同(或更少)的計算資源的同時更快地生成文本,并允許更多用戶同時使用模型。例如,在 IBM Research 最近的一項突破中,預測解碼用于將 Granite Code 20B 的延遲減半,同時將吞吐量提高四倍。
在 標準推理 中,LLMs 處理其迄今為止生成的每個先前令牌,然后一次生成一個令牌。在預測解碼中,LLMs 還會評估在將要生成的令牌 之后 可能會出現的幾個潛在令牌。如果這些“預測”令牌經過驗證,具有足夠準確的準確性,則一次傳遞可以生成兩個或多個令牌,以一個令牌的計算“價格”計算。
Benchmark Metric | Mistral 7B | Llama-3.1 8B | Granite-3.0 8B |
IFEval 0-shot | 49.93 | 50.37 | 52.27 |
MT-Bench | 7.62 | 8.21 | 8.22 |
AGI-Eval 5-shot | 37.15 | 41.07 | 40.52 |
MMLU 5-shot | 62.01 | 68.27 | 65.82 |
MMLU-Pro 5-shot | 30.34 | 37.97 | 34.45 |
OBQA 0-shot | 47.40 | 43.00 | 46.60 |
SIQA 0-shot | 59.64 | 65.01 | 71.21 |
Hellaswag 10-shot | 84.61 | 80.12 | 82.61 |
WinoGrande 5-shot | 78.85 | 78.37 | 77.51 |
TruthfulQA 0-shot | 59.68 | 54.07 | 60.32 |
BoolQ 5-shot | 87.34 | 87.25 | 88.65 |
SQuAD 2.0 0-shot | 18.66 | 21.49 | 21.58 |
ARC-C 25-shot | 63.65 | 60.67 | 64.16 |
GPQA 0-shot | 30.45 | 32.13 | 33.81 |
BBH 3-shot | 46.73 | 50.81 | 51.55 |
HumanEvalSynthesis pass@1 | 34.76 | 63.41 | 64.63 |
HumanEvalExplain pass@1 | 21.65 | 45.88 | 57.16 |
HumanEvalFix pass@1 | 53.05 | 68.90 | 65.85 |
MBPP pass@1 | 38.60 | 52.20 | 49.60 |
GSM8k 5-shot, cot | 37.68 | 65.04 | 68.99 |
MATH 4-shot | 13.10 | 34.46 | 30.94 |
PAWS-X (7 langs) 0-shot | 56.57 | 64.68 | 64.94 |
MGSM (6 langs) 5-shot | 35.27 | 43.00 | 48.20 |
Average All | 45.86 | 52.87 | 54.33 |
Open LLM Leaderboard 1 | 65.54 | 68.58 | 69.04 |
Open LLM Leaderboard 2 | 34.61 | 37.28 | 37.56 |
LiveBench | 22.40 | 27.60 | 26.20 |
MixEval | 73.55 | 73.35 | 76.5 |
GRANITE 3.0 8B Instruct 與 RAGBench 上的 Mistral 和 Llama 模型保持同步。RAGBench 是一個基準測試數據集,包含從行業語料庫(如用戶手冊)中提取的 100,000 個檢索增強生成(RAG)任務。
IBM GRANITE 的首個 MoE 模型
IBM Granite Generation 3 還包括 Granite 的首個混合專家模型 (MoE),即 Granite-3B-A800M-Instruct 和 Granite-1B-A400-Instruct。這些 Granite MoE 模型是在超過 10 萬億個數據令牌上訓練的,非常適合部署在設備上的應用程序或需要極低延遲的情況下。
在此架構中,Dense 模型使用的 MLP 層被替換為 MoE 層。Granite MoE 架構的核心組件包括:細粒度專家; Dropless Token Routing ,確保 MoE 路由器不會丟棄單個輸入令牌(無論專家之間的負載不平衡如何),以及 負載平衡損失 作為保持專家負載均衡分布的策略。
Benchmark Metric | Llama-3.2 | SmolLM | Granite-3.0 |
Active parameters | 1B | 1.7B | 800M |
Total parameters | 1B | 1.7B | 3B |
Instruction Following | ? | ? | ? |
IFEval 0-shot | 41.68 | 9.20 | 42.49 |
MT-Bench | 5.78 | 4.82 | 7.02 |
Human Exams | ? | ? | ? |
AGI-Eval 5-shot | 19.63 | 19.50 | 25.70 |
MMLU 5-shot | 45.40 | 28.47 | 50.16 |
MMLU-Pro 5-shot | 19.52 | 11.13 | 20.51 |
Commonsense | ? | ? | ? |
OBQA 0-shot | 34.60 | 39.40 | 40.80 |
SIQA 0-shot | 35.50 | 34.26 | 59.95 |
Hellaswag 10-shot | 59.74 | 62.61 | 71.86 |
WinoGrande 5-shot | 61.01 | 58.17 | 67.01 |
TruthfulQA 0-shot | 43.83 | 39.73 | 48.00 |
Reading Comprehension | ? | ? | ? |
BoolQ 5-shot | 66.73 | 69.97 | 78.65 |
SQuAD 2.0 0-shot | 16.50 | 19.80 | 6.71 |
Reasoning | ? | ? | ? |
ARC-C 25-shot | 41.38 | 45.56 | 50.94 |
GPQA 0-shot | 25.67 | 25.42 | 26.85 |
BBH 3-shot | 33.54 | 30.69 | 37.70 |
Code | ? | ? | ? |
HumanEvalSynthesis pass@1 | 35.98 | 18.90 | 39.63 |
HumanEvalExplain pass@1 | 21.49 | 6.25 | 40.85 |
HumanEvalFix pass@1 | 36.62 | 3.05 | 35.98 |
MBPP | 37.00 | 25.20 | 27.40 |
Math | ? | ? | ? |
GSM8k 5-shot,cot | 26.16 | 0.61 | 47.54 |
MATH 4-shot | 17.62 | 0.14 | 19.86 |
Multilingual | ? | ? | ? |
PAWS-X (7 langs) 0-shot | 34.44 | 17.86 | 50.23 |
MGSM (6 langs) 5-shot | 23.80 | 0.07 | 28.87 |
Average All | 34.07 | 24.82 | 40.20 |
Open Leaderboards | ? | ? | ? |
Open LLM Leaderboard 1 | 47.36 | 39.87 | 55.83 |
Open LLM Leaderboard 2 | 26.50 | 18.30 | 27.79 |
LiveBench | 11.60 | 3.40 | 16.8 |
GRANITE Guardian:領先的安全護欄
新的 Guardian 3.0 8B 和 Granite Guardian 3.0 2B 是其各自大小相應的基礎預訓練 Granite 模型的變體, 經過微調 ,可評估模型的輸入和輸出,并將其分類為各類風險和傷害維度,包括越獄、偏見、暴力、冒犯、性內容和不道德行為。
Granite Guardian 3.0 模型還涵蓋了一系列特定于 RAG 的問題,評估了接地性 (測量檢索到的文檔對輸出的支持程度)、上下文相關性 (衡量檢索到的文檔是否與輸入提示相關) 和答案相關性等品質。
該模型系列對開發者友好,根據 Apache 2.0 許可提供,并隨附 IBM GitHub 上的 Granite 社區提供的新開發者方法。
使用 NVIDIA NIM 在任意位置部署 GRANITE 模型
NVIDIA 已與 IBM 合作,通過 NVIDIA NIM 提供 Granite 系列模型。NVIDIA NIM 是一套易于使用的微服務,旨在跨云、數據中心和工作站安全可靠地部署高性能 AI 模型推理。
NIM 使用推理優化引擎、行業標準 API 和預構建容器,為需求提供高吞吐量的 AI 推理。
NVIDIA NIM 可提供出色的吞吐量,使企業能夠更快地生成更多 token。對于生成式 AI 應用而言,token 處理是關鍵的性能指標,而 token 吞吐量的增加直接轉化為企業收入的增加和用戶體驗的改善。
開始使用
使用免費的 NVIDIA 云積分體驗 Granite 模型 。您可以開始大規模測試模型,并通過將應用連接到在完全加速的堆棧上運行的 NVIDIA 托管 API 端點來構建概念驗證 (POC)。
訪問文檔頁面 ,下載模型并在任意 NVIDIA GPU 加速工作站、數據中心或云平臺上進行部署。
?
?