IBM 全新推出的 GRANITE 3.0 生成式 AI 模型：小體積、高準確度、高效率

今天，IBM 發布了第三代 IBM Granite，這是一個開放語言模型和輔助工具的集合。前幾代 Granite 專注于特定領域的用例；最新的 IBM Granite 模型在學術和企業基準測試中達到或超過領先的類似規模的開放模型的性能。

對開發者友好的 Granite 3.0 生成式 AI 模型專為函數調用而設計，支持基于工具的用例。這些模型是作為主流企業模型開發的，能夠作為跨用例復雜工作流的主要構建塊，包括文本生成、代理 AI、分類、工具調用、摘要、實體提取、客戶服務聊天機器人等。

隆重推出 IBM 的第三代 GRANITE 系列

IBM 開發了 Granite 系列，可作為 NVIDIA NIM 微服務供企業使用，在不影響性能的情況下優先考慮行業領先的信任、安全性和成本效益。

總體而言，Granite 3.0 版本包

密集的純文本 LLM：Granite 3.0 8B、Granite 3.0 2B
多專家模型（MoE）LLMs：Granite 3.0 3B-A800M，Granite 3.0 1B-A400M
基于 LLM 的輸入輸出護欄模型：Granite Guardian 8B、Granite Guardian 2B

GRANITE 架構的核心組件包括：用于位置信息的 Group-query Attention (GQA) 和 Rotary Position Encodings (RoPE)、采用 SwiGLU 激活的多層感知器 (MLP)、 RMSNorm 和共享輸入/輸出嵌入。

通過預測解碼優化性能

新的 8B 和 2B 模型基于精心策劃的企業數據的超過 12 萬億個令牌進行訓練，在性能和速度方面都比前代模型有了顯著改進。

預測解碼是一種加速模型推理速度的優化技術，可幫助 LLM 在使用相同（或更少）的計算資源的同時更快地生成文本，并允許更多用戶同時使用模型。例如，在 IBM Research 最近的一項突破中，預測解碼用于將 Granite Code 20B 的延遲減半，同時將吞吐量提高四倍。

在標準推理中，LLMs 處理其迄今為止生成的每個先前令牌，然后一次生成一個令牌。在預測解碼中，LLMs 還會評估在將要生成的令牌之后可能會出現的幾個潛在令牌。如果這些“預測”令牌經過驗證，具有足夠準確的準確性，則一次傳遞可以生成兩個或多個令牌，以一個令牌的計算“價格”計算。

Benchmark Metric	Mistral 7B	Llama-3.1 8B	Granite-3.0 8B
IFEval 0-shot	49.93	50.37	52.27
MT-Bench	7.62	8.21	8.22
AGI-Eval 5-shot	37.15	41.07	40.52
MMLU 5-shot	62.01	68.27	65.82
MMLU-Pro 5-shot	30.34	37.97	34.45
OBQA 0-shot	47.40	43.00	46.60
SIQA 0-shot	59.64	65.01	71.21
Hellaswag 10-shot	84.61	80.12	82.61
WinoGrande 5-shot	78.85	78.37	77.51
TruthfulQA 0-shot	59.68	54.07	60.32
BoolQ 5-shot	87.34	87.25	88.65
SQuAD 2.0 0-shot	18.66	21.49	21.58
ARC-C 25-shot	63.65	60.67	64.16
GPQA 0-shot	30.45	32.13	33.81
BBH 3-shot	46.73	50.81	51.55
HumanEvalSynthesis pass@1	34.76	63.41	64.63
HumanEvalExplain pass@1	21.65	45.88	57.16
HumanEvalFix pass@1	53.05	68.90	65.85
MBPP pass@1	38.60	52.20	49.60
GSM8k 5-shot, cot	37.68	65.04	68.99
MATH 4-shot	13.10	34.46	30.94
PAWS-X (7 langs) 0-shot	56.57	64.68	64.94
MGSM (6 langs) 5-shot	35.27	43.00	48.20
Average All	45.86	52.87	54.33
Open LLM Leaderboard 1	65.54	68.58	69.04
Open LLM Leaderboard 2	34.61	37.28	37.56
LiveBench	22.40	27.60	26.20
MixEval	73.55	73.35	76.5

表 1. 與其他基礎語言模型在熱門基準測試中的準確性表現的 IBM Granite-3.0 8B Instruct 模型比較。

GRANITE 3.0 8B Instruct 與 RAGBench 上的 Mistral 和 Llama 模型保持同步。RAGBench 是一個基準測試數據集，包含從行業語料庫（如用戶手冊）中提取的 100,000 個檢索增強生成（RAG）任務。

IBM GRANITE 的首個 MoE 模型

IBM Granite Generation 3 還包括 Granite 的首個混合專家模型 (MoE)，即 Granite-3B-A800M-Instruct 和 Granite-1B-A400-Instruct。這些 Granite MoE 模型是在超過 10 萬億個數據令牌上訓練的，非常適合部署在設備上的應用程序或需要極低延遲的情況下。

在此架構中，Dense 模型使用的 MLP 層被替換為 MoE 層。Granite MoE 架構的核心組件包括：細粒度專家； Dropless Token Routing ，確保 MoE 路由器不會丟棄單個輸入令牌（無論專家之間的負載不平衡如何），以及負載平衡損失作為保持專家負載均衡分布的策略。

Benchmark Metric	Llama-3.2	SmolLM	Granite-3.0
Active parameters	1B	1.7B	800M
Total parameters	1B	1.7B	3B
Instruction Following	?	?	?
IFEval 0-shot	41.68	9.20	42.49
MT-Bench	5.78	4.82	7.02
Human Exams	?	?	?
AGI-Eval 5-shot	19.63	19.50	25.70
MMLU 5-shot	45.40	28.47	50.16
MMLU-Pro 5-shot	19.52	11.13	20.51
Commonsense	?	?	?
OBQA 0-shot	34.60	39.40	40.80
SIQA 0-shot	35.50	34.26	59.95
Hellaswag 10-shot	59.74	62.61	71.86
WinoGrande 5-shot	61.01	58.17	67.01
TruthfulQA 0-shot	43.83	39.73	48.00
Reading Comprehension	?	?	?
BoolQ 5-shot	66.73	69.97	78.65
SQuAD 2.0 0-shot	16.50	19.80	6.71
Reasoning	?	?	?
ARC-C 25-shot	41.38	45.56	50.94
GPQA 0-shot	25.67	25.42	26.85
BBH 3-shot	33.54	30.69	37.70
Code	?	?	?
HumanEvalSynthesis pass@1	35.98	18.90	39.63
HumanEvalExplain pass@1	21.49	6.25	40.85
HumanEvalFix pass@1	36.62	3.05	35.98
MBPP	37.00	25.20	27.40
Math	?	?	?
GSM8k 5-shot,cot	26.16	0.61	47.54
MATH 4-shot	17.62	0.14	19.86
Multilingual	?	?	?
PAWS-X (7 langs) 0-shot	34.44	17.86	50.23
MGSM (6 langs) 5-shot	23.80	0.07	28.87
Average All	34.07	24.82	40.20
Open Leaderboards	?	?	?
Open LLM Leaderboard 1	47.36	39.87	55.83
Open LLM Leaderboard 2	26.50	18.30	27.79
LiveBench	11.60	3.40	16.8

表 2. IBM Granite-3.0 MoE 3B 模型與其他基礎 LLM 相比的準確性性能。

GRANITE Guardian：領先的安全護欄

新的 Guardian 3.0 8B 和 Granite Guardian 3.0 2B 是其各自大小相應的基礎預訓練 Granite 模型的變體，經過微調，可評估模型的輸入和輸出，并將其分類為各類風險和傷害維度，包括越獄、偏見、暴力、冒犯、性內容和不道德行為。

Granite Guardian 3.0 模型還涵蓋了一系列特定于 RAG 的問題，評估了接地性 (測量檢索到的文檔對輸出的支持程度)、上下文相關性 (衡量檢索到的文檔是否與輸入提示相關) 和答案相關性等品質。

該模型系列對開發者友好，根據 Apache 2.0 許可提供，并隨附 IBM GitHub 上的 Granite 社區提供的新開發者方法。

使用 NVIDIA NIM 在任意位置部署 GRANITE 模型

NVIDIA 已與 IBM 合作，通過 NVIDIA NIM 提供 Granite 系列模型。NVIDIA NIM 是一套易于使用的微服務，旨在跨云、數據中心和工作站安全可靠地部署高性能 AI 模型推理。

NIM 使用推理優化引擎、行業標準 API 和預構建容器，為需求提供高吞吐量的 AI 推理。

NVIDIA NIM 可提供出色的吞吐量，使企業能夠更快地生成更多 token。對于生成式 AI 應用而言，token 處理是關鍵的性能指標，而 token 吞吐量的增加直接轉化為企業收入的增加和用戶體驗的改善。

開始使用

使用免費的 NVIDIA 云積分體驗 Granite 模型。您可以開始大規模測試模型，并通過將應用連接到在完全加速的堆棧上運行的 NVIDIA 托管 API 端點來構建概念驗證 (POC)。

訪問文檔頁面，下載模型并在任意 NVIDIA GPU 加速工作站、數據中心或云平臺上進行部署。

IBM 全新推出的 GRANITE 3.0 生成式 AI 模型：小體積、高準確度、高效率

相關資源

標簽

關于作者

IBM 全新推出的 GRANITE 3.0 生成式 AI 模型：小體積、高準確度、高效率

相關資源

標簽

關于作者

相關文章

使用新的 Phi-3 和 Granite 代碼模型系列創建內容、對話和代碼

用于 SQL 和代碼生成的新 LLM:Snowflake Arctic 模型

相關文章

在大型語言模型時代，通過消息量化和流式傳輸實現高效的聯邦學習

宣布推出基于 CUDA 評估 LLM 的開源框架 ComputeEval

NVIDIA Llama Nemotron 超開放模型實現突破性的推理準確性

使用先進的開放式 NVIDIA Llama Nemotron 推理模型構建企業 AI 智能體

初創公司利用人工智能改善孕產期和新生兒護理服務