掌握 LLM 技術：評估

評估大語言模型（LLMs）和檢索增強生成（RAG）系統是一個復雜而微妙的過程，反映了這些系統的復雜性和多面性。與傳統機器學習（ML）模型不同，LLMs 會生成各種不同且往往不可預測的輸出，因此無法滿足標準評估指標的需求。

主要挑戰包括許多任務缺乏確定的真值、數據污染的風險，以及模型對提示變化和解碼策略的敏感度。此外，LLMs 通常會生成高質量的輸出，甚至可以超越低質量的人類引用，從而無法滿足基于引用的傳統指標的需求。

在本文中，我們將探討用于評估 LLMs 和 RAG 系統準確性和可靠性的可靠評估技術和最佳實踐。

LLM 評估為何重要?

在生成式 AI 應用的開發過程中，嚴格的評估對于確保系統有效性和可靠性至關重要。此過程具有多個關鍵功能，包括通過確認 AI 符合預期并提供有意義的交互來驗證用戶滿意度。評估還可確保輸出一致性，驗證生成的內容在邏輯上是否一致且符合上下文。通過根據現有基準對性能進行基準測試，它可以清晰地衡量進度和競爭定位。

重要的是，評估通過識別偏差、毒性或其他有害輸出結果來幫助檢測和減輕風險，促進合乎道德的 AI 實踐。它還通過確定優缺點、告知有針對性的改進和開發優先級來指導未來的改進。最后，評估評估實際應用情況，確定模型在實際場景中的部署準備情況。

LLM 評估面臨的挑戰?

為生成式 AI 應用設計可靠的評估流程需要應對一系列復雜的挑戰。這些挑戰大致可分為兩大類：確保評估結果的可靠性，以及將評估過程集成到更大的 AI 工作流中。

確保可靠的評估結果

有效的評估必須對模型的性能提供可靠的見解，而以下因素使得性能變得復雜：

Data availability
- 特定領域的差距：缺乏針對特定領域的定制基準限制了評估的相關性和深度，給評估實際應用帶來了挑戰。
- 人為標注限制： 為標注器確保足夠的資源并創建高質量的非合成數據集可能需要大量時間且成本高昂。
Data quality
- 偏置評估： 使用 LLMs 評估其他 LLMs 可能會引入偏置，導致結果傾斜，從而可能會影響評估的準確性。
Lack of techniques
- 對當前技術的過擬合 ：嚴重依賴現有評估方法可能會導致模型針對這些技術進行優化，而無法實現真正的性能提升。
Agentic workflows
- 多圈交互： 與單圈交互不同，多圈對話需要復雜的評估設計，以捕獲細微差別并在擴展交換中保持一致性。
- 工作流一致性 ：評估多代理交互的整體一致性和有效性是一項獨特的挑戰。評估智能體協同工作的效果、保持子任務之間的一致性以及生成連貫一致的輸出至關重要。

將評估集成到 AI 工作流中

在 AI 開發工作流中嵌入評估流程會帶來其他障礙，包括：

持續評估：生產中的模型需要持續評估，以確保長期的性能和可靠性，因此需要無縫集成評估工具。
實時反饋：在開發期間實施即時反饋機制可能具有挑戰性，但對于迭代改進至關重要。
跨平臺兼容性 ：評估工具必須在不同的平臺和環境中運行，以確保一致且可擴展的評估。
安全和隱私標準 ：在評估過程中，保護敏感數據并始終遵守隱私法規至關重要。
碎片化和剛性框架 ：許多現有工具和基準測試專注于特定指標，從而導致不連接方法。此外，剛性框架通常缺乏適應新數據、基準或上下文因素的靈活性，限制了其對不斷變化的需求的適應性。

應對這些挑戰需要周全的策略和工具組合，確保獲得可靠的見解并無縫集成到 AI 工作流中。在接下來的幾節中，我們將探索克服這些障礙的有效解決方案，并重點關注如何增強真實應用的 LLM 評估。

NVIDIA NeMo Evaluator 是一種整體解決方案，使組織能夠在各種評估策略中更有效地利用各種目標的評估結果。NeMo Evaluator 可用于緩解之前概述的許多挑戰，同時提供直觀的開發者體驗，以獲得業務關鍵型 LLM 和 RAG 應用所需的穩健且一致的評估。

評估策略?

評估 LLM 的過程涉及多種互補方法，如圖 1 所示，每種方法都旨在解決模型性能的特定方面。

Flow showing how different evaluation strategies are deployed depending on use case and model. — *圖 1. 評估配置流程取決于用例、模型和 metrics*

NeMo Evaluator 如何進行評估

為滿足對 LLMs 評估的日益增長的需求， NVIDIA NeMo 團隊宣布推出 NeMo Evaluator 搶先體驗計劃，該計劃旨在以易于設置和使用的方式解決本文中介紹的大多數挑戰。它使用多種不同的評估配置，使開發者能夠以簡單直觀的方式構建高度可定制的評估流程。

評估 LLM?

以下部分概述了評估 LLMs 以及嵌入和重新排序模型時可以采用的不同方法。

學術基準測試?

標準化基準測試可提供一致的數據集和指標，以便跨各種任務評估 LLMs。下面列出了一些常見的基準測試。請注意，隨著 LLMs 的快速發展，學術基準測試很快就會飽和，新的基準測試也會不斷涌現，以測試模型的前沿能力。

核心知識

大規模多任務語言理解 (MMLU)：此基準測試涵蓋科學、技術、工程、數學、人文和社會科學領域的 57 個主題，測試了 LLM 知識的廣度和深度。
HellaSwag ： HellaSwag 專注于常識推理，通過關于日常場景的多項選擇題向 LLMs 提出挑戰。
WinoGrande ：WinoGrande 是對 Winograd Schema Challenge 的擴展，使用包含 44,000 個問題的數據集評估 LLM 的常識推理能力。

編碼

HumanEval ： 此基準測試通過解決具有特定輸入 – 輸出要求的編程問題，評估 LLM 生成函數式代碼的能力。
CodeXGLUE ：全面的代碼智能基準測試，涵蓋各種編程任務和語言。

問答

ARC 挑戰賽 (AI2 Reasoning Challenge)： ARC 挑戰賽由一年級的科學問題組成，測試 LLM 的推理和應用科學知識的能力。
TruthfulQA ：評估 LLM 針對 38 個主題提供真實答案的能力，消除常見的誤解
TriviaQA ：評估 LLM 的回答跨領域瑣事問題的能力。

合成數據生成

RewardBench ：評估語言建模中使用的獎勵模型的功能和安全性，尤其是使用 Direct Preference Optimization (DPO) 訓練的模型。
CQ-Syn (復合問題合成)：生成復合問題，以評估 LLMs 處理復雜、多部分查詢的能力。

后續說明

IFEVAL ：用于測量模型指令跟隨能力的關鍵數據集，具有 500 個提示，可通過啟發式驗證，例如“write in more than 300 words.”
MT-Bench-101 ：評估 LLM 在對話式環境中遵循復雜的多回合指令的能力。
高難度實驗 ：挑戰推理任務，旨在測試 LLM 遵循復雜指令的能力。

多語種

MGSM ：評估 LLM 在多語種環境中的推理能力，尤其是在復雜的推理任務中。
XNLI (跨語言自然語言推理)：評估 LLM 跨多種語言執行自然語言推理的能力。

長語境

LongGenBench ：評估 LLM 在通過擴展序列遵循復雜指令的同時生成長格式文本的能力。
ZeroSCROLLS ：用于長文本自然語言理解的零樣本基準測試。

特定領域

FinanceBench ：評估 LLM 在財務問題上的表現，涵蓋 SEC 提交、收益報告和財務分析等領域。
GSM8K (Grade Schoo l Math 8K)：專注于初高中數學單詞問題，測試 LLM 的數學推理能力。
大規模多學科多模態理解和推理 (MMMU)：涵蓋六個核心學科的大學水平知識，讓 LLMs 執行專家級任務。

通過使用這些不同的基準測試，研究人員和開發者可以全面了解 LLM 在各種領域和任務類型中的功能。這種多面評估方法可確保對模型性能進行更可靠的評估，并有助于確定 LLM 開發中需要改進的領域。

非數字評估 (LLM 即評判)

LLM 即判斷方法利用 LLM 的推理能力來評估其他模型的輸出。對于需要細致理解或復雜推理的任務，此策略特別有用。工作原理如下：

為評估器 LLM 提供包含以下內容的提示:
- 任務說明
- 評估標準
- 提供給已評估模型的輸入
- 所評估的模型生成的輸出
讓評估者 LLM 根據所提供的標準評估輸出
從 LLM 評估器接收結構化評估，其中通常包括:
- 分數
- 定性反饋
- 評估推理

這種方法非常適合自動指標無法達到要求的任務，例如評估一致性和創造力。不過，請務必注意，LLM-as-a-judge 評估可能會在 LLM 評估器訓練數據中引入固有偏差。

數值評估 (相似性指標)

傳統的自然語言處理 (NLP) 相似性指標提供了評估 LLM 輸出的量化方法。常見指標包括：

BLEU (Bilingual Evaluation Understudy)：將模型輸出與參考翻譯進行比較，以評估機器翻譯質量。BLEU 分數介于 0 (不匹配，即低質量) 到 1 (完美匹配，即高質量) 之間。

用于 Gisting Evaluation 的面向召回性研究 (ROUGE)：測量機器生成的摘要和人工生成的摘要之間的重疊。ROUGE 分數介于 0 和 1 之間，分數越高表示相似性越高。
Perplexity： 量化預測 詞序列中的不確定性，以較低的值表示預測性能更好。

評估嵌入或嵌入加 reranking 模型

嵌入和重新排序模型通常用于基于檢索的任務。能夠評估這些模型對于構建基于 LLM 的穩健應用至關重要。

在評估這些模型時，可利用許多標準評估指標：

Precision@K ：測量檢索到的文檔在一組 K 個檢索到的文檔中的相關比例。
回顧一下 K ：評估在一組 K 個檢索文檔中成功檢索的相關文檔所占的比例。
相關性 ：評估檢索到的信息與查詢或上下文的匹配程度。
時間方面：考慮檢索到的信息的及時性和及時性。

重新排序可增強檢索過程，可視為重復檢查。但是，嵌入、嵌入和重新排序流程使用的指標是相同的。

評估 RAG?

評估 RAG 系統存在獨特的挑戰，使其有別于常規 LLM 評估。這種復雜性源于 RAG 系統的雙重性，即將信息檢索與文本生成相結合。

在評估 RAG 系統時，傳統指標證明是不夠的，因為它們主要側重于文本相似性，而無法捕捉 RAG 系統的細微差別性能。出現這一缺陷的原因在于，他們無法有效衡量事實準確性和上下文相關性。

評估 RAG 系統需要采用全面的方法，既要獨立考慮檢索組件，也要作為一個集成的整體來考慮生成組件。檢索器組件的評估結果如前所述。這是使用 NeMo Evaluator 的一個優勢，使用戶能夠構建模塊化評估流程。

必須評估生成組件是否能夠根據檢索到的信息生成連貫一致、符合情境且符合事實準確的文本。此評估應考慮以下內容：

一致性 ：生成的文本在多大程度上流暢運行并保持邏輯一致性。
上下文 適當性 ：生成的內容是否適合給定的查詢或上下文。
事實準確性：生成文本中呈現的任何事實或信息的 正確性 。

為了全面評估 RAG 系統，可以使用以下端到端流程：

合成數據生成 (SDG)：使用 NVIDIA NeMo Curator 等模型，可以根據向量存儲中的文檔創建一組合成的三元組 (question-answer-context)。
查詢處理 ：分析系統解釋和處理輸入查詢的效果。
信息檢索： 使用 precision 和 recall 等指標評估檢索到的信息的相關性和質量。
內容生成 ：評估生成文本的質量、一致性和事實準確性。
整體輸出評估：評估最終輸出與原始查詢的相關性、事實正確性和實用性 。
比較分析： 將 RAG 系統的性能與基準模型或人工生成的響應進行比較。

Flow diagram showing how different metrics are computed based on interrelationship across questions, retrieved contexts, and responses. — *圖 2、RAG 評估流程中計算的各種指標示例*

為了解決傳統指標的不足，我們為 RAG 評估提出了一些專門的指標，這些指標通過 NVIDIA NeMo Curator 中的 Ragas 框架提供：

檢索精度 ：測量檢索到的與查詢相關的文檔所占比例。
檢索召回 ：評估從全部相關文檔集中檢索到的相關文檔的比例。
忠實度： 根據給定的上下文測量生成答案的事實一致性
響應相關性 ：評估生成的答案與給定提示的相關性。

有關實際用例的完整 RAG 評估流程，請參閱使用 NVIDIA AI Endpoints 和 Ragas 評估醫療 RAG 。

評估生成式 AI 準確性的后續步驟

本文概述了評估所面臨的挑戰，并介紹了一些成功的方法。評估是一個需要推理的復雜主題，包含許多可針對您所需的下游任務進行定制和調整的區域。它還存在一些技術和實施障礙，可能會消耗關鍵的開發時間。

正如我們所述，借助 NeMo Evaluator，您可以將更多時間用于有用的迭代和改進周期。NeMo Evaluator 目前處于 Early Access 階段。如果您有興趣加速評估工作流程，請申請 NeMo Evaluator Early Access 。

掌握 LLM 技術：評估

LLM 評估為何重要?