在一項活動中,人們為生成式 AI 技術 (例如大語言模型 (LLMs)) 提供輸入,以確定輸出是否會偏離可接受的標準。LLMs 的這種使用始于 2023 年,并已迅速發展成為一種常見的行業實踐,也是值得信賴的 AI 的基石。如何標準化和定義 LLM 紅色團隊?
NVIDIA、華盛頓大學、Center for Human-Compatible AI 和哥本哈根 IT 大學的研究人員對紅色團隊的實際應用“ Summon a demon and bind it: A grounded theory of LLM red teaming ”(在 PLOS One 中發布) 進行了一項研究。
由于目標是定義和理解相對較新的活動,因此該研究采用了有根據的理論方法,在數千分鐘的視頻錄制中,以數十位從業者的訪談作為證據。我們與安全專業人員、政策研究人員和科學家,以及從事這項非專業工作的人員 (例如學術研究人員、業余愛好者甚至藝術家) 進行了交談,以了解攻擊 LLMs 的常見主題、動機和策略。
什么定義 LLM 紅隊在實踐中?
LLM 紅色團隊合作具有以下定義特征:
- 它尋求極限:紅色團隊成員發現邊界并探索系統行為的極限。
- 這絕非惡意:做紅隊的人對傷害不感興趣,事實上,情況恰恰相反。
- 它是手動的:作為一種創造性和趣味性的練習,red teaming 中可以自動化的部分通常非常有用,可以讓人類 red teamers 深入了解他們的工作。
- 這是一項團隊合作精神:從業者從彼此的技巧和提示中尋找靈感,規范是尊重其他從業者的工作。
- 他們以煉金術士的思維方式進行交流:我們發現,紅色團隊成員傾向于放棄對模型及其行為的合理化,轉而接受工作的混亂和未知本質。
這些特征融入了 NVIDIA 對 LLM 紅色團隊的定義,我們稍后將在本文中討論這些定義。
在業內,通常會對網絡安全紅隊和內容紅隊進行粗略劃分:
- 網絡安全紅色團隊合作的范圍往往涵蓋直至推理輸出點的技術堆棧,以及用于傳輸和渲染此輸出的技術。
- 另一方面,內容紅色團隊的作用域為模型推理時生成的內容。
人們為什么組建 LLM 團隊?
攻擊 LLMs 的人的動機多種多樣。
其中一些是外部的。這可能是他們工作的一部分,也可能是監管要求。社交系統也可以發揮作用,人們可以發現社交媒體內容的 LLM 漏洞,或者加入封閉的小組。還有一些則是內在的,因為很多人這樣做是為了好玩、出于好奇或出于對模型行為的關注。
在 NVIDIA,我們組建了紅隊 LLMs 作為我們 Trustworthy AI 流程的一部分,在發布之前評估風險。如果模型的性能未達到預期,我們將延遲發布,直到對給定模型進行更新和修改以提高其性能。
人們如何看待這項活動?
LLM 紅色團隊合作包括在對話式攻擊目標時使用實現目標的策略。每種策略都被分解成不同的技術。一項技術可能僅會影響目標的兩個或三個對抗輸入,或者一項輸入可能會利用多種技術。
我們確定了以下紅隊策略的整體類型:
- 語言:調節詞語的表面形式而非語義,例如使用編碼方案。
- 修辭學:依靠論證或操縱。
- 可能的世界: 嘗試改變交互的上下文。
- 虛構化 : 將操作基礎轉移到一個虛構的世界或一組條件中。
- Stratagems:使用影響更高級別的 LLM 交互方式的元策略。
如需了解更多信息,請參閱 Summon a demon and bind it:LLM 紅色團隊的基礎理論,其中列出并描述了 12 種不同策略中的 35 種技術。
LLM 紅色團隊合作揭示了哪些內容?
LLM 紅色團隊合作的目標并不是量化安全性。重點在于探索,以及找出紅色團隊成員可以退出 LLM 的現象和行為。換句話說,如果我們只遇到一次故障,那么失敗是可能的。
紅色團隊與基準測試的另一個區別是對新奇性的關注。
對于網絡安全和基于內容的紅色團隊,攻擊的可能范圍是無限的。對于網絡安全而言,這是因為新的攻擊方法正在不斷開發中。對于內容,這是因為交互模式是通過文本進行的,可以無限地重新排列和增強。
因此,在發現新的安全漏洞時,可重復性并不重要。雖然使用一系列現有提示測試任何模型的故障是有意義的,就像基準測試一樣,這永遠無法表明安全性。它只是揭示了缺點。
您可以根據公開基準測試中的提示對部署的模型進行修補以確保安全性,或者在對齊期間使用這些數據,因此在基準測試中獲得完整標記并不表明模型是安全的。但是,在安全基準測試中得分較低仍然表示存在缺點。
在安全環境中,為了嚴格測試模型,您應該超越公開知識,與模型密切互動,嘗試尋找突破特定 LLM 的新方法。
從這個意義上說,LLM 紅色團隊合作是典型的手工活動。紅色小隊隊員在與目標進行互動時,運用他們的人類專業知識和直覺。例如,他們可能會感覺到某個模型即將發出緩解消息 (例如,“作為 AI,我無法……”),他們可能會通過退出當前的請求行,或者以略有不同的策略開始新的聊天會話來響應此消息。
或者,紅色團隊成員可能會感覺到模型已接近生成,因此繼續推送并略微改變其請求,直到找到解決方法,使模型以目標方式失敗。他們將有效和無效的部分添加到自己的意識專業知識和直覺中,然后與其他紅色團隊成員分享。
這使得紅隊合作成為一種獨特的人類活動,是對安全基準測試的補充。
人們如何使用來自 LLM 紅隊的知識?
Red Team 成員通常會尋找 LLM 可能帶來的危害。 傷害 的定義十分廣泛。
紅色團隊訓練可以專注于許多目標或指標之一,這可能取決于部署環境、用戶基礎、處理的數據或其他因素。紅色團隊成員還可能需要注意“休息”所需的復雜程度。與 LLM 進行單句交互后發現的危害性通常比復雜的多回合操作后出現的危害性更值得關注。
有時,紅色團隊的目標是好奇心,而好奇心的副產品可能是紅色團隊成員在其組織中或公開分享的內容。這既可以建立個人的專業知識和直覺,也可以提高社區的知識水平。傳統網絡安全知識通常在社交媒體上以非正式方式分享,這也適用于 LLM 安全。
在 NVIDIA,人類紅色團隊是我們做出模型發布決策的關鍵部分。我們擁有一支技能熟練的 LLM 紅色團隊和一支技能熟練的 AI 紅色團隊,他們會檢查我們的模型和基礎架構,以發現未在其他地方發現的漏洞和行為。這在三個方面為我們提供幫助:
- 它使我們能夠就是否發布模型做出明智的決定
- 它建立了 LLM 紅色團隊前沿的高級技能池
- 它讓我們確信,我們正在利用 AI 安全功能盡力而為并取得良好結果。
紅色團隊的結果將輸入 NVIDIA 的增強型模型文檔格式 Model Card++。
可以自動測試 LLM 安全性的某些部分。在一個案例中,當發現漏洞后,這可以被存儲并用于測試其他 LLM,這樣我們就不會再次出現同樣的錯誤。我們在 NVIDIA NeMo Curator(生成式 AI Red-Teaming 和評估套件)中正是這樣做的。準備測試其 LLM 部署安全性的開發者可以針對幾乎任何模型運行開源 NVIDIA garak ,并獲得報告,表明他們容易受到 120 多個不同類別的漏洞的影響。
掌握有關如何破解模型的知識可能會對不法之徒帶來風險。當發現漏洞時,最好的方法是聯系模型所有者,讓他們有機會做出回應并修復漏洞。此過程稱為 協同漏洞披露 ,也是 LLM 漏洞的常見做法。
NVIDIA 的 LLM 紅隊定義
我們將 LLM 紅色團隊視為 AI 紅色團隊的一個實例。我們的定義由 NVIDIA AI Red Team 開發,其靈感來自本期關于 LLM 紅色團隊實踐的研究,以及計算語言學協會的 NLP Security SIG( SIGSEC )使用的定義。
請注意指定紅隊的特定子域,因為不同的受眾通常會對所提及的形式做出不同的假設。
LLM 紅色團隊合作:系統測試包含 AI 模型的 AI 模型和系統,以識別會對運行或使用這些模型的系統造成威脅或風險的漏洞和行為。
它可以細分為兩個方面:安全紅隊和基于內容的紅隊。
安全紅色團隊
評估模型和包含模型的系統的穩健性,使其能夠抵御攻擊影響模型本身或包含模型的系統的傳統安全屬性(例如,機密性、完整性和可用性)。
用于違反安全屬性的攻擊(例如對抗輸入、模型提取、訓練數據推理和提取或 prompt injection)通常由安全紅色團隊進行評估。
這些活動通常需要具有傳統安全背景的團隊利用調查結果并評估其影響。
基于內容的紅色團隊
評估模型在對抗操作下的不良行為,生成違反模型某些預先指定的行為契約的輸出 (顯式 (例如 model card) 或隱式)。
這些行為可能包括冒犯性的、不受歡迎的或不安全的輸出,包括有偏見或偏見的生產、關于不安全或不法活動的指令、代表模型所有者作出承諾,或根據受保護的特征做出決定。常見的技術包括各種形式的 jailbreaking 和 guardrail evasion。
這些活動通常需要道德團隊、法律團隊或其他類似領域專家的支持,以評估調查結果的影響。
提升 LLM 的安全性和安全性
NVIDIA NeMo Guardrails 是一個可擴展的平臺,用于定義、編排和執行 AI Guardrails,以在 AI 代理和其他生成式 AI 應用中實現內容安全、越獄預防等。
NeMo Guardrails 和 NVIDIA garak 工具包現已面向開發者和企業推出。借助 NVIDIA AI Enterprise ,企業可以從高級別的安全性和可靠性中受益。
在 GTC 大會上與專家會面
在 GTC 2025 上,NVIDIA 科學家將為這項工作以及 AI 安全領域的其他工作提供支持。您可以聽到關于應對 AI 治理中的關鍵挑戰的小組討論,其中我們討論了構建負責任的 AI 系統的實用方法。
我們的網絡安全 AI 和安全團隊將舉辦一場深入的獨家會議,旨在安全地將您的 AI 代理工作流從藍圖轉變為生產。我們的專家將為您解答有關構建可信 AI 系統的所有問題。
致謝
感謝 Nanna Inie、Jonathan Stray 和 Leon Derczynski 為“召喚惡魔并將其綁定:LLM 紅隊合作的基礎理論”所做的工作:在 PLOS One 上發表的論文。