使用聯合學習橋接金融服務中的數據孤島

在機器學習（ ML ）過程中，無法確保數據隱私，這往往阻礙了人工智能（ AI ）在金融服務中充分發揮潛力。例如，傳統的 ML 方法假設所有數據都可以移動到中央存儲庫。

在處理數據主權和安全考慮或個人識別信息等敏感數據時，這是一個不切實際的假設。更實際地說，它忽略了數據出口挑戰和創建大型池數據集的巨大成本。

對于訓練 ML 模型有價值的大量內部數據集仍然沒有使用。金融服務行業的公司如何利用自己的數據，同時確保隱私和安全？

這篇文章介紹了聯合學習，并解釋了它對處理敏感數據集的企業的好處。我們介紹了在金融服務中使用聯邦學習的三種方法，并提供了關于今天開始的提示。

什么是聯合學習

聯合學習是一種 ML 技術，它可以從多個孤立的數據集中提取見解，而無需共享數據或將數據移動到中央存儲庫或服務器中。

例如，假設您有多個要用于訓練 AI 模型的數據集。今天的標準 ML 方法要求首先在一個地方收集所有訓練數據。然而，對于世界上許多敏感的數據來說，這種方法是不可行的。這使得許多數據集和用例無法應用人工智能技術。

另一方面，聯合學習并不假設可以創建一個統一的數據集。而是將分布式訓練數據集留在原地。

該方法包括創建模型的多個版本，并將一個版本發送到數據集所在的每個服務器或設備。每個站點在其數據子集上本地訓練模型，然后僅將模型參數發送回中央服務器。這是聯合學習的關鍵特性：只共享模型更新或參數，而不共享訓練數據本身。這保護了數據隱私和主權。

最后，中央服務器收集每個站點的所有更新，并智能地將“迷你模型”聚合為一個全局模型。該全局模型可以從整個數據集捕獲洞察，即使實際數據無法組合。

請注意，這些本地站點可以是服務器、智能手機等邊緣設備，或者任何可以在本地進行訓練并將模型更新發送回中央服務器的機器。

醫療保健領域的大規模合作證明了多個獨立方使用聯合學習聯合訓練人工智能模型的現實可行性。然而，聯合學習不僅僅是與外部合作伙伴合作。

在金融機構中，我們看到了一個難以置信的機會，可以通過聯合學習來彌合內部數據孤島。隨著企業為新產品收集所有可行數據，包括推薦系統、欺詐檢測系統和呼叫中心分析，全公司的投資回報率可能會增加。

然而，隱私問題并不局限于金融數據。今天，全球范圍內頒布的數據隱私立法浪潮（從歐洲的 GDPR 和加利福尼亞的 CCPA 開始，許多類似的法律即將出臺）只會持續一段時間加速對隱私保護 ML 技術的需求在所有行業中。

預計聯邦學習將在未來幾年成為人工智能工具集的重要組成部分。

ML 算法需要數據。此外， ML 模型的實際性能不僅取決于數量除了數據之外關聯對訓練數據進行分類。

許多組織可以通過合并新的數據集來改進當前的人工智能模型，這些數據集在不犧牲隱私的情況下無法輕松訪問。這就是聯邦學習的用武之地。

聯合學習使公司能夠利用新的數據資源，而無需數據共享。

大體上，聯邦學習支持三種類型的用例：

單個公司可能依賴多個數據存儲解決方案的原因有很多。例如：

聯合學習使您的公司能夠跨不同業務組織、地理區域或數據倉庫中的孤立數據集利用 ML ，同時保護隱私和安全。

收集足夠的定量數據來構建強大的人工智能模型對于一家公司來說是困難的。假設一家保險公司正在構建一個有效的欺詐檢測系統。該公司只能從觀察到的事件中收集數據，如客戶提出索賠。然而，這些數據可能無法代表整個人群，因此可能會導致人工智能模型偏差。

為了構建有效的欺詐檢測系統，該公司需要更大的數據集和更多樣化的數據點來訓練穩健、可推廣的模型。許多組織可以從與其他組織共享數據中受益。實際上，大多數組織不會在通用超級計算機或云服務器上共享其專有數據集。

為全行業的挑戰提供這種合作可以帶來巨大的好處。

例如現實世界中最大的聯合協作之一，我們看到五大洲的 20 家獨立醫院訓練了一個人工智能模型，用于預測新冠肺炎感染患者的氧氣需求。通過參與聯邦系統，醫院的通用性平均提高了 38% ，模型性能提高了 16% 。

同樣，在信用卡網絡減少欺詐活動和銀行采取反洗錢舉措的同時，維護客戶隱私也是一個真正的機會。聯合學習增加了單個銀行可用的數據，這有助于解決代理銀行的洗錢活動等問題。

谷歌最初于 2017 年引入聯邦學習，以針對分布在數十億移動設備上的個人數據訓練人工智能模型。 2022 年，更多的設備連接到互聯網，包括智能手表、家庭助理、報警系統、恒溫器，甚至汽車。

聯邦學習對于不斷為 ML 模型收集有價值數據的各種邊緣設備都很有用，但這些數據通常對隱私敏感，數量大，或者兩者兼有，這會阻止登錄到數據中心。

需要注意的是，聯合學習是一種通用技術。聯合學習不僅僅是訓練神經網絡；相反，它適用于數據分析、更傳統的 ML 方法或任何其他分布式工作流。

聯邦學習中很少有假設，也許只有兩個值得一提： 1 ）本地站點可以連接到中央服務器， 2 ）每個站點都有最少的計算資源進行本地培訓。

除此之外，您還可以自由地使用自定義的本地和全局聚合行為設計自己的應用程序。您可以決定對不同方的信任程度，以及與中央服務器共享的信任程度。聯邦系統可根據您的特定業務需求進行配置。

例如，聯邦學習可以與其他隱私保護技術相結合，如差分隱私（增加噪聲）和同態加密（加密模型更新并模糊中央服務器看到的內容）。

我們開發了一個聯邦學習代碼示例這展示了如何在對應于兩個不同地理區域的信用卡交易數據集的兩個不同分割上訓練全局欺詐預測模型。

雖然聯邦學習根據定義支持跨多臺機器的培訓，但本示例旨在在一臺機器上模擬整個聯邦系統，以便您在一小時內啟動并運行。該系統通過以下方式實現： NVFlare?，一個 NVIDIA 開源框架，用于實現聯合學習。

我們要感謝 Patrick Hogan 和 Anita Weemaes 為這篇文章所做的貢獻。