Geneformer 是最近推出的 和功能強大的 AI 模型,可以通過從大量單細胞轉錄組數據中進行遷移學習來學習基因網絡動力學和相互作用。借助此工具,研究人員可以在數據有限的情況下準確預測基因行為和疾病機制,從而加速藥物目標的發現,并提高對各種生物學背景下復雜基因網絡的理解。
AI 模型 Geneformer 由麻省理工學院和哈佛大學博德研究所的研究人員及其合作者開發,該模型使用 sc-RNA 表達數據中表達最高的基因生成每個細胞的密集表示,這些表示可以用作各種下游預測任務的特征。然而,Geneformer 的獨特之處在于其架構所支持的功能,即使在使用很少的數據進行訓練時也是如此。
類似于 BERT 的單單元數據參考模型
Geneformer 具有類似 BERT 的 Transformer 架構,并基于來自各種人體組織中大約 3000 萬個單細胞轉錄組的數據進行了預訓練。其注意力機制使其能夠專注于輸入數據中最相關的部分,以便更好地捕捉關鍵信息。借助這種上下文感知方法,模型可以通過考慮基因之間的關系和依賴性來做出預測。
在預訓練階段,模型采用了一種蒙版語言建模技術。這種技術將部分基因表達數據蒙版,然后模型根據周圍環境學習預測蒙版基因。這項方法不需要標記數據,而是使模型能夠理解復雜的基因相互作用和調節機制。
這種架構和訓練 使模型能夠在處理有限的數據時持續提高與染色質和基因網絡動力學相關的各種任務的預測準確性。 例如,Geneformer 能夠使用僅 5000 個數據細胞重建心臟內皮細胞中的重要基因網絡,這與之前使用超過 30000 個數據細胞進行訓練時使用的先進方法一樣準確。
它還可以在特定細胞類型分類任務中實現超過 90% 的準確度,這是基因表達基礎模型的最常見用例之一。我們使用了克羅恩病小腸數據集對 NVIDIA BioNeMo 模型進行評估,在準確性 (圖 1) 和 F1 評分 (圖 2) 方面,與基準模型相比,性能有所提高。


圖 1 和圖 2 中的比較使用了一個基準 Logp1 PCA+RF 模型,該模型使用包含 10 個組件的 PCA,并使用歸一化和對數轉換的表達式計數訓練隨機森林模型。基準隨機權重模型經過大約 100 步的訓練,使用近似隨機的權重。具有 1000 萬個參數的模型是 6 層模型,具有 106M 個參數的模型具有 12 層,這兩種模型都在 BioNeMo 文檔中進行了描述。
我們的實驗 和原始 Geneformer 出版物中的數據表明,將 Geneformer 擴展到目前生成的 10.6M 參數 12 層模型是有價值的。
為了支持新一代基于 Geneformer 的模型,我們在 BioNeMo 框架中提供了兩項新功能。首先,BioNeMo 模型版本具有數據加載器,其數據加載速度比發布方法快 4 倍,同時保持與原始出版物中使用的數據類型的兼容性。其次,Geneformer 現在允許實現張量和管線并行,只需簡單地更改訓練配置。這有助于管理內存限制并減少訓練時間,從而能夠利用多個 GPU 的總計算能力訓練具有數十億參數的模型。
NVIDIA Clara 工具組合用于藥物研發
Geneformer 可以在 BioNeMo 框架內訪問,是 NVIDIA Clara 套件中不斷增長的加速單細胞和空間組學分析工具目錄的一部分(圖 3)。這些工具可以在用于藥物研發的互補研究工作流中實施,如 轉化基因組學研究院(TGen)的研究。
RAPIDS 編程庫套件(包括 RAPIDS-SINGLECELL 工具包和 ScanPy 庫)專為基于 Python 的組學數據預處理、可視化、集群、軌跡推理和差分表達測試而構建。當用于分析單細胞表達數據時,其輸出可以使用傳統的生物信息學方法來分析表達數據,對細胞類型標注和微擾預測的成像和基礎模型方法進行補充。借助 NVIDIA RAPIDS 數據分析庫,RAPIDS SINGLE-CELL 可加速 Scanpy 中最計算成本極高的工作負載。
對于空間分辨率方法,MONAI 中的 VISTA-2D 模型專為處理和分析細胞圖像而設計。它提供高質量的分割掩膜,用于識別和量化細胞形態以及組織內的空間組織。通過 VISTA-2D 生成的分割掩膜,可以生成表達數據,并將其輸入到基礎模型中,如 Geneformer。

用于疾病建模的基礎 AI 模型
正如其各種應用所展示的那樣(圖 4),Geneformer 可以作為生物學基礎模型,這些用例涵蓋了從分子到有機體規模的問題,使其成為生物學研究中一種廣泛實用的工具。
模型論文中描述了其中許多用例。該模型現已開源,可供研究使用。 圖 4 展示了 Geneformer 可以使用零樣本學習處理的用例,其中包括一些下劃線的項目。零樣本學習意味著 Geneformer 可以預測其以前從未見過或明確訓練過的數據類,即使沒有相關的訓練數據。

在基因調控研究中,Geneformer 可以對測量基因表達變化的數據集進行微調,這些變化是響應不同水平的轉錄因子的結果。這使得可以準確預測不同劑量的轉錄因子如何影響基因表達和細胞表型,從而幫助了解基因調控和潛在的治療干預措施。
通過在數據集上微調 Geneformer,捕捉細胞在微分過程中的狀態轉換,可以實現細胞狀態的精確分類,從而幫助理解微分過程和發展。該模型甚至可以用于一-shot 識別轉錄因子之間的協同作用。這可以增強對復雜調節機制的理解,以及轉錄因子如何協同工作來調節基因表達。
開始使用
6 層(3000 萬參數)和 12 層(1.06 億參數)模型,通過 NVIDIA BioNeMo 框架在 NVIDIA NGC 上提供,包括用于訓練和部署的完全加速示例代碼。
?