能夠比較多個相關蛋白質的序列是許多生命科學研究人員的一項基礎任務。這通常以多序列對齊(MSA)的形式完成,從這些對齊中檢索到的進化信息可以深入了解蛋白質結構、功能和進化歷史。
現在,借助更新的 GPU 加速進化信息檢索庫 MMseqs2-GPU,從蛋白質序列中獲取見解比以往更快。
簡而言之,MSA 是一個大矩陣,包含表示蛋白質序列中殘基(或氨基酸)的字母。矩陣的第一行包含“查詢”序列——用于分析的感興趣序列——每個殘基從左到右都放在一列中。
后續行表示相似的序列,從最相似到最不相似,包含與行中每列的查詢對齊的殘基。當沒有殘基與查詢序列匹配時,會在對齊中引入占位符差距,通常由“-”表示 (圖 1)。

通過從包含數千個物種序列的蛋白質數據庫中檢索到的 MSAs 編碼的進化信息,可以深入了解蛋白質域,從而突出 跨物種的保守功能 。通過簡單分析 MSA 中殘基的保守性(即同一氨基酸在一列中的出現頻率),可以快速了解序列中的關鍵殘基,這些關鍵殘基如果改變,可能會導致蛋白質發生故障。
這有助于研究人員深入了解他們所研究的蛋白質。 自 1992 年以來 ,多序列比對(MSAs)一直被用作復雜機器學習算法的輸入,用于預測結構和功能等復雜的蛋白質特征。
AlphaFold2 徹底改變了計算和結構生物學,利用 MSAs 獲得高度準確的 3D 蛋白質結構預測,這只是 MSAs 在藥物研發研究中的眾多用途之一(圖 2)。

然而,計算 MSAs 具有挑戰性,尤其是因為通用 CPU 并非為高度并行的工作流程而構建,例如篩選龐大的蛋白質序列數據庫。由于大規模的元基因組學實驗和廉價的新一代測序技術,蛋白質序列數據庫每天都在增長,因此這個問題越來越難解決。因此,必須開發可快速篩選大型數據庫的新算法,以便為蛋白質分析構建信息豐富的 MSAs。
利用 NVIDIA CUDA 克服計算成本高昂的 MSA
傳統的 MSA 工具依賴于基于 CPU 的實現,這雖然在順序處理方面有效,但無法與 GPU 并行處理能力相匹配。
開發 MMseqs2-GPU 的聯合研究團隊由首爾國立大學、美因茨的約翰內斯·古騰堡大學和 NVIDIA 的研究人員領導。受之前在 CUDASW++4.0 方面的工作啟發,他們針對這一問題開發了一種專為 NVIDIA CUDA 定制的新型無縫預過濾算法,該算法能夠以超快的速度實現高效、高靈敏度的序列比較。
此 GPU 加速的預過濾器使用無縫評分方法取代了 MMseqs2 中的 k-mer 預過濾。無縫預過濾直接分析完整序列,而不是使用 k-mer 搜索來簡化具有粗略表示的序列之間的比較。它采用經典的 Smith-Waterman-Gotoh 算法的修改版本,該版本僅考慮對角依賴項,避免了對齊中的差距。該流程可在數千個 GPU 核心上高效運行。
在查詢和參考數據庫中的每個序列之間運行此算法的結果是,從數據庫到查詢的類似序列的排序列表,這些序列可以過濾到頂級候選項,為此可以執行加速的仿射差距 Smith-Waterman-Gotoh。內置于 MMseqs2 庫中的這些算法還降低了內存需求,并且與多 GPU 系統原生兼容,克服了單個 GPU 的潛在內存可用性,并提供了額外的加速。
無縫預過濾步驟非常適合 GPU,因為它能夠以最少的數據傳輸實現序列之間的比較,從而減少延遲并最大限度地提高 GPU 利用率。通過這種方法,單個 NVIDIA L40S 上的 MMseqs2 速度比 128 核 CPU 上的標準 JackHMMER 實現速度快 177 倍(圖 3)。使用八個 NVIDIA L40 GPU 可將速度提升至 720 倍(每個序列 0.117 秒)。

這些數字 是通過與包含 3000 萬個序列的參考數據庫對齊的 6370 個蛋白質序列的平均運行時間獲得的。這些算法在配備 128 個核心的 CPU、1 TB RAM、2 TB NVMe 存儲和單個 NVIDIA L40S GPU 的系統上運行。
在上下文中,使用 MMseqs2-GPU 計算序列對齊所需的時間(0.475 秒)與人類形成有意識思維(約 0.3 到 0.5 秒)、眨眼(約 0.3 到 0.4 秒)或閃電擊中(約 0.2 到 0.5 秒)所需的時間大致相同。
CUDA 如何為 MMseqs2-GPU 提供優化和加速
這種加速的核心是 CUDA,它使 MMseqs2-GPU 能夠執行優化的計算內核,以實現無縫和間隙對齊。這些內核利用多線程和內存共享功能,以更快的速度并行對齊多個參考序列。
MMseqs2-GPU 特別兼容最新的 NVIDIA GPU,例如 NVIDIA L40S GPU。GPU 加速內核可利用 GPU 的高并行性實現無縫預過濾和間隙對齊。無縫預過濾器并行處理每一行矩陣,使用共享 GPU 內存優化訪問,并使用 32 位字(使用 half2 或 s16x2 數據類型)打包 16 位數字,以最大限度地提高吞吐量。
它使用跨線程束 shuffle 在線程束級別高效處理動態編程依賴項。另外,必要的內存查找通過使用快速 CUDA 共享內存得到加速。結合使用這些技術可以有效地將問題轉變為計算受限的問題,并最大限度地減少內存訪問的開銷。
該工具還支持多 GPU 設置,以確保可擴展性,使研究人員能夠通過在多個 GPU 上分配計算負載來處理更大的數據集。這種架構高度適應基于云的環境,因此 MMseqs2-GPU 對希望在不影響準確性的情況下降低計算成本的學術界和行業研究人員而言是一個極具吸引力的選擇。
“我們已經等了很長時間了。眾所周知,蛋白質結構預測推理受 MSA 計算步驟的限制。這是一項了不起的成就;將 MSA 步驟縮短到執行時間的 20%以下,徹底改變了我們未來處理結構預測工作流程的方式。”VantAI 首席技術官 Luca Naef 說。
MMseqs2-GPU 加速蛋白質結構預測
MMseqs2-GPU 的成功源于對無縫預過濾和間隙對齊算法的重新設計,利用 CUDA 提供快速、經濟實惠且可擴展的序列對齊,從而滿足當今的生物信息學研究需求。
由于 MMseqs2 已集成到使用 GPU 的許多計算工作流中,包括 使用 Colabfold 進行結構預測 ,因此用戶有望獲得易于交換的性能提升。
速度提升
使用 MMseqs2-GPU 的 Colabfold 比使用 JackHMMER 和 HHblits 進行蛋白質折疊的 AlphaFold2 快 22 倍(圖 4)。在實踐中,這意味著您無需等待 40 分鐘來使用 HHblits、JackHMMER 和 AlphaFold2 預測蛋白質結構,而可以使用 Colabfold 和 MMseqs2-GPU 在 1.5 分鐘內得到相同的預測。

該圖基于 對 20 項 CASP14 查詢的預測,且每種方法的準確性 (LDDT) 相同 (~0.76)。預測方法在配備 128 個核心的 CPU、1 TB RAM、2 TB NVMe 存儲和單個 NVIDIA L40S GPU 的系統上運行。
顯存需求
借助無差距 GPU 預過濾器,MMseqs2-GPU 可以避免使用 CPU 實現所需的大型 k-mer 哈希表索引。這使得此解決方案更適合 GPU,并將總體內存需求減少了一個數量級(參見圖 3 和圖 4 描述)
成本效益
使用 MMseqs2-GPU 的 Colabfold 在云成本估算方面比使用 JackHMMER 和 HHblits 的 AlphaFold2 便宜 70 倍。這使得實驗室,尤其是預算有限的實驗室,可以在不損失資金的情況下使用強大的生物信息學工具。更低的計算成本還可以實現持續的大規模分析,而這些分析原本會在財務上令人望而卻步。
高吞吐量和可擴展性
新開發的無縫預過濾器可在 8 個 GPU 上實現每秒 102 Tera Cell Updates Per Second (TCUPS),從而快速預過濾大型數據集。該工具支持多 GPU 執行,使用戶能夠進一步擴展,處理更大的數據集,同時提高總執行速度,這對于大型基因組或蛋白質組研究至關重要。
準確率
MMseqs2-GPU 可在不影響準確性的情況下實現這些速度和成本優勢。它保持了與原版相似的靈敏度和蛋白質折疊準確性,確保研究人員在不損失可靠性的情況下快速獲得見解。
“我在哥倫比亞大學的實驗室開發了 OpenFold,這是 AlphaFold2 的忠實再現,使社區能夠訓練其蛋白質結構預測模型。我們的應用程序特別關注的是執行迭代配置文件搜索的能力,事實證明,這種能力可以為結構預測提供信息量更大的 MSA。我們很高興看到 MMseqs2-GPU 支持配置文件搜索,速度比以前的方法更快,”哥倫比亞大學教授 Mohammed AlQuraishi 說。
加速 MMseqs2 意味著更快的發現速度?
展望未來,聯合研究團隊專注于進一步完善算法和 MMseqs2 集成,將其應用擴展到蛋白質集群和級聯數據庫搜索。MMseqs2 的推出意味著更快地輸入蛋白質結構預測,從而加速藥物研發,正如我們在此處所展示的那樣,以及許多其他應用(圖 2)。
例如,這意味著 更快地輸入 GEMME 等蛋白質變異預測變量 ,這些變量可用于加深我們對疾病變異的理解,以及對 PoET 等蛋白質語言模型的實時檢索。這意味著 抗生素耐藥性分析速度更快 。它甚至意味著 疫苗設計速度更快 。
對于那些有興趣深入研究或為這項轉變領域的工作做出貢獻的人來說,MMseqs2-GPU 是開源的,可在線獲取,為全球研究人員提供了寶貴的資源。
有關更多信息,請訪問 MMseqs2 GitHub 或閱讀 其詳細分析和基準測試 。您還可以測試使用 MMseqs2 作為 MSA 步驟的 AlphaFold2 NVIDIA NIM 。
?