• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    數據科學

    借助 NVIDIA Parabricks v4.2 加速任何測序器的基因組分析

    ?

    Parabricks 4.2 版現已發布,進一步推進了其使命,即在基因組學測序分析中提供前所未有的速度、成本效益和準確性。最新版本為 Oxford Nanopore 測序提供了新的加速工作流程(在精選圖像中),使 Parabricks 能夠在最新的 NVIDIA GPU 上運行,并進一步推進了 Parabricks 的加速深度學習變體識別計劃,以支持來自所有主要測序器類型的數據類型。

    在一小時內分析長讀全基因組

    Parabricks v4.2 包含了升級的 WDL 和 NextFlow 工作流,這被視為部署 Parabricks 工具的最佳實踐。您可以在 Parabricks 工作流程 GitHub 庫中找到,包括短讀和長讀工作流。

    最新版本的 Parabricks 提供更新的 Oxford Nanopore 種系工作流,可在 NVIDIA H100 GPU 上提供高速分析。

    緊隨其后的是 NVIDIA 在 2022 年發布的 超快速納米孔分析流程 (UNAP),這個新的工作流程包括堿基識別、比對以及小型和結構化變體識別步驟。它已更新軟件,從 Guppy 到多拉多,從 PEPPER-MARGIN-DeepVariant 到新集成的 DeepVariant 1.5 長讀變體識別,并隨 Parabricks v4.2 一起部署。

    圖 1 展示了 Oxford Nanopore 種系測序分析的工作流程。

    Schematic shows basecalling and integrated alignment with Dorado/Minimap2, small variant calling with DeepVariant in Parabricks, and structural variant calling with Sniffles2.
    圖 1.Oxford Nanopore 種系測序數據分析工作流程示意圖

    最新的 Oxford Nanopore 工作流程在 8 個 NVIDIA H100 GPU 上運行,Oracle Cloud 最近對其進行了基準測試,在單個 55 倍的全基因組覆蓋度上實現了不到 1 小時的端到端運行時間。

    高速 Oxford Nanopore 測序儀和 Parabricks 工作流程也有可能為臨床測序提供快速周轉時間。

    在持續開發方面, NVIDIA 將與 Clinical Long-read Genome Initiative (lonGER) 聯盟合作,對該工作流程進行進一步的基準測試和優化。該聯盟由德國的四家研究所組成,旨在優化納米孔數據的分析,包括及時得出結果和方法的臨床級準確性,以確定最相關的臨床基因組改變。

    美國國立阿爾茨海默癥及相關癡呆癥健康中心 (CARD) 已經制定了一項大規模高精度全基因組測序的協議。該示例研究等展示了 Oxford Nanopore 測序和快速分析如何提供單倍型分辨率變異和甲基化的全面視圖。

    最近的自然方法論文中,CARD 團隊介紹了如何利用 Oxford Nanopore 的 PromethION 使大規模、長時間的原生 DNA 測序項目成為可能,因為相比其他測序方法,它的成本更低,吞吐量更高。

    使用經過優化的 DeepVariant 模型對所有測序儀進行高精度變異識別

    DeepVariant 是基于 CNN 的高精度種系變體識別程序,作為 Parabricks 的一部分在 GPU 上進行加速。

    最近,Parabricks v4.1 推出了一個加速框架,用于重新訓練基礎 CNN 模型,以更輕松地啟用自定義模型,并為分析工作流程帶來更準確的變體調用。這通過學習不同測序儀的錯誤配置文件或不同高吞吐量實驗室中引入的獨特構件來提高準確性。

    Parabricks v4.2 現在隨附針對各種測序儀數據類型預訓練的加速模型,作為 Parabricks 中 DeepVariant 的一部分:

    • Illumina
    • Oxford Nanopore
    • PacBio
    • Ultima
    • Singular
    • … 以及更多

    這些模型的加速系數可以達到 80 倍以上,從 CPU 實例上的幾個小時到 NVIDIA GPU 上的不到 4 分鐘。

    Benchmarks shown are for a single HG002 whole genome sequencing sample from different sequencer types. Oxford Nanopore reference sample was sequenced to a higher depth (~55x).
    圖 2.在 NVIDIA DGX A100 上運行 Parabricks 中的 DeepVariant 與僅使用 CPU 的 M5.24 xlarge (96 個 vCPU 核心)實例相比的運行時性能

    在 NVIDIA GPU 上實現前所未有的速度

    在高吞吐量設置中,通過 Parabricks 將基因組分析工作流轉移到 GPU 可顯著縮短處理時間。

    例如,英國癌癥研究所的 TRACERx EVO 是 TRACERx 的最新項目,這是全球最大的長期肺癌研究計劃,由 Francis Crick Institute、倫敦大學學院和曼徹斯特大學的基礎設施驅動。

    Francis Crick Institute 的初步結果表明,使用 NVIDIA Parabricks 時,整個人類基因組的端到端分析(包括 FastQ 比對和深度變異識別)只需 2 小時多一點,而在其 NEMO CPU 集群上只需大約 13 小時。預計這一性能提升將在其最新 GPU 集群上進一步推進。

    僅就 TRACERx EVO 項目而言,他們估計這將節省近 9 年的生物信息學處理時間,TRACERx EVO 首席研究員 Mark S.Hill 認為,這一改進“改變了項目分析流程的可行性”。

    對于最新的 GPU 架構,最新的 NVIDIA Hopper 架構被稱為全球 AI 基礎架構的引擎,可為各種工作負載實現數量級的性能飛躍。

    在數據中心運行的高性能計算應用程序受益于 NVIDIA Hopper 的多 GPU 可擴展性及其在 Tensor Core 技術方面的進步,這意味著 AI 推理速度比前幾代產品提升了 30 倍等令人印象深刻的結果。

    具體來說,對于基因組學,NVIDIA Hopper 架構包括 動態編程指令 (DPX),旨在解決復雜的遞歸問題。動態編程被廣泛應用于多個領域,如圖形分析或路線優化,包括在基因組學中使用的 Smith-Waterman 算法,這是大多數對齊器和多個變體調用器的基礎。新的 DPX 指令將這些算法相比僅使用 CPU 的架構加速了 40 倍,與之前的 NVIDIA Ampere 架構相比,加速了 7 倍。

    結合所有這些進步意味著,最新的 NVIDIA GPU 架構非常適合加速生物信息學工具,例如 BWA-MEM 對齊器(可在 8 個 NVIDIA H100 GPU 上運行僅需 8 分鐘)或基于深度學習的 DeepVariant 變體識別器(可在 8 個 H100 GPU 上運行僅需 3 分鐘)。這些運行時間意味著使用 H100 GPU 和 Parabricks 只需 14 分鐘即可實現端到端種系工作流程。

    Benchmarks shown are for a single 30x HG002 whole genome Illumina sequencing sample, run with Parabricks DeepVariant germline pipeline.
    圖 3.Parabricks 種系工作流在 8 塊 NVIDIA H100 GPU 上的運行時性能與僅使用 CPU 的 M5.24 xlarge (96 個 vCPU 核心)實例的比較

    NVIDIA Parabricks v4.2 現已在 NGC 上推出

    Parabricks v4.2 無縫集成到基因組學工作流程中,通過 BWA-MEM 和 GATK 等工具持續支持成熟工作流程的 GPU 加速版本,并且能夠快速訓練自定義模型以進行 DeepVariant 變異識別。通過為新的 GPU 架構以及短讀和長讀測序設備提供這些功能,Parabricks 是一個真正的通用全棧加速平臺,用于在 GPU 上進行黃金標準的基因組學分析。

    Parabricks v4.2 容器現在可在 NGC 上的 NVIDIA Parabricks 集合 中找到。有關 WDL 和 NextFlow 參考工作流,請參閱 Parabricks 工作流程 GitHub 存儲庫。

    想要了解更多關于 Parabricks 的信息,請訪問全基因組測序分析,其中包括客戶成功案例,大規模分析、測序儀和設備部署以及尖端研究。

    如果您需要企業級支持,可以聯系 NVIDIA 銷售人員,以獲得企業優勢,包括與 NVIDIA 專家聯系以確保大規模優化、保證關鍵支持響應時間以及企業培訓服務。

    如需詳細了解面向云服務提供商的新增功能、教程和部署指南,請參閱 Parabricks 文檔

    想要了解更多關于使用 Parabricks 擴展測序分析的信息,請參閱 NVIDIA DGX BasePOD 解決方案適用于基因組測序的白皮書

    ?

    +1

    標簽

    人人超碰97caoporen国产