• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    數據中心/云端

    利用 NVIDIA Parabricks 加速 Pangenome 比對挖掘新的生物學發現

    NVIDIA Parabricks 是一款可擴展的基因組學分析軟件套件,可以通過加速計算和深度學習解決組學挑戰,實現新的科學突破。正如在美國人類遺傳學協會(ASHG)全國會議上宣布的那樣, NVIDIA Parabricks v4.4 引入了新的特性和功能,包括加速的全基因組圖形比對。

    Parabricks v4.4 版本的核心新功能是為 Giraffe 提供單端和配對支持,以加速 pangenome 圖形比對。該版本還包括針對 Minimap2 和 GATK HaplotypeCaller 的其他功能,以及工具性能改進。它還擴展了協作范圍,以支持基因組測序和軟件平臺。

    版本亮點包括:

    新功能?

    • GPU 加速的 Giraffe,提供單端和配對端支持
    • Pbmm2 封裝器,用于原生 PacBio 輸入和 Minimap2 輸出
    • GATK HaplotypeCaller 中的等位基因選項支持
    • 支持未對齊的 BAM:FQ2BAM(BWA-MEM)和 Minimap2

    改進的功能?

    • 用于 PacBio 和 Oxford Nanopore(ONT)數據的更快 Minimap2
    • 用于 ONT 數據的 DeepVariant 加速
    • 更快的 CRAM 文件寫入器(比僅使用 CPU 的速度快 2 倍)
    • ● 基于單 GPU 系統(NVIDIA Grace Hopper)的 30 分鐘端到端 30 倍全基因組測序(WGS)生殖細胞

    新的合作和基準測試?

    • Parabricks 支持的完整基因組學數據
    • Parabricks 現已在 Basepair 平臺上推出
    • 更新了基準測試,包括 DeepSomatic 和 Giraffe。

    最新版本的 Parabricks v4.4 使科學家和研究人員能夠使用 Giraffe 進行 pangenome 比對。通過了解 pangenome 中的遺傳多樣性,并使用 Parabricks v4.4 中提供的 Giraffe 加速版本,科學家可以更快地發現新的生物學見解。

    從 pangenomes 中了解遺傳多樣性?

    為了了解疾病的根本原因,我們歷來將個體基因組與線性參考基因組進行比較。雖然線性參考基因組不是個體的 DNA 序列,而是由幾個個體的 DNA 構建的平均基因組,但它可以作為單一共識單倍體的公認表征。

    Genome Reference Consortium Human Build 38 (GRCh38) 是目前在基因研究中使用最廣泛的人類參考基因組,作為不同基因研究的比較。它本質上在變異識別中引入偏差和錯誤,尤其是在重復性或高度多態性區域。另外,它可能無法充分代表少數群體的基因變異,從而限制了對遺傳多樣性的完整頻譜的理解。

    相比之下,通過將多個參考基因組集成到一個統一的結構中,基于圖形的 pangenome 為該問題提供了可靠的解決方案。這種方法可以有效地捕獲物種內的遺傳多樣性,從而更準確地檢測和分析不同基因組的變異。通過將基因組數據表示為圖形,pangenome 圖可以實現全面和無偏的遺傳變異分析,克服依賴單個參考基因組帶來的限制。

    The reference genome as a linear haploid sequence is limited in how well it can represent genetic diversity of populations, including single nucleotide polymorphisms (SNPs), indels and structural variants that are more common amongst specific subpopulations.
Aligning to a pangenome graph reference enables high accuracy genomic analysis by providing representation for many diverse subpopulations.
    圖 1. 線性參考基因組與 pangenome 圖的比較

    圖基因組?

    為了表示 pangenome 數據,圖基因組提供了一個統一的框架,用于表示多個基因組的遺傳變異。數據的圖形結構有助于更輕松地理解結構變化,包括插入、刪除和重排。

    圖基因組對于提高變異識別的準確性特別有用,因為它們可以幫助提高基因變異的檢測能力。然而,分析變得更具挑戰性,尤其是在比對方面,因為基于圖形的表征引入的復雜性高于單個參考序列的線性序列。此外,隨著圖基因組的大小和復雜性的增長,計算要求和處理可能變得不切實際。

    使用 Giraffe 加速 pangenome 比對?

    Giraffe 是一個支持 pangenome 圖比對的軟件工具。它由加州大學圣克魯茲分校 (UCSC) 開發,特別用于大規模基因組測序項目,有助于比對、組裝和變異識別。Giraffe 能夠將新的基因組序列與 pangenome 進行比較,而不僅僅是單個參考基因組。

    借助最新的 v4.4 版本,Parabricks 現在支持 Giraffe 處理單端和配對端數據,從而為 pangenome 比對提供 GPU 加速。另外,結果與 開源版本的 Giraffe 完全相同,這樣研究人員就可以使用 Parabricks v4.4 復制開源工具。因此,科學家和研究人員可以提高準確性并改進變異識別,尤其是在基因變異和不同人群中。

    加州大學圣克魯茲基因組學研究所教授兼副主任 Benedict Paten 博士解釋道:“二十多年來,當前的人類參考基因組一直是人類遺傳學研究的基石。但是,它僅包含每個染色體的單個代表性序列,因此根據定義,它無法捕獲人口中存在的豐富變異。為了了解人口的共同遺傳多樣性,人類 pangenome 是必不可少的。”

    Paten 博士補充道:“Pangenomes 在一個參考結構中編碼數百個,甚至在未來編碼數千個單個基因組。它們更好地代表了我們,確保研究和未來的精確治療考慮到我們的個體多樣性。在 UCSC,我們有一個研究團隊致力于構建使用 Pangenome 的工具。其中包括 Giraffe,這是一種用于將新樣本映射到 Pangenome 的工具。我們很高興能與 NVIDIA 團隊合作,加速 Giraffe 的發展,并使其成為未來項目的主要工具。這可能會產生巨大的下游影響。”

    新的協作?

    除了 Parabricks v4.4 的最新功能外,NVIDIA 還擴展了與基因組測序和軟件平臺(包括 Complete Genomics 和 Basepair)的合作。

    完整的基因組學?

    Complete Genomics 致力于通過可改善生活的完整測序解決方案推動基因組學發展。Complete Genomics 利用其專有的 DNBSEQ(DNA Nanoball Sequencing)技術,提供 WGS、單細胞分析、空間轉錄組學和微生物學等各種應用。該技術可實現深度測序覆蓋,同時確保高精度和低錯誤率。Parabricks 種系工作流程現在可以使用來自 Complete Genomics 測序儀(包括 DNBSEQ-T7 和 DNBSEQ-G400)的數據。

    DNBSEQ 與 Parabricks 技術的集成為二級基因組分析提供了一種經濟高效的加速解決方案。例如,在 DNBSEQ-T7 測序儀上使用 fq2bam 和 haplotypecaller 工作流處理一個 30x WGS 樣本,可以根據 GPU 實例優化速度或成本。

    • 速度 :在四個 NVIDIA L40 GPU 上運行 16 分鐘
    • 成本 :購買四塊 NVIDIA L4 GPU 需支付 2.67 美元

    “NVIDIA Parabricks 的集成使我們能夠充分利用 DNBSEQ-T7 測序平臺的全部潛力,”Complete Genomics 產品和營銷副總裁 Rob Tarbox 說,“通過將高質量的測序數據與 Parabricks 的速度和準確性相結合,我們使研究人員能夠更高效、更經濟地發現變異,最終提高精準醫療水平并改善患者的治療效果。

    探索快速入門指南 ,詳細了解使用 Complete Genomics 數據對 Parabricks 種系工作流程進行基準測試。

    The Complete Genomics DNBSEQ-T7 sequencer.
    圖 2. Complete Genomics DNBSEQ-T7 測序儀。圖片來源:Complete Genomics

    堿基對?

    Basepair 是下一代測序(NGS)數據分析平臺。它的點按用戶界面有助于更廣泛的科學家更輕松地進行基因組數據分析和可視化。

    現在,用戶可以通過使用由 AWS HealthOmics 提供支持的 Basepair 上的 Parabricks 來增強基因組數據分析。Basepair 上的 Parabricks 為用戶提供直觀的圖形用戶界面(GUI),以及完全在自己的 AWS 帳戶中為計算和存儲提供的交互式可視化效果。

    Basepair 首席商務官 Simon Valentine 表示:“我們很高興能夠支持 Basepair 上的 Parabricks,為其提供加速工具和更全面、更直觀的基因組數據分析方式。Parabricks 提供了一些目前非常有效的生物信息學工具。通過 Basepair 直觀的點擊界面提供這些工具,我們可以攜手合作,讓更多的科學家可以使用這些工具。”

    Screenshot of NVIDIA Parabricks running on the Basepair platform, with fields for pipeline, samples, analysis name, and omics.
    圖 3. 在 Basepair 平臺上運行的 NVIDIA Parabricks。圖片來源:Basepair

    最新的 Parabricks 基準測試?

    除了每個版本的新功能和升級外,NVIDIA 還在不斷努力提升各類工具、儀器和 GPU 的基準測試性能。

    表 1 概述了熱門 NVIDIA GPU 上最快速度(NVIDIA H100)和最低每個樣本成本(NVIDIA L4)的最新基準測試,包括 Parabricks v4.4 中的 Giraffe 和 v4.3.1 中的 DeepSomatic。

    ? NVIDIA H100 GPU
    更快的速度
    NVIDIA L4 GPU
    每個樣本的成本最低
    ? 2 個 GPU 4 個 GPU 2 個 GPU 4 個 GPU
    Giraffe 65.8 42.1 84.9% 44.7
    DeepSomatic 56.28 35.13 215.53 108.55
    FQ2BAM (BWA-MEM) 13.8 9.15 48.15 27.88
    BWA-Meth 27.43 15.12 77.35% 39.77
    DeepVariant 9.6 5.82 23.48 13.10
    HaplotypeCaller 10.57 4.90 12.00 7.73
    Mutect2 25.80 13.60 55.8 32.50
    表 1. 基于熱門 NVIDIA GPU 的最新基準測試,測試速度更快,每個樣本的成本更低 性能時間(分鐘)

    使用 Illumina 數據對 FQ2BAM (BWA-Mem)、BWA-Meth、DeepVariant 和 Haplotype Caller 進行 30 倍全基因組測序。使用 Illumina 數據對 DeepSomatic 和 Mutect2 進行 50 倍腫瘤正常全基因組測序。

    開始使用?

    借助 NVIDIA Parabricks v4.4 版本,使用圖基因組的科學家和研究人員現在可以訪問 Giraffe 進行 pangenome 比對。Parabricks v4.4 支持加州大學圣克魯茲分校(UCSC)的突破性工具,通過加速版的 Giraffe 來幫助發現新的生物學見解,現在甚至更快。

    下載 NVIDIA Parabricks ,開始使用 GPU 加速的基因組學分析,并在 NVIDIA Parabricks 開發者論壇 上參與對話。

    ?

    0

    標簽

    人人超碰97caoporen国产