科學論文多種多樣,通常為同一實體使用不同的術語,使用不同的方法來研究生物現象,并在不同的上下文中展示研究結果。從這些論文中提取有意義的見解需要對生物學的深刻理解、對方法的批判性評估,以及從不相關或不太可靠的發現中辨別出可靠發現的能力。
科學家必須仔細解釋上下文,評估實驗證據的可靠性,并識別研究中潛在的偏見或局限性。鑒于支持疾病建模中關鍵決策的高精度需求,生物學發現必須僅包含高質量的知識。?
大語言模型 (LLM) 在集成到 檢索增強生成 (RAG) 流程中時,為自動化和加速生物發現的管理提供了顛覆性的機會。通過優化從科學論文中提取見解的過程,LLM 顯著提高了這一過程的可擴展性。這些語言模型可以篩選的論文數量遠超任何個人可以手動審查的論文,并發現了更多的相關發現。???
CytoReason 團隊是 NVIDIA Inception 計劃的成員,該團隊開發了計算疾病模型,利用 AI 挖掘大量分子和文本數據,為生物制藥的決策制定提供支持。通過捕獲作用機制 (MOAs) 、基因調控、患者反應等,這些模型可以在組織、細胞和基因層面模擬人類疾病。
這使得研究人員能夠預測疾病進展、評估治療反應、確定生物目標的優先順序,并識別相關的患者亞群體。CytoReason 計算疾病模型的其中一項分析基于文獻中的生物學發現。人工挖掘越來越多的科學論文需要對生物學的復雜理解和大量時間。??
本文將介紹 CytoReason 用于加速文獻中生物學見解的管護過程的方法。??
由 NVIDIA NIM 提供支持的 RAG 管道
CytoReason 團隊開發了由 NVIDIA NIM 微服務提供支持的 RAG 管道,以擴大 CytoReason 計算疾病模型中集成的生物學發現的挖掘規模。圖 1 展示了流程。??

該工作流的輸出是一個從文獻中提取的生物證據列表。這些證據按實體類型和條件進行匯總,提供全面的總結,提供有關疾病生物學的寶貴見解。圖 2 顯示了支持克羅恩病患者 IL6 基因表達增加的輸出示例。?
NVIDIA 推理 LLM NIM 微服務 (例如 Mistral 12B Instruct ) 提供了顯著的易用性,實現了與此工作流的無縫集成。通過使用 NIM,該團隊實現了高吞吐量,將免疫學家構建此類列表的時間從幾天縮短到僅僅幾個小時,同時還實現了更高的覆蓋率。??
結構化輸入?
“RAG 流程從旨在滿足團隊生物學家需求的結構化輸入開始。此輸入由四個關鍵參數定義:實體類型 (例如 gene、pathway 或 cell type) 、疾病、組織和病癥。例如,輸入可能涉及檢索文獻證據,以支持與 Crohn’s disease 在 ileum tissue 中相關的基因表達變化,比較健康狀況與 inflamed 條件。”?
檢索引擎??
檢索模塊負責查詢數據庫,如 Google Scholar、PubMed 或其他科學資源庫,根據輸入獲取相關論文。為了增加獲得多樣化發現的可能性,檢索引擎處理了從相同輸入中編譯的數十個查詢。然后,從這些查詢中檢索到的科學論文被整合到一個統一的集合中。每篇論文都存儲了詳細的元數據,包括標題、作者、出版日期、摘要、Google 片段、期刊或來源以及 DOI/URL。??
生物護欄?
在檢索組件編譯論文和相關元數據的存儲庫后,使用 Mistral 12B 的護欄流程會應用 NIM 來優化集合,使其成為高度具體且相關的論文集。此步驟由包含以下三個標準的提示符指導:??
- 基于人類樣本的研究 :不包括僅基于非人樣本的論文,例如動物模型或體外研究。??
- 與疾病和組織的相關性:確保論文專注于特定疾病和相關組織。 例如,一篇論文可能包含有關影響腸道內不同部位的多種 IBD 狀況的數據。此步驟可確保具體條件和組織 (例如回腸中的 Crohn’s disease) 符合論文的討論范圍。?
- 是否存在比較條件 :比較研究對于獲得有意義的見解至關重要,例如識別差異基因表達或發現生物標志物。缺乏比較條件清晰信息的論文 (例如“患病與健康”或“治療與未治療”) 將被排除在外,因為它們不太可能與分析目標保持一致。?
此外,提示還包括說明、few-shot 示例、解決方案的引導步驟 (chain of thought) 、問題和對高置信度結果的要求等元素。?
生物證明提取?
在此階段,我們會分塊處理每篇剩余論文的科學內容。對于每個數據塊,采用 NVIDIA LLM NIM 來提取與疾病、組織和病癥相關的相關實體的證據。提供給 LLM 的提示經過精心設計,類似于生物護欄階段的范式。?
提取的信息以結構化格式 (例如 JSON) 進行組織,從而促進高效的下游處理和分析。最后,輸出包括包含論文鏈接的證明,如圖 2 所示。基因根據兩種條件 (例如疾病與健康) 的表達變化 (增加、減少、不變或未知) 進行分類。文獻中的證據支持克羅恩病患者增加 IL6 基因的表達。?

結果?
該團隊使用專注于克羅恩病在回腸中的基因表達的基準來評估 RAG 管道。在這種情況下,在由免疫學家花費數天的人工處理過程中,共有 101 個基因在健康和發炎疾病之間被識別為差分表達(上調或下調)。??
“RAG 流程在幾分鐘內提取了大約 99 個基因的信息,其中 70 個基因與通過人工篩選確定的基因重疊。其余 29 個基因是新發現,隨后由專家驗證其準確性。該流程為所有基因生成的證據在 96% 的病例中是準確的。”
值得注意的是,該 pipeline 成功識別了 14 個 hallmark genes 中的 13 個,每個基因都有大量的證據句子。這凸顯了它以高精度提取關鍵信息的能力,因為 hallmark genes 與特定疾病密切相關,并且在科學文獻中經常討論。??
總結
從文獻中挖掘生物學見解是一項復雜的任務,傳統上需要數天時間,并且需要深厚的生物學專業知識。通過利用 NVIDIA NIM 和 LLM 技術,CytoReason 已將此過程所需的時間從幾天大幅縮短到幾小時。這些結果表明,這些見解的準確性非常高,與人類科學家確定的生物實體相比,其涵蓋范圍甚至更大。?
要開始使用 NVIDIA NIM ,請訪問面向開發者的 NVIDIA NIM。
致謝
我們在此感謝 NVIDIA 在整個項目期間提供的專業、耐心和熱情支持。我們還要感謝 CytoReason 的同事,他們貢獻了自己的時間和專業知識。特別感謝 Greg Minevich、Shimon Sheiba、Inbal Beracha、Dan Aizik、Jonatan Enk、Elina Starosvetsky、Zeev Benshachar、Yoav Schumacher 和 Ronen Schuster 在設計、實施和審查本文中討論的技術方面發揮的關鍵作用。他們的見解和反饋對于塑造開發流程和內容都非常寶貴。