領先的醫療健康組織正在轉向生成式 AI,以幫助構建能夠帶來挽救生命影響的應用。這些組織包括印度理工學院 – IIT Madras 大腦中心 。為推進神經科學研究,IIT Madras 大腦中心正在利用 AI 生成不同人口群體的細胞層面的全人腦分析。
該中心使用視覺問答 (VQA) 模型和 大語言模型 (LLM) 開發了一種獨特的知識探索框架,使神經科學界更易于獲取腦成像數據。本文展示了關于人工智能 (AI) 如何突破神經科學研究極限的概念驗證。通過構建融合 VQA 模型與 LLM 的多模態框架,該團隊找到了一種讓大腦成像數據更易于理解的方法。這種方法可幫助研究人員發現有關大腦結構和功能的新見解,為取得突破性進展奠定基礎,進而實現挽救生命的發現。
神經科學知識探索框架?
該知識探索框架利用神經科學出版物幫助研究人員將腦成像數據與最新的神經科學研究關聯起來。借助此工具,研究人員可以探索與特定大腦區域的大腦圖像和發現相關的近期進展,例如成像數據中顯示的特定狀況的原因。他們還可以跟蹤任何神經科學研究領域的現狀,并找到相關查詢的答案。
該框架的處理工作流由兩部分組成:
- 提取: 將最新的神經科學出版物編入知識庫。
- Q&A: 支持用戶使用查詢與知識庫進行交互。最新的神經科學出版物從公開可用的數據庫中下載,并在提取流程中進行處理。然后逐段提取文本。我們使用特定領域的微調嵌入模型(domain-specific, fine-tuned embedding model)為每個段落生成嵌入。然后將這些嵌入編入向量數據庫。
問答部分是一個 多模態檢索增強型生成(RAG) 工作流,可讓用戶與文本和圖像進行交互。本部分會過濾用戶輸入,以從所提供的文本中刪除任何不相干或有毒的內容。然后,使用結合語義和關鍵字相似性的混合相似性匹配方法檢索相關段落。檢索到的段落隨后使用重新排名模型進行排名。最后,將前兩個段落傳遞到語言模型中,以便生成答案。
視覺問答和多模態檢索
用戶可以使用大腦區域的圖像與框架進行交互,并詢問有關所顯示圖像的問題。該框架采用最新的 VQA 模型(如 Llava-Med)來提供答案。此外,該框架還支持檢索基于給定圖像或文本的類似圖像。這部分流程仍處于開發階段,需要進一步優化。

使用 NVIDIA 技術克服研究挑戰
NVIDIA 技術堆棧為知識庫框架的處理管道提供支持。我們已使用各種 NVIDIA 工具和框架來確保此管道的可靠性和性能。開發流程的多個部分帶來了幾個挑戰,所有這些挑戰都借助 NVIDIA 技術成功解決。
提高檢索準確性?
該框架包括以神經科學出版物為中心的專門知識庫。由于通用嵌入模型(generic embedding models)最初并未基于此類數據進行訓練,因此需要進行微調以提高檢索準確性。大規模手動創建微調數據集極具挑戰性,需要神經科學專家提供意見,因此合成數據集是使用大語言模型(LLM)生成的。為了支持大規模數據集開發,快速的 LLM 推理至關重要;Mixtral 8x 7B NVIDIA NIM 微服務用于提高推理速度。對嵌入模型進行微調后,前兩個結果的檢索準確率提高了 15.25%。
NVIDIA NeMo Retriever 是一套用于信息檢索的 NIM 微服務,進一步提高了檢索準確性。使用 nv-rerank-qa-mistral-4b_v2 NIM 微服務對檢索到的段落進行重新排序,將前 2 名檢索準確率再提高 15.27%。
用戶輸入過濾?
為了確保用戶僅可獲取相關內容,IIT Madras 的研究人員使用 NVIDIA NeMo Guardrails 進行過濾。他們使用 Llama Guard 2 8B 語言模型實現了用戶輸入守護,并針對神經科學開發了定制提示。該提示使用 公共毒性聊天數據庫 進行了測試,以評估其阻止不相關問題的能力,并使用神經科學特定問題進行了評估,以確認其接受了相關問題。結果顯示:
- 38% 的有毒內容被默認提示阻止
- 68% 的有毒內容被自定義提示阻止。
- 98% 的神經科學特定問題被自定義提示符接受(基于自定義數據集)。
生成答案的推理速度?
由于多個用戶同時訪問系統,因此在合理時間內生成答案極具挑戰性。這一挑戰通過在 NVIDIA DGX A100 服務器上運行 LLama 3.1 70B NIM 得以克服。在 NVIDIA DGX A100 服務器上使用 LLama 3.1 70B NIM,推理速度比自定義開發的推理代碼快 4 倍。
用于多模態 PDF 提取的 NVIDIA AI blueprint?
最近推出的用于多模態 PDF 數據提取的 NVIDIA AI blueprint 可用于從神經科學出版物中準確提取相關信息,并有可能連接到上述檢索管道。
此工作流旨在幫助組織準確提取 PDF 文檔中包含的知識,這是存儲出版物和研究信息的常見形式。NVIDIA 創建了一個 RAG 模型,該模型使用 NeMo Retriever NIM 微服務來解析 PDF,其中包括文本、圖像、圖表、表格、繪圖和其他圖表。

NVIDIA blueprint 提供了使用 NVIDIA NIM 和合作伙伴服務構建的示例應用,以及用于部署的參考代碼、自定義指南和 Helm 圖表。這些藍圖為科學開發者使用功能強大的 NVIDIA AI 工具構建自己的應用提供了一個良好的開端。它們非常靈活,可以根據研究項目進行調整和擴展,使開發者能夠為復雜的生物醫學文獻評審任務創建復雜的工作流。
示例?
本節展示了視覺問答和圖像到圖像檢索的示例,并展示了如何將這些大型語言模型(LLM)技術應用于神經科學研究。第一個示例說明了視覺問答如何從輸入圖像中識別特定的大腦區域。其他示例展示了如何通過比較組織切片的顯微圖像來實現圖像到圖像的檢索,同時強調了根據視覺特征檢索類似樣本的能力。
視覺問答示例#1?
圖 3 是視覺問答示例的輸入圖像。
問題 :圖像中的大腦區域是什么? 答案 :圖像中的大腦區域是小腦,是大腦的一部分,在運動控制、協調和平衡方面發揮著重要作用。

視覺問答示例#2?
圖 4 是第二個視覺問答示例的輸入圖像。
問題 :此圖像顯示的是額葉皮層嗎? 答案 :是的,圖像顯示的是額葉皮層,這是大腦的一個區域。

圖像到圖像檢索示例#1?
圖 5 并排顯示組織切片的兩張顯微圖像。左側圖像顯示的是帶有紫色染色和一些結構細節的輸入組織樣本,右側圖像顯示的是檢索到的外觀相似的組織樣本,具有類似的染色和形狀,展示了圖像到圖像的檢索。

圖像到圖像檢索示例#2?
圖 6 并排顯示了兩張腦組織切片的顯微圖像。左圖顯示的是染色為紫色的輸入樣本,其中有明顯的淺色和深色紋理以及一些細長、淺色的條紋。右圖顯示的是檢索到的組織樣本,其整體形狀、染色和紋理模式類似,用于演示圖像到圖像的檢索。

總結?
IIT Madras 大腦中心以及 NVIDIA 加速計算和 AI 技術 —— 包括 NVIDIA NeMo、NVIDIA NIM、NVIDIA AI 藍圖和 NVIDIA DGX —— 正在推動神經科學研究的發展,為了解大腦結構和功能開辟新的途徑,并加速可能導致挽救生命的發現。
?