作者發布了兩個新的特定領域 AI 模型,Palmyra-Med 70B 和 Palmyra-Fin 70B,擴展了 NVIDIA NIM 的功能。這些模型為醫療和金融生成式 AI 應用程序帶來了無與倫比的準確性,優于 GPT-4、Med-PaLM 2 和 Claude 3.5 Sonnet 等類似模型。
雖然通用型大型語言模型 (LLMs) 占據了近期的新聞頭條,但專業模型的目標力量(憑借其更高的準確性和領域知識)將重塑金融和醫療健康等復雜且受監管的行業。Palmyra-Med 70B 和 Palmyra-Fin 70B 是專業模型,因此它們非常擅長為以嚴格的監管和合規標準而聞名的兩個行業的 AI 工作流程提供支持。
Palmyra-Med 70B 和 Palmyra-Fin 70B 即將加入 Writer 構建的頂級語言模型(LLM)名單。其中包括通用模型 Palmyra-X、用于圖像分析的 Palmyra-Vision 等。將 Palmyra-Med 70B 和 Palmyra-Fin 70B 作為 NVIDIA NIM 微服務提供,提高了模型的可組合性,這些模型具有預配置的容器,可以跨云、數據中心和本地平臺部署到 NVIDIA 加速架構。
除了促進快速部署外,Palmyra-Med 70B 和 Palmyra-Fin 70B 都通過 NVIDIA AI 軟件提高了性能。使用 NVIDIA TensorRT-LLM 進行優化后,模型的推理延遲(TTFT)分別降低了 23% 和 30%,并將兩者的令牌返回率(TPS)提高了約 60%。這樣可以獲得響應更靈敏的提示體驗,快速生成查詢答案。


圖 1.NVIDIA TensorRT-LLM 優化對 Palmyra-Med 70B 和 Palmyra-Fin 70B 的 TTFT(左)和 TPS(右)的影響
借助創紀錄的醫療準確性,提高患者治療效果
Palmyra-Med 70B 是我們醫療健康模型的最新版本,也是市場上最準確的模型。在我們的測試中,Palmyra-Med 70B 在所有醫療基準測試中的平均分為 85.9%,比亞軍 Med-PaLM 2 高出近 2 個百分點。與 Palmyra 的零射性能相比,Med-PaLM 2 僅在提供五個示例時取得了這些結果。
表 1 顯示了熱門模型之間醫學大規模多任務語言理解 (Massive Multitask Language Understanding, MMLU) 基準的全面比較。基準測試包括 MMLU 臨床知識、專業醫學、PubMedQA 等。查看完整列表和結果。
? | Palmyra-Med | Med-PalM 2 (5-shot) | GPT-4 | Gemini 1.0 | GPT-3.5 Turbo |
MMLU 臨床知識 | 90.9 | 88.3 | 86 | 76.7 | 74.7 |
MMLU 醫學遺傳學 | 94 | 90 | 91 | 75.8 | 74 |
MMLU 解剖學 | 83.7 | 77.8 | 80 | 66.7 | 72.8 |
MMLU 大學醫學系 | 84.4% | 80.9 | 76.9 | 69.2 | 64.7 |
PubMedQA | 79.6% | 79.2 | 75.2 | 70.7 | 72.7 |
平均值* | 85.9 | 84.1 | 82.8 | 70.8 | 66 |
其結果是一個準確、可靠的模型,能夠處理多種學科中的復雜醫療任務,從而幫助改善患者的治療效果和研究,包括:
- 臨床知識和解剖學:Palmyra-Med 70B 在 MMLU 臨床知識方面獲得了 90.9% 的高分,在 MMLU 解剖學方面獲得了 83.7% 的高分,表明它對臨床程序和人體解剖結構有深入的了解。這使得它在醫療環境中的診斷準確性和治療規劃方面非常有用。
- 遺傳學和大學醫學:該模型在醫學遺傳學和大學醫學中的得分分別為 94.0% 和 84.4%,擅長解釋基因數據并應用復雜的醫學知識,這對遺傳咨詢和醫學教育至關重要。
- 生物醫學研究:Palmyra-Med 70B 在 PubMedQA 中的性能達到 80%,證明其能夠從生物醫學文獻中有效地提取和分析信息,從而為研究和基于證據的醫療實踐提供幫助。
作者與一些領先的醫療健康公司合作,通過功能強大的生成式 AI 應用程序幫助他們改善患者的治療效果。Palmyra-Med 70B 非常精通一系列醫療用例,包括臨床決策支持、提供基于證據的診斷建議和成功的治療策略。它還有助于開發和理解臨床試驗協議、藥物交互摘要、醫療文檔生成等多種應用場景。
Palmyra-Med 70B 助力醫療行業的開發者構建融合了深度醫學知識和專業知識的新型 AI 應用程序。
強大的金融 LLM
在金融領域采用生成式 AI 會遇到一些獨特的障礙:財務報表冗長、術語復雜以及市場分析細致入微。通過將一套精心策劃的金融訓練數據與自定義微調指令數據相結合,該團隊訓練了一個高度準確的金融 LLM,可以為各種用例提供支持。
- 財務趨勢分析和預測:檢查市場動態并對財務表現進行預測。
- 投資分析:生成對公司、行業或經濟指標的詳細評估。
- 風險評估:評估與不同金融工具或方法相關的潛在風險。
- 資產分配策略:根據個人風險偏好和財務目標推薦量身定制的投資組合。
為了測試 Palmyra-Fin 的專業知識,Palmyra Fin 的任務是通過 CFA Level III 考試。該模型在 CFA Level III 樣本測試的多項選擇部分中得分 73%,使其成為第一個可以通過該測試的模型。從這個角度來看,通過 CFA Level III 是投資管理行業的最高榮譽之一。在過去 11 年中,平均及格分數為 60%,通常不到一半的應試者獲得及格分數。
Palmyra-Fin 的表現明顯優于 GPT-4 等其他通用型號,它們之前在測試中的表現為 33%。
該團隊還通過長期評估基準測試運行 Palmyra-Fin,該測試的表現優于熱門模型,如 Claude 3.5 Sonnet、GPT-4o 和 Mixtral 8x7B,這表明該模型能夠分析復雜的金融主題。

Palmyra LLM 入門指南
展望未來,特定領域的 LLM 將處于 AI 創新的前沿,改變行業構建專業 AI 應用程序的方式。Writer 正在通過創建 Palmyra-Med 70B 和 Palmyra-Fin 70B 等模型來引領這一趨勢,這些模型具有深入的行業特定專業知識,非常適合企業用例。這些目標明確的模型不僅能夠保證更高的準確性和效率,還能夠改善數據管理和監管合規性。
如果您要在醫療或金融領域構建 AI 應用程序,請試用 Palmyra-Med 70B 和 Palmyra-Fin 70B,可以通過 NVIDIA API 目錄訪問。對于商業用例,您可以通過 sales@writer.com 聯系 Writer 團隊。