Anjali Shah

Anjali Shah 是 NVIDIA 的高級深度學習科學家,隸屬于 Developer Advocate Engineering 集團,幫助客戶構建生成性人工智能解決方案。在她職業生涯的早期,作為一名軟件工程師,她為世界領先的金融服務公司構建了關鍵任務平臺。然后,她在醫療保健領域工作了幾年,設計和實施了大規模醫療保健(EHR)系統。在加入 NVIDIA 之前,她在一家領先的科技公司工作了幾年,在不同行業工作,幫助客戶構建創新的數據和人工智能解決方案。她擁有生物醫學信息學和應用統計學博士學位以及計算機科學與工程碩士和學士學位。

Posts by Anjali Shah

生成式人工智能/大語言模型

使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量

專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務, 3 MIN READ
生成式人工智能/大語言模型

在 NVIDIA TensorRT-LLM 中引入新型 KV 緩存重用優化策略

語言模型通過預測下一個令牌 (給定所有先前的令牌,包括輸入文本令牌) 來生成文本。在 LLM 服務中,先前令牌的鍵和值元素用作歷史語境, 2 MIN READ
生成式人工智能/大語言模型

借助 NVIDIA TensorRT-LLM 預測解碼,將 Llama 3.3 的推理吞吐量提升 3 倍

隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型),Meta 的開放 大語言模型 (LLMs) 集合將繼續增長。 4 MIN READ
生成式人工智能/大語言模型

NVIDIA TensorRT-LLM 現支持動態批處理加速編碼器 - 解碼器模型

NVIDIA 最近宣布, NVIDIA TensorRT-LLM 現可加速編碼器 – 解碼器模型架構 。 1 MIN READ
數據中心/云端

Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能

Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型, 2 MIN READ
對話式人工智能

Llama 3.2 加速部署從邊緣到云端實現提速

擴展開源 Meta Llama 模型集合,Llama 3.2 集合包括視覺語言模型(VLM)、小語言模型(SLM)和更新版的 Llama… 2 MIN READ