Mostofa Patwary

Mostofa Patwary 是 NVIDIA 應用深度學習研究團隊的高級深度學習研究科學家。 Mostofa 的研究興趣遍及自然語言處理、可擴展深度學習、高性能計算和算法工程等領域。在加入 NVIDIA 之前, Mostofa 在百度硅谷人工智能實驗室( Silicon Valley AI Lab )致力于擴展大型語言模型和擴展深度學習應用程序的可預測性。 Mostofa 還為能夠在超級計算機上運行的機器學習中的幾個核心內核開發大規模代碼做出了重大貢獻。

Posts by Mostofa Patwary

對話式人工智能

策展萬億代幣數據集: NVIDIA NeMo 數據策展人介紹

這個大型語言模型 (LLM) 縮放規律的最新發展已經表明,當模型參數的數量進行縮放時,用于訓練的令牌的數量也應該以相同的速率進行縮放。 2 MIN READ
人工智能/深度學習

用 Megatron-CNTRL 為語言模型添加外部知識和可控性

大型語言模型,如 Megatron 和 GPT-3 正在改變人工智能。我們對能夠利用這些模型來創建更好的對話式人工智能的應用程序感到興奮。 2 MIN READ