Training AI Models – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 27 Feb 2024 23:11:02 +0000 zh-CN hourly 1 196178272 生成式 AI 研究聚焦:揭開基于擴散的模型的神秘面紗 http://www.open-lab.net/zh-cn/blog/generative-ai-research-spotlight-demystifying-diffusion-based-models/ Thu, 14 Dec 2023 05:41:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=8589 Continued]]> 借助互聯網級數據,AI 生成內容的計算需求顯著增加,數據中心在數周或數月內全力運行單個模型,更不用說通常作為服務提供的高生成推理成本。在這種情況下,犧牲性能的次優算法設計是一個代價高昂的錯誤。 近期,AI 生成的圖像、視頻和音頻內容取得了很大進展,降噪擴散 —— 一種以迭代方式將隨機噪聲塑造成新數據樣本的技術。我們的團隊最近發表的一篇研究論文 《闡明基于擴散的生成模型的設計空間》 獲得了 NeurIPS 2022 杰出論文獎,該論文識別出了文檔中看似復雜的方法背后的簡單核心機制。從對基礎知識的清晰認識開始,我們能夠發現在質量和計算效率方面的先進實踐。 降噪是指從圖像中消除傳感器噪聲或從錄音中消除聲等操作。本文將使用圖像作為運行示例,但該過程也適用于許多其他領域。此任務非常適合卷積神經網絡。 這與生成新圖像有什么關系?想象一下,圖像上有大量噪點。確實,

Source

]]>
8589
掌握 LLM 技術:訓練 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-training/ Thu, 16 Nov 2023 05:30:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=8313 Continued]]> 大型語言模型 (LLM) 是一類使用 Transformer 網絡構建的生成式 AI 模型,能夠利用非常大的數據集來識別、匯總、翻譯、預測和生成語言。正如我們所知,LLM 有望改變社會,但訓練這些基礎模型極具挑戰性。 此博客闡述了使用 Transformer 網絡構建 LLM 的基本原理,涵蓋模型架構、注意力機制、嵌入技術和基礎模型訓練策略。 模型架構定義了 Transformer 網絡的骨干,大致規定了模型的功能和限制。LLM 的架構通常稱為編碼器、解碼器或編碼器 – 解碼器模型。 一些熱門架構包括: 另一個熱門架構決策是擴展到多模態模型,這些模型結合了來自文本、圖像、音頻和視頻等多種模式或形式的數據的信息。雖然訓練具有挑戰性,但多模態模型提供了來自不同模式的互補信息的關鍵優勢,正如人類通過分析來自多種感官的數據所理解的那樣。

Source

]]>
8313
人人超碰97caoporen国产