生成式 AI 研究聚焦：揭開基于擴散的模型的神秘面紗

Thu, 14 Dec 2023 05:41:41 +0000

借助互聯網級數據，AI 生成內容的計算需求顯著增加，數據中心在數周或數月內全力運行單個模型，更不用說通常作為服務提供的高生成推理成本。在這種情況下，犧牲性能的次優算法設計是一個代價高昂的錯誤。近期，AI 生成的圖像、視頻和音頻內容取得了很大進展，降噪擴散 —— 一種以迭代方式將隨機噪聲塑造成新數據樣本的技術。我們的團隊最近發表的一篇研究論文《闡明基于擴散的生成模型的設計空間》獲得了 NeurIPS 2022 杰出論文獎，該論文識別出了文檔中看似復雜的方法背后的簡單核心機制。從對基礎知識的清晰認識開始，我們能夠發現在質量和計算效率方面的先進實踐。降噪是指從圖像中消除傳感器噪聲或從錄音中消除聲等操作。本文將使用圖像作為運行示例，但該過程也適用于許多其他領域。此任務非常適合卷積神經網絡。這與生成新圖像有什么關系？想象一下，圖像上有大量噪點。確實，

Source

]]>

掌握 LLM 技術：訓練

Thu, 16 Nov 2023 05:30:20 +0000

大型語言模型 (LLM) 是一類使用 Transformer 網絡構建的生成式 AI 模型，能夠利用非常大的數據集來識別、匯總、翻譯、預測和生成語言。正如我們所知，LLM 有望改變社會，但訓練這些基礎模型極具挑戰性。此博客闡述了使用 Transformer 網絡構建 LLM 的基本原理，涵蓋模型架構、注意力機制、嵌入技術和基礎模型訓練策略。模型架構定義了 Transformer 網絡的骨干，大致規定了模型的功能和限制。LLM 的架構通常稱為編碼器、解碼器或編碼器 – 解碼器模型。一些熱門架構包括：另一個熱門架構決策是擴展到多模態模型，這些模型結合了來自文本、圖像、音頻和視頻等多種模式或形式的數據的信息。雖然訓練具有挑戰性，但多模態模型提供了來自不同模式的互補信息的關鍵優勢，正如人類通過分析來自多種感官的數據所理解的那樣。

Source

]]>

Training AI Models – NVIDIA 技術博客

生成式 AI 研究聚焦：揭開基于擴散的模型的神秘面紗

掌握 LLM 技術：訓練