生成式 AI 研究聚焦：個性化文本轉圖像模型

Tue, 06 Feb 2024 07:33:25 +0000

視覺效果生成式 AI是一個根據文本提示創建圖像的過程。該技術基于在互聯網規模的數據上預訓練的視覺語言基礎模型。通過提供多模態表示，這些基礎模型可以應用于許多領域。例如，包括圖像字幕和視頻檢索、創意3D和2D圖像合成以及機器人操作。所有這些任務都得益于視覺語言基礎模型的“開放世界”能力，從而能夠使用豐富、自由形式的文本和視覺類別的“長尾”。借助這些強大的表征，我們將面臨新的挑戰。也就是說，如何將這些模型與用戶特定的或個性化的視覺概念結合使用。如何教會這些模型將此類用戶特定的概念與他們之前從海量數據集中學到的知識相結合？例如，玩具品牌的創意總監正在計劃圍繞新的玩具熊產品開展廣告活動，并希望在不同的場景中展示玩具，這些場景包括扮演超級英雄或巫師的角色。或者，孩子希望創作家庭狗的搞笑動畫片。或者，室內設計師希望在使用傳家寶家庭沙發設計房間。所有這些個性化用例都需要合成新場景，

Source

]]>

Rinon Gal – NVIDIA 技術博客

生成式 AI 研究聚焦：個性化文本轉圖像模型