NVIDIA 和康奈爾大學的科學家們引入了一種混合的無監督神經渲染管道,以有效地表示體素世界中的大型復雜場景。從本質上講, 3D 藝術家只需要構建最小值,剩下的部分將由算法來構建照片級真實感世界。研究人員將這種混合神經渲染管道應用于 Minecraft 區塊世界,以生成更逼真的 Minecraft 場景。
NVIDIA 和更廣泛的研究團體( pix2pix 、 pix2pixHD 、 MUNIT 、 SPADE )以前的工作已經解決了圖像到圖像轉換( im2im )的問題——將圖像從一個域轉換到另一個域。乍一看,這些方法似乎為將一個世界轉換為另一個世界的任務提供了一個簡單的解決方案—一次翻譯一幅圖像。但是, im2im 方法不保持視點一致性,因為它們不了解 3D 幾何體,并且每個 2D 幀都是獨立生成的。從下面的圖像中可以看出,這些方法的結果會產生抖動和突然的顏色和紋理變化。
MUNIT SPADE wc-vid2vid NSVF-W GANCraft








輸入 GANcraft ,這是一種直接在 3D 輸入世界上操作的新方法。
研究人員在 study 中解釋說:“由于用戶創建的塊世界根本不存在地面真實照片級真實感渲染,我們必須通過間接監督來訓練模型。”。
該方法的工作原理是在輸入塊世界中隨機采樣攝影機視圖,然后想象該視圖的真實照片版本是什么樣子。這是在 SPADE 的幫助下完成的,這是 NVIDIA 先前在圖像到圖像轉換方面的工作,也是流行的 GauGAN 演示中的關鍵組件。 GANcraft 通過使用樣式調節網絡克服了這些生成的“偽真實”的視圖不一致性,該網絡可以消除世界結構與渲染樣式之間的歧義。這使 GANcraft 能夠生成與視圖一致的輸出視頻,并且具有不同的風格,如圖所示!


雖然研究結果在 Minecraft 中得到了驗證,但該方法適用于其他 3D 塊體世界,如體素。縮短構建高清世界所需的時間和專業知識的潛力增加了這項研究的價值。它可以幫助游戲開發者、 CGI 藝術家和動畫產業縮短構建這些巨大而令人印象深刻的世界所需的時間。
如果你想進一步細分這項技術的潛力, Károly Zsolnai-Fehér 在他的 YouTube 系列文章 兩分鐘的論文 中強調了這項研究:
GANcraft 是在 Imaginaire 庫中實現的。該庫針對生成模型和生成對抗網絡的訓練進行了優化,支持多 GPU 、多節點和自動混合精度訓練。 NVIDIA 制作的 10 多種不同研究成果以及預訓練模型已經發布。隨著時間的推移,此庫將繼續使用更新的作品進行更新。
如果您想深入研究,請從 Imaginaire 存儲庫獲取 GitHub 上的代碼,查看 framework 的概述或閱讀 詳細研究論文 。
請訪問 NVIDIA Research 隨時了解 NVIDIA 更激動人心的研究。
研究作者包括 Zekun Hao 、 Arun Mallya 、 Serge Belongie 和 Ming-Yu Liu 。