• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 計算機視覺/視頻分析

    通過文本實現實時圖像編輯的快速反演

    文本到圖像的擴散模型可以根據用戶提供的文本提示生成多樣化、高保真的圖像。這些模型的操作方法是:通過一系列降噪步驟,在用戶提供的文本提示符的條件下,從高維空間映射隨機樣本 z_{T}?。這將導致相應圖像 z_{0} 的表示。

    這些模型還可用于更復雜的任務,例如圖像編輯、學習描繪個性化概念語義數據增強。在這種情況下,圖像編輯是指根據文本提示對給定圖像進行局部更改的任務,而圖像的其他部分保持不變。

    所有這些附加任務都涉及一個名為”inversion“的過程:給定圖像表征 z_{0} 及其相應的文本提示 p,您會尋找噪聲種子 z_{T} ,當輸入降噪過程時,該種子會生成重建的圖像 z_{0}

    最近提出了 Regularized Newton-Raphson Inversion (RNRI),這是一種新的反演技術。RNRI 在快速收斂與出色的準確性、執行時間和內存效率之間取得平衡,首次實現了實時圖像編輯,優于現有的反演方法。

    求解隱式方程的反演

    反轉擴散模型需要在可能的種子空間中搜索,以重建給定圖像的種子。此搜索可能需要大量計算。

    要了解如何高效實現此目標,請首先考慮前向(noising)過程。

    從擴散模型中采樣可視為求解普通微分方程。降噪擴散隱式模型(Denoising Diffusion Implicit Models)中提供的熱門DDIM確定性調度程序通過以下方式對隱噪向量進行降噪:

    方程 1

    z_{t-1}=\sqrt{\frac{\alpha_{t-1}}{\alpha_{t}}}z_{t} - \sqrt{\alpha_{t-1}} \cdot \Delta \psi(\alpha_{t})\cdot \epsilon_{\theta}(z_{t},t,p) \quad\quad

    在此方程式(Equation 1)中,\alpha_t = 1-\beta_t\psi(\alpha) = \sqrt{\frac{1}{\alpha}-1}?和 \Delta \psi(\alpha_t) = \psi(\alpha_t) - \psi(\alpha_{t-1})

    DDIM 反演

    為導出反轉,首先重寫第一個等式如下:

    方程 2

    z_t = \sqrt{\frac{\alpha_t}{\alpha_{t-1}}}z_{t-1} + \sqrt{\alpha_{t}} \cdot \Delta \psi(\alpha_t) \cdot \epsilon_{\theta}(z_{t},t,p)

    這給出了 z_{t} 中無法以封閉形式求解的隱式方程。DDIM 反演通過將 z_{t}?替換為 z_{t-1}?來近似該方程。

    方程 3

    \approx \sqrt{\frac{\alpha_t}{\alpha_{t-1}}}z_{t-1} + \sqrt{\alpha_{t}} \cdot \Delta \psi(\alpha_t) \cdot\epsilon_{\theta}(\boxed{z_{t-1}},t,p)

    DDIM 反演是一種快速的方法,但通常是不準確的反演。

    定點和梯度下降反演方法

    幾篇論文使用迭代方法改進了先前的近似值,以近似求解第二個方程。例如,使用固定點迭代直接求解方程是一種廣泛應用于數值分析求解隱式函數的方法。有關詳細信息,請參閱Effective Real Image Editing with Accelerated Iterative Diffusion Inversion

    與之相關的是,可以通過使用梯度下降的高階項求解更精確的反演方程。有關更多信息,請參閱 On Exact Inversion of DPM-Solvers。

    定點迭代和梯度下降方法提供比DDIM更高的準確性,但具有線性收斂率,并且可能需要數秒才能計算。

    正則化 Newton-Raphson 反演方法

    更快速、更準確的替代方案基于著名的 Newton-Raphson迭代法(NR)。

    NR 是一種迭代查找方程系統根的方法。將 NR 樸素地應用于完整隱空間需要求解 z_t = f(z_t)。這一表述不切實際,因為它需要反轉高維的 Jacobian 矩陣。

    而是定義多變量標量函數 \hat{r}: R^d \rightarrow R

    方程 4

    \hat{r}(z_t) := ||z_t - f(z_t)||

    尋找其根 \hat{r(z_t)}=0。由于 \hat{r(z_t)}?是標量函數,因此 Jacobian 矩陣是一個向量,可以快速計算。

    我們可以快速完成方程 4 的求解,但由于方程未得到充分確定,因此無法保證其解能夠很好地重建圖像。此外,某些根? \hat{r(z_t)}?可能超出擴散模型的分布范圍。

    為解決此問題,請在 NR 目標中添加正則化項:

    方程 5

    q(z_{t}|z_{t-1}) := \mathcal{N}(z_{t};\mu_t=\sqrt{1-\beta_{t}}z_{t-1},\Sigma_t=\beta_{t}I)

    由于擴散過程中的每個噪聲步驟都遵循高斯分布,因此會將其合并為 z_t?值的先驗值。將負對數似然添加為正則化懲罰項,從而形成目標:

    方程 6

    \L(z_t) := ||z_t - f(z_t)|| - \lambda \log q(z_t | z_{t-1})

    可以使用自動微分引擎高效計算此函數的 Newton-Raphson 迭代,使用先前擴散時間步長的 z_{t-1}?初始化過程。Regularized Newton Raphson Inversion(RNRI)將在 1–2 次迭代中收斂(對于隱一致性模型,約為 0.5 秒)。

    圖 2 將 COCO 驗證集的重建圖像(使用 PSNR 測量)的質量與計算反演所需的時間進行了比較。它顯示 RNRI 在 PSNR 或運行時間方面比最近的方法有所改進。為了公平地進行時間比較,所有方法都在單個 NVIDIA A100 GPU 上測量運行時間。黑色虛線表示由 Stable Diffusion VAE 引起的固有失真引起的上限。

    Two graphs comparing the performance of different image inversion methods in terms of reconstruction quality (PSNR) and runtime. The left graph shows results for a latent diffusion model, where RNRI achieves high PSNR with significantly faster inversion-reconstruction time compared to other methods. The right graph shows results for a latent consistency model, where RNRI achieves the highest PSNR in less than 0.5 seconds, much faster than the other methods.
    圖 2. PSNR 與運行時間的反演結果對比。

    圖 3 提供了 RNRI 與之前最先進的反演方法之間的定性比較。它顯示了 RNRI 準確編輯與輸入圖像具有高保真度的圖像,并且很好地遵循目標提示的情況。替代方法可能難以編輯這些圖像和提示。基準運行直到它們收斂,而 RNRI 在每個擴散步驟中只運行兩次迭代。

    例如,在第一行中,RNRI 成功地將披薩轉換為一片面包。其他方法要么無法做到這一點,要么錯誤地修改其他元素。在第三行中,所有方法都難以準確地將香蕉替換為橙子或更改背景。相比之下,RNRI 在保留原始背景的同時準確地編輯對象。

    Three comparisons of various text generation models applied to a sequence of images. Each row demonstrates a transformation of an initial image with different inversion approaches.
    圖 3.RNRI 在保留原始圖像結構的同時更自然地編輯圖像。

    評估 RNRI 結果

    在之前的工作完成后,我們使用以下指標來衡量編輯性能:

    • LPIPS 分數量化了結構的保留程度(越低越好)。
    • 基于 CLIP 的分數可量化生成的圖像與文本提示符匹配的程度(越高越好)。

    值是 100 張 MS-COCO 圖像的平均值。圖 4 顯示,使用 RNRI 編輯可獲得更出色的 CLIP 和 LPIPS 分數,從而實現對真實圖像的 state-of-the-art 編輯。

    Two graphs evaluating different models on text prompt compliance and image structure preservation. The left graph shows that RNRI outperforms other baselines on the Latent Diffusion Model, in terms of CLIP and LPIPS scores. The right graph indicates that RNRI achieves better performance also using the Latent Consistency Model.
    圖 4.RNRI 達到了更高的 CLIP 和 LPIPS 分數,表明更好地遵循文本提示和更高的結構保留。

    最后,圖 5 顯示了其他實時編輯結果。

    結束語

    擴散模型中的圖像反演對于圖像編輯、語義增強和生成罕見概念圖像等應用至關重要。當前的方法通常為了提高計算效率而犧牲反演質量,因此需要 significnatly 更多的資源來獲得高質量結果。

    正則化 Newton-Raphson 反演 (RNRI) 在快速收斂與超高準確性、執行時間和內存效率之間取得了平衡。RNRI 方法在潛在擴散和潛在一致性模型方面優于現有方法,可實現實時圖像編輯。

    有關更多信息,請參閱完整論文《Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models》(文本到圖像擴散模型的正則化 Newton Raphson 反演),您還可以親自試用 RNRI

    ?

    0

    標簽

    人人超碰97caoporen国产