通過文本實現實時圖像編輯的快速反演

文本到圖像的擴散模型可以根據用戶提供的文本提示生成多樣化、高保真的圖像。這些模型的操作方法是：通過一系列降噪步驟，在用戶提供的文本提示符的條件下，從高維空間映射隨機樣本 $z_{T}$ ?。這將導致相應圖像 $z_{0}$ 的表示。

這些模型還可用于更復雜的任務，例如圖像編輯、學習描繪個性化概念或語義數據增強。在這種情況下，圖像編輯是指根據文本提示對給定圖像進行局部更改的任務，而圖像的其他部分保持不變。

所有這些附加任務都涉及一個名為”inversion“的過程：給定圖像表征 $z_{0}$ 及其相應的文本提示 $p$ ，您會尋找噪聲種子 $z_{T}$ ，當輸入降噪過程時，該種子會生成重建的圖像 $z_{0}$ 。

最近提出了 Regularized Newton-Raphson Inversion (RNRI)，這是一種新的反演技術。RNRI 在快速收斂與出色的準確性、執行時間和內存效率之間取得平衡，首次實現了實時圖像編輯，優于現有的反演方法。

GIF shows real-time editing of several images. Given a photo of a lion sitting in the grass, a text prompt is used to transform the lion into a raccoon while preserving the background. All edits involve two processes, inversion and generation, both being fast to make the full process interactive. — *a) 日落時分，一頭獅子坐在草地上*

GIF shows real-time editing of several images. Given a photo of a cat sitting next to a glass vase with flowers, a text prompt is used to transform the cat into a fish while preserving the background. All edits involve two processes, inversion and generation, both being fast to make the full process interactive. — *a) 日落時分，一頭獅子坐在草地上*

求解隱式方程的反演

反轉擴散模型需要在可能的種子空間中搜索，以重建給定圖像的種子。此搜索可能需要大量計算。

要了解如何高效實現此目標，請首先考慮前向（noising）過程。

從擴散模型中采樣可視為求解普通微分方程。降噪擴散隱式模型（Denoising Diffusion Implicit Models）中提供的熱門DDIM確定性調度程序通過以下方式對隱噪向量進行降噪：

方程 1

$z_{t-1}=\sqrt{\frac{\alpha_{t-1}}{\alpha_{t}}}z_{t} - \sqrt{\alpha_{t-1}} \cdot \Delta \psi(\alpha_{t})\cdot \epsilon_{\theta}(z_{t},t,p) \quad\quad$

在此方程式（Equation 1）中， $\alpha_t = 1-\beta_t$ 、 $\psi(\alpha) = \sqrt{\frac{1}{\alpha}-1}$ ?和 $\Delta \psi(\alpha_t) = \psi(\alpha_t) - \psi(\alpha_{t-1})$ 。

DDIM 反演

為導出反轉，首先重寫第一個等式如下：

方程 2

$z_t = \sqrt{\frac{\alpha_t}{\alpha_{t-1}}}z_{t-1} + \sqrt{\alpha_{t}} \cdot \Delta \psi(\alpha_t) \cdot \epsilon_{\theta}(z_{t},t,p)$

這給出了 $z_{t}$ 中無法以封閉形式求解的隱式方程。DDIM 反演通過將 $z_{t}$ ?替換為 $z_{t-1}$ ?來近似該方程。

方程 3

$\approx \sqrt{\frac{\alpha_t}{\alpha_{t-1}}}z_{t-1} + \sqrt{\alpha_{t}} \cdot \Delta \psi(\alpha_t) \cdot\epsilon_{\theta}(\boxed{z_{t-1}},t,p)$

DDIM 反演是一種快速的方法，但通常是不準確的反演。

定點和梯度下降反演方法

幾篇論文使用迭代方法改進了先前的近似值，以近似求解第二個方程。例如，使用固定點迭代直接求解方程是一種廣泛應用于數值分析求解隱式函數的方法。有關詳細信息，請參閱Effective Real Image Editing with Accelerated Iterative Diffusion Inversion。

與之相關的是，可以通過使用梯度下降的高階項求解更精確的反演方程。有關更多信息，請參閱 On Exact Inversion of DPM-Solvers。

定點迭代和梯度下降方法提供比DDIM更高的準確性，但具有線性收斂率，并且可能需要數秒才能計算。

正則化 Newton-Raphson 反演方法

更快速、更準確的替代方案基于著名的 Newton-Raphson迭代法（NR）。

NR 是一種迭代查找方程系統根的方法。將 NR 樸素地應用于完整隱空間需要求解 $z_t = f(z_t)$ 。這一表述不切實際，因為它需要反轉高維的 Jacobian 矩陣。

而是定義多變量標量函數 $\hat{r}: R^d \rightarrow R$ ：

方程 4

$\hat{r}(z_t) := ||z_t - f(z_t)||$

尋找其根 $\hat{r(z_t)}=0$ 。由于 $\hat{r(z_t)}$ ?是標量函數，因此 Jacobian 矩陣是一個向量，可以快速計算。

我們可以快速完成方程 4 的求解，但由于方程未得到充分確定，因此無法保證其解能夠很好地重建圖像。此外，某些根? $\hat{r(z_t)}$ ?可能超出擴散模型的分布范圍。

為解決此問題，請在 NR 目標中添加正則化項：

方程 5

$q(z_{t}|z_{t-1}) := \mathcal{N}(z_{t};\mu_t=\sqrt{1-\beta_{t}}z_{t-1},\Sigma_t=\beta_{t}I)$

由于擴散過程中的每個噪聲步驟都遵循高斯分布，因此會將其合并為 $z_t$ ?值的先驗值。將負對數似然添加為正則化懲罰項，從而形成目標：

方程 6

$\L(z_t) := ||z_t - f(z_t)|| - \lambda \log q(z_t | z_{t-1})$

可以使用自動微分引擎高效計算此函數的 Newton-Raphson 迭代，使用先前擴散時間步長的 $z_{t-1}$ ?初始化過程。Regularized Newton Raphson Inversion（RNRI）將在 1–2 次迭代中收斂（對于隱一致性模型，約為 0.5 秒）。

圖 2 將 COCO 驗證集的重建圖像（使用 PSNR 測量）的質量與計算反演所需的時間進行了比較。它顯示 RNRI 在 PSNR 或運行時間方面比最近的方法有所改進。為了公平地進行時間比較，所有方法都在單個 NVIDIA A100 GPU 上測量運行時間。黑色虛線表示由 Stable Diffusion VAE 引起的固有失真引起的上限。