使用自監督學習重建動態駕駛場景

從單調乏味的高速公路到日常的社區出行，駕駛通常都很平靜。因此，在現實世界中收集的大部分自動駕駛汽車 (AV) 開發訓練數據嚴重傾斜于簡單的場景。

這給部署穩健的感知模型帶來了挑戰。AV 必須經過全面的訓練、測試和驗證，才能處理復雜的情況，而這需要涵蓋此類情況的大量數據。

模擬為在現實世界中查找和收集此類數據提供了一種替代方案，而這需要非常耗時和成本。然而，大規模生成復雜的動態場景仍然是一個重大障礙。

在最近發表的一篇論文中，NVIDIA Research 展示了一種新的基于神經輻射場（NeRF）的方法（稱為 EmerNeRF），它如何使用自監督學習準確生成動態場景。通過自監督進行訓練，EmerNeRF 不僅在處理動態對象時優于其他基于 NeRF 的方法，而且在處理靜態場景時也表現出色。有關更多詳情，請參閱 EmerNeRF：通過自監督對緊急時空場景進行分解。

Example of EmerNeRF reconstructing dynamic driving scene: nighttime.

Example of EmerNeRF reconstructing dynamic driving scene: busy intersection with cars.

Example of EmerNeRF reconstructing dynamic driving scene: busy intersection with pedestrians. — *圖 1.EmerNeRF 重建動態駕駛場景的示例*

在與類似的 NeRF 一起運行 EmerNeRF 時，它將動態場景重建準確率提高 15%，靜態場景提高 11%，此外，新穎的視圖合成也提高了 12%.

解決基于 NeRF 的方法中的限制

NeRF 可接收一組靜態圖像，并將其重建為逼真的 3D 場景。它們可以通過驅動日志創建高保真模擬，以進行閉環深度神經網絡 (DNN) 訓練、測試和驗證。

然而，當前基于 NeRF 的重建方法難以處理動態對象，并且已證明難以擴展。例如，雖然一些方法可以生成靜態和動態場景，但它們需要真值 (GT) 標簽才能生成。這意味著，必須使用自動標記技術或人工標注器準確概述和定義駕駛日志中的每個對象。

其他 NeRF 方法依賴于其他模型來獲得有關場景的完整信息，例如光流。

為了解決這些限制，EmerNeRF 使用自監督學習將場景分解為靜態、動態和流場。模型從原始數據中學習關聯和結構，而不是依賴人類標記的 GT 注釋。然后，它同時渲染場景的時間和空間方面，無需外部模型填補空白，同時提高準確性。

A decomposed version of the nighttime driving scene, broken into rendered depth, decomposed dynamic RGB, decomposed dynamic depth, emerged forward flow, decomposed static RGB, and decomposed static depth. — *圖 2.EmerNeRF 將圖 1 中第一個視頻中顯示的場景分解為動態字段、靜態字段和流字段*

因此，雖然其他模型往往會生成過于平滑的渲染和精度較低的動態對象，但 EmerNeRF 可以重建高保真背景場景和動態對象，同時保留場景的精細細節。

Dynamic-32 分割
?	場景重建				新型視圖合成
方法	完整圖像		僅動態		完整圖像		僅動態
?	PSNR*	SSIM*	PSNR*	SSIM*	PSNR*	SSIM*	DPSNR*	SSIM*
D²NeRF	24.35	0.645	21.78	0.504	2417	0.642	21.44	0.494
HyperNeRF	2517	0.688	22.93	0.569	24.71	0.682	22.43	0.554
EmerNeRF	28.87	0.814	26.19	0.736	27.62	0.792	24.18	0.67

表 1.將 EmerNeRF 與其他基于 NeRF 的動態場景重建方法進行比較的評估結果，這些方法分為場景重建和新視圖合成的性能類別

Static-32 拆分
方法	靜態場景重建
?	PSNR*	SSIM*
iNGP	24.46	0.694
街頭沖浪	26.15	0.753
EmerNeRF	29.08	0.803

表 2.比較 EmerNeRF 與其他基于 NeRF 的靜態場景重建的評估結果

EmerNeRF 方法

使用自監督學習，而非人工標注或外部模型，使 EmerNeRF 能夠繞過之前方法遇到的挑戰。

A diagram showing how EmerNeRF breaks a scene into static, dynamic, and flow fields, then reconstructs the final scene rendering simultaneously, rather than use an external model. — *圖 3.EmerNeRF 分解和重建管線*

EmerNeRF 旨在將場景分解為動態元素和靜態元素。在分解場景時，EmerNeRF 還可以從動態物體(如汽車和行人)中估計流場，并使用此字段通過跨時間聚合特征來進一步提高重建質量。其他方法使用外部模型提供此類光流數據，這通常會導致不準確。

通過同時組合靜態、動態和流場，EmerNeRF 可以獨立表示高度動態的場景，從而提高準確性并支持擴展到通用數據源。

使用基礎模型添加語義理解

使用基礎模型進行額外監督，EmerNeRF 對場景的語義理解得到了進一步加強。基礎模型對物體(例如特定類型的車輛或動物)有廣泛的了解。EmerNeRF 利用視覺轉換器 (ViT) 模型(例如 DINO 和 DINOv2)將語義特征納入場景重建。

這使得 EmerNeRF 能夠更好地預測場景中的物體，并執行自動標記等下游任務。

Four views of the same driving scene, clockwise: the original ground truth recording, the EmerNeRF reconstruction, the DINO semantic rendering and the DINOv2 semantic rendering. — *圖 4.EmerNeRF 使用基礎模型(例如 DINO 和 DINOv2)來增強其對場景的語義理解*

然而，基于 Transformer 的基礎模型帶來了新的挑戰：語義特征可能會表現出與位置相關的噪聲，這可能會顯著限制下游任務的性能。

Four views of the same driving scene, clockwise: the original ground truth recording, the EmerNeRF reconstruction, the decomposed noise-free DINO semantic rendering and the decomposed noise-free DINOv2 semantic rendering. — *圖 5.EmerNeRF 使用位置嵌入來消除基于 Transformer 的基礎模型引起的噪聲*

為了解決噪聲問題，EmerNeRF 使用位置嵌入分解來恢復無噪點特征圖。這解鎖了基礎模型語義特征的完整、準確表示，如圖 5 所示。

評估 EmerNeRF

詳情見EmerNeRF：通過自監督對緊急時空場景進行分解。此外，我們通過整理一個包含 120 個獨特場景的數據集來評估 EmerNeRF 的性能，這些場景被分為 32 個靜態場景、32 個動態場景和 56 個不同場景，它們適用于高速和低光照等具有挑戰性的條件。

然后，評估每個 NeRF 模型基于數據集的不同子集重建場景和合成新視圖的能力。

因此，我們發現 EmerNeRF 在場景重建和新視圖合成方面的表現始終如一，并且明顯優于其他方法，如表 1 所示。

EmerNeRF 的表現也優于專為靜態場景設計的方法，這表明將場景分解為靜態和動態元素的自監督式分析可改善靜態重建和動態重建。

結束語

只有能夠準確再現現實世界，AV 模擬才會有效。隨著場景變得更加動態和復雜，對保真度的需求也在增加，實現這一目標的難度也在增加。

與之前的方法相比，EmerNeRF 能夠更準確地表示和重建動態場景，無需人工監督或外部模型。這使得能夠大規模重建和修改復雜的駕駛數據，解決自動駕駛訓練數據集中的當前不平衡問題。

我們迫切希望研究 EmerNeRF 釋放的新功能，包括端到端駕駛、自動標記和模擬。

如需了解詳情，請訪問 EmerNeRF 項目頁面并閱讀論文 EmerNeRF：通過自監督對緊急時空場景進行分解。

使用自監督學習重建動態駕駛場景

解決基于 NeRF 的方法中的限制

EmerNeRF 方法

使用基礎模型添加語義理解

評估 EmerNeRF

結束語

相關資源

標簽

關于作者

使用自監督學習重建動態駕駛場景

解決基于 NeRF 的方法中的限制

EmerNeRF 方法

使用基礎模型添加語義理解

評估 EmerNeRF

結束語

相關資源

標簽

關于作者

相關文章

用神經激光雷達場感知自動駕駛汽車仿真的新前沿

利用合成數據聚焦遠場物體，實現基于攝像頭的 AV 感知

相關文章

NVIDIA Cosmos World 基礎模型平臺助力物理 AI 進步

使用 PVA 引擎優化自動駕駛汽車 CV 開發流水線

Hydra MDP 的端到端按比例驅動

使用全卷積網絡在 Transformer 模型中模擬注意力機制

使用 Trajeglish 幫助自動駕駛汽車學習人類駕駛行為語言