自動駕駛汽車 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 10 Jan 2025 08:51:46 +0000 zh-CN hourly 1 196178272 NVIDIA Cosmos World 基礎模型平臺助力物理 AI 進步 http://www.open-lab.net/zh-cn/blog/advancing-physical-ai-with-nvidia-cosmos-world-foundation-model-platform/ Thu, 09 Jan 2025 08:43:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=12593 Continued]]> 隨著機器人和 自動駕駛汽車 的發展,加速 物理 AI 的發展變得至關重要,而物理 AI 使自主機器能夠感知、理解并在現實世界中執行復雜的操作。這些系統的核心是 世界基礎模型 (WFMs),即通過物理感知視頻模擬物理狀態的 AI 模型,使機器能夠做出準確決策并與周圍環境無縫交互。 NVIDIA Cosmos 平臺可幫助開發者大規模為物理 AI 系統構建自定義世界模型。它為從數據管護、訓練到定制的每個開發階段提供開放世界基礎模型和工具。 本文將介紹 Cosmos 及其加速物理 AI 開發的主要功能。Cosmos 是一種開源的 Python 庫,用于加速物理 AI 開發。 構建物理 AI 極具挑戰性,需要精確的模擬以及真實世界的行為理解和預測。克服這些挑戰的一個關鍵工具是世界模型,該模型根據過去的觀察結果和當前的輸入結果預測未來的環境狀態。

Source

]]>
12593
使用 PVA 引擎優化自動駕駛汽車 CV 開發流水線 http://www.open-lab.net/zh-cn/blog/optimizing-the-cv-pipeline-in-automotive-vehicle-development-using-the-pva-engine/ Wed, 23 Oct 2024 05:30:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=11704 Continued]]> 在汽車軟件開發領域,越來越多的大規模 AI 模型被集成到自動駕駛汽車中,這些模型的范圍從視覺 AI 模型到用于自動駕駛的端到端 AI 模型。現在,汽車軟件開發領域對算力的需求正在飛速增長。導致系統負載增加,對系統穩定性和時延產生了負面影響。 為了解決這些難題,可以使用可編程視覺加速器(PVA)提高能效和整體系統性能。PVA 是 NVIDIA DRIVE SoC 上的一個低功耗、高效率的硬件引擎。通過使用 PVA,可以卸載通常由 GPU 或其他硬件引擎處理的任務到 PVA 上,從而降低它們的負載,使它們能夠更加高效地管理其他關鍵任務。 在本文中,我們簡要介紹了 DRIVE 平臺上的 PVA 硬件引擎和 SDK。我們展示了 PVA 引擎在計算機視覺(CV)流水線中的典型用例,包括預處理、后處理和其他 CV 算法,重點介紹其效果和效率。最后,我們以蔚來為例,

Source

]]>
11704
Hydra MDP 的端到端按比例驅動 http://www.open-lab.net/zh-cn/blog/end-to-end-driving-at-scale-with-hydra-mdp/ Mon, 17 Jun 2024 08:39:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=10464 Continued]]> 構建一個在復雜的物理世界中導航的自主系統極具挑戰性。該系統必須感知其環境,并做出快速、明智的決定。乘客體驗也非常重要,包括加速度、曲率、平順性、道路附著力和碰撞時間。 在這篇文章中,我們將介紹Hydra-MDP,這是一個推進端到端自動駕駛領域的創新框架。Hydra-MDP 使用了一種新穎的多教師、學生教師知識提取架構,集成了來自人類和基于規則的規劃者的知識,從而使模型能夠學習不同的軌跡,提高了在不同駕駛環境和條件下的泛化能力。 Hydra MDP 提供了一個通用框架,展示了基于機器學習規劃如何通過基于規則的規劃者進行增強。這種集成確保了該模型不僅模仿人類駕駛行為,還遵守交通規則和安全標準,從而解決了傳統的模仿學習限制。 Hydra MDP 的數據驅動縮放定律證明了其穩健性和適應性,通過使用具有大量數據和 GPU 小時數的預訓練基礎模型,

Source

]]>
10464
使用全卷積網絡在 Transformer 模型中模擬注意力機制 http://www.open-lab.net/zh-cn/blog/emulating-the-attention-mechanism-in-transformer-models-with-a-fully-convolutional-network/ Mon, 29 Jan 2024 04:14:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=8866 Continued]]> 在過去十年中,深度學習技術在計算機視覺 (CV) 任務中的應用大幅增加。卷積神經網絡 (CNN) 一直是這場革命的基石,展示了卓越的性能,并在視覺感知方面實現了顯著進步。 通過采用本地化濾鏡和分層架構,CNN 已證明擅長捕捉空間層次結構、檢測模式,以及從圖像中提取信息豐富的特征。例如,在用于圖像識別的深度殘差學習中,卷積層表現出平移等方差,使其能夠泛化為平移和空間轉換。然而,盡管 CNN 取得了成功,但其在捕獲遠程依賴項和全局上下文理解方面仍存在局限性,這在需要精細理解的復雜場景或任務中變得越來越重要。 相比之下,Transformer 架構在計算機視覺領域中正變得越來越有吸引力,這得益于其在自然語言處理 (NLP) 領域的成功應用。正如論文Attention Is All You Need中所展示的,Transformer 通過避免局部卷積,提供了一種自注意力機制,

Source

]]>
8866
使用 Trajeglish 幫助自動駕駛汽車學習人類駕駛行為語言 http://www.open-lab.net/zh-cn/blog/teaching-avs-the-language-of-human-driving-behavior-with-trajeglish/ Mon, 18 Dec 2023 04:08:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=8513 Continued]]> 駕駛員之間的溝通常常遠超于轉向燈和剎車燈的使用,很多情況下都依賴于人與人之間的交流,而并非汽車技術,比如,示意另一輛車繼續前行、觀察另一位駕駛員是否注意到了自己、友好地向對面的車揮手等。 在不久的將來,自動駕駛汽車(AV)必將與人類駕駛員共存,因此它們需要能夠理解這種行為,才能做出不阻礙交通的安全決策。 為了在訓練中解決這一挑戰,開發者必須能夠預測其他車輛的未來運動會如何受到自動駕駛汽車行動的影響。NVIDIA Research團隊在最近發表的一篇論文中介紹了一種交通建模方法——Trajeglish,其能夠以語言模型對單詞和短語進行標記的方式,來對車輛運動進行標記化處理,以此實現逼真的多車輛駕駛場景仿真。 在 Waymo 仿真智能體挑戰賽(Waymo Sim Agents Challenge)的第一輪(V0)中,與其他16個交通模型相比,

Source

]]>
8513
使用自監督學習重建動態駕駛場景 http://www.open-lab.net/zh-cn/blog/reconstructing-dynamic-driving-scenarios-using-self-supervised-learning/ Tue, 05 Dec 2023 05:26:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=8412 Continued]]> 從單調乏味的高速公路到日常的社區出行,駕駛通常都很平靜。因此,在現實世界中收集的大部分自動駕駛汽車 (AV) 開發訓練數據嚴重傾斜于簡單的場景。 這給部署穩健的感知模型帶來了挑戰。AV 必須經過全面的訓練、測試和驗證,才能處理復雜的情況,而這需要涵蓋此類情況的大量數據。 模擬為在現實世界中查找和收集此類數據提供了一種替代方案,而這需要非常耗時和成本。然而,大規模生成復雜的動態場景仍然是一個重大障礙。 在最近發表的一篇論文中,NVIDIA Research 展示了一種新的基于神經輻射場(NeRF)的方法(稱為 EmerNeRF),它如何使用自監督學習準確生成動態場景。通過自監督進行訓練,EmerNeRF 不僅在處理動態對象時優于其他基于 NeRF 的方法,而且在處理靜態場景時也表現出色。有關更多詳情,請參閱 EmerNeRF:通過自監督對緊急時空場景進行分解。

Source

]]>
8412
使用 Bi-Level 模仿學習仿真現實交通行為 http://www.open-lab.net/zh-cn/blog/simulating-realistic-traffic-behavior-with-a-bi-level-imitation-learning-ai-model/ Tue, 28 Nov 2023 04:44:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=8403 Continued]]> 無論是突然加塞(cut-in),還是無意地 U 形掉頭,人類駕駛員的行為通常難以預測。行為的不可預測性源自人類決策過程的天然復雜性, 往往受多種因素的影響,而且在不同的運行設計域(ODD)和國家也會有所不同,因此很難在仿真中模擬駕駛行為。 但自動駕駛汽車(AV)的開發人員需要有把握地開發和部署能夠在不同 ODD 環境以及多樣的交通行為下運行的駕駛系統。NVIDIA Research 團隊最近發表的論文 BITS: Bi-Level Imitation for Traffic Simulation 中概述了一種仿真現實世界交通行為的新方法,該方法可以幫助開發人員做到這一點。 交通仿真 Bi-Level 模仿(BITS)是一種交通模型,該模型能夠以驚人的逼真度還原現實世界的復雜性,而且性能超過了以往的方法。在該論文詳細介紹的一個試驗中,

Source

]]>
8403
用神經激光雷達場感知自動駕駛汽車仿真的新前沿 http://www.open-lab.net/zh-cn/blog/sensing-new-frontiers-with-neural-lidar-fields-for-autonomous-vehicle-simulation/ Thu, 27 Jul 2023 03:09:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=7499 Continued]]> 自動駕駛汽車( AV )的開發需要大量的傳感器數據來進行感知開發。 開發人員通常從兩個來源獲得這些數據——真實世界驅動器的回放流或模擬。然而,真實世界的數據集提供的靈活性有限,因為數據僅固定于物理傳感器捕獲的對象、事件和視角。也很難大規模模擬真實世界條件的細節和缺陷,例如傳感器噪聲或遮擋。 近年來,神經領域獲得了巨大的吸引力。這些人工智能工具捕捉真實世界的內容,并從新穎的視角以高逼真度對其進行模擬,實現了 AV 模擬所需的保真度和多樣性。 在 NVIDIA GTC 2022 上,我們展示了如何利用神經重建技術,使用模擬中記錄的相機傳感器數據構建 3D 場景,并從新的視角進行渲染。我們在即將于 2023 年 10 月 2 日至 6 日舉行的 ICCV 會議上發表的論文中,詳細介紹了在合成激光雷達數據時,如何應用類似的方法來應對這些挑戰。

Source

]]>
7499
基于早期網格融合的近距離障礙物感知 http://www.open-lab.net/zh-cn/blog/near-range-obstacle-perception-with-early-grid-fusion/ Wed, 12 Jul 2023 03:01:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=7350 Continued]]> 自動泊車輔助系統在感知障礙物時必須克服一些獨特的挑戰。目標車輛包含感知車輛周圍環境的傳感器。在停車過程中,目標車輛必須靠近行人和其他車輛等動態障礙物,以及柱子和桿子等靜態障礙物。為了適應停車位,它還可能需要穿過較低的障礙物,如車輪護欄和路緣石。 觀看 NVIDIA DRIVE Labs 視頻,可以深入了解自動駕駛汽車面臨的挑戰以及 NVIDIA DRIVE 團隊如何應對這些挑戰。視頻還介紹了早期網格融合( EGF ),這是一種在自動泊車輔助中增強近場避障的新技術。 現有的停車障礙感知解決方案依賴于超聲波傳感器或魚眼攝像頭。超聲波傳感器安裝在前后保險杠上,通常不會覆蓋側面。因此,該系統無法感知目標車輛的側面,尤其是對于動態障礙物。 另一方面,魚眼相機在低能見度、弱光和惡劣天氣條件下性能下降。 NVIDIA DRIVE 平臺配備了一套攝像頭、雷達和超聲波傳感器,

Source

]]>
7350
利用合成數據聚焦遠場物體,實現基于攝像頭的 AV 感知 http://www.open-lab.net/zh-cn/blog/bringing-far-field-objects-into-focus-with-synthetic-data-for-camera-based-av-perception/ Thu, 18 May 2023 06:20:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=7036 Continued]]> 檢測遠場物體,如 100 米以外的車輛,是自動駕駛系統在高速公路上安全操作的基礎 在這樣的高速環境中,每一秒都很重要。因此,如果在以 70 英里/小時的速度行駛時,自動駕駛汽車( AV )的感知范圍可以從 100 米增加到 200 米,那么車輛有更多的時間做出反應。 然而,對于通常部署在量產乘用車中的基于攝像頭的感知系統來說,擴展這一范圍尤其具有挑戰性。訓練用于遠場物體檢測的相機感知系統需要收集大量的相機數據以及地面實況( GT )標簽,例如 3D 邊界框和距離。 對于超過 200 米的物體來說,提取這些 GT 數據變得更加困難。物體離得越遠,在圖像中就越小,最終只有幾個像素寬。通常,像激光雷達這樣的傳感器與聚合和自動標記技術一起使用來提取 3D 和距離信息,但這些數據在激光雷達的工作范圍之外變得稀疏和嘈雜。

Source

]]>
7036
人人超碰97caoporen国产