當今的 5G New Radio (5G NR) 無線通信系統依靠高度優化的信號處理算法,在短短幾微秒內重建從雜信道觀察到的傳輸消息。這一非凡的成就是電信工程師和研究人員數十年不懈努力的成果,他們不斷改進信號處理算法,以滿足無線通信嚴苛的實時限制。
最初,一些算法因其在發現時過于復雜而被廣泛遺忘。Gallager 在 20 世紀 60 年代發現的低密度奇偶校驗(LDPC)代碼就是一個明顯的例子。David MacKay 在 20 世紀 90 年代重新發現了這些算法,現在它們已成為 5G NR 的支柱。這說明,即使是最好的算法也不切實際,除非它們滿足電信行業嚴格的計算和延遲要求。
無線通信領域的 AI 技術已經引起了學術界和行業研究人員的廣泛關注,如在《An Introduction to Deep Learning for the Physical Layer》和《An Overview of the 3GPP Study on Artificial Intelligence for 5G New Radio》中所討論的那樣。與許多傳統的物理層算法相比,人們越來越認識到,AI 具有提供更出色的可靠性和準確性的潛力。這啟發了 AI 無線電接入網(AI-RAN)的概念。到目前為止,大多數研究都基于仿真,對實時推理延遲對擬議解決方案的影響所知甚少。
無線通信系統對延遲和吞吐量的要求對神經網絡(Neural Network)設計施加了嚴格的限制,有效地限制了其大小和深度。因此,在現實的延遲限制下,在實際蜂窩系統的物理層中部署和驗證AI組件是一項開放且有趣的挑戰。
本文討論了在未來 AI-RAN 的物理層中部署基于 NN 的接收機組件所帶來的機遇和挑戰。我們介紹了經過優化的神經網絡架構和實現實時推理所需的工具鏈。此外,我們還討論了特定站點訓練的潛力以及通過端到端學習實現無導航通信的概念,并深入探討了 6G 的可能研究方向。
NVIDIA 開設研究實驗室
NVIDIA 開發了一種基于神經網絡的無線接收器研究原型,該原型可以由學習組件取代物理層信號處理的部分內容。該原型特別關注神經網絡架構執行實時推理的能力。有關詳情,請參閱適用于 5G NR 多用戶 MIMO 的神經接收器。
為增強 AI-RAN 研究人員和工程師的能力,NVIDIA 發布了研究代碼,該代碼提供了設計、訓練和評估基于 NN 的接收機所需的整個工具鏈。實時推理通過 NVIDIA TensorRT 在 GPU 加速硬件平臺上實現。因此,NVIDIA 提供了獨特的軟件和硬件堆棧,以便從 NVIDIA Sionna 中的概念原型設計無縫過渡到使用 NVIDIA TensorRT 進行早期現場評估,再到 NVIDIA Aerial 中的商業級部署。
我們已經展示了該項目的各個部分,包括神經接收器的硬件在環驗證、站點特定的訓練和端到端學習。
從手工信號處理塊到神經接收
神經接收器(Neural Receivers,NRX)的理念是訓練單個神經網絡(NN)以聯合執行信道估計、均衡和去映射(圖 1)。該神經網絡經過訓練,可從信道觀測中估計傳輸位,并可用作現有信號處理算法的簡易替代品。有關 NRX 概念的更多詳細信息和性能評估,請參閱《面向環境特定基站:AI/ML 驅動的神經 5G NR 多用戶 MIMO 接收器》。

從算法的角度來看,NRX 主要由張量運算(包括矩陣乘法和卷積)定義。與許多 AI 應用一樣,使用 NVIDIA 硬件可以顯著加速這些運算。此外,廣泛的 NVIDIA 生態系統中的分析和優化工具能夠改進 NRX 架構,有效消除性能瓶頸。由此生成的 NRX 架構使用 NVIDIA TensorRT 推理庫在 NVIDIA A100 GPU 上實現不到 1 毫秒的推理延遲。
5G NR 標準合規性和重新配置
雖然 NRX 概念相當簡單,但其在 5G NR 標準中的集成帶來了幾個需要解決的工程挑戰(圖 2)。由于實際設置中的網絡配置可能會在幾毫秒內動態變化,因此擬議的 NRX 架構具有適應性,能夠支持不同的調制和編碼方案(MCS),無需任何重新訓練,也不會增加推理復雜性。
此外,還支持任意數量的子載波,并且支持具有不同數量活躍用戶的多用戶MIMO。實際部署的另一個重要方面是處理5G NR兼容參考信號的能力。

為了保持 NRX 在未發現的信道條件下的彈性,我們使用隨機宏參數(例如信噪比(SNR)、多普勒傳播和活躍用戶數量),在 3GPP 38.901 的城市微單元(UMi)場景中進行訓練。這允許預訓練穩健且通用的 NRX,該 NRX 可泛化到各種無線電環境。
由于 NRX 是軟件定義的,因此特定于站點的微調即使在部署后也可以持續改進接收機。本文的后續部分提供了一個詳細的微調示例,其中使用了基于無線電環境光線追蹤的模擬結果(稱為數字孿生)。有關更多技術細節,請參閱 Jumpstart 教程和 Neural Receiver 架構概述 notebook。
實時約束下的性能評估
如前所述,部署 AI 算法會受到嚴格的實時限制,即使是穩健的 NRX 架構也可能變得不切實際,除非它們在所需的延遲內運行。在其他的話,用于部署的最佳網絡不一定是具有最佳錯誤率性能的網絡,而是在定義的計算延遲預算內提供最佳準確性的網絡。
估算給定神經網絡架構的推理延遲是一項復雜的任務,因為其結果在很大程度上取決于目標硬件平臺、特定的軟件堆棧以及代碼優化的程度。因此,浮點運算次數(FLOPs)、權重或層等指標通常用作模型計算復雜性的代理。但是,由于推理過程中高度并行和潛在的內存瓶頸,這些指標可能會產生誤解。因此,我們在目標 NVIDIA A100 GPU 上使用 TensorRT 推理庫部署 NRX。這可確保真實的延遲測量,并且 profiler 有助于消除關鍵路徑上的瓶頸。
在 TensorFlow 中進行訓練后,我們將經過訓練的模型導出為 ONNX 文件,并構建了 TensorRT 推理引擎。TensorRT 可自動優化目標平臺的神經網絡推理。如果需要,我們會提供詳細的分析輸出。在實時教程 notebook 中提供了示例。
正如預期的那樣,計算復雜性在很大程度上受 5G 系統配置(包括所分配的子載波數量和活躍用戶等參數)的影響。NRX 架構采用可配置的網絡深度進行設計和訓練,從而能夠控制訓練后的計算延遲。憑借這種靈活性,NRX 可以在目標硬件平臺或系統參數發生變化時輕松進行重新配置。
圖 3 展示了使用 TensorRT 在 NVIDIA A100 GPU 上執行的 NRX 的性能評估。在實時約束下的性能不同于不受計算限制的網絡版本。然而,我們要強調的是,即使在實時約束下,NRX 的性能也具有競爭力,甚至優于許多傳統的接收機算法。

超越傳統算法:站點特定的微調
AI-RAN 組件的一個有趣特性是能夠進行特定站點的微調,即使在部署后也能優化神經網絡權重。這種微調依賴于兩個關鍵的推動因素:
- 基于 AI 的算法,例如 NRX
- 軟件定義的RAN,在系統處于活躍狀態時便于提取訓練數據。
收集數據后,訓練可以在云端或本地離線進行。
為了演示神經接收機的特定站點微調,我們使用 Sionna 光線追蹤器對訓練數據集進行了采樣,該數據集包含整個場景中 1,000 個隨機用戶位置和速度。圖 4 顯示了用于微調接收機性能評估的用戶位置。紅色點表示基站的位置,灰色線表示用于評估的用戶軌跡。新的場景可以直接從 OpenStreetMap 加載。

由于微調從預訓練的接收機網絡權重開始,因此只需要少量的訓練步驟和適度的計算資源。請注意,NRX 架構本身保持不變。圖 5 顯示,在單個 GPU 上進行一分鐘的微調可顯著提高特定無線電環境中的錯誤率性能。站點特定的訓練允許根據特定無線電環境調整較小的 NRX,使其在 4 倍以上的通用預訓練 NRX 的水平上執行。這在推理期間節省了大量計算,同時保持出色的錯誤率性能。

這是 AI 啟用的 RAN 的獨特功能,可以不斷適應實際的 RF 環境。因此,我們設想完全軟件定義和 AI 驅動的下一代基站,即使在部署后也能改進。
從 5G 合規性轉向 6G 研究
最后,我們要強調的是,神經接收機不僅是現有接收機算法的強大替代產品,也是實現一系列新功能的關鍵推動因素,例如使用端到端學習的無導航通信和部署后特定站點的重新訓練。
圖 6 展示了端到端學習方法,其中 NRX 通過可訓練的自定義星座(constellation)進行擴展,可取代傳統的正交幅度調制(QAM)。

可訓練的自定義星座與無先導式插槽結構的結合會迫使 NRX 在不依賴任何參考信號的情況下學習信號重建。在直覺上講,NRX 學習新的星座,其中隱式包含某種類型的疊加先導方案,可用于聯合信道估計和均衡。訓練后,生成的方案顯示出與傳統 5G 系統類似的錯誤率性能,但由于完全消除了先導式開銷,因此受益于更高的數據速率。有關更多詳細信息,請參閱端到端學習 notebook。
雖然生成的星群不符合 5G NR 標準,但這些指標表明 AI 如何實現新的 6G 功能,從而提高可靠性和吞吐量。如需了解更多信息,請訪問 GitHub 上的 NVlabs/neural_rx。
致謝
根據 Grant Agreement 101096379 (CENTRIC),本作品獲得了歐洲聯盟的資金支持。然而,所表達的觀點和觀點僅為作者的觀點和觀點,不一定與歐洲聯盟或歐洲委員會(授權機構)的觀點和觀點相同。歐洲聯盟或授權機構均不對此負責。

?