• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    人工智能/深度學習

    NVIDIA Jetson AGX Xavier 提供 32 TeraOps,為機器人技術展開一個新時代

    ?

    世界上為人工智能開發者開發的終極嵌入式解決方案, Jetson AGX Xavier ,現在作為獨立的生產模塊從 NVIDIA 發貨。作為自主機器 NVIDIA 的 AGX 系統 的一員, Jetson AGX Xavier 是將先進的人工智能和計算機視覺部署到邊緣的理想選擇,使機器人平臺具有工作站級的性能,并且能夠在不依賴人工干預和云連接的情況下完全自主地運行。由 Jetson AGX Xavier 提供動力的智能機器可以自由地在其環境中進行交互和安全導航,不受復雜地形和動態障礙物的阻礙,完全自主地完成現實世界的任務。這包括包裝交付和工業檢驗,需要先進的實時感知和推理能力。作為世界上第一臺專門為機器人和邊緣計算而設計的計算機, Jetson AGX Xavier 的高性能可以處理視覺里程測量、傳感器融合、定位和映射、障礙物檢測,以及對下一代機器人至關重要的路徑規劃算法。開發人員現在可以開始批量部署新的自主機器。

    Jetson AGX Xavier module photo
    圖 1 。 Jetson AGX Xavier 帶熱傳遞板( TTP )的嵌入式計算模塊, 100x87mm

    最新一代 NVIDIA 業界領先的嵌入式 Linux 高性能計算機 Jetson AGX 系列, Jetson AGX Xavier 以 100x87mm 的緊湊型外形,提供了 GPU 工作站級的性能和無與倫比的 32 兆兆( TOPS )峰值計算和 750Gbps 的高速 I / O 。用戶可以根據應用需要配置 10W 、 15W 和 30W 的工作模式。 Jetson AGX Xavier 為可部署到邊緣的計算密度、能源效率和人工智能推斷能力設置了新的標準,使具有端到端自主能力的下一級智能機器成為可能。

    Jetson 通過深度學習和計算機視覺,為許多世界上最先進的機器人和自動機器提供人工智能,同時專注于性能、效率和可編程性。 Jetson AGX Xavier ,如圖 2 所示,由超過 90 億個晶體管組成,基于有史以來最復雜的片上系統( SoC )。該平臺包括集成的 512 核 NVIDIA Volta GPU ,包括 64?張量核?、 8 核 NVIDIA Carmel ARMv8 . 2 64 位 CPU 、 16GB 256 位 LPDDR4x 、雙 NVIDIA?深度學習加速器?( DLA )引擎、 NVIDIA 視覺加速器引擎、高清視頻編解碼器、 128Gbps 專用攝像頭攝取和 16 通道 PCIe Gen 4 擴展。 256 位接口上的內存帶寬為 137GB / s ,而 DLA 引擎減輕了深度神經網絡( DNNs )的推理任務。 NVIDIA 的 jetpacksdk4 . 1 . 1 適用于 Jetson AGX Xavier 的 jetpacksdk4 . 1 . 1 包括 CUDA 10 . 0 、 cuDNN 7 . 3 和 TensorRT 5 . 0 ,提供了完整的 AI 軟件棧。?

    Jetson Xavier Module Block Diagram with I/O
    圖 2 。 Jetson AGX Xavier 提供了豐富的高速 I / O

    這使得開發者能夠在機器人、智能視頻分析、醫療儀器、嵌入式物聯網邊緣設備等應用中部署加速人工智能。和它的前輩 Jetson TX1 和 TX2 一樣, Jetson AGX Xavier 使用的是模塊上系統( SoM )范式。所有的處理都包含在計算模塊上,高速 I / O 通過高密度板對板連接器提供的分接載體或外殼上。以這種方式將功能封裝在模塊上,使開發人員能夠輕松地將 Jetson Xavier 集成到他們自己的設計中。 NVIDIA 發布了全面的 文檔 和參考設計文件,可供嵌入式設計師使用 Jetson AGX Xavier 創建自己的設備和平臺。請務必參考 Jetson AGX Xavier 模塊數據表Jetson AGX Xavier OEM 產品設計指南 了解表 1 中列出的全部產品功能,此外還有 eleCTR 機械規范、模塊引腳輸出、電源順序和信號布線指南。

    Table 1: Jetson AGX Xavier System-on-Module features and capabilities
    ? NVIDIA Jetson AGX Xavier Module
    CPU 8-core NVIDIA Carmel 64-bit ARMv8.2 @ 2265MHz
    GPU 512-core NVIDIA Volta @ 1377MHz with 64 TensorCores
    DL Dual NVIDIA Deep Learning Accelerators (DLAs)
    Memory 16GB 256-bit LPDDR4x @ 2133MHz | 137GB/s
    Storage 32GB eMMC 5.1
    Vision (2x) 7-way VLIW Vision Accelerator
    Encoder* (4x) 4Kp60?| (8x) 4Kp30 | (16x) 1080p60 | (32x) 1080p30
    Maximum throughput up to (2x) 1000MP/s – H.265 Main
    Decoder* (2x) 8Kp30 | (6x) 4Kp60 | (12x) 4Kp30 | (26x) 1080p60 | (52x) 1080p30
    Maximum throughput up to (2x) 1500MP/s – H.265 Main
    Camera? (16x) MIPI CSI-2 lanes, (8x) SLVS-EC lanes; up to 6 active sensor streams and 36 virtual channels
    Display (3x) eDP 1.4 / DP 1.2 / HDMI 2.0 @ 4Kp60
    Ethernet 10/100/1000 BASE-T Ethernet + MAC + RGMII interface
    USB (3x) USB 3.1 + (4x) USB 2.0
    PCIe?? (5x) PCIe Gen 4 controllers | 1×8, 1×4, 1×2, 2×1
    CAN Dual CAN bus controller
    Misc I/Os UART, SPI, I2C, I2S, GPIOs
    Socket 699-pin board-to-board connector, 100x87mm with 16mm Z-height
    Thermals? -25°C to 80°C
    Power 10W / 15W / 30W?profiles, 9.0V-20VDC input
    *Maximum number of concurrent streams up to the aggregate throughput. Supported video codecs: H.265, H.264, VP9
    Please refer to the Jetson AGX Xavier Module Data Sheet?§1.6.1 and §1.6.2 for specific codec and profile specifications.
    ?MIPI CSI-2, up to 40 Gbps in D-PHY V1.2 or 109 Gbps in CPHY v1.1
    SLVS-EC, up to 18.4 Gbps
    ??(3x) Root Port + Endpoint controllers and (2x) Root Port controllers
    ?Operating temperature range, Thermal Transfer Plate (TTP) max junction temperature.

    Jetson AGX Xavier 包括超過 750Gbps 的高速 I / O ,為流式傳感器和高速外圍設備提供了超常的帶寬。它是最早支持 PCIe Gen 4 的嵌入式設備之一,在五個 PCIe Gen 4 控制器上提供 16 個通道,其中三個控制器可以在根端口或端點模式下運行。 16 個 MIPI CSI-2 通道可連接到 4 個 4 通道攝像頭、 6 個 2 通道攝像頭、 6 個 1 通道攝像頭,或這些配置的組合(最多 6 個攝像頭), 36 個虛擬通道允許使用流聚合同時連接更多攝像頭。其他高速 I / O 包括三個 USB 3 . 1 端口、 SLVS-EC 、 UFS 和用于千兆以太網的 RGMII 。開發者現在可以訪問 NVIDIA 的 JetPack 4 . 1 . 1 開發者預覽 軟件,用于 Jetson AGX Xavier ,如表 2 所示。開發者預覽版包括 Linux For Tegra ( L4T ) R31 . 1 Board Support Package ( BSP ),目標系統支持 Linux 內核 4 . 9 和 Ubuntu18 . 04 。在主機端, Jetpack4 . 1 . 1 支持 Ubuntu16 . 04 和 Ubuntu18 . 04 。

    Table 2: Software components included in JetPack 4.1.1 Developer Preview and L4T BSP for Jetson AGX Xavier
    NVIDIA JetPack 4.1.1 Developer Preview?Release
    L4T R31.0.1 (Linux K4.9) Ubuntu 18.04 LTS aarch64
    CUDA Toolkit?10.0 cuDNN?7.3
    TensorRT?5.0 GA GStreamer 1.14.1
    VisionWorks?1.6 OpenCV 3.3.1
    OpenGL 4.6 / GLES 3.2 Vulkan 1.1
    NVIDIA Nsight Systems?2018.1 NVIDIA Nsight Graphics?2018.6
    Multimedia API?R31.1 Argus 0.97 Camera API

    Jetpack4 . 1 . 1 開發者預覽版允許開發者立即使用 Jetson AGX Xavier 開始產品和應用程序的原型制作,為生產部署做準備。 NVIDIA 將繼續對 JetPack 進行改進,并提供額外的功能增強和性能優化。請閱讀 發行說明 了解本版本的亮點和軟件狀態。

    Volta GPU

    如圖 3 所示, Jetson AGX Xavier 集成 Volta GPU 提供 512 個 CUDA 核和 64 個張量核心,可用于高達 11 TFLOPS FP16 或 22 個 INT8 compute 頂部,最大時鐘頻率為 1 . 37GHz 。它支持計算能力為 sm _的 CUDA 10 , GPU 包括 8 個 Volta 流式多處理器( sm ),每個 Volta sm 有 64 個 CUDA 核和 8 個張量核。每個 Volta SM 都包括一個 128KB 的 L1 緩存,比前幾代大 8 倍。 SMs 共享一個 512KB 的二級緩存,訪問速度比前幾代快 4 倍。

    Volta GPU block diagram
    圖 3 。 Jetson AGX Xavier 電壓 GPU 方框圖

    每個 SM 由 4 個獨立的處理塊組成,稱為 SMPs (流式多處理器分區),每個處理塊包括自己的 L0 指令緩存、 warp 調度器、調度單元和寄存器文件,以及 CUDA 內核和 Tensor 內核。每個 SM 的 smp 數量是 Pascal 的兩倍, Volta SM 的特點是改進了并發性,并且支持更多的線程、扭曲和線程塊。

    張量核

    NVIDIA 張量核心是可編程的融合矩陣乘法和累加單元,它們與 CUDA 核心并行執行。張量核實現了新的浮點 HMMA (半精度矩陣乘法和累加)和 IMMA (整數矩陣乘法和累加)指令,用于加速密集線性代數計算、信號處理和深度學習推理。

    Jetson Xavier Tensor Core Matrix diagram
    圖 4 。張量核 HMMA / IMMA 4x4x4 矩陣乘法和累加

    矩陣乘法輸入 AB ? 是 HMMA 指令的 FP16 矩陣,而累加矩陣 CD 可以是 FP16 或 FP32 矩陣。對于 IMMA ,矩陣乘法輸入 A 是有符號或無符號的 INT8 或 INT16 矩陣, B 是有符號或無符號的 INT8 矩陣, C ?D 累加器矩陣都是有符號 INT32 。因此,精度和計算范圍足以避免內部積累期間的溢出和下溢情況。

    NVIDIA 庫包括 cuBLAS 、 cuDNN 和 TensorRT 已被更新,以在內部利用 HMMA 和 IMMA ,使程序員能夠輕松地利用張量核固有的性能增益。用戶還可以通過在 wmma 名稱空間和 CUDA 10 中包含的 mma . h 頭文件中公開的新 API ,直接訪問 warp 級別的 Tensor 核心操作。 warp 級別的接口在每個 warp 的所有 32 個線程上映射 16 × 16 、 32 × 8 和 8 × 32 大小的矩陣。

    深度學習加速器

    Jetson AGX Xavier 具有兩個 NVIDIA 深度學習加速器 ( DLA )引擎,如圖 5 所示,它們減輕了固定函數卷積神經網絡( CNN )的推理。這些引擎提高了能源效率,并釋放了 GPU 來運行更復雜的網絡和用戶執行的動態任務。 NVIDIA DLA 硬件體系結構是開源的,可從 NVDLA . org 網站 獲得。每個 DLA 具有高達 5 個 TOP INT8 或 2 . 5 TFLOPS FP16 性能,功耗僅為 0 . 5-1 . 5W 。 DLA 支持加速 CNN 層,如卷積、反褶積、激活函數、最小/最大/平均池、本地響應規范化和完全連接層。

    DLA block diagram
    圖 5 。深度學習加速器( DLA )架構框圖

    DLA 硬件由以下組件組成:

    • 卷積核心 – 優化的高性能卷積引擎。
    • 單數據處理器 – 激活功能的單點查找引擎。
    • 平面數據處理器 – 用于池的平面平均引擎。
    • 通道數據處理器–用于高級標準化功能的多通道平均引擎。
    • 專用內存和數據整形引擎 – 用于張量整形和復制操作的內存到內存轉換加速。

    開發人員使用 TensorRT 5 . 0 編程 DLA 引擎,在網絡上執行推斷,包括對 AlexNet 、 GoogleNet 和 ResNet-50 的支持。對于使用 DLA 不支持的層配置的網絡, TensorRT 為無法在 DLA 上運行的層提供 GPU 回退。 Jetpack4 . 0 開發者預覽版最初將 DLA 的精度限制在 FP16 模式,在未來的 JetPack 版本中, DLA 的 INT8 精度和更高的性能將會出現。

    TensorRT 5 . 0 在其 IBuilder 接口中添加了以下 API 以啟用 DLA :

    • setDeviceType()setDefaultDeviceType() 用于選擇 GPU 、 DLA ? 0 或 DLA ? 1 以執行特定層,或默認情況下用于網絡中的所有層。
    • canRunOnDLA() 檢查層是否可以按配置在 DLA 上運行。
    • getMaxDLABatchSize() 用于檢索 DLA 可以支持的最大批處理大小。
    • allowGPUFallback() 使 GPU 能夠執行 DLA 不支持的層。

    請參考 TensorRT 5 . 0 開發人員指南 的第 6 章,了解 TensorRT 中支持的層配置和使用 DLA 的代碼示例的完整列表。

    深度學習推斷基準

    我們已經為 GPU AGX Xavier 發布了 深度學習推斷基準結果 ,這些 dnn 包括 ResNet 、 GoogleNet 和 VGG 的變體。我們在 Jetson AGX Xavier 的 Jetson 和 DLA 引擎上使用 jetpack4 . 1 . 1 開發者預覽版 TensorRT 5 . 0 為 Jetson AGX Xavier 運行這些基準測試。 GPU 和兩個 dla 分別以 INT8 和 FP16 精度并行運行相同的網絡體系結構,并報告每個配置的總體性能。 GPU 和 dla 可以在現實世界的用例中同時運行不同的網絡或網絡模型,以并行方式或在處理管道中彼此并行地提供獨特的功能。在 TensorRT 中使用 INT8 與全 FP32 精度相比,會導致精度損失 1% 或更少。

    首先,讓我們考慮一下 ResNet-18fcn ( Fully-compolutional Network )的結果,它是一個用于語義分割的 2048 × 1024 分辨率的全高清模型。分段為自由空間檢測和占用率映射等任務提供了每像素分類,并代表了由自主機器計算的用于感知、路徑規劃和導航的深度學習工作負載。圖 6 顯示了在 Jetson AGX Xavier 和 Jetson TX2 上運行 ResNet-18 FCN 的測量吞吐量。

    ResNet 18 FCN HD Inference Throughput chart
    圖 6 。 ResNet-18 FCN 推斷 Jetson AGX Xavier 和 Jetson TX2 的吞吐量

    Jetson AGX Xavier 目前在 ResNet-18 FCN 推理中的性能是 Jetson TX2 的 13 倍。 NVIDIA 將繼續在 JetPack 中發布軟件優化和功能增強,隨著時間的推移,將進一步提高性能和功率特性。請注意, 基準結果 的完整列表報告了 Jetson AGX Xavier 的 ResNet-18 FCN 的性能,但在圖 7 中,我們只繪制了批量大小為 16 的 ResNet-18 FCN ,因為 Jetson TX2 能夠運行 ResNet-18 FCN ,最大批量為 16 。

    ResNet 18 FCN HD Inference Energy Efficiency chart
    圖 7 。 ResNet-18 FCN 推斷 Jetson AGX Xavier 和 Jetson TX2 的能量效率

    當考慮使用每秒處理的每瓦特圖像的能效時, Jetson AGX Xavier 目前比 ResNet-18 FCN 的 Jetson TX2 高 6 倍。我們通過使用板載 INA 電壓和電流監測器測量總模塊功耗來計算效率,包括 CPU 、 GPU 、 DLA 、內存、其他 SoC 功率、 I / O 和所有軌道上的調節器效率損失。兩臺 Jetson 都在 15W 電源模式下運行。 Jetson AGX Xavier 和 JetPack 飛船,具有 10W 、 15W 和 30W 的可配置預設功率配置文件,可在運行時使用 nvpmodel 電源管理工具進行切換。用戶還可以使用不同的時鐘和 DVFS (動態電壓和頻率縮放)調速器設置來定義自己的自定義配置文件,這些設置已經過定制,以實現單個應用的最佳性能。

    接下來,讓我們比較一下圖像識別網絡 ResNet-50 和 VGG19 上的 Jetson AGX Xavier 基準測試,這些基準測試的批量大小從 1 到 128 與 Jetson TX2 。這些模型對分辨率為 224 × 224 的圖像塊進行分類,常用作各種目標檢測網絡中的編碼器主干。在較低分辨率下使用 8 或更高的批處理大小可用于近似處理較高分辨率下批大小為 1 的性能和延遲。機器人平臺和自主機器通常包含多個攝像機和傳感器,除了執行感興趣區域( ROI )的檢測,然后分批對 ROI 進行進一步分類,這些攝像頭和傳感器可以批量處理以提高性能。圖 8 還包括對 Jetson AGX Xavier 未來性能的估計,包括軟件增強功能,如 INT8 對 DLA 的支持和 GPU 的其他優化。

    RN50 VGG19 Throughput chart
    圖 8 。 INT8 支持 DLA 和其他 GPU 優化后的估計性能

    Jetson AGX Xavier 目前在 VGG19 上的 Jetson TX2 和 ResNet-50 上的吞吐量分別達到 18 倍和 14 倍,如圖 9 所示。延遲為 65 . 5 秒,或凈大小為 65 . 5 秒/秒。隨著未來軟件的改進, Jetson AGX Xavier 預計將比 Jetson TX2 快 24 倍。請注意,對于遺留比較,我們還提供了完整的 性能列表 中的 GoogleNet 和 AlexNet 的數據。

    RN50 VGG19 Efficiency chart
    圖 9 。 Jetson Xavier 和 Jetson TX2 的 ResNet-50 和 VGG19 能效

    Jetson AGX Xavier 目前在 VGG19 推理方面的效率比 Jetson TX2 高 7 倍多,使用 ResNet-50 的效率高 5 倍,考慮到未來的軟件優化和增強,效率提高了 10 倍。參考完整的 績效結果 來獲取更多的數據和關于推斷基準的細節。我們還將在下一節中對 CPU 的性能進行基準測試。

    卡梅爾 CPU 復合體

    圖 10 所示的 Jetson AGX Xavier 的 CPU 復合體由四個基于 ARMv8 . 2 的異構雙核 NVIDIA CarmelCPU 簇組成,最大時鐘頻率為 2 . 26GHz 。每個核心包括 128KB 指令和 64KB 數據一級緩存,以及兩個內核之間共享的 2MB 二級緩存。 CPU 集群共享一個 4MB 的 L3 緩存。

    0

    標簽

    人人超碰97caoporen国产