Performance – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 02 Feb 2023 07:45:35 +0000 zh-CN hourly 1 196178272 關于擴展 AI 訓練和推理存儲的提示 http://www.open-lab.net/zh-cn/blog/tips-on-scaling-storage-for-ai-training-and-inferencing/ Wed, 25 Jan 2023 07:43:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=6132 Continued]]> GPU 在擴展 AI 方面有許多好處,從更快的模型訓練到 GPU 加速的欺詐檢測。在規劃 AI 模型和部署應用程序時,必須考慮可擴展性挑戰,尤其是性能和存儲。 無論使用何種情況,人工智能解決方案都有四個共同點: 在這些元素中, 數據存儲 通常是規劃過程中最被忽視的元素。為什么?因為隨著時間的推移,在創建和部署 AI 解決方案時并不總是考慮數據存儲需求。 AI 部署的大多數需求都可以通過 POC 或測試環境快速確認。 然而,挑戰在于 POC 傾向于解決單個時間點。培訓或推斷部署可能會持續數月或數年。由于許多公司迅速擴大了其人工智能項目的范圍,基礎設施也必須進行擴展,以適應不斷增長的模型和數據集。 這篇博客解釋了如何提前計劃和擴展數據存儲以進行訓練和推理。 首先,了解 AI 的數據存儲層次結構,包括 GPU 內存、數據結構和存儲設備(圖 2 )。

Source

]]>
6132
通過 GPU 內存訪問調整提高應用程序性能 http://www.open-lab.net/zh-cn/blog/boosting-application-performance-with-gpu-memory-access-tuning/ Mon, 27 Jun 2022 06:54:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4395 Continued]]> NVIDIA GPU 具有強大的計算能力,通常需要高速傳輸數據才能部署這種能力。原則上,這是可能的,因為 GPU 也有很高的內存帶寬,但有時他們需要程序員的幫助來飽和帶寬。在這篇博文中,我們研究了一種實現這一點的方法,并將其應用于金融計算中的一個示例。我們將解釋在什么情況下這種方法可以很好地工作,以及如何找出這些情況是否適用于您的工作負載。 NVIDIA GPU 的力量來自大規模并行。可以將 32 個線程的許多扭曲放置在流式多處理器( SM )上,等待輪到它們執行。當一個 warp 因任何原因暫停時, warp 調度程序將切換到另一個,開銷為零,確保 SM 始終有工作要做。在高性能 NVIDIA Ampere 100 ( A100 ) GPU 上,多達 64 個活動經線可以共享一個 SM ,每個都有自己的資源。除此之外, A100 還有許多 SMs-108 ,

Source

]]>
4395
使用 NVIDIA VR 捕獲和回放功能在虛擬現實中錄制、編輯和回放 http://www.open-lab.net/zh-cn/blog/record-edit-and-rewind-in-virtual-reality-with-nvidia-vr-capture-and-replay/ Thu, 24 Mar 2022 06:39:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3464 Continued]]> 開發者和早期訪問用戶現在可以通過 NVIDIA 虛擬現實捕獲和回放 ( VCR )準確捕獲和重放虛擬現實會話,用于性能測試、場景故障排除等 虛擬世界的潛力是無限的,但使用虛擬現實內容會帶來挑戰,尤其是在錄制或再現虛擬體驗方面。與現實世界不同,捕捉沉浸式場景并不像在手機上拍攝視頻或按下電腦上的錄制按鈕那么容易。 在虛擬現實中,不可能重復相同的體驗,而且沉浸式演示通常會因為攝像機的過度運動而變得緊張和難以觀看。創建虛擬現實應用程序也可能很麻煩,因為開發人員必須跳進或跳出他們的耳機來編碼、測試和改進他們的工作。此外,所有這些任務都需要 1:1 的設備連接,才能啟動和運行 VR 應用程序。 所有這些都使得在虛擬現實中記錄任何東西成為一個極其耗時和乏味的過程。 Autodesk 的高級產品經理盧卡斯·費斯( Lukas Faeth )解釋說:

Source

]]>
3464
以正確的方式加速云網絡 http://www.open-lab.net/zh-cn/blog/accelerating-cloud-networking-the-right-way/ Thu, 24 Feb 2022 06:44:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3117 Continued]]> NVIDIA BLUVELD-2 數據處理器( DPU )提供了不匹配的軟件定義網絡( SDN )性能、可編程性和可擴展性。它集成了八個 Arm CPU 內核、安全的高級 ConnectX-6 Dx 云網絡接口和硬件加速器,這些硬件加速器共同卸載、加速和隔離 SDN 功能,執行連接跟蹤、流匹配和高級數據包處理。 這篇文章概述了精確 SDN 性能基準的基本原理,并演示了在NVIDIA CONTROX-6DX 上實現的實際結果。 BlueField-2 和下一代 BlueField-3 DPU 包括額外的加速功能,并為更廣泛的用例提供更高的性能。 BlueField DPU 或 ConnectX SmartNICs 的任何 SDN 性能評估都應充分利用硬件加速器的全部功能。 BLUBELFIED-2 的分組處理動作是通過NVIDIA ASAP 編程的2(加速交換和數據包處理)引擎。

Source

]]>
3117
人人超碰97caoporen国产