性能優化

2025年 2月 27日
借助 NVIDIA KvikIO 實現高性能遠程 IO
處理大量數據的工作負載 (尤其是在云端運行的工作負載) 通常會使用對象存儲服務 (S3、Google Cloud Storage、
2 MIN READ

2025年 1月 30日
掌握 cudf.pandas Profiler 實現 GPU 加速
在 Python 數據科學領域,pandas 長期以來一直是直觀數據操作和分析的首選庫。但是,隨著數據量的增長,
2 MIN READ

2024年 12月 20日
利用 RAPIDS 和 Ray 加速 GPU 數據分析
RAPIDS 是一套開源 GPU 加速的數據科學和 AI 庫,可通過 Spark 和 Dask 等分布式引擎進行橫向擴展。
2 MIN READ

2024年 12月 5日
統一虛擬內存利用 RAPIDS cuDF 為 pandas 提供強力支持
上一篇文章 中介紹的 是一個 GPU 加速庫,可加速 pandas 以實現顯著的性能提升,速度最高可提升至原來的 50 倍,
2 MIN READ

2024年 9月 24日
借助 NVIDIA NeMo 實現出色的 ASR 模型 10 倍加速
NVIDIA NeMo 持續開發了設定行業基準的 自動語音識別(ASR) 模型,尤其是在 Hugging Face Open ASR 排行榜…
4 MIN READ

2024年 9月 11日
用于直線 CUDA 圖形和其他性能增強的恒定時間啟動
CUDA Graphs 是一種將 GPU 運算定義為圖形(而非一系列流啟動)并將其批量處理的方法。CUDA Graph 將一組 CUDA…
3 MIN READ

2024年 8月 8日
通過降低指令緩存未命中率提高 GPU 性能
GPU 專為高速處理大量數據而設計。GPU 具有稱為流多處理器 (SM) 的大量計算資源,以及一系列可為其提供數據的設施:高帶寬內存、
2 MIN READ

2024年 7月 8日
使用 NVIDIA NIM 實現多語種大語言模型部署
對于在當今全球化商業環境中運營的企業而言,多語種大型語言模型(LLM)的重要性與日俱增。隨著企業跨越國界和文化擴展業務,
4 MIN READ

2024年 5月 10日
具有條件節點的 CUDA 圖的動態控制流
CUDA 圖 可以顯著提高性能,因為驅動程序能夠使用任務和依賴關系的完整描述來優化執行。特別是在靜態工作流中,圖形可以提供難以置信的好處,
2 MIN READ

2024年 3月 12日
使用 NVIDIA GPU 和 VMAF-CUDA 計算視頻質量
視頻質量指標用于評估視頻內容的保真度。它們提供一致的量化測量,用于評估編碼器的性能。 VMAF 將人類視覺建模與不斷發展的機器學習技術相結合,
4 MIN READ

2024年 2月 21日
限制 CPU 線程以獲得更好的游戲性能
許多 PC 游戲都圍繞 8 核游戲機進行設計,并假設其軟件線程系統在所有 PC 上都“正常工作”,尤其是在工作線程池中的線程數量方面。不久前,
1 MIN READ

2024年 1月 16日
強大的場景文本檢測和識別:簡介
識別和識別自然場景和圖像中的文本對于視頻標題文本識別、檢測車載攝像頭的標牌、信息檢索、場景理解、車牌識別以及識別產品文本等用例變得非常重要。
1 MIN READ

2024年 1月 16日
強大的場景文本檢測和識別:實施
要使場景文本檢測和識別適用于不規則文本或特定用例,您必須完全控制模型,以便根據用例和數據集執行增量學習或微調。請記住,此工作流是場景理解、
2 MIN READ

2024年 1月 16日
強大的場景文本檢測和識別:推理優化
在本文中,我們將深入探討推理優化過程,以在推理階段提高機器學習模型的性能和效率。我們將討論所采用的技術,例如推理計算圖形簡化、量化和降低精度。
3 MIN READ

2024年 1月 5日
在某些場景中使用 cgroup 縮短 CUDA 初始化時間
在多 GPU 平臺上運行的許多 CUDA 應用程序通常使用單個 GPU 來滿足其計算需求。在這種情況下,應用程序會支付性能損失,
2 MIN READ

2023年 12月 13日
借助 NVIDIA H100 Tensor Core GPU 和 NVIDIA TensorRT-LLM 實現出色的推理性能
出色的 AI 性能需要高效的并行計算架構、高效的工具堆棧和深度優化的算法。NVIDIA 發布了 NVIDIA TensorRT-LLM,
2 MIN READ