TensorFlow – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 24 Jul 2024 04:35:15 +0000 zh-CN hourly 1 196178272 借助最新 NVIDIA Merlin TensorFlow 插件實現大規模 Embedding 擴展 http://www.open-lab.net/zh-cn/blog/merlin-tensorflow-plugin-embedding-extension/ Wed, 24 Jul 2024 04:33:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=10688 Continued]]> 通過封裝 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下簡稱 SOK)使得 TensorFlow用戶可以借助 HugeCTR 的一些相關特性和優化加速 GPU 上的分布式 Embedding訓練。 在以往文章中(Merlin HugeCTR Sparse Operation Kit 系列之一 – NVIDIA 技術博客, Merlin HugeCTR Sparse Operation Kit 系列之二 – NVIDIA 技術博客),我們對 HugeCTR SOK 的基本功能、性能、用法和原理做了詳細的介紹。近期 SOK 又發布了多個版本迭代,這篇博客對最新 v2.0 版本中的新特性 (尤其是動態Embedding 和在線訓練增量導出),用法進行了歸納總結和介紹,并在最后介紹了 SOK 在手機行業的應用案例。 圖 1.

Source

]]>
10688
借助 NVIDIA TAO 和視覺 AI 模型變革工業缺陷檢測 http://www.open-lab.net/zh-cn/blog/transforming-industrial-defect-detection-with-nvidia-tao-and-vision-ai-models/ Mon, 20 Nov 2023 04:58:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=8298 Continued]]> 效率在工業制造中至關重要,在工業制造中,即使是微小的收益也會產生重大的財務影響。據美國質量協會稱,“許多組織的真正質量相關成本將高達銷售收入的 15-20%,有些則高達總運營的 40%.”這些驚人的統計數據揭示了一個嚴峻的現實:工業應用中的缺陷不僅會損害產品質量,而且會消耗公司收入的很大一部分。 但是,如果公司能夠收回這些損失的利潤,并將其重新用于創新和擴展呢?這是 AI 潛力的亮點所在。 本文將探討如何使用 NVIDIA TAO 設計自定義 AI 模型,以找出工業應用中的缺陷,從而提高整體質量。 NVIDIA TAO 工具套件是基于 TensorFlow 和 PyTorch 構建的低代碼 AI 工具包。它通過抽象出 AI 模型和深度學習框架的復雜性來簡化和加速模型訓練過程。借助 TAO 工具套件,開發者可以使用預訓練模型,并針對特定用例對其進行微調。 在本文中,

Source

]]>
8298
NVIDIA Merlin 助力陌陌推薦業務實現高性能訓練優化 http://www.open-lab.net/zh-cn/blog/nvidia-merlin-momo-high-performance-training-optimization/ Thu, 09 Nov 2023 08:33:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=8177 Continued]]> 本案例中,NVIDIA 團隊與陌陌推薦系統團隊深度合作,共同使用 NVIDIA GPU 和 Merlin 軟件解決方案替代其原有解決方案。 通過使用 Merlin TensorFlow Plugin (即 Sparse Operation Kit,SOK) 和 HierarchicalKV(HKV),相較于原方案在相同規模模型和 GPU 下,顯著提高了陌陌大規模深度多目標精排模型的訓練性能。在不影響模型效果的前提下,模型整體吞吐提升了 5 倍以上,再結合通信和 IO 等進一步優化后,極限情況下可以提升 12 倍吞吐。 客戶簡介 摯文集團于 2011 年成立,2014 年 12 月 11 日在美國納斯達克交易所掛牌上市(NASDAQ: MOMO),擁有陌陌、探探等多款手機應用,以及電影制作發行、節目制作等多元業務。陌陌是摯文集團于 2011 年 8…

Source

]]>
8177
使用 Spark 3.4 簡化分布式深度學習 http://www.open-lab.net/zh-cn/blog/distributed-deep-learning-made-easy-with-spark-3-4/ Mon, 12 Jun 2023 05:23:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=7219 Continued]]> Apache Spark是一個業界領先的平臺,用于大規模數據的分布式提取、轉換和加載( ETL )工作負載。隨著深度學習( DL )的發展,許多 Spark 從業者試圖將 DL 模型添加到他們的數據處理管道中,以涵蓋各種用例,如銷售預測、內容推薦、情緒分析和欺詐檢測。 然而,結合 DL 培訓和推理,從歷史上看,大規模數據一直是 Spark 用戶面臨的挑戰。大多數 DL 框架都是為單節點環境設計的,它們的分布式訓練和推理 API 通常是經過深思熟慮后添加的。 為了解決單節點 DL 環境和大規模分布式環境之間的脫節,有多種第三方解決方案,如 Horovod-on-Spark、TensorFlowOnSpark 和 SparkTorch,但由于這些解決方案不是在 Spark 中本地構建的,因此用戶必須根據自己的需求評估每個平臺。 隨著 Spark 3.4 的發布,

Source

]]>
7219
為什么自動增強很重要 http://www.open-lab.net/zh-cn/blog/why-automatic-augmentation-matters/ Fri, 05 May 2023 03:17:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=6917 Continued]]> 深度學習模型需要數百 GB 的數據才能在看不見的樣本上很好地泛化。數據擴充有助于增加數據集中示例的可變性。 傳統的數據擴充方法可以追溯到統計學習,當時擴充的選擇依賴于建立模型訓練的工程師的領域知識、技能和直覺。 自動增強出現了減少對手動數據預處理的依賴。它結合了應用自動調整和根據概率分布隨機選擇增強的思想。 事實證明,使用 AutoAugment 和 RandAugment 等自動數據增強方法可以通過使模型在訓練中看到的樣本多樣化來提高模型的準確性。自動擴充使數據預處理更加復雜,因為一批中的每個樣本都可以用不同的隨機擴充進行處理。 在這篇文章中,我們介紹了如何使用 NVIDIA DALI 實現和使用 GPU 加速自動增強來訓練,然后使用條件執行。 自動增強是基于標準的圖像變換,如旋轉、剪切、模糊或亮度調整。大多數操作都接受一個稱為幅值的控制參數。幅度越大,

Source

]]>
6917
使用 NVIDIA QAT 工具包為 TensorFlow 和 NVIDIA TensorRT 加速量化網絡 http://www.open-lab.net/zh-cn/blog/accelerating-quantized-networks-with-qat-toolkit-and-tensorrt/ Thu, 16 Jun 2022 02:50:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4327 Continued]]> 我們很高興宣布 NVIDIA Quantization Aware Training ( QAT ) Toolkit for TensorFlow 2 目標是在 NVIDIA GPU 上使用 NVIDIA TensorRT 加速量化網絡。該工具包為您提供了一個易于使用的 API ,以一種優化的方式量化網絡,只需幾行額外的代碼即可進行 TensorRT 推理。 這篇文章伴隨著 走向 INT8 推理:使用 TensorRT 部署量化感知訓練網絡的端到端工作流 GTC 課程。有關 PyTorch 量化工具包等效工具,請參閱 PyTorch 量化 . 加速深層神經網絡( DNN )推理是實現實時應用(如圖像分類、圖像分割、自然語言處理等)延遲關鍵部署的重要步驟。 改進 DNN 推理延遲的需要引發了人們對以較低精度運行這些模型的興趣,如 FP16 和 INT8 。

Source

]]>
4327
深度學習研究可能引發新的恐龍發現 http://www.open-lab.net/zh-cn/blog/deep-learning-study-could-spark-new-dinosaur-discoveries/ Mon, 28 Feb 2022 06:33:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3108 Continued]]> 將新技術應用于研究古代歷史,研究人員希望通過一種新的人工智能算法擴大對恐龍的了解。這項研究發表在 地球科學前沿 上,使用高分辨率計算機斷層掃描( CT )成像結合深度學習模型來掃描和評估恐龍化石。這項研究是朝著創造一種新工具邁出的一步,這種工具將極大地改變古生物學家研究古代遺跡的方式。 “計算機斷層掃描以及其他成像技術已經揭示了化石中以前隱藏的結構,但高分辨率圖像需要古生物學家花費數周甚至數月的時間進行后期處理,通常是從巖石基質中分割化石。人工智能的引入不僅可以加快化石研究中的數據處理,而且還可以提高化石研究的效率。” ut 還為更客觀、更具重現性的研究建立了基準,”主要作者、美國自然歷史博物館理查德·吉爾德研究生院博士生余聰宇說。 為了全面了解古代脊椎動物,古生物學家關注內部解剖學,如顱骨容量、內耳或血管空間。為此,研究人員使用了一種稱為薄切片的技術。

Source

]]>
3108
NGC 上的最新信息:安全報告、 PyTorch 、 TensorFlow 、 HPC 等的最新容器 http://www.open-lab.net/zh-cn/blog/new-on-ngc-security-reports-latest-containers-for-pytorch-tensorflow-hpc-and-more/ Wed, 26 Jan 2022 07:39:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2902 Continued]]> NVIDIA NGC 目錄 是 GPU 優化的深度學習、機器學習和 HPC 應用的中心。通過高性能軟件 containers 、 預訓練模型 、特定于行業的 SDK 和 Jupyter Notebooks ,這些內容有助于簡化和加速端到端工作流。 幫助您簡化工作流程并在 NGC 上更快地構建解決方案的新功能、軟件和更新包括: NGC 目錄提供了最先進的預訓練模型,可以幫助您更快地構建定制模型,只需訓練數據的一小部分。 現在,每個模型都附帶了一份簡歷,其中提供了有關模型體系結構、培訓參數、培訓數據集、性能和限制的信息,以幫助您在下載模型之前做出明智的決策。它們還包括如何使用該模型的說明,以便您可以專注于人工智能開發。 觀看演示視頻,探索 models 在零售、醫療保健、智能城市和制造業等各個行業的語音和計算機視覺等應用。

Source

]]>
2902
研究人員利用神經納米光學技術制造了一種鹽粒大小的相機 http://www.open-lab.net/zh-cn/blog/using-neural-nano-optics-researchers-create-a-camera-the-size-of-a-salt-grain/ Thu, 09 Dec 2021 04:27:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2626 Continued]]> 來自普林斯頓和華盛頓大學的一組研究人員創造了一種新的照相機,捕捉到的圖像和測量結果只有一個粗粒鹽大小的半毫米。 發表在 Nature Communications, 上的新的 研究 概述了使用光學超表面和機器學習來產生高質量的彩色圖像,具有廣闊的視野。該設備可用于從機器人到醫療領域的各個行業,以幫助疾病診斷。 光學超表面依賴于一種新的光操縱方法,使用設置在小正方形表面上的圓柱柱。這些柱子的幾何形狀不同,其工作原理類似于天線,可以捕獲入射光子(電磁輻射波)。然后,這些波作為信號從元表面發送到計算機,以解釋并生成圖像。 微型攝像機在醫學上有著巨大的應用潛力,從腦成像到微創內窺鏡。但是,到目前為止,這項技術已經用有限的視野捕捉到模糊、扭曲的圖像。 研究人員采用神經納米光學技術,將光學超表面與基于神經特征的圖像重建相結合,

Source

]]>
2626
使用 HugeCTR TensorFlow 嵌入插件加速嵌入 http://www.open-lab.net/zh-cn/blog/accelerating-embedding-with-the-hugectr-tensorflow-embedding-plugin/ Fri, 24 Sep 2021 07:47:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=1812 Continued]]> 推薦系統是互聯網的經濟引擎。很難想象任何其他類型的應用程序會對我們的日常數字生活產生更直接的影響:數以萬億計的項目被推薦給數十億人。推薦系統會在大量選項中過濾產品和服務,從而緩解大多數用戶面臨的選擇悖論。 隨著數據量的增加,深度學習( DL )推薦系統開始顯示與傳統的基于機器學習的方法相比的優勢,例如梯度增強樹。為了給出一個具體的數據點, NVIDIA RAPIDS 。 AI 團隊與 DL 贏得了三場推薦比賽最近: 甚至在一年前 NVIDIA 數據科學家詢問為什么深度學習模型還沒有在推薦系統競賽中持續獲勝?時,這種情況也沒有持續發生。 嵌入在現代基于 DL 的推薦體系結構中起著關鍵作用,為數十億實體(用戶、產品及其特征)編碼單個信息。隨著數據量的增加,嵌入表的大小也隨之增加,現在這些表跨越多個 GB 到 TB 。在訓練這種類型的 DL 系統時存在著獨特的挑戰,

Source

]]>
1812
人人超碰97caoporen国产