Transformers – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 01 Feb 2024 04:21:10 +0000 zh-CN hourly 1 196178272 使用全卷積網絡在 Transformer 模型中模擬注意力機制 http://www.open-lab.net/zh-cn/blog/emulating-the-attention-mechanism-in-transformer-models-with-a-fully-convolutional-network/ Mon, 29 Jan 2024 04:14:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=8866 Continued]]> 在過去十年中,深度學習技術在計算機視覺 (CV) 任務中的應用大幅增加。卷積神經網絡 (CNN) 一直是這場革命的基石,展示了卓越的性能,并在視覺感知方面實現了顯著進步。 通過采用本地化濾鏡和分層架構,CNN 已證明擅長捕捉空間層次結構、檢測模式,以及從圖像中提取信息豐富的特征。例如,在用于圖像識別的深度殘差學習中,卷積層表現出平移等方差,使其能夠泛化為平移和空間轉換。然而,盡管 CNN 取得了成功,但其在捕獲遠程依賴項和全局上下文理解方面仍存在局限性,這在需要精細理解的復雜場景或任務中變得越來越重要。 相比之下,Transformer 架構在計算機視覺領域中正變得越來越有吸引力,這得益于其在自然語言處理 (NLP) 領域的成功應用。正如論文Attention Is All You Need中所展示的,Transformer 通過避免局部卷積,提供了一種自注意力機制,

Source

]]>
8866
掌握 LLM 技術:推理優化 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-inference-optimization/ Fri, 17 Nov 2023 05:14:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=8306 Continued]]> 通過堆疊 Transformer 層來創建大型模型,可以提高準確性、實現少量學習功能,并且在各種語言任務中實現近乎人類的性能。這些基礎模型的訓練成本高昂,而且在推理過程中可能會占用大量內存和計算資源(這是一種重復性成本)。目前最熱門的大型語言模型 (LLM)可以達到數百億到數千億的參數規模,并且根據用例,可能需要處理長輸入(或上下文),這也會增加費用。 本文討論了大型語言模型(LLM)推理中最緊迫的挑戰及其實用解決方案。建議讀者對 Transformer 架構 和通用注意力機制有基本的了解。我們將在下一節重點討論掌握 LLM 推理復雜性的重要性。 大多數熱門的僅使用解碼器的 LLM (例如 GPT-3)都基于因果關系建模目標進行了預訓練,本質上是作為次詞預測器。這些 LLM 接受一系列標記作為輸入,并以自回歸方式生成后續標記,直到它們滿足停止標準(例如,

Source

]]>
8306
使用 Vision Transformers 和 NVIDIA TAO 提高視覺 AI 應用程序的準確性和穩健性 http://www.open-lab.net/zh-cn/blog/access-the-latest-in-vision-ai-model-development-workflows-with-nvidia-tao-toolkit-5-0-2/ Tue, 25 Jul 2023 03:27:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=7504 Continued]]> 視覺轉換器( ViT )正在掀起計算機視覺的風暴,為具有挑戰性的現實世界場景提供了令人難以置信的準確性、強大的解決方案,并提高了可推廣性。這些算法在提升計算機視覺應用程序方面發揮著關鍵作用, NVIDIA 使用 NVIDIA TAO Toolkit 和 NVIDIA L4 GPU 可以輕松地將 ViT 集成到您的應用程序中。 ViT 是一種機器學習模型,它將最初為自然語言處理設計的 transformer 架構應用于視覺數據。與基于 CNN 的同類產品相比,它們有幾個優勢,并且能夠對大規模輸入進行并行處理。雖然 CNNs 使用的本地操作缺乏對圖像的全局理解,但 ViT 提供了長期依賴性和全局上下文。他們通過以并行和基于自我關注的方式處理圖像,實現所有圖像補丁之間的交互,從而有效地做到了這一點。 圖 1 顯示了 ViT 模型中圖像的處理,

Source

]]>
7504
使用 Alpa 和 Ray 在大型 GPU 集群中高效擴展 LLM 訓練 http://www.open-lab.net/zh-cn/blog/efficiently-scale-llm-training-across-a-large-gpu-cluster-with-alpa-and-ray/ Mon, 15 May 2023 05:21:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=6976 Continued]]> 近年來,大型語言模型( LLM )的數量激增,它們超越了傳統的語言任務,擴展到生成式人工智能這包括像 ChatGPT 和 Stable Diffusion 這樣的模型。隨著這種對生成人工智能的關注不斷增長,人們越來越需要一種現代機器學習( ML )基礎設施,使日常從業者能夠訪問可擴展性。 本文介紹了兩個開源框架,Alpa.ai和Ray.io,共同努力實現訓練 1750 億參數所需的規模JAX transformer具有流水線并行性的模型。我們詳細探討了這兩個集成框架,以及它們的組合架構、對開發人員友好的 API 、可伸縮性和性能。 Alpa 和 Ray 的核心都是為了提高開發人員的速度和有效地擴展模型。 Alpa 框架的流水線并行功能可以輕松地在多個 GPU 上并行化大型模型的計算,并減輕開發人員的認知負擔。 Ray 提供了一個分布式計算框架,可以簡化跨多臺機器的資源擴展和管理。

Source

]]>
6976
NVIDIA Hopper GPU 上的新 cuBLAS 12.0 功能和矩陣乘法性能 http://www.open-lab.net/zh-cn/blog/new-cublas-12-0-features-and-matrix-multiplication-performance-on-nvidia-hopper-gpus/ Wed, 01 Feb 2023 02:48:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=6207 Continued]]> NVIDIA H100 TensorCore GPU 基于 NVIDIA Hopper 架構 和第四代 NVIDIA Tensor Cores ,最近推出了 提供前所未有的性能 和 全面的 AI 基準 ,如 MLPerf training 。 人工智能和機器學習基準測試中相當一部分操作是 通用矩陣乘法 ,也稱為 matmul 函數。 GEMs 也存在于深度學習訓練的前向和后向通道以及推理中。 GEMM 的突出性使得深度學習軟件能夠最大限度地利用用于矩陣乘法的硬件,同時支持幾個關鍵的 AI 組件。這些成分包括具有偏置和流行激活功能的融合體及其衍生物。 本文探討了 NVIDIA cuBLAS 庫 在里面 CUDA 12.0 重點是最近推出的 FP8 format 、 NVIDIA Hopper 上的 GEM 性能 GPU ,以及新 64 位整數應用程序編程接口 ( API…

Source

]]>
6207
結合卷積和注意機制改進日語 ASR http://www.open-lab.net/zh-cn/blog/improving-japanese-language-asr-by-combining-convolutions-with-attention-mechanisms/ Mon, 12 Sep 2022 05:31:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5278 Continued]]> 自動語音識別( ASR )研究通常側重于高資源語言,如英語,它由數十萬小時的語音支持。最近的文獻重新關注更復雜的語言,如日語。與其他亞洲語言一樣,日語有大量的基本字符集(普通白話中使用了 3000 多個獨特的字符),并提出了獨特的挑戰,例如多個詞序。 這篇文章討論了最近提高日語 ASR 準確性和速度的工作。首先,我們改進了 Conformer ,這是一種最先進的 ASR 神經網絡架構,在訓練和推理速度方面取得了顯著的改進,并且沒有精度損失。其次,我們增強了一個具有多頭部自我注意機制的純深度卷積網絡,以豐富輸入語音波形的全局上下文表示的學習。 Conformer 是一種神經網絡體系結構,廣泛應用于多種語言的 ASR 系統中,并取得了較高的精度。然而, Conformer 在訓練和推斷方面都相對較慢,因為它使用了多頭自我注意,對于輸入音頻波的長度,其時間/

Source

]]>
5278
使用 FasterTransformer 和 Triton 推理服務器加速大型?Transformer?模型的推理 http://www.open-lab.net/zh-cn/blog/accelerated-inference-for-large-transformer-models-using-nvidia-fastertransformer-and-nvidia-triton-inference-server/ Wed, 03 Aug 2022 02:56:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4781 Continued]]> 這是討論 NVIDIA FasterTransformer 庫的兩部分系列的第一部分,該庫是用于對任意大小(多達數萬億個參數)的Transformer進行分布式推理的最快庫之一。它提供了 FasterTransformer 的概述,包括使用該庫的好處。 使用 FasterTransformer 和 Triton 推理服務器部署 GPT-J 和 T5(第 2 部分)是一個指南,說明了使用 FasterTransformer 庫和 Triton 推理服務器以具有張量并行性的最佳方式為 T5-3B 和 GPT-J 6B 模型提供服務。 Transformers 是當今最具影響力的 AI 模型架構之一,正在塑造未來 AI 研發的方向。它們最初是作為自然語言處理 (NLP) 的工具而發明的,現在幾乎用于任何 AI 任務,包括計算機視覺、自動語音識別、分子結構分類和金融數據處理。

Source

]]>
4781
使用 FasterTransformer 和 Triton 推理服務器部署 GPT-J 和 T5 http://www.open-lab.net/zh-cn/blog/deploying-gpt-j-and-t5-with-fastertransformer-and-triton-inference-server/ Wed, 03 Aug 2022 02:41:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4768 Continued]]> 這是關于 NVIDIA 工具的兩部分系列的第二部分,這些工具允許您運行大型Transformer模型以加速推理。 有關 NVIDIA FasterTransformer 庫(第 1 部分)的介紹,請參閱 使用 FasterTransformer 和 Triton 推理服務器加速大型 Transformer 模型的推理 這篇文章是大型Transformer模型(例如 EleutherAI 的 GPT-J 6B 和 Google 的 T5-3B)的優化推理指南。這兩種模型在許多下游任務中都表現出良好的效果,并且是研究人員和數據科學家最常用的模型之一。 NVIDIA Triton 中的 NVIDIA FasterTransformer (FT) 允許您以類似且簡單的方式運行這兩個模型,同時提供足夠的靈活性來集成/組合其他推理或訓練管道。

Source

]]>
4768
為醫療保健開發 NLP 應用程序 http://www.open-lab.net/zh-cn/blog/developing-nlp-applications-to-enhance-clinical-experiences-and-accelerate-drug-discovery/ Wed, 27 Jul 2022 06:27:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4705 Continued]]> 自然語言處理( NLP )可以定義為人工智能( AI )、計算機科學和計算語言學的結合,以理解人類交流并從非結構化口語或書面材料中提取意義。 在過去幾年中,醫療保健的非線性規劃用例有所增加,以通過語言理解和預測分析加快治療學的發展,提高患者護理質量。 醫療保健行業產生大量非結構化數據,但如果不找到以可計算形式構造和表示該數據的方法,就很難獲得見解。開發人員需要將非結構化數據轉換為結構化數據的工具,以幫助醫療保健組織利用相關見解,改善醫療保健服務和患者護理。 Transformer – 基于文本的自然語言處理已成為基于文本的醫療保健工作流性能的范式轉變。由于其多功能性, NLP 幾乎可以構建任何專有或公共數據,以 Spark 洞察醫療保健,從而產生各種下游應用,直接影響患者護理或擴大和加速藥物發現。 非線性規劃在加速小分子藥物發現方面發揮著關鍵作用。

Source

]]>
4705
采用 P-Tuning 解決非英語下游任務 http://www.open-lab.net/zh-cn/blog/adapting-p-tuning-to-solve-non-english-downstream-tasks/ Tue, 12 Jul 2022 05:25:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4586 Continued]]> 隨著對預訓練大型語言模型( LLM )權重訪問需求的增加,圍繞 LLM 共享的環境正在發生變化。最近, Meta 發布了 開式預訓練Transformer ,一個具有 1750 億個參數的語言模型。 BigScience 計劃在幾個月內發布具有 1760 億個參數的多語言模型。 隨著越來越多的 LLM 可用,行業需要解決實際自然語言任務的技術。研究表明, 模型提示方法 可以從 LLM 中獲得良好的零拍和少拍性能,并有助于在各種下游自然語言處理( NLP )任務中產生高質量的結果。白皮書提出了一種解決方案,使經過預訓練的通用 LLM 在自然語言處理領域日益流行的新 預訓練、提示和預測 范式中切實有用。 然而,當您將提示方法應用于工業自然語言處理應用程序時,還需要考慮其他挑戰。對于任何下游 NLP 任務,必須收集標記數據,以指示語言模型如何生成預期結果。 盡管對于許多任務,

Source

]]>
4586
Transformers4Rec :使用 NVIDIA Merlin 庫構建基于會話的建議 http://www.open-lab.net/zh-cn/blog/transformers4rec-building-session-based-recommendations-with-an-nvidia-merlin-library/ Tue, 28 Jun 2022 05:32:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4461 Continued]]> 推薦系統可以幫助您發現新產品并做出明智的決策。然而,在許多依賴于推薦的領域,如電子商務、新聞和流媒體服務,用戶可能無法跟蹤,或者根據當時的需求,用戶的口味可能會迅速變化。 基于會話的推薦系統是順序推薦的一個子領域,最近很受歡迎,因為它們可以在任何給定的時間點根據用戶的情況和偏好推薦項目。在這些領域中,捕捉用戶對項目的短期或上下文偏好很有幫助。 在本文中,我們將介紹基于會話的推薦任務,該任務由 NVIDIA Merlin 平臺的 Transformers4Rec 庫支持。然后,我們展示了使用 Transformers4Rec 在幾行代碼中創建基于會話的推薦模型是多么容易,最后,我們展示了使用 NVIDIA Merlin 庫的端到端基于會話的推薦管道。 NVIDIA Merlin 團隊于 ACM RecSys’21 發布,

Source

]]>
4461
新型 transformer 模型實現了 3D 醫學圖像分析的最新基準 http://www.open-lab.net/zh-cn/blog/novel-transformer-model-achieves-state-of-the-art-benchmarks-in-3d-medical-image-analysis/ Wed, 22 Jun 2022 03:53:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4367 Continued]]> 在計算機視覺和模式識別會議( CVPR )上, NVIDIA 研究人員發表了 35 多篇論文。這包括對 移動窗口 UNEt TRansformers ( Swin-UNETR )的研究,這是第一個基于變壓器的預訓練框架,專為 3D 醫學圖像分析中的自我監督任務而設計。這項研究是創建用于數據注釋的預訓練、大規模和自監督三維模型的第一步。 作為一種基于 transformer 的計算機視覺方法, Swin UNETR 采用了 MONAI ,這是一種開源的 PyTorch 框架,用于深入學習醫療成像,包括放射學和病理學。使用這種預訓練方案, Swin UNETR 為各種醫學圖像分割任務設定了新的最先進的基準,并一致證明了其有效性,即使只有少量的標記數據。 Swin UNETR 模型在 NVIDIA DGX-1 集群 使用八個 GPU 和 AdamW 優化算法。

Source

]]>
4367
使用 Transformers 生成合成數據:企業數據挑戰的解決方案 http://www.open-lab.net/zh-cn/blog/generating-synthetic-data-with-transformers-a-solution-for-enterprise-data-challenges/ Thu, 12 May 2022 09:06:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=3927 Continued]]> 大數據、新算法和快速計算是使現代 AI 革命成為可能的三個主要因素。然而,數據給企業帶來了許多挑戰:數據標記困難、數據治理效率低下、數據可用性有限、數據隱私等。 綜合生成的數據是解決這些挑戰的潛在解決方案,因為它通過從模型中采樣來生成數據點。連續采樣可以生成無限多的數據點,包括標簽。這允許跨團隊或外部共享數據。 生成合成數據還可以在不影響質量或真實性的情況下提供一定程度的數據隱私。成功的合成數據生成涉及在保持隱私的同時捕獲分布,并有條件地生成新數據,然后這些數據可用于建立更穩健的模型或用于時間序列預測。 在這篇文章中,我們以 NVIDIA NeMo 為例,解釋如何用 transformer 模型人工生成合成數據。我們解釋了如何在 machine learning 算法中使用合成生成的數據作為真實數據的有效替代品,以保護用戶隱私,同時做出準確的預測。

Source

]]>
3927
使用 NVIDIA Clara Holoscan 加速放射和放射治療的多器官渲染 http://www.open-lab.net/zh-cn/blog/accelerating-multi-organ-rendering-for-radiology-and-radiation-therapy-with-clara-holoscan/ Tue, 09 Nov 2021 08:13:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2153 Continued]]> 觀看 NVIDIA 創始人兼首席執行官 Jensen Huang’s GTC keynote address11 月 9 日和重播時播放。 收聽廣播healthcare special address by Kimberly Powell,NVIDIA 醫療保健副總裁, 11 月 9 日太平洋時間上午 10 : 30 。訂閱NVIDIA 醫療新聞. NVIDIA Clara Holoscan 是醫療設備的人工智能計算平臺,它結合了用于低延遲傳感器和網絡連接的硬件系統、用于數據處理和人工智能的優化庫,以及用于運行從嵌入式到邊緣到云的流媒體、成像和其他應用程序的核心微服務。 NVIDIA Clara Holoscan 將智能儀器與數據中心無縫連接,支持軟件定義醫療設備的信號處理、 AI 推理和可視化工作流。用例涵蓋放射學、微創手術、機器人手術、患者監控等領域。

Source

]]>
2153
人人超碰97caoporen国产