圖像生成 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 04 Sep 2024 05:23:32 +0000 zh-CN hourly 1 196178272 通過文本實現實時圖像編輯的快速反演 http://www.open-lab.net/zh-cn/blog/fast-inversion-for-real-time-image-editing-with-text/ Fri, 30 Aug 2024 05:06:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=11153 Continued]]> 文本到圖像的擴散模型可以根據用戶提供的文本提示生成多樣化、高保真的圖像。這些模型的操作方法是:通過一系列降噪步驟,在用戶提供的文本提示符的條件下,從高維空間映射隨機樣本 。這將導致相應圖像 的表示。 這些模型還可用于更復雜的任務,例如圖像編輯、學習描繪個性化概念或語義數據增強。在這種情況下,圖像編輯是指根據文本提示對給定圖像進行局部更改的任務,而圖像的其他部分保持不變。 所有這些附加任務都涉及一個名為”inversion“的過程:給定圖像表征 及其相應的文本提示 ,您會尋找噪聲種子 ,當輸入降噪過程時,該種子會生成重建的圖像 。 最近提出了 Regularized Newton-Raphson Inversion (RNRI),這是一種新的反演技術。RNRI 在快速收斂與出色的準確性、執行時間和內存效率之間取得平衡,首次實現了實時圖像編輯,優于現有的反演方法。

Source

]]>
11153
了解 Stable Diffusion 模型:面向 AEC 專業人員的基本指南 http://www.open-lab.net/zh-cn/blog/understanding-diffusion-models-an-essential-guide-for-aec-professionals/ Wed, 10 Jul 2024 06:20:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=10585 Continued]]> 生成式 AI、算法處理各種類型的輸入—例如文本、圖像、音頻、視頻和代碼—并生成新內容的能力正在以前所未有的速度發展。雖然這項技術在多個行業都取得了重大進展,但建筑、工程和施工 (AEC) 行業將從中受益匪淺。 歷史上,AEC 公司一直在與支離破碎的數據系統作斗爭。這導致各個部門或項目階段的重要信息被隔離,從而導致效率低下、解釋錯誤和增加項目成本。隨著 生成式 AI 的出現,AEC 行業正處于轉型的邊緣。 這項前沿技術通過集成數據、自動執行設計任務和增強協作,有可能徹底改變 AEC 行業,從而打造更高效、更創新和更可持續的項目。 自推出生成式 AI 以來,GPT-4 等大型語言模型 (LLM) 一直處于前沿,以其在自然語言處理、機器翻譯和內容創建方面的通用性而聞名。除此之外,OpenAI 的 DALL-E、Google 的 Imagen、

Source

]]>
10585
NVIDIA 在 MLPerf Training v4.0 中創造了新的生成式 AI 性能和規模記錄 http://www.open-lab.net/zh-cn/blog/nvidia-sets-new-generative-ai-performance-and-scale-records-in-mlperf-training-v4-0/ Wed, 12 Jun 2024 06:26:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=10340 Continued]]> 生成式 AI 模型具有多種用途,例如幫助編寫計算機代碼、創作故事、作曲、生成圖像、制作視頻等。而且,隨著這些模型的大小不斷增加,并且使用更多數據進行訓練,它們將產生更高質量的輸出。 構建和部署這些更智能的模型需要非常大的計算量,需要許多高性能處理器并行工作,并由高效、通用的軟件進行編排。 例如,Meta 宣布訓練其最新的 Llama 3 系列中的 大語言模型(LLMs),使用搭載 24,576 個 NVIDIA H100 Tensor Core GPUs 的人工智能集群。模型越大,Llama 3 70B 就需要總計6.4 million H100 GPU-hours進行訓練。 預訓練 LLM 后,可以通過各種技術包括模型微調,以提高特定任務的準確性。隨著企業開始在各種應用中采用 LLM,LLM 微調正迅速成為核心行業工作負載。 AI 訓練是一項全棧挑戰,

Source

]]>
10340
借助由 NVIDIA RTX GPU 優化的 Firebase Genkit 強效助力生成式 AI 開發 http://www.open-lab.net/zh-cn/blog/supercharge-generative-ai-development-with-firebase-genkit-optimized-by-nvidia-rtx-gpus/ Mon, 20 May 2024 05:03:14 +0000 http://www.open-lab.net/zh-cn/blog/?p=10110 Continued]]> 在 Google I/O 2024 大會上,Google 宣布了 Firebase Genkit,這是一個新的開源框架,旨在供開發者使用諸如 Google Gemini 和 Google Gemma 等技術。借助 Firebase Genkit,您可以構建集成智能代理、自動化客戶支持、使用語義搜索的應用,并將非結構化數據轉換為見解。此外,Genkit 還包含開發者 UI,使您能夠在本地開發者環境中對 AI 功能進行原型設計、開發和測試。 Google 與 NVIDIA 合作,共同優化 Google Gemma 模型的推理性能。此外,NVIDIA RTX 專業 GPU 和NVIDIA GeForce RTX GPU 也可以提高推理性能,從而提高開發者的工作效率,使您的解決方案更加流暢。 借助 Firebase Genkit,您可以通過在 NVIDIA GPU 上本地運行…

Source

]]>
10110
生成式 AI 研究聚焦:個性化文本轉圖像模型 http://www.open-lab.net/zh-cn/blog/generative-ai-research-spotlight-personalizing-text-to-image-models/ Tue, 06 Feb 2024 07:33:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=8897 Continued]]> 視覺效果生成式 AI是一個根據文本提示創建圖像的過程。該技術基于在互聯網規模的數據上預訓練的視覺語言基礎模型。通過提供多模態表示,這些基礎模型可以應用于許多領域。例如,包括圖像字幕和視頻檢索、創意3D和2D圖像合成以及機器人操作。所有這些任務都得益于視覺語言基礎模型的“開放世界”能力,從而能夠使用豐富、自由形式的文本和視覺類別的“長尾”。 借助這些強大的表征,我們將面臨新的挑戰。也就是說,如何將這些模型與用戶特定的或個性化的視覺概念結合使用。如何教會這些模型將此類用戶特定的概念與他們之前從海量數據集中學到的知識相結合? 例如,玩具品牌的創意總監正在計劃圍繞新的玩具熊產品開展廣告活動,并希望在不同的場景中展示玩具,這些場景包括扮演超級英雄或巫師的角色。或者,孩子希望創作家庭狗的搞笑動畫片。或者,室內設計師希望在使用傳家寶家庭沙發設計房間。所有這些個性化用例都需要合成新場景,

Source

]]>
8897
使用 NVIDIA TensorRT 加速的全新 Stable Diffusion 模型 http://www.open-lab.net/zh-cn/blog/new-stable-diffusion-models-accelerated-with-nvidia-tensorrt/ Mon, 08 Jan 2024 05:41:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=8661 Continued]]> 在 CES 上, NVIDIA 分享道,SDXL Turbo、LCM-LoRA 和 Stable Video Diffusion 均由 NVIDIA TensorRT 加速。這些增強功能使 GeForce RTX GPU 用戶能夠實時生成圖像,并節省生成視頻的時間,從而大幅改善工作流程。 SDXL Turbo 利用新的蒸餾技術實現先進的性能,能夠實現單步圖像生成。由 Tensor Core 和 TensorRT 加速的 NVIDIA 硬件每秒可生成多達四張圖像,使您能夠首次體驗到實時 SDXL 圖像生成功能。有關非商業用途和商業用途的更多信息,請參閱 Stability AI 會員資格 頁面。 下載 SDXL Turbo 模型以生成面部表情。 Low-Rank Adaptation (LoRA) 是一種用于微調 Stable Diffusion…

Source

]]>
8661
使用 NVIDIA AI 基礎模型構建自定義企業級生成式 AI http://www.open-lab.net/zh-cn/blog/build-custom-enterprise-grade-generative-ai-with-nvidia-ai-foundation-models/ Wed, 15 Nov 2023 07:14:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=8261 Continued]]> 在構建企業級 生成式 AI 和 大型語言模型 (LLM) 時,需要收集高質量數據、搭建加速基礎架構以及擁有優化模型的專業知識。 開發者可以從預訓練模型開始,并根據其用例對其進行微調,從而節省時間,并使其解決方案更快地投入市場。開發者需要一種簡單的方法來嘗試模型,并通過 API 集成模型來評估其功能。這有助于他們確定最適合其應用的模型。 NVIDIA AI 基礎模型 是一組經過精心策劃的社區模型和 NVIDIA 構建的模型,它們針對峰值性能進行了優化。開發者可以直接通過 API 或 * 圖形用戶界面從瀏覽器中快速使用這些模型,無需任何設置。模型 * 通過 NVIDIA TensorRT-LLM 和激活感知型權重量化 (AWQ) 進行配置,以實現最高吞吐量和最低延遲,并在 NVIDIA 加速計算堆棧上大規模運行。 我們的 NVIDIA Nemotron-3 8B…

Source

]]>
8261
借助 NVIDIA TensorRT,在 Stable Diffusion Web UI 中更快地生成圖像 http://www.open-lab.net/zh-cn/blog/unlock-faster-image-generation-in-stable-diffusion-web-ui-with-nvidia-tensorrt/ Tue, 17 Oct 2023 06:06:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=8011 Continued]]> Stable Diffusion 是一款開源軟件,生成式人工智能 基于圖像的模型,使用戶能夠生成包含簡單文本描述的圖像。它在開發者中越來越受歡迎,為熱門應用程序提供支持,例如 Wombo 和 Lensa。 最終用戶通常通過將模型與用戶界面和一組工具打包在一起的發行版訪問模型。最流行的發行版是 Automatic 1111 Stable Diffusion Web UI。本文介紹了如何利用 NVIDIA TensorRT 可以將模型的性能提高一倍。它采用了一個使用 Automatic 1111 Stable Diffusion Web UI 的示例。 Stable Diffusion 是一種深度學習模型,它使用擴散過程根據輸入的文本和圖像生成圖像。雖然它可以成為增強創作者工作流程的有用工具,但該模型的計算量很大。在 CPU 等非專用硬件上,生成單批四張圖像需要幾分鐘時間,

Source

]]>
8011
選擇大型語言模型定制技術 http://www.open-lab.net/zh-cn/blog/selecting-large-language-model-customization-techniques/ Thu, 10 Aug 2023 05:12:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=7609 Continued]]> 大語言模型(LLM)正在成為企業不可或缺的工具,用于改善他們的運營、客戶互動和決策過程。然而,由于行業特定的術語、領域專業知識或獨特的要求,現成的 LLM 往往無法滿足企業的特定需求。 這就是自定義 LLM 發揮作用的地方。 企業需要自定義模型來根據其特定的用例和領域知識定制語言處理能力。自定義 LLM 使企業能夠在特定行業或組織環境中更高效、更準確地生成和理解文本。 定制模型使企業能夠創建符合其品牌聲音的個性化解決方案,優化工作流程,提供更精確的見解,并提供增強的用戶體驗,最終推動市場競爭優勢。 這篇文章介紹了各種模型定制技術以及何時使用它們。 NVIDIA NeMo 支持許多方法。 NVIDIA NeMo 是一個端到端的云原生框架,用于在任何地方構建、定制和部署生成人工智能模型。它包括訓練和推理框架、護欄工具包、數據管理工具和預訓練模型,

Source

]]>
7609
人人超碰97caoporen国产