Triton Inference Server – NVIDIA 技術ブログ http://www.open-lab.net/ja-jp/blog Mon, 03 Feb 2025 08:13:15 +0000 ja hourly 1 NVIDIA TensorRT-LLM による、LoRA LLM のチューニングとデプロイ http://www.open-lab.net/ja-jp/blog/tune-and-deploy-lora-llms-with-nvidia-tensorrt-llm/ Tue, 02 Apr 2024 04:35:31 +0000 http://www.open-lab.net/ja-jp/blog/?p=2602 Reading Time: 7 minutes 大規模言語モデル (LLM) は、膨大なテキストから學習し、さまざまなタスクや領域に合わせ、流暢で一貫したテキストを生成できることから、自然言語処理 (NLP) に革命を起こしました。ただし、LLM のカスタマイズは困難 … Continued]]> Reading Time: 7 minutes 大規模言語モデル (LLM) は、膨大なテキストから學習し、さまざまなタスクや領域に合わせ、流暢で一貫したテキストを生成できることから、自然言語処理 (NLP) に革命を起こしました。ただし、LLM のカスタマイズは困難な作業であり、多くの場合、完全なトレーニング プロセスを必要とし、時間と計算コストがかかります。さらに、LLM のトレーニングには多様かつ代表的なデータセットが必要であり、取得とキュレーションが困難な場合があります。 企業は、どうすれば完全なトレーニングにかかる費用を支払うことなく、LLM のパワーを活用できるでしょうか? 有望なソリューションの 1 つは Low-Rank Adaptation (LoRA) です。これは、トレーニング可能なパラメーターの數、メモリ要件、トレーニング時間を大幅に減らし、かつ、

Source

]]>
2602
NVIDIA NeMo Retriever で企業データを実用的なインサイトに変える http://www.open-lab.net/ja-jp/blog/translate-your-enterprise-data-into-actionable-insights-with-nvidia-nemo-retriever/ Mon, 18 Mar 2024 05:44:42 +0000 http://www.open-lab.net/ja-jp/blog/?p=2591 Reading Time: 2 minutes あらゆる業界や業務で、生成 AI が組織內の可能性を引き出し、データを知識に変え、従業員がより効率的に働けるようにしています。? 正確で関連性のある情報は、データに基づく意思決定のために重要です。このため、企業はビジネス … Continued]]> Reading Time: 2 minutes あらゆる業界や業務で、生成 AI が組織內の可能性を引き出し、データを知識に変え、従業員がより効率的に働けるようにしています。 正確で関連性のある情報は、データに基づく意思決定のために重要です。このため、企業はビジネス データの保存、インデックス作成、アクセスの方法を改善するために投資を続けています。 IDC Global DataSphere Forecast 2023 によると、2024 年には、企業固有のデータが 11 ゼタバイト生成されると言われています。企業が生成する固有のデータの量は 2027 年までに 20 ゼタバイトになると予測されており、そのうち、83% は構造化されておらず、半分は音聲と動畫になるとのことです。2027 年に生成される非構造化データの量は、約 80 萬館の議會図書館に相當します。

Source

]]>
2591
NeMo Framework で日本語 LLM を簡単デプロイ – オンライン推論編 – http://www.open-lab.net/ja-jp/blog/easy-japanese-llm-model-deployment-using-nemo-framework/ Wed, 07 Feb 2024 01:41:15 +0000 http://www.open-lab.net/ja-jp/blog/?p=2302 Reading Time: 3 minutes ご注意: この記事は NeMo Framework のアップデートのため、7 月 8 日に大幅に変更を加えました。 NeMo Framework とは NeMo Framework は、生成 AI モデルのワークフローを … Continued]]> Reading Time: 3 minutes ご注意: この記事は NeMo Framework のアップデートのため、7 月 8 日に大幅に変更を加えました。 NeMo Framework は、生成 AI モデルのワークフローをエンドツーエンドでカバーするクラウドネイティブなフレームワークです。NGC 上にコンテナーが公開されており、すぐに利用を開始することができます。 NVIDIA AI Enterprise ライセンスをお持ちの方は、NGC サイトから入手可能です。NGC へログイン後、Enterprise Catalog にある ”Feature Branches & Models” にアクセスしてください。こちらで NeMo Framework の入手方法をご案內しています 。 NeMo Framework の更なる詳細、

Source

]]>
2302
LLM テクニックの習得: 推論の最適化 http://www.open-lab.net/ja-jp/blog/mastering-llm-techniques-inference-optimization/ Fri, 17 Nov 2023 06:31:10 +0000 http://www.open-lab.net/ja-jp/blog/?p=2277 Reading Time: 6 minutes Transformer 層を積み重ねて大規模なモデルを作成すると、精度が向上し、Few-shot Learning 能力を獲得し、さらには幅広い言語タスクで人間に近い創発的な能力が得られます。これらの基盤モデルはトレーニ … Continued]]> Reading Time: 6 minutes Transformer 層を積み重ねて大規模なモデルを作成すると、精度が向上し、Few-shot Learning 能力を獲得し、さらには幅広い言語タスクで人間に近い創発的な能力が得られます。これらの基盤モデルはトレーニングにコストがかかり、推論中にメモリと計算を大量に消費する可能性があります (継続的にかかるコスト)。現在、最もポピュラーな大規模言語モデル (LLM)では、パラメーターのサイズは數百億から數千億に達することがあり、ユース ケースによっては長い入力 (またはコンテキスト) の取り込みが必要になる場合があり、これによって費用も増加する可能性があります。 この投稿では、LLM 推論における最も差し迫った課題と、いくつかの実用的な解決策について説明します。読者に、Transformer のアーキテクチャ、

Source

]]>
2277
Azure Machine Learning 上の NVIDIA AI で企業向け生成 AI アプリ開発を強化 http://www.open-lab.net/ja-jp/blog/elevate-enterprise-generative-ai-app-development-with-nvidia-ai-on-azure-machine-learning/ Wed, 15 Nov 2023 04:51:45 +0000 http://www.open-lab.net/ja-jp/blog/?p=2139 Reading Time: 2 minutes 生成 AI は、あらゆる産業において、データを活用して生産性を向上させ、パーソナライズされた顧客エンゲージメントを進め、イノベーションを促進する方法を革新しています。その価値が非常に高いため、企業は、この新しい技術を自社 … Continued]]> Reading Time: 2 minutes 生成 AI は、あらゆる産業において、データを活用して生産性を向上させ、パーソナライズされた顧客エンゲージメントを進め、イノベーションを促進する方法を革新しています。その価値が非常に高いため、企業は、この新しい技術を自社の事業運営や戦略に効果的かつ信頼性の高い方法で統合するのに役立つツールと専門知識を求めています。 NVIDIA と Microsoft は、Azure Machine Learning (Azure ML) 上の NVIDIA AI を使用して、生成 AI を含む AI アプリケーションを構築、最適化、展開するための包括的なソリューションを企業に提供するために協力しています。 今週開催された Microsoft Ignite で、NVIDIA と Microsoft は新たに 2…

Source

]]>
2139
NVIDIA TensorRT-LLM で大規模言語モデルの推論を最適化 http://www.open-lab.net/ja-jp/blog/optimizing-inference-on-llms-with-tensorrt-llm-now-publicly-available/ Thu, 19 Oct 2023 02:08:00 +0000 http://www.open-lab.net/ja-jp/blog/?p=2176 Reading Time: 3 minutes NVIDIA は、NVIDIA GPU 上の最新の LLMの推論性能を高速化および最適化する TensorRT-LLM の一般提供を発表しました。このオープンソース ライブラリは、現在、/NVIDIA/TensorRT- … Continued]]> Reading Time: 3 minutes NVIDIA は、NVIDIA GPU 上の最新の LLMの推論性能を高速化および最適化する TensorRT-LLM の一般提供を発表しました。このオープンソース ライブラリは、現在、/NVIDIA/TensorRT-LLM GitHub レポジトリおよび NVIDIA NeMo フレームワークの一部として無料で提供されています。 大規模言語モデル (LLM) は人工知能の分野に革命をもたらし、デジタルの世界と対話するまったく新しい方法を生み出しました。しかし、世界中の組織やアプリケーション開発者が LLM を業務に取り入れようとする中で、これらのモデルを実行する上でのいくつかの課題が明らかになってきています。 簡単に言えば、LLM は巨大です。そのため、適切な技術がなければ、LLM の実行が遅くなり、

Source

]]>
2176
NVIDIA TensorRT-LLM が NVIDIA H100 GPU 上で大規模言語モデル推論をさらに強化 http://www.open-lab.net/ja-jp/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/ Fri, 08 Sep 2023 01:18:36 +0000 http://www.open-lab.net/ja-jp/blog/?p=2019 Reading Time: 3 minutes 大規模言語モデルは驚くべき新機能を提供し、AI で実現できる領域を拡大しています。しかし、その大きなサイズと特有の実行特性は、費用対効果の高い方法で使用することを困難にすることがあります。 NVIDIA は、Meta、A … Continued]]> Reading Time: 3 minutes 大規模言語モデルは驚くべき新機能を提供し、AI で実現できる領域を拡大しています。しかし、その大きなサイズと特有の実行特性は、費用対効果の高い方法で使用することを困難にすることがあります。 NVIDIA は、Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML (現在は Databricks の一部)、OctoML、ServiceNow、Tabnine、Together AI、Uber などの主要な企業と緊密に協力し、LLM の推論の高速化と最適化に取り組んできました。 これらのイノベーションは、オープンソースの NVIDIA TensorRT-LLM ソフトウェアに統合され、Ampere、Lovelace、Hopper GPU に対応し、

Source

]]>
2019
NVIDIA FasterTransformer による KoGPT の推論高速化の向上 http://www.open-lab.net/ja-jp/blog/increasing-inference-acceleration-of-kogpt-with-fastertransformer/ Tue, 25 Apr 2023 07:41:00 +0000 http://www.open-lab.net/ja-jp/blog/?p=1702 Reading Time: 2 minutes Transformer は、現在最も影響力のある AI モデル アーキテクチャの 1 つであり、將來の AI 研究開発の方向性を形作っています。自然言語処理 (NLP) のツールとして最初に発明された Transform … Continued]]> Reading Time: 2 minutes Transformer は、現在最も影響力のある AI モデル アーキテクチャの 1 つであり、將來の AI 研究開発の方向性を形作っています。自然言語処理 (NLP) のツールとして最初に発明された Transformer は、現在、コンピューター ビジョン、自動音聲認識、分子構造分類、金融データ処理など、ほぼすべての AI タスクで使用されています。 韓國では、Kakao Brain が Transformer アーキテクチャに基づいた高精度の大規模言語モデル (LLM)、KoGPT を開発しました。大規模な韓國のデータセットでトレーニングし、NVIDIA FasterTransformer を使用して最適化することに成功しました。 この投稿では、NVIDIA と Kakao Brain が…

Source

]]>
1702
アンサンブル モデルによる NVIDIA Triton Inference Server 上での ML モデル パイプラインのサービング http://www.open-lab.net/ja-jp/blog/serving-ml-model-pipelines-on-nvidia-triton-inference-server-with-ensemble-models/ Mon, 13 Mar 2023 08:12:52 +0000 http://www.open-lab.net/ja-jp/blog/?p=1647 Reading Time: 5 minutes 多くの本番稼働レベルの機械學習 (ML: Macine Learning) アプリケーションでは、推論は単一 ML モデル上でフォワード パスを実行することに限定されません。代わりに、ML モデルのパイプラインを実行する … Continued]]> Reading Time: 5 minutes 多くの本番稼働レベルの機械學習 (ML: Macine Learning) アプリケーションでは、推論は単一 ML モデル上でフォワード パスを実行することに限定されません。代わりに、ML モデルのパイプラインを実行する必要があることが多いです。例えば、対話型 AI パイプラインは、入力された音聲波形をテキストに変換する自動音聲認識 (ASR: Automatic Speech Recognition) モジュール、入力を理解して適切な応答を提供する大規模言語モデル (LLM: Large Language Model) モジュール、LLM の出力から音聲を生成するテキスト読み上げ (TTS: text-to-speech) モジュールの 3 つから構成されています。 また、テキストから畫像へ変換するアプリケーションでは、

Source

]]>
1647
人人超碰97caoporen国产