HPC / Scientific Computing – NVIDIA 技術ブログ

NVIDIA NIM で LoRA アダプター群をシームレスにデプロイ

Fri, 07 Jun 2024 06:18:00 +0000

Reading Time: 3 minutes 最新の基盤である最先端の大規模言語モデル (LLM) は、數十億ものパラメーターを持ち、數兆もの入力テキストトークンで事前學習されています。多くの場合、カスタマイズの必要なく、幅広いユースケースで著しい成果を上げています。それにもかかわらず、研究では、下流のタスクで最高の精度を達成するためには、高品質でドメイン固有のデータセットで LLM を適合させる必要があることが示されています。多くの場合、カスタマイズされた小規模モデルは、より大規模な汎用LLM と同等あるいはそれを上回るパフォーマンスを発揮することが可能であり、同時にデプロイにかかるコストを大幅に削減することができます。しかし、特定の下流タスクのためにモデルをカスタマイズする作業は、作成とデプロイの両方に重大な課題をもたらす可能性があります。

Source

]]>

VILA を使用した NVIDIA ハードウェア上のビジュアル言語モデル

Fri, 03 May 2024 05:37:14 +0000

Reading Time: 3 minutes ビジュアル言語モデルは、ここ最近大きく進化しました。ただし、既存のテクノロジは、通常、単一の畫像にしか対応していません。複數の畫像からの論理的な推論、コンテキスト學習への対応、動畫の理解は不可能です。また、推論速度も最適化されていません。 NVIDIA は VILA を開発しました。これは包括的な事前トレーニング、指示チューニング、デプロイパイプラインを備えたビジュアル言語モデルであり、NVIDIA のクライアントがマルチモーダル製品で成功するのを支援します。VILA は畫像と動畫両方の QA ベンチマークで SOTA パフォーマンスを達成し、複數畫像における強力な論理推論能力とコンテキスト學習能力を備えています。また、推論速度も最適化されています。他の VLM と比較するとトークンの使用量は 4 分の 1…

Source

]]>

NVIDIA GB200 NVL72 は兆単位パラメーターの LLM トレーニングとリアルタイム推論を実現

Mon, 18 Mar 2024 08:45:26 +0000

Reading Time: 4 minutes 兆単位パラメーターモデルに対する関心とはどのようなものでしょう? 現在、多くの用途が知られており、また、以下のような能力の拡大が期待されているため、関心が高まっています。メリットは大きいですが、大規模なモデルのトレーニングとデプロイは計算負荷が高く、リソースを大量に消費することがあります。計算効率、費用対効果、エネルギー効率に優れたシステムをリアルタイム推論用に設計することは、広範囲にわたるデプロイには不可欠です。新しい NVIDIA GB200 NVL72 はそのようなタスクに対応するシステムの 1 つです。説明のために、Mixture of Experts (MoE) モデルを考えてみましょう。このモデルは、モデル並列処理とパイプライン並列処理を使用して、複數のエキスパートに計算負荷を分散し、

Source

]]>

LLM アーキテクチャにおける Mixture of Experts の適用

Thu, 14 Mar 2024 02:16:40 +0000

Reading Time: 4 minutes Mixture of Experts (MoE) 大規模言語モデル (LLM) アーキテクチャは、GPT-4 などの商用の LLM と Mistral Mixtral 8x7B のオープンソースリリースによりコミュニティモデルの両方で最近登場しました。Mixtral モデルの強力な相対的性能は、MoE を LLM アーキテクチャでどのように使用できるのか、多くの関心と疑問を引き起こしました。では、MoE とは何であり、なぜそれが重要なのでしょうか? Mixture of Experts は、レイヤーまたは演算 (線形レイヤー、MLP、注意投影など) の計算を複數の「エキスパート」サブネットワークに分割するニューラルネットワークのアーキテクチャパターンです。こうしたサブネットワークはそれぞれの計算を獨立して実行し、

Source

]]>

LLM テクニックの習得: 推論の最適化

Fri, 17 Nov 2023 06:31:10 +0000

Reading Time: 6 minutes Transformer 層を積み重ねて大規模なモデルを作成すると、精度が向上し、Few-shot Learning 能力を獲得し、さらには幅広い言語タスクで人間に近い創発的な能力が得られます。これらの基盤モデルはトレーニングにコストがかかり、推論中にメモリと計算を大量に消費する可能性があります (継続的にかかるコスト)。現在、最もポピュラーな大規模言語モデル (LLM)では、パラメーターのサイズは數百億から數千億に達することがあり、ユースケースによっては長い入力 (またはコンテキスト) の取り込みが必要になる場合があり、これによって費用も増加する可能性があります。この投稿では、LLM 推論における最も差し迫った課題と、いくつかの実用的な解決策について説明します。読者に、Transformer のアーキテクチャ、

Source

]]>

ハイパフォーマンスコンピューティングにおけるエネルギー効率: スピードと持続可能性のバランス

Tue, 14 Nov 2023 04:18:05 +0000

Reading Time: 5 minutes コンピューティングの世界は劇的な転換期にあります。コンピューティング性能、特にハイパフォーマンスコンピューティング (HPC) の需要は年々増加しており、それはまたエネルギー消費量も増加していることでもあります。しかし、根底にある問題は、エネルギーが制限のある資源であるということです。そのため世界は、演算の焦點を性能からエネルギー効率にどのようにシフトさせるのが最善か、という問題に直面しています。この問題を考えるとき、タスクを完了させる速度とエネルギー消費の相関関係を考慮に入れることが重要です。この関係は見落とされがちですが、不可欠な要素です。この記事では、スピードとエネルギー効率の関係を探り、より速くタスクを完了させる方向にシフトした場合の影響について考察します。

Source

]]>

RAPIDS cuDF、コード変更ゼロで pandas を約 150 倍高速化

Wed, 08 Nov 2023 08:10:56 +0000

Reading Time: 2 minutes NVIDIA は、RAPIDS cuDF が 950 萬人の pandas ユーザーに、コードを変更することなく GPU アクセラレーションを提供できるようになったと発表しました。 NVIDIA が先日開催した AI and Data Science Virtual Summit の「基調講演の動畫 (英語)」をご覧ください。 pandas は、Python 用の柔軟かつパワフルなデータ解析およびデータ操作ライブラリです。API を容易に使用できることから、データサイエンティストには最高の選択肢と言えます。ただし CPU のみのシステムでは、データセットのサイズが大きくなるほど処理速度と効率が低下します。 RAPIDS は、

Source

]]>

企業ソリューション向け大規模言語モデル (LLM) を始める

Tue, 07 Nov 2023 07:07:59 +0000

Reading Time: 3 minutes 大規模言語モデル (LLM: Large :Language Models) は、數千億のパラメーターを持つインターネット規模のデータセットで學習されるディープラーニングのアルゴリズムです。LLM は、読み、書き、コーディング、描畫、そして人間の創造性を補強することで、様々な業界の生産性を向上させ、世界で最も困難な問題を解決することができます。 LLM は、小売業から醫療まで幅広い業界で、幅広い業務に使用されています。LLM は、科學者が命を救う畫期的なワクチンを開発するのに役立つ、新しい化合物を生成するための、タンパク質配列の言語を學習します。LLM は、ソフトウェアプログラマが自然言語の記述に基づいてコードを生成し、バグを修正するのを助けます。そして、人間が最も得意とすること、すなわち創造、質問、理解など、

Source

]]>

NVIDIA CUDA Toolkit 12.2 がアプリケーションを強化する強力な機能をリリース

Thu, 06 Jul 2023 06:13:00 +0000

Reading Time: 2 minutes NVIDIA CUDA Toolkit 12.2 の最新リリースでは、さまざまな重要な新機能、プログラミングモデルの変更、そして CUDA アプリケーションを加速するハードウェア機能のサポート強化が取り入れられています。現在、NVIDIA から一般提供されている CUDA Toolkit 12.2 には、メジャーなものからマイナーなものまで、多くの新機能が含まれています。この記事では、以下の主要機能の概要をご紹介します: NVIDIA は、アクセラレーテッドコンピューティングのパイオニアとして、世界で最も困難なコンピューティング課題の解決を支援するソリューションを創造しています。アクセラレーテッドコンピューティングには、チップアーキテクチャ、システム、

Source

]]>

HPC / Scientific Computing – NVIDIA 技術ブログ

NVIDIA NIM で LoRA アダプター群をシームレスにデプロイ

VILA を使用した NVIDIA ハードウェア上のビジュアル言語モデル

NVIDIA GB200 NVL72 は兆単位パラメーターの LLM トレーニングとリアルタイム推論を実現

LLM アーキテクチャにおける Mixture of Experts の適用

LLM テクニックの習得: 推論の最適化

ハイパフォーマンス コンピューティングにおけるエネルギー効率: スピードと持続可能性のバランス

RAPIDS cuDF、コード変更ゼロで pandas を約 150 倍高速化

企業ソリューション向け大規模言語モデル (LLM) を始める

NVIDIA CUDA Toolkit 12.2 がアプリケーションを強化する強力な機能をリリース

ハイパフォーマンスコンピューティングにおけるエネルギー効率: スピードと持続可能性のバランス