• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • ディープラーニング ソフトウェア



    NVIDIA CUDA-X AI は、研究者やソフトウェア開発者が、対話型 AI、レコメンダー システム、コンピューター ビジョン向けの高性能な GPU アクセラレーション アプリケーションを構築するための完全なディープラーニング ソフトウェア スタックです。CUDA-X AI ライブラリは、MLPerf などのさまざまな業界ベンチマークにおいて、トレーニングと推論の両方で世界をリードするパフォーマンスを発揮しています。

    TensorFlow、PyTorch、 JAX をはじめ、すべてのディープラーニング フレームワークは、シングル GPU でのアクセラレーションに対応しており、マルチ GPU やマルチノードの構成によるスケールアップも可能です。フレームワークの開発者や研究者は、GPU に最適化された CUDA-X AI ライブラリの柔軟性を利用して、新しいフレームワークやモデル アーキテクチャを高速化できます。

    CUDA-X をベースとする NVIDIA の統合プログラミング モデルにより、デスクトップやデータセンターでディープラーニング アプリケーションを開発して、データセンター、リソースに制約のある IoT デバイス、自動車プラットフォームに最小限のコード変更で展開できます。

    NVIDIA? NGC? カタログ では、一般的なディープラーニング モデル向けの學習済みモデル、トレーニング スクリプト、最適化されたフレームワーク コンテナー、推論エンジンを提供しています。NVIDIA AI Toolkit には、學習済みモデルの転移學習、微調整、最適化、展開のためのライブラリが含まれており、幅広い業界や AI ワークロードに対応しています。

    NVIDIA Github には、各種の製品、デモ、サンプル、チュートリアルの 100 を超えるリポジトリがあるため、すぐに始められます。


    deep learning training and inference software chart


    あらゆるフレームワークとの統合


    ディープラーニング フレームワークは、高度なプログラミング インターフェイスからディープ ニューラル ネットワークを設計、トレーニング、検証するためのビルディング ブロックを提供します。PyTorch や TensorFlow、JAX などの広く使用されるディープラーニング フレームワークで cuDNN や TensorRT などの GPU アクセラレーション ライブラリを利用することにより、GPU で高速化されるハイパフォーマンスなトレーニングや推論を実現できます。

    NGC では、最新の GPU に最適化され、CUDA ライブラリおよびドライバーと統合されたコンテナー化されたフレームワークを提供しています。毎月のリリースの一環として検証とテストが実施されており、さまざまなエッジやクラウド プラットフォームで最高のパフォーマンスが得られるようになっています。フレームワークとの統合、リソース、サンプルの詳細を確認して、利用を開始するには、ディープラーニング フレームワークのページをご覧ください。


    logos




    ディープラーニング トレーニング



    CUDA-X AI ライブラリは、あらゆるフレームワークにおけるディープラーニング トレーニングを加速させます。その高性能な最適化により、対話型 AI、自然言語理解、レコメンダー システム、コンピューター ビジョンなどのさまざまなアプリケーションで、GPU による世界トップクラスのパフォーマンスを実現しています。最新の GPU 性能は、ディープラーニング トレーニング パフォーマンスのページでいつでもご確認いただけます。

    GPU アクセラレーション フレームワークを使用すると、Tensor コアでの混合精度演算などの最適化により、さまざまな種類のモデルを高速化できるほか、シングル GPU 上のトレーニング ジョブを、數千もの GPU から成る DGX SuperPOD にスケーリングするのも簡単です。

    MLPerf 0.6 AI ベンチマークにおける NVIDIA の性能

    V100 での ResNet-50 v1.5 の計算時間

    0102030405060708090100110120115.2257.8752.742.591.691.33分8x V100,DGX-116x V100,DGX-216x V100,DGX-2H512x V100,DGX-2H1040x V100,DGX-11536x V100,DGX-2H

    MXNet | バッチ サイズは CNN V100 トレーニング表を參照 | 精度: 混合 | データセット: ImageNet2012 | 収束基準は MLPerf の要件を參照


    ディープラーニングが言語理解や対話型 AI といった複雑なタスクに適用されるようになるにつれ、モデルのサイズとそのトレーニングに必要なコンピューティング リソースが爆発的に増大しています。一般的なアプローチでは、汎用的なデータセットで事前にトレーニングされたモデルから開始し、特定の業界、ドメイン、ユース ケースに合わせて微調整を行います。NVIDIA AI ツールキットでは、學習済みモデルから開始して転移學習や微調整を行うためのライブラリやツールを提供しているため、獨自の AI アプリケーションの性能と精度を最大限に高めることができます。





    dali
    DALI

    Data Loading Library (DALI) は、GPU アクセラレーションを利用したデータ拡張および畫像読み込みライブラリです。ディープラーニング フレームワークのデータ パイプラインを最適化できます。



    詳細を見る

    neural network
    cuDNN

    CUDA Deep Neural Network (cuDNN) は、畳み込み、活性化関數、テンソル変換のためのディープラーニング プリミティブなど、ディープ ニューラル ネットワーク アプリケーション用のビルディング ブロックを備えた高性能ライブラリです。

    詳細を見る

    nccl
    NCCL

    NVIDIA Collective Communications Library (NCCL) は、all-gather、reduce、broadcast などのルーチンにより、最大 8 基まで拡張可能なマルチ GPU 通信を高速化します。


    詳細を見る


    nemo
    NeMo

    NVIDIA Neural Modules (NeMo) は、AI アクセラレーションを利用した音聲および言語アプリケーションのための最先端のニューラル ネットワークを構築できるオープンソース ツールキットです。






    詳細を見る

    tao toolkit
    TAO ツールキット

    TAO ツールキット は、AI のトレーニングを高速化するための Python ベースのツールキットで、學習済みモデルの最適化や転移學習の適用により、高い精度を実現できます。學習済みモデルは、DeepStream SDK や TensorRT を使用することで NVIDIA エッジ プラットフォーム上で効率的にプルーニングして展開できるため、高性能 AI システムの構築が可能です。

    詳細を見る
    Deep Learning GPU Training System (DIGITS)
    DIGITS

    NVIDIA Deep Learning GPU Training System (DIGITS) は、データの管理、マルチ GPU システムのコンピューター ビジョン ネットワークの設計とトレーニング、リアルタイムのパフォーマンス監視が可能なインタラクティブなツールで、展開用に最適なパフォーマンスのモデルを選別できます。




    詳細を見る


    AI-Assisted Annotation Toolkit
    I Assisted Annotation ツールキット

    AI-Assisted Annotation ツールキット を使用すると、クライアント API と學習済みモデルを介して、醫療ビューアーを AI 対応にすることができます。


    詳細を見る


    ディープラーニング推論



    CUDA-X AI には、コンピューター ビジョン、対話型 AI、レコメンダー システム などのアプリケーションを運用環境 で実行する際に、レイテンシを最小限に抑え、スループットを最大限に高める ことができる高性能ディープラーニング推論 SDK が含まれています。NVIDIA の推論 SDK で開発されたアプリケーションは、CPU のみのプラットフォームと比較して、GPU による最大 40 倍の推論性能を実現できます。

    CUDA 統合プラットフォームをベースにして構築された NVIDIA の CUDA-X 推論ソリューションは、デスクトップ上で任意のフレームワークを用いてモデルを開発し、最適化を適用して、推論用にデータセンターおよびエッジに簡単に展開できます。

    対話型 AI やレコメンダー システムのアプリケーション パイプラインでは、顧客からの問い合わせ 1 件あたり 20 ~ 30 個のモデルを実行し、それぞれのモデルで數百萬のパラメータを処理します。アプリケーションの応答性が高いと感じられるようにするには、このパイプラインを 300 ミリ秒未満で完了する必要があり、各モデルに非常に厳しいレイテンシ要件が課されます。高性能の最適化と 低精度の推論 (FP16 や INT8) を用いると、GPU では他のプラットフォームよりも 大幅に高いパフォーマンスを得ることができます。

    最新の GPU 性能は、ディープラーニング推論パフォーマンスのページでいつでもご確認いただけます。

    TensorRT を用いた CNN での推論畫像分類

    ResNet-50 v1.5 のスループット

    01,0002,0003,0004,0005,0006,0007,0008,0007,1915,2591 秒あたりの畫像數NVIDIA V100NVIDIA T4

    DGX-1: NVIDIA V100-SXM2-16GB x 1、E5-2698 v4 2.2 GHz | TensorRT 6.0 | バッチ サイズ = 128 | 19.12-py3 | 精度: 混合 | データセット: Synthetic
    Supermicro SYS-4029GP-TRT T4: NVIDIA T4 x 1、Gold 6240 2.6 GHz | TensorRT 6.0 | バッチ サイズ = 128 | 19.12-py3 | 精度: INT8 | データセット: Synthetic

    ?
    ?

    ResNet-50 v1.5 のレイテンシ

    00.51.01.50.990.91レイテンシ (ミリ秒) – 小さいほど性能が高いNVIDIA V100NVIDIA T4

    DGX-2: NVIDIA V100-SXM3-32GB x 1、Xeon Platinum 8168 2.7 GHz | TensorRT 6.0 | バッチ サイズ = 1 | 19.12-py3 | 精度: INT8 | データセット: Synthetic
    Supermicro SYS-4029GP-TRT T4: NVIDIA T4 x 1、Gold 6240 2.6 GHz | TensorRT 6.0 | バッチ サイズ = 1 | 19.12-py3 | 精度: INT8 | データセット: Synthetic




    TensorRT
    TensorRT

    NVIDIA TensorRT は、高性能ディープラーニング推論用 SDK です。ディープラーニング推論向けのオプティマイザーとランタイムが含まれており、ディープラーニング推論アプリケーションにおける低レイテンシ、高スループットを実現します。

    詳細を見る

    DeepStream SDK
    DeepStream SDK

    DeepStream SDK は、マルチセンサー処理、AI ベースの映像および畫像理解のための包括的なストリーミング分析ツールキットです。



    詳細を見る
    NVIDIA Triton Inference Server
    NVIDIA Triton Inference Server

    NVIDIA Triton Inference Server はオープン ソースの推論ソフトウェアで、GPU 使用率を最大化する DL モデルを提供します。Kubernetes と統合されており、オーケストレーション、メトリクス収集、自動スケーリングが可能です。


    詳細を見る


    NVIDIA Riva
    NVIDIA Riva

    NVIDIA Riva は、視覚、音聲、その他のセンサーを融合した AI アプリケーションの構築と展開のための SDK です。ジェスチャーや視線などの視覚的な手がかりをコンテキスト內の音聲と共に使用できる GPU アクセラレーション AI システムを構築、トレーニング、展開するための完全なワークフローを提供します。

    詳細を見る


    NGC カタログの學習済みモデルと DL ソフトウェア



    The NVIDIA? NGC? カタログは、ィープラーニングと機械學習のための GPU 最適化ソフトウェアのハブです。AI ソフトウェアは毎月更新され、ワークステーション、オンプレミス サーバー、エッジ、クラウド上の GPU 搭載システムに簡単に展開できるコンテナーを通じて提供されます。學習済みモデルとモデル スクリプトも揃っており、開発者は自らのデータセットで獨自のモデルをすばやく構築できます。さらに、業界固有のニーズに対応する AI ソリューションを構築するための SDK と、ソフトウェアの展開を容易にする Helm レジストリも用意されており、計算時間を短縮できます。

    NGC? カタログの目的は、AI ソフトウェアへのアクセスを容易にして、データ サイエンティストや開発者が AI ソリューションの構築に集中できるようにすることです。




    Deep Learning Software Containers
    ディープラーニング ソフトウェア コンテナー

    TensorFlow、PyTorch、TensorRT などの DL ソフトウェア コンテナーは、パフォーマンス向上のために効率的なライブラリで常時更新されており、ソフトウェアは毎月リリースされます。これにより、ユーザーは最新バージョンのコンテナーをプルするだけで、同じハードウェアでさらに高速なトレーニング性能と推論性能を得られます。ソフトウェアはシングルおよびマルチ GPU システム、ワークステーション、サーバー、クラウド インスタンスでテストされており、あらゆるコンピューティング プラットフォームで一貫したエクスペリエンスを提供します。

    詳細を見る

    Pre-Trained Models
    學習済みモデル

    NVIDIA? NGC? カタログでは、音聲読み上げ、自動音聲認識、自然言語処理など、一般的な AI アプリケーション向けの學習済みモデルを提供しています。NVIDIA? NGC? カタログのモデルをユーザー獨自のデータセットで再トレーニングすれば、ゼロから始めるよりも格段に速くモデルを構築でき、貴重な時間を節約できます。さらに、學習済みモデルは精度が高く、MLPerf ベンチマークでも優れたスコアを獲得しています。カスタムのデータセットで微調整することにより、比類ない性能と精度を実現することが可能です


    詳細を見る

    scripts for creating deep learning models
    スクリプト

    NVIDIA? NGC? カタログでは、ディープラーニング モデル作成の手順とスクリプトのほか、結果を比較できるように性能と精度のサンプル指標も提供しています。これらのスクリプトは、無駄のない高精度のモデルを構築するためのベスト プラクティスを活用しつつ、高い柔軟性も備えているため、ユース ケースに合わせてモデルを自在にカスタマイズできます。






    詳細を見る


    開発者/DevOps 向けツール



    NVIDIA の開発者向けツールはデスクトップやエッジ環境で動作し、ディープラーニング、機械學習、HPC アプリケーションにおける複雑な CPU と GPU の利用に関する獨自のインサイトを提供します。これにより、開発者はアプリケーションの構築、デバッグ、プロファイリング、パフォーマンスの最適化を効果的に行えます。Kubernetes on NVIDIA GPU を使用すれば、企業はトレーニングや推論の展開環境をマルチ GPU クラスターにシームレスに拡張できます。



    NSIGHT Systems

    Nsight Systems は、アプリケーションのアルゴリズムを可視化するために設計された、システム全體を対象としたパフォーマンス分析ツールです。最大限の最適化が可能な部分を特定し、CPU や GPU の數や規模に関係なくスケーリングを効率的に調整できます。


    DLProf

    DLProf (Deep Learning Profiler) は、GPU の使用率、Tensor コアでサポートされている操作、実行中の Tensor コアの使用狀況を可視化するプロファイリング ツールです。





    Kubernetes on NVIDIA GPU

    Kubernetes on NVIDIA GPU を利用すると、企業はトレーニングと推論の展開環境をマルチクラウド GPU クラスターにシームレスにスケールアップできます。開発者は、GPU アクセラレーション アプリケーションを依存関係と一緒に 1 つのパッケージにまとめ、Kubernetes で展開し、展開環境を問わず NVIDIA GPU 上で最高のパフォーマンスを実現できます。


    NSIGHT Compute

    Nsight Compute は、CUDA を使用して直接構築されたディープラーニング アプリケーションのためのインタラクティブなカーネル プロファイラです。GUI またはコマンド ライン インターフェイスから、詳細なパフォーマンス指標を確認したり、API のデバッグを行ったりできます。また、Nsight Compute のデータ駆動型のユーザー インターフェイスはカスタマイズ可能で、提供される指標コレクションは、結果の後処理用の分析スクリプトで拡張可能です。

    Feature Map Explorer

    FME (Feature Map Explorer) を使用すると、低レベルのチャネル視覚化や、特徴マップの完全なテンソルおよび各チャネル スライスに関する詳細な數値情報など、さまざまなビューで 4 次元の畫像ベースの特徴マップ データを視覚化できます。





    ページトップへ戻る
    人人超碰97caoporen国产