Gonzalo Brito – NVIDIA 技術ブログ

NVIDIA Grace Hopper Superchip アーキテクチャ徹底解説

Thu, 10 Nov 2022 02:25:00 +0000

Reading Time: 6 minutes NVIDIA Grace Hopper Superchip アーキテクチャは、ハイパフォーマンスコンピューティング (HPC) と AI ワークロードのための、初の真のヘテロジニアスアクセラレーションプラットフォームです。GPU と CPU の両方の強みを活かしてアプリケーションを加速させるとともに、これまでで最もシンプルで生産性の高い分散型のヘテロジニアスプログラミングモデルを提供します。科學者やエンジニアは、世界で最も重要な問題の解決に集中することができます。この記事では、Grace Hopper Superchip のすべてを學び、NVIDIA Grace Hopper が実現する畫期的な性能に注目します。NVIDIA Hopper H100 GPU を使用した最も強力な PCIe…

Source

]]>

標準並列 C++ によるマルチ GPU プログラミング、パート 2

Mon, 18 Apr 2022 12:47:00 +0000

Reading Time: 3 minutes これは「標準並列プログラミング」シリーズの 3 回目の投稿です。このシリーズでは、標準言語による並列化をアクセラレーテッドコンピューティングで使用することの利點を取り上げています。パート 1 では、次を説明しました。この投稿では、引き続き ISO C++ アルゴリズムのパフォーマンスを最適化し、MPI を使用して複數の GPU にアプリケーションを拡張します。自分のコードを CPU から GPU に移植するとき、パフォーマンスが専用 HPC コードより低くなると予想するのは當然かもしれません。結局のところ、ソフトウェアアーキテクチャの制約や、確立している API、ユーザーベースから求められる高性能な追加機能を考慮する必要性によって、制限を受けます。それだけでなく、

Source

]]>

標準並列 C++ によるマルチ GPU プログラミング、パート 1

Mon, 18 Apr 2022 04:58:00 +0000

Reading Time: 3 minutes これは「標準並列プログラミング」シリーズの 2 回目の投稿です。このシリーズでは、標準言語による並列化をアクセラレーテッドコンピューティングで使用することの利點を取り上げています。アプリケーションを GPU に移植することの難しさはケースバイケースです。最高のシナリオは、GPU で最適化された既存のライブラリを呼び出すことで、重要なコードセクションを高速化することです。たとえば、シミュレーションソフトウェアの構成要素が BLAS の線形代數関數で構成されている場合、cuBLAS を利用して高速化することが可能です。しかしながら、多くのコードでは、相當な量の手作業を回避できません。そのような場合は、特定のアクセラレータをターゲットにした CUDA のようなドメイン固有言語の使用を検討するでしょう。

Source

]]>

NVIDIA Hopper アーキテクチャの徹底解説

Tue, 22 Mar 2022 08:39:00 +0000

Reading Time: 12 minutes 2022 年 3 月の NVIDIA GTC 基調講演において、NVIDIA の創業者/CEO であるジェンスンフアンが、新しい NVIDIA Hopper GPU アーキテクチャに基づく NVIDIA H100 Tensor コア GPU を紹介しました。この記事では、新しい H100 GPU の內部と、NVIDIA Hopper アーキテクチャ GPU の重要な新機能について説明します。 NVIDIA H100 Tensor コア GPU は、大規模な AI や HPC において前世代の NVIDIA A100 Tensor コア GPU と比較して桁違いの性能の飛躍を実現するために設計された NVIDIA の第 9 世代データセンター GPU です。H100 は、

Source

]]>