インタビュアー:GDEPソリューションズ 広報担当 ツブ子
Volta アーキテクチャで導入され、Turing アーキテクチャで拡張された Tensor コアが、さらに強力になったんです。
しかも、新しい TF32 数値データ型は、FP32 向けに書かれたプログラムをそのまま、Tensorコアで高速化できる仕組みです。 このことは、V100 で Tensor コアを活かせなかった従来型のプログラムに Tensor コアの恩恵をもたらします。 例えば、ディープラーニングモデルのトレーニングでは、4 ~ 6 倍程度の高速化が可能になります。 更に、新しい Tensor コアは、HPC アプリケーションで重要な FP64 (倍精度浮動小数点数) もサポート。ピーク性能は V100 の 2.5 倍に向上しました。 ちょっと絵を書くと、こんな感じです。 |
はい。もう一つ、大きな特徴として、「Multi-Instance(マルチインスタンス)GPU」が挙げられます。
頭文字をとって、MIG (ミグ) とも言います。 1 基の A100 GPU を最大 7 つの「GPU インスタンス」に分割できるハードウェア パーティショニング機能です。 各インスタンスは専用の演算器、メモリ、L2キャッシュを持ちますから、別のインスタンスで重たい処理が実行されてもその影響を受けることがありません。 あるインスタンスではモデルのトレーニング、別のインスタンスでは HPC アプリケーションの実行といったように、一つの GPU で複数のプログラムを同時に、安全に実行することができます。 インスタンスのサイズは A100 の「1/7のスライス」を組み合わせる形で動的に変更可能で、刻々と移り変わる計算要求に柔軟に対応可能です。 絵を書くと、こんな感じ。わかりやすいでしょ。 Multi-Instance GPU (MIG)
|
自信作ですよ。紹介したいところ、一杯あります(笑)
1つ目は、HGX A100 8-GPU ボード です。 NVIDIA DGX A100 の心臓部は、NVIDIA A100 GPU を8基搭載する HGX A100 8-GPU ボードです。 実は、HGX A100には、4-GPU ボードもありますが、この二つの違いは単にGPUの数だけではなく、GPU 間の接続方式にもあります。 8-GPU は、NVSwitch というクロスバースイッチを介して接続することで、全 GPU 間で 600GB/s の帯域が確保されています。 仕組みの説明は長くなるので、このメモを見て下さい。 大きなディープラーニングモデルのトレーニングなど、GPU間の帯域が重要なタスクで、この違いが効いてきます。
|
ありますよ(笑)、最大 10 枚の Mellanox ConnectX-6 と、PCI Gen4 対応と AMD EPYC CPU があります。
1台でも非常に高い性能を持つ DGX A100 ですが、この性能をマルチノード構成へ拡張するためには高速なノード間通信が必須です。 そのため、最新の200Gb/s対応アダプタである Mellanox ConnectX-6を標準で9枚搭載しています。 このうち8枚は、A100 GPUと1:1に対応するクラスターネットワーク用です。 DGX-1では、2基のV100に対して100Gb/sのアダプタが1枚でしたから、GPU 1基当たりの帯域は4倍に増えています。 また、外部ストレージなどへの接続用に、デュアルポートのConnectX-6を1枚標準搭載し、オプションでもう1枚追加できます。 DGX A100 の拡張バスは PCI Express 4.0 になりました。 これに合わせて、CPUはAMD EPYC 7742を2基搭載しています。 15TB の NVMe SSDや、前述のConnectX-6も、PCIe 4.0接続によりその性能を最大限に発揮します。 |
一つは、ディープラーニングモデルの推論環境としての利用です。
これまでの DGX は、その GPU パワーを活かして複雑なモデルをトレーニングする用途に使われることが多かったと思いますが、A100 GPU は INT8 や INT4 等の整数型を Tensor コアでサポートすることで推論性能が V100 より大幅に向上していますし、MIG で分割した GPU インスタンスで並列に推論サーバーを動かすことで、効率的に推論のスループットを向上させることができます。 もう一つは、Apache Spark のような分散処理フレームワークを使ったデータ分析です。 難しい話は、このメモを見て頂いて…. できることは、今までものすごく多くのCPUサーバーで処理してきたタスクを、DGX A100 のような強力な GPU サーバーで置き換えてシステムを効率化できるようになります。 |