GDEP Solutions, Inc.
  • Home
    • 新着情報一覧
    • GPU2020 開催概要 >
      • Day1-AI&GPU
      • Day2-ImagingAI
      • Day3-GPUスパコン
      • 過去開催 GPU2019
  • GPU製品
    • 3月納品可能!GPU搭載ワークステーション
    • AI・データサイエンスおすすめ一覧 >
      • NVIDIA DGX A100
      • DGX STATION A100
      • HP Z8 G4 Workstation
      • HP ZBook Fury17G7 Mobile Workstation
      • Dell Precision 7920 Tower
      • DeepLearning BOXⅡ
      • DeepLearning STATION
      • NVIDIA EGX サーバー
      • HITACHI SR24000
    • 数値計算・解析おすすめ一覧 >
      • HP Z4 G4 Workstation
      • HP Z8 G4 解析ソフトウェア動作確認済みモデル
      • Supermicro 7049GP
    • NVIDIA GPU 一覧 >
      • NVIDIA RTX A6000
      • Quadro RTX8000
      • Quadro GV100
      • NVIDIA A100
      • NVIDIA V100S
      • NVIDIA T4
    • GPUレンタル一覧
    • GPU年定額プラン
  • ストレージ
    • ストレージ一覧 >
      • Synology
      • DDN STORAGE
      • PURESTORAGE
  • HPC
    • HPC Workstation
    • AXXE-L by XTREME-D
    • NVIDIA HPC SDK
    • 高速化受託サービス
  • クラウド製品
    • セキュリティ >
      • KernelCare
    • 仮想化 >
      • Login VSI
      • Login PI
    • リモートアクセス >
      • FastX
      • NiceDCV
      • NoMachine
    • ハイブリッドクラウドNAS >
      • Morro Data
    • クラウドストレージ
  • GPUコラム / 導入事例
    • GPUプログラミング入門 >
      • 第12回:OpenACCを使ったICCG法の高速化
      • 第11回:OpenACCを使ったICCG法の高速化
      • 第10回:OpenACCでできる最適化とは?
      • 第9回:速くならない?とりあえずライブラリに頼ろう!
      • 第8回:OpenACCでも扱えるけど面倒な構造体
      • 第7回:今あるプログラムを楽に速くするためには
      • 第6回:プログラムの実行時間を確認しよう
      • 第5回:コンパイラのメッセージを確認しよう
      • 第4回:拡散現象シミュレーションのOpenACC化
      • 第3回:データ転送の最小化はほとんどのアプリケーションで必須
      • 第2回:その前に知っておきたいGPUの特長
      • 第1回:今あるプログラムを楽に速くするためには?
    • GPU Technology for CG/AI >
      • GPUの起源と進化
      • AlphaGo とその後
      • CUDAを用いたシンプルなパストレーシング
      • 流体シミュレーションの応用
      • GPUを用いた高速レンダリング
      • GPUを基盤としたCG/AIの技術進化
    • ツブ子が聞く・見る・行く! >
      • 見る!NVIDIA RTX A6000
      • 聞く!NVIDIA DGX A100
      • 見る!NVIDIA A100 Tensor Core GPU
    • 導入事例 >
      • DGX SYSTEMS
      • GPU Computing
  • 会社情報
    • ごあいさつ
    • 会社概要
    • アクセスマップ
    • 採用情報
  • お問い合わせ
画像
ツブ子が聞く!
NVIDIA DGX A100
画像
DGXの設置や設定に携わっている​ NVIDIA Japan
​​佐々木 邦暢さん に、NVIDIA DGX A100 について
​インタビューしました!
佐々木 邦暢さん
シニア ソリューション アーキテクト
​ソリューションアーキテクチャ & エンジニアリング
​エヌビディア合同会社
2020.06
インタビュアー:GDEPソリューションズ 広報担当 ツブ子
画像
2020年5月に発表された DGX A100 に搭載された「NVIDIA A100 Tensor Core GPU」 は、その高性能が評判になってますね。
​概要を教えて下さい。
画像
NVIDIA A100 Tensor Core GPU は、NVIDIA Ampere(アンペア)アーキテクチャに基づく最初の GPU です。
​

最新の 7nm プロセスで製造され、トランジスタ数は 540 億と、前世代の NVIDIA V100 GPU に対して 2.6 倍になりました。
​この大幅に増えたトランジスタを、CUDA コアを増やすことだけに使っているわけではないのが A100 GPU の特長の一つです。
画像
NVIDIA製のGPUでは、 最大のトランジスタ数になりますね。 えーとー。
CUDAコアだけに使っていないことが高性能のミソで特徴ですか?
画像
Volta アーキテクチャで導入され、Turing アーキテクチャで拡張された Tensor コアが、さらに強力になったんです。
しかも、新しい TF32
数値データ型は、FP32 向けに書かれたプログラムをそのまま、Tensorコアで高速化できる仕組みです。

このことは、V100 で Tensor コアを活かせなかった従来型のプログラムに Tensor コアの恩恵をもたらします。
例えば、ディープラーニングモデルのトレーニングでは、
4 ~ 6 倍程度の高速化が可能になります。

更に、新しい Tensor コアは、HPC アプリケーションで重要な FP64 (倍精度浮動小数点数) もサポート。ピーク性能は V100 の 2.5 倍に向上しました。
​
ちょっと絵を書くと、こんな感じです。
画像
Tensor コアでの TF32 サポート
画像
HPC アプリケーションも Tensor コアで高速化

画像
聞いただけでも、かなりの高性能ですね。
もう一つ大きな特徴があると聞きました。マルチ・・・
画像
はい。もう一つ、大きな特徴として、「Multi-Instance(マルチインスタンス)GPU」が挙げられます。
頭文字をとって
、MIG (ミグ) とも言います。

1 基の A100 GPU
を最大 7 つの「GPU インスタンス」に分割できるハードウェア パーティショニング機能です。
各インスタンスは専用の演算器、メモリ、L2
キャッシュを持ちますから、別のインスタンスで重たい処理が実行されてもその影響を受けることがありません。

あるインスタンスではモデルのトレーニング、別のインスタンスでは HPC アプリケーションの実行といったように、一つの
GPU で複数のプログラムを同時に、安全に実行することができます。

インスタンスのサイズは A100
の「1/7のスライス」を組み合わせる形で動的に変更可能で、刻々と移り変わる計算要求に柔軟に対応可能です。
​絵を書くと、こんな感じ。わかりやすいでしょ。
画像
Multi-Instance GPU (MIG)
画像
GPUを7つに独立させて使うことができて、処理の優先度などによって割り当てる数も変えることができる、こういった使い方をしたいというニーズは多いかもしれませんね。
​
あのー、Ampere の語源ってあるんですか?
画像
NVIDIA Ampere アーキテクチャは、フランスの物理学者アンドレ=マリ・アンペール(André-Marie Ampère)にちなんだ開発コード ネームです。
読み方は、英語読みの「アンペア」で統一しています。
画像
アンペールさんの名に、ちなんでいるのですね。初めて知りました!

​次に、DGX A100 自体の特長について教えてください。
​かなり自信の製品だと聞いていますが。
画像
自信作ですよ。紹介したいところ、一杯あります(笑)

1つ目は、HGX A100 8-GPU ボード です。
NVIDIA DGX A100 の心臓部は、NVIDIA A100 GPU
を8基搭載する HGX A100 8-GPU ボードです。

実は、HGX A100
には、4-GPU ボードもありますが、この二つの違いは単にGPUの数だけではなく、GPU 間の接続方式にもあります。
8-GPU は、
NVSwitch というクロスバースイッチを介して接続することで、全 GPU 間で 600GB/s の帯域が確保されています。

仕組みの説明は長くなるので、このメモを見て下さい。

大きなディープラーニングモデルのトレーニングなど、GPU間の帯域が重要なタスクで、この違いが効いてきます。
画像
DGX A100 の心臓部 HGX A100 8-GPU
画像
8 基の A100 GPU を 6 基の NVSwitch で接続
- Memo -
A100 GPU は GPU 間を接続する NVLink の帯域も V100 比で2倍の600GB/sに向上していますが、これは12リンクの合計帯域です。

HGX A100の4-GPU
ボードでは、この12リンクを4リンクずつ使って 4 基の A100 を接続しており、各GPU間の帯域は 200GB/s ということになります。

​​HGX A100 8-GPU ボードでは、合計 4.8TB/s
の帯域を持つ 6 基の NVSwitch を介して8基のA100を接続することで、全GPU間が600GB/sの帯域を持っています。
画像
NVSwitch によるGPU間の接続が、さらに速くなったということですね。

​他に、何か特長がありますか。
画像
ありますよ(笑)、最大 10 枚の Mellanox ConnectX-6 と、PCI Gen4 対応と AMD EPYC CPU があります。

1台でも非常に高い性能を持つ DGX A100 ですが、この性能をマルチノード構成へ拡張するためには高速なノード間通信が必須です。
そのため、最新の200Gb/s対応アダプタである Mellanox ConnectX-6を標準で9枚搭載しています。
このうち8枚は、A100 GPUと1:1に対応するクラスターネットワーク用です。

DGX-1では、2基のV100に対して100Gb/sのアダプタが1枚でしたから、GPU 1基当たりの帯域は4倍に増えています。
また、外部ストレージなどへの接続用に、デュアルポートのConnectX-6を1枚標準搭載し、オプションでもう1枚追加できます。
​
DGX A100 の拡張バスは PCI Express 4.0 になりました。
これに合わせて、CPUはAMD EPYC 7742を2基搭載しています。
15TB の NVMe SSDや、前述のConnectX-6も、PCIe 4.0接続によりその性能を最大限に発揮します。
画像
最大 10 枚の Mellanox ConnectX-6
画像
Mellanox ConnectX-6
画像
最後に、一番、聞きたかったことなんですが、
DGX A100 の登場によって、今後、発展すると思われる分野はありますか。
画像
一つは、ディープラーニングモデルの推論環境としての利用です。

これまでの DGX は、その GPU パワーを活かして複雑なモデルをトレーニングする用途に使われることが多かったと思いますが、A100 GPU は INT8 や INT4 等の整数型を Tensor コアでサポートすることで推論性能が V100 より大幅に向上していますし、MIG で分割した GPU インスタンスで並列に推論サーバーを動かすことで、効率的に推論のスループットを向上させることができます。

もう一つは、Apache Spark のような分散処理フレームワークを使ったデータ分析です。

難しい話は、このメモを見て頂いて…. できることは、今までものすごく多くのCPUサーバーで処理してきたタスクを、DGX A100 のような強力な GPU サーバーで置き換えてシステムを効率化できるようになります。
画像
RAPIDS Accelerator for Apache Spark
- Memo -
これまで、データ分析は CPU サーバーをクラスタ化して利用することが多かった領域なのですが、
​ついに正式リリースされた Apache Spark 3.0 では GPU 対応スケジューリングなどの機能が実装されました。また、NVIDIA による RAPIDS Accelerator for Apache Spark により、Spark SQL や DataFrame の処理を GPU で高速化することが可能になるのです。
画像
期待しちゃうな。これからも、GPUの発展を楽しみにしています。

​ありがとうございました!

Picture
GDEPソリューションズ株式会社
東京都文京区本郷三丁目34番3号 本郷第一ビル8階
TEL:03-5802-7050
・NVIDIA認定 Elite Partner [最上位レベル]
・NVIDIA Advanced Technology Program 達成  [DGX 販売資格]
・東京都公安委員会 古物営業許可番号
 第305471905562号
≫ 新着情報
​

GPU製品
≫ 3月納品可能!GPU搭載ワークステーション
≫ AI・データサイエンスおすすめ
≫ 数値計算・解析おすすめ一覧
≫ NVIDIA GPU一覧

≫ GPUレンタル一覧
≫ GPU年定額プラン

HPC
≫ HPC Workstation
≫ AXXE-L by XTREME-D
≫ NVIDIA HPC SDK
≫ 高速化 受託サービス
​ストレージ
​≫ ストレージ一覧

クラウド製品
​≫ セキュリティ
≫ 仮想化
≫ リモートアクセス

≫ ハイブリッドクラウドNAS

​GPUコラム/導入事例
≫ GPUプログラミング入門
≫ GPU Technology for CG/AI
≫ ツブ子が聞く・見る・行く
≫ 導入事例
会社情報
≫ ごあいさつ
≫ 会社概要
≫ アクセスマップ
≫ 採用情報
​
≫ お問い合わせ
​
≫ 個人情報の取扱いについて
≫ 利用規約
©2020 GDEP Solutions,Inc.
  • Home
    • 新着情報一覧
    • GPU2020 開催概要 >
      • Day1-AI&GPU
      • Day2-ImagingAI
      • Day3-GPUスパコン
      • 過去開催 GPU2019
  • GPU製品
    • 3月納品可能!GPU搭載ワークステーション
    • AI・データサイエンスおすすめ一覧 >
      • NVIDIA DGX A100
      • DGX STATION A100
      • HP Z8 G4 Workstation
      • HP ZBook Fury17G7 Mobile Workstation
      • Dell Precision 7920 Tower
      • DeepLearning BOXⅡ
      • DeepLearning STATION
      • NVIDIA EGX サーバー
      • HITACHI SR24000
    • 数値計算・解析おすすめ一覧 >
      • HP Z4 G4 Workstation
      • HP Z8 G4 解析ソフトウェア動作確認済みモデル
      • Supermicro 7049GP
    • NVIDIA GPU 一覧 >
      • NVIDIA RTX A6000
      • Quadro RTX8000
      • Quadro GV100
      • NVIDIA A100
      • NVIDIA V100S
      • NVIDIA T4
    • GPUレンタル一覧
    • GPU年定額プラン
  • ストレージ
    • ストレージ一覧 >
      • Synology
      • DDN STORAGE
      • PURESTORAGE
  • HPC
    • HPC Workstation
    • AXXE-L by XTREME-D
    • NVIDIA HPC SDK
    • 高速化受託サービス
  • クラウド製品
    • セキュリティ >
      • KernelCare
    • 仮想化 >
      • Login VSI
      • Login PI
    • リモートアクセス >
      • FastX
      • NiceDCV
      • NoMachine
    • ハイブリッドクラウドNAS >
      • Morro Data
    • クラウドストレージ
  • GPUコラム / 導入事例
    • GPUプログラミング入門 >
      • 第12回:OpenACCを使ったICCG法の高速化
      • 第11回:OpenACCを使ったICCG法の高速化
      • 第10回:OpenACCでできる最適化とは?
      • 第9回:速くならない?とりあえずライブラリに頼ろう!
      • 第8回:OpenACCでも扱えるけど面倒な構造体
      • 第7回:今あるプログラムを楽に速くするためには
      • 第6回:プログラムの実行時間を確認しよう
      • 第5回:コンパイラのメッセージを確認しよう
      • 第4回:拡散現象シミュレーションのOpenACC化
      • 第3回:データ転送の最小化はほとんどのアプリケーションで必須
      • 第2回:その前に知っておきたいGPUの特長
      • 第1回:今あるプログラムを楽に速くするためには?
    • GPU Technology for CG/AI >
      • GPUの起源と進化
      • AlphaGo とその後
      • CUDAを用いたシンプルなパストレーシング
      • 流体シミュレーションの応用
      • GPUを用いた高速レンダリング
      • GPUを基盤としたCG/AIの技術進化
    • ツブ子が聞く・見る・行く! >
      • 見る!NVIDIA RTX A6000
      • 聞く!NVIDIA DGX A100
      • 見る!NVIDIA A100 Tensor Core GPU
    • 導入事例 >
      • DGX SYSTEMS
      • GPU Computing
  • 会社情報
    • ごあいさつ
    • 会社概要
    • アクセスマップ
    • 採用情報
  • お問い合わせ