GDEP Solutions, Inc.
  • Home
    • 新着情報一覧
    • NVIDIA NEWS
    • GPU2021 開催概要 >
      • Day1 AI & GPU セッション
      • Day2 イメージングAI
      • Day3 GPUスパコン
      • 講演レポート | Denso
      • 過去開催 >
        • GPU2020
        • GPU2019
  • GPU製品
    • 即納モデル
    • NVIDIA GPU 一覧 >
      • NVIDIA H100
      • NVIDIA A100
      • NVIDIA RTX スペック比較 >
        • NVIDIA RTX A6000
        • NVIDIA RTX A5000
        • NVIDIA RTX A4500
        • NVIDIA RTX A4000
        • NVIDIA RTX A2000
      • Quadro GV100
    • GPUレンタル一覧
    • GPU年定額プラン
    • AI・データサイエンスおすすめ一覧 >
      • NVIDIA DGX H100
      • NVIDIA DGX A100
      • DGX STATION A100
      • HP Z8 G4 Workstation
      • HP ZBook Fury17G7 Mobile Workstation
      • Dell Precision 7920 Tower
      • DeepLearning BOXⅡ
      • DeepLearning STATION
      • NVIDIA EGX サーバー
      • HITACHI SR24000
    • 数値計算・解析おすすめ一覧 >
      • HP Z4 G4 Workstation
      • HP Z8 G4 解析ソフトウェア動作確認済みモデル
      • Supermicro 7049GP
    • NVIDIA A100搭載 Supermicro 740GP
  • ストレージ
    • Synology
    • DDN STORAGE
    • PURESTORAGE
  • HPC
    • HPC Workstation
    • HPCおすすめGPUサーバー
    • HPC SIサービス
    • AXXE-L by XTREME-D
    • NVIDIA HPC SDK
    • プログラム高速化サービス
  • クラウド製品
    • セキュリティ >
      • KernelCare
    • 仮想化 >
      • Login VSI
      • Login PI
    • リモートアクセス >
      • FastX
      • NiceDCV
      • NoMachine
    • ハイブリッドクラウドNAS >
      • Morro Data
    • クラウドストレージ >
      • クラウドストレージ Wasabi
  • GPUコラム / 導入事例
    • GPUプログラミング >
      • 初級編
      • 中級編 >
        • 第4回:MPI+OpenACC実装における計算と通信のオーバーラップ
        • 第3回:拡散現象シミュレーションのおさらい
        • 第2回:簡単なOpenACC + MPI コードで考える
        • 第1回:複数のGPUを使う方法とは?
    • GPU Technology for CG/AI >
      • 深層学習を利用した画像処理・必要なGPU性能
      • トランスフォーマー 最近流行のニューラルネットワーク
      • GAN Inversion による写実的画像生成の制御
      • 深層学習におけるアノテーションコストを抑えるための取り組み Active Learning
      • 深層学習に基づく人物画像の再照明
      • GPUの起源と進化
      • AlphaGo とその後
      • CUDAを用いたシンプルなパストレーシング
      • 流体シミュレーションの応用
      • GPUを用いた高速レンダリング
      • GPUを基盤としたCG/AIの技術進化
    • シリコンバレー発信 New Technology Report >
      • 最新記事から
    • ツブ子が聞く・見る・行く! >
      • 見る!NVIDIA RTX A6000
      • 聞く!NVIDIA DGX A100
      • 見る!NVIDIA A100 Tensor Core GPU
    • 導入事例 >
      • DGX SYSTEMS >
        • NVIDIA DGX A100 | 金沢大学
      • GPU Computing
  • 会社情報
    • ごあいさつ
    • 会社概要
    • アクセスマップ
    • 採用情報
  • お問い合わせ
​​OpenACCではじめる​GPUプログラミング
初級編
​著 者 : 東京大学 情報基盤センター 助教 星野 哲也 先生
第12回:OpenACCを使ったICCG法の高速化つづき < 初級編 最終回 >
第11回:OpenACCを使ったICCG法の高速化
第10回:OpenACCでできる最適化とは?​
第 9回:速くならない?とりあえずライブラリに頼ろう!​
第 8回:OpenACCでも扱えるけど面倒な構造体​
第 7回:今あるプログラムを楽に速くするためには​
第 6回:プログラムの実行時間を確認しよう​​
第 5回:コンパイラのメッセージを確認しよう​​​
第 4回:拡散現象シミュレーションのOpenACC化
第 3回:データ転送の最小化はほとんどのアプリケーションで必須
第 2回:その前に知っておきたいGPUの特長
第 1回:今あるプログラムを楽に速くするためには?

中級編スタート!

中級編が2021年7月よりスタートしました!
中級編 もくじ ≫

星野先生への質問 BOX

本コラムに関する質問を受け付けています。お気軽にご質問ください!
詳細はこちらから

第12回:OpenACCを使ったICCG法の高速化つづき < 初級編 最終回 >

画像
2021年3月
前回に引き続き、OpenACCを使ったICCG法の高速化手法について考えてみます。
オリジナルのプログラムは東大情報基盤センターの講習会、「OpenMPによるマルチコア・メニィコア並列プログラミング入門」のページから入手できます。

ダウンロードしたmulticore-c.tarを解凍した後に出来る、マルチカラー並列化されたICCGソルバーのmulticore-c/L2/src/solver_ICCG_mc.c をベースに解説します。
Read More

第11回:OpenACCを使ったICCG法の高速化

画像
2020年12月
OpenACCの基本的な考え方や使い方については、前回まででおおよそ説明しきってしまいました。

​それでは習うより慣れろということで、今までの総仕上げとして、ICCG法プログラムのOpenACC実装についてご紹介します。
Read More

第10回:OpenACCでできる最適化とは?

画像
2020年11月
前回は、OpenACCプログラムにおけるGPU向けライブラリプログラムの呼び出し方の解説に加え、行列積のような計算量オーダーの大きな計算パターンにおいては、GPUの性能を発揮するためのプログラムの最適化を十分に行えず、満足な性能が得られない可能性があることを解説しました。
今回はここをもう少し掘り下げて、GPUプログラミングにおける最適化とOpenACCの関係性について解説します。
Read More

第9回:速くならない?とりあえずライブラリに頼ろう!

画像
2020年10月
前回に引き続き、OpenACCでうまく行かないケースとその解決策について学びます。

​特に計算が複雑になればなるほど、思ったほどの性能が出ないケースが増えてきます。

​そんな時はどうしたら良いのでしょうか?
Read More

第8回:OpenACCでも扱えるけど面倒な構造体

画像
2020年09月
はじめに、OpenACCで扱えないわけではないけど、扱うのがとても面倒な構造体について紹介します。構造体の面倒な点は2つあります。
​
面倒 ①:そもそもGPUの仕組み的に、構造体は速度低下の原因になり得る。

​面倒 ②:CPUとGPUのメモリが独立していることに起因する、ディープコピーと呼ばれる問題。
Read More

第7回:今あるプログラムを楽に速くするためには

画像
2020年08月
今回で 拡散方程式のプログラム 例は終わりです。
ここまで学んだこと(+α)のまとめとして、何をすればどのくらい速くなるのかを見ていきます。
ここまでで解説した指示文(+α)を使って最適化した場合、どのくらい速くなるのか確認してみましょう。

​図1のグラフは、東京大学のReedbushスパコン を使い、CPUとGPUの性能比較をしたものです。
​CPUはIntel Xeon E5-2695v4 (Broadwell-EP) を1ソケット(18 コア)、GPUはNVIDIA Tesla P100を1基使っています。
Read More

第6回:プログラムの実行時間を確認しよう

画像
2020年07月
GPUを使う上で必ず考えなければならないのが、プログラムの実行速度です。

今あるプログラムを速くするためにわざわざOpenACC化を進めているわけですから、遅かったら意味がないのです。

​では、プログラムの実行時間はどのように確認したらよいでしょうか?