GPUアプリの性能を最大限に引き出すためのGPU MEMORY BOOTCAMP(8) 行列の転置では書き込みは飛び飛びアドレスになる

7. 転置の場合、列方向の書き込みは飛び飛びアドレスになってしまう

行列の転置の場合、読み込みを連続アドレスとすると、書き込みは飛び飛びのアドレスになってしまいそれぞれのアクセスが異なるキャッシュラインとなってしまうことは避けられないように思われるが、本当にそうであろうか?

2次元の行列は、次の図のように、各行のデータは順に並んでメモリに格納されている。

各行のデータはiの順に連続してメモリに格納されている

そして、1行目のデータに続いて2行目のデータ、その後に3行目のデータが続くというようにメモリに格納されている。

1行目のデータの後に2行目のデータ、その後に3行目のデータという風に、メモリに格納されている

この並びは行方向にメモリをアクセスする場合は良いが、列方向にメモリをアクセスする場合は、次の図のようにN飛びのアクセスになってしまう。

行方向のアクセスは連続アドレスになるが、列方向のアクセスはN要素分のアドレス離れた飛び飛びのアクセスになってしまう

次の図は、スレッド0-7のアクセスは第1のキャッシュライン、スレッド8-15は第2のキャッシュライン、スレッド16-23は第3のキャッシュラインをアクセスしており、スレッド24-31は、また、第1のキャッシュラインをアクセスするという状況を示しており、このアクセスの処理には3つのキャッシュラインが必要となり、2回のreplayが必要となる。

このアクセスは3つのキャッシュラインにまたがり、3つのキャッシュラインの読み込みが必要となる

伝統的な最適化のアドバイスは、連続アクセス(Stride 1)を推奨している。次のプログラムは、iを0からn-1まで順に変化させ、data[i]を合計するものである。このように、連続アドレスをアクセスすればキャッシュヒットの可能性が高まり、同一キャッシュラインの利用回数も増加する。

伝統的な最適化では、メモリアクセスのアドレスを連続化することを推奨する

しかし、GPUのスレッドから見ると、連続アドレスは少し違って見える。次の

for (int i=threadIdx.x; i<n; i+= blockDim.x) {
            r+=data[i];

というプログラムでは、iの値は、毎回、ブロックのx方向のサイズ(blockDim.x)だけ増加している。また、その後の

    int idx = blockIdx.x*blockDim.x + threadIdx.x;
    int stride = blockDim.x*gridDim.x;
    for (int i=idx; i<n; i+=stride){
        r += data[i];

というプログラムではブロックのx方向のサイズとグリッドのx方向のサイズの積であるstrideだけ、iの値を増している。

このように飛び飛びにアクセスすることにより、DRAMの同じ領域を繰り返しアクセスすることを避けている。

blockDim.xだけiを増す、あるいはblockDim.x*gridDim.xだけiを増して飛び飛びにアクセスし、DRAMの同じ領域をアクセスするのを避ける

行列の転置では書き込みは飛び飛びアドレスになる

7. 転置の場合、列方向の書き込みは飛び飛びアドレスになってしまう

この連載の前後回

AIが勧める、あなたのための会員限定記事

ユーソナー、AI拡張型インテントデータ「興味サイン」などをリリース

PFN、AI半導体や生成AI基盤モデルなどの開発強化に向けて総額190億円を資金調達

PFN、三菱商事、IIJがAI向けクラウドサービス提供の合弁会社 - 190億円の資金調達も

アクセルとインテル、アクセルのAIフレームワークを使用した高速AI推論で協業

シャープや東電ら4社、家庭用蓄電池を遠隔制御するデマンドレスポンス実証開始

岐阜県飛騨市×DNP、メタバース役所実現に向け本人認証機能の実証開始

編集部が選ぶ関連記事

GPUアプリの性能を最大限に引き出すためのGPU MEMORY BOOTCAMP 第1回新人のCUDAプログラマを一人前に育て上げるGPU MEMORY BOOTCAMP

GTC 2016 - なぜNVIDIAはディープラーニングに注力するのか

GTC 2016 - 使い勝手を大きく改善するPascalのUnified Memory 第1回 CPUとGPUの連携を簡素化するUnified Memory

GTC 2016 - 基調講演にみるNVIDIAの戦略

関連リンク

JAIST、「並行量子通信プロトコル」の完全な自動形式検証を実現

ニデックのAIサーバ向けオープン水冷式CDU、累計出荷台数5000台を突破

AI活用の鍵を握る電力性能比の向上に注力するAMD - AMD Advancing AI ＆ HPC 2024 Japan

産総研など、シリコン型量子ビットの特性が長周期で変化する原因を特定

気象庁が新たにスパコンを調達、新システムを運用開始――激甚化する自然災害から国民の生命・財産を守るために、インテル® Xeon® CPU マックスシリーズを採用

富士フイルムなど、材料開発の期間短縮が見込める量子コンピュータ向けワークフロー

このカテゴリーについて

行列の転置では書き込みは飛び飛びアドレスになる

7. 転置の場合、列方向の書き込みは飛び飛びアドレスになってしまう

この連載の前後回

AIが勧める、あなたのための会員限定記事

ユーソナー、AI拡張型インテントデータ「興味サイン」などをリリース

PFN、AI半導体や生成AI基盤モデルなどの開発強化に向けて総額190億円を資金調達

PFN、三菱商事、IIJがAI向けクラウドサービス提供の合弁会社 - 190億円の資金調達も

アクセルとインテル、アクセルのAIフレームワークを使用した高速AI推論で協業

シャープや東電ら4社、家庭用蓄電池を遠隔制御するデマンドレスポンス実証開始

岐阜県飛騨市×DNP、メタバース役所実現に向け本人認証機能の実証開始

編集部が選ぶ関連記事

GPUアプリの性能を最大限に引き出すためのGPU MEMORY BOOTCAMP 第1回 新人のCUDAプログラマを一人前に育て上げるGPU MEMORY BOOTCAMP

GTC 2016 - なぜNVIDIAはディープラーニングに注力するのか

GTC 2016 - 使い勝手を大きく改善するPascalのUnified Memory 第1回 CPUとGPUの連携を簡素化するUnified Memory

GTC 2016 - 基調講演にみるNVIDIAの戦略

関連リンク

JAIST、「並行量子通信プロトコル」の完全な自動形式検証を実現

ニデックのAIサーバ向けオープン水冷式CDU、累計出荷台数5000台を突破

AI活用の鍵を握る電力性能比の向上に注力するAMD - AMD Advancing AI ＆ HPC 2024 Japan

産総研など、シリコン型量子ビットの特性が長周期で変化する原因を特定

気象庁が新たにスパコンを調達、新システムを運用開始――激甚化する自然災害から国民の生命・財産を守るために、インテル® Xeon® CPU マックス シリーズを採用

富士フイルムなど、材料開発の期間短縮が見込める量子コンピュータ向けワークフロー

このカテゴリーについて

GPUアプリの性能を最大限に引き出すためのGPU MEMORY BOOTCAMP 第1回新人のCUDAプログラマを一人前に育て上げるGPU MEMORY BOOTCAMP

気象庁が新たにスパコンを調達、新システムを運用開始――激甚化する自然災害から国民の生命・財産を守るために、インテル® Xeon® CPU マックスシリーズを採用