京都大学のACCMS(学術情報メディアセンター)では、スーパーコンピュータシステムを刷新、インテル® Xeon® CPU Maxシリーズ(以下 Xeon® CPU Max)を搭載した新システムを2023年から運用している。既に全システムが稼働を開始しており、メインとなるSystem A(Camphor 3)は今年11月に発表されたTOP500リストにおいても114位にランキングされている。

この新システムを決定した経緯、特にXeon® CPU Max の導入を決めた理由や実際の運用における状況、今後の展開などについて、京都大学 学術情報メディアセンター コンピューティング研究部門 准教授の深沢圭一郎氏と、同 情報部 情報基盤課 スーパーコンピューティング掛 掛長の疋田淳一氏、そしてインテル インダストリー事業本部 HPC事業開発部長の矢澤克巳氏にお話を伺った。

2023年より運用を開始した新システムと、中核を担う「Camphor 3」

今年導入された新システムの構成がこちらだ。(図版1)

  • 2023年より運用を順次開始した新システムの構成図(図版1)

    2023年より運用を順次開始した新システムの構成図(図版1)

出典:京都大学情報環境機構

核となるのがSystem AことCamphor 3で、1120ノードのインテル® Xeon® CPU Max 9480 プロセッサーを搭載したシステムである。そもそもなぜXeon® CPU Maxを選んだのか、その理由はB/F値(Bytes/Flop値)にあった。

深沢准教授は、Xeon® CPU Maxを選択した最大の理由について、次のように語る。「System A/B/Cという3つがあるわけですが、特にAというのは科学計算向けの自作アプリケーションなどの研究をされている方が多く使われています。また、過去に京都大学ではベクトル計算機を導入しており、この頃に作られたアプリケーションをそのまま使いたい、というユーザーの声も多くあります。つまりSystem Aで動いている8割以上のアプリケーションで高いB/F値が求められていることとなり、この要求に応えるCPUを必要としていました」

  • 京都大学 学術情報メディアセンターコンピューティング研究部門 准教授 深沢 圭一郎 氏

    京都大学 学術情報メディアセンター
    コンピューティング研究部門
    准教授 深沢 圭一郎 氏

もともと2022年まで運用していたSystem A(図版2)では、Xeon Phi 7250をベースにした構成になっていた。こちらは16GB分のMCDRAMを搭載しており、ピーク性能が3TFlopsに対し帯域幅は1個あたり約400GB/s、そのためB/F値を計算すると、0.1333となる。この数値は、当時のメモリとしてはDDR4に比べて高い帯域幅だ。しかし、前システムの導入から5年程度が経った現在では、計算機の発展もあり、より早い計算、より大きな計算を実施したいという要望が増えてきた。また、Xeon Phiにおいては、CPUのコアの問題と思われる要因から、ベクトル化されていないアプリでは性能が低下するなどの現象も起きていたという。

  • 2022年まで運用していたシステム構成図(図版2)

    2022年まで運用していたシステム構成図(図版2)

また汎用であるLaurel 2ことSystem B(従来はBroadwell-EPベースのXeon E5-2697v4のDual Processor×850ノード)についても、やはりメモリ量が少ないという不満の声が寄せられていた。それに加えて、コアや同時演算能力も導入当初はともかく、現在では足りていないという話もあり、もともと汎用向けに作られた商用アプリやOSSを動かすことが多いSystem Bも、もっと性能が上がらないかという声が上がっていたそうだ。

スパコンに求められる要件と性能を満たすインテル®Xeon® CPU Maxシリーズ

そこでシステムの刷新に当たっては、できる限り高いB/Fの構成を選ぶことが必須となった。その時点で、選定候補はHBMメモリを搭載したCPUにならざるを得ず、必然的にXeon® CPU Maxと別のCPU、つまり2つの選択肢に絞られることとなった。ただし演算性能を考えた場合、Xeonとは別の選択肢になったCPUを利用したとしても、Xeon® CPU Maxの半分程度の演算性能 にしかならず、Xeon® CPU Maxが最有力な候補となった。

帯域だけで言えば、HBMメモリを搭載したGPU製品は多数あるが、こちらはプログラムの書き直しが大変になる。特にSystem Aを使うユーザーは研究者が多く、ベクトルプロセッサー時代にサイエンス向けのアプリケーションを自作していることも多いそうだ。そのため、欲しいのは計算結果でありつつも、その結果を得るために時間をかけてシステムを研究者自身で書き換えていくというのは時間的観点から現実的ではなかった。こうした理由からGPUへの移行はユーザーの負担が大きすぎるという理由で見送りとなった。

一方System BはSystem Aに比べればそれほどB/F値へのニーズは高くないものの、それでもより広いメモリ帯域が必要という声は多かった。そこでDDR5を利用できることを前提に検討を開始したが、その検討時期にDDR5を公式にサポートして、かつ要求性能を満たせるCPUの選択肢は少なく、いくつかあった候補の中からベンチマークし、その結果と調達のタイミングなどを鑑みて、最終的に第 4 世代インテル® Xeon® スケーラブル・プロセッサーが選ばれたそうだ。

そしてSystem Bと、更に小規模なSystem Cに関しては5月ごろから運用を開始。10月にはSystem Aの運用も開始され、TOP500へのエントリーも行われた。こうした移行作業は非常にスムーズで、TOP500にエントリーするためのデータ取得もそれほど問題は無かったという。

また、肝心の性能について、System Aは稼働し始めたばかりということで、全ユーザーの声などはまだ聞けていないとしつつも、「今のところはユーザーの皆さんには特に問題なく利用いただいております。また特定のユーザーからのご意見としては、『かなり性能が向上した』というご報告もございました」と、疋田氏はシステム稼働後の手応えを話してくれた。

  • 京都大学 情報部 情報基盤課スーパーコンピューティング掛掛長 疋田 淳一 氏

    京都大学 情報部 情報基盤課
    スーパーコンピューティング掛
    掛長 疋田 淳一 氏

この性能改善について、深沢准教授が個人的に確認された結果がこちらである(図版3)。比較はそれぞれ前世代のシステムとのものであるが、System Aで平均4.7倍、System Bでも平均3.7倍の高速化が実現されている。

  • 前世代と比較した際の数値のグラフ(図版3)

    前世代と比較した際の数値のグラフ(図版3)
    出典:情報処理学会研究報告Vol.2023-HPC-192 No.12

しかも重要なのは、この高速化を実現するにあたって、最適化などの作業をほとんど無しで実現した点であり、この点に関して深沢准教授はこう話す。

「センターでは、プログラムコード化支援共同研究という研究をしております。これはユーザーのコードを受け取って、1年くらいかけて最適化を行い、ユーザーへお返しするというものです。Xeon Phiの時は、性能を引き出すためには相応のアプリケーションの最適化が必要となることが多く、その最適化のためによくお預かりしていました。ですが、Xeon® CPU Maxにおいては、インテルのコンパイラとMath Libraryをそのまま使う形で使用されていることもあり、特別な最適化などを行わなくても容易に性能が引き出せるようになったため、コード最適化の依頼を受けることが少なくなりました。また、京都大学の場合、約5年ごとにアーキテクチャが変わる可能性があるので、特定のアーキテクチャに向けて最適化をするユーザーは多くないのが現状です。それでありながら、きちんと想定通りの性能が出ています」(深沢氏)

また安定性に関しても、まだ導入初期の段階ではあるものの、安定した運用ができていると疋田氏は評価する。

「システム全体という意味では、これだけのノード数ですから、初期不良などを含めてある程度のトラブルは避けられません。ですが、CPUに起因したトラブルというのは、ほとんど発生していません」(疋田氏)

新システムの展望とインテルへの期待

現状System Bの稼働率が7~8割程度、System Aが5~6割程度となっている。これはSystem Bが先に運用を開始していることから、System Aの稼働後もそのままSystem Bを使い続けるユーザーが少なくないということに起因する。センターとしては今後、HBMを搭載したことで、より高い性能を期待できるインテル® CPU Maxで構成されたSystem Aにユーザーを誘導していく考えだそうだ。

  • System Aのインテル® Xeon® CPU マックス 9480 プロセッサーを搭載したCamphor3

    System Aのインテル® Xeon® CPU マックス 9480 プロセッサーを搭載したCamphor3

また第4世代Xeonで導入されたAMXについては、現在センターの方でベンチマークを実施している最中とのことだった。京都大学のユーザーにおいては、AIを利用したアプリケーションの数がまだ少なく、それがメインというよりは補完的な使い方をしているという。そのため、現在はGPU SystemであるGardeniaことSystem Gの方を利用しているそうだが、深沢准教授は、「うまくスケールすれば、ハイエンドの GPUと同じ程度の性能がでており、ベンチマークによってはXeonのAMXを利用した方が性能を出せる場合もあります」と、今後AIワークロードが増えて来た際には、System A上におけるAIアプリケーションの稼働も視野に入れていることを明かした。

また、もう少し長期的な話として深沢准教授は次のように語る。

「5年後になる次世代のシステムには、おそらくGPU的な何かしらのアクセラレータが必要になってくるであろうと想定しています。そのアクセラレータが高速だとして、それがプログラムを特に書き換えずに使用できるのであれば、それが一番望ましいわけです。自分のサイエンスをお持ちで、そのサイエンスのためにプログラムコードを使っている方に書き換えを強制はできませんので」(深沢氏)

また、疋田氏は、基本的にはCPU Centricなスタンスを保ちつつ、今後の展開に期待したいと話す。

「最新のシステムは深沢先生に追い求めていただいて、私はユーザーサービスや運用の向上に注力していきます。理想としているのは『従来のプログラムをそのまま使える』こと。そのような方向性でユーザー負荷をかけずに性能を伸ばし、かつ安定して動作してほしいというのが一番の希望です」(疋田氏)

さらに、インテルに望むこととして、「今後もロードマップ通りに製品が出荷されること、それと今後もB/F値を維持した形で製品展開がなされることを期待しております」と深沢准教授は話してくれた。現行のシステムのリプレイス、あるいは全面アップグレードというのは特に予定していないものの、例えば第5世代Xeonが出荷されたタイミングで、それをSystem AやSystem Bにノードの追加という形で加えることは検討できるそうだ。

最後にインテルの矢澤氏は、深沢准教授と疋田氏の話を聞いて今後の展望を語ってくれた。

  • インテル株式会社インダストリー事業本部HPC事業開発部長矢澤 克巳 氏

    インテル株式会社
    インダストリー事業本部
    HPC事業開発部長
    矢澤 克巳 氏

「HPCのマーケットでB/F値が重要なのはよく理解しております。ただHBMを搭載して高いメモリバンド幅を実現したソリューションは、価格もどうしても高くなります。そのため、インテルとしても多様なメモリ要求を理解し、さまざまな新メモリ技術を検討しています。近い将来、DDRと同じフォームファクターでありながら倍近くメモリバンド幅を実現できるMCR-DIMM提供をしていくことで、B/F値のラインナップをもう少し幅広く揃えられるように努めてまいります。またGPUに関しては、年初にインテル初となるGPGPUとしてGPU MAXを発表し、TOP500第2位にランキングされたアルゴンヌ国立研究所をはじめグローバルで採用が進んでおり、今後も引き続き注力していきます。」(矢澤氏)

京都大学 ACCMS(学術情報メディアセンター)では、今後も日本を牽引する学術研究を行っていく。インテルはその研究を技術で支えることで、さまざまな分野の発展にさらに貢献していくだろう。

  • 計算室の見学にはACCMSのセンター長 岡部教授(右から2番目)も合流し、同施設の設備や展示品を紹介いただいた

    計算室の見学にはACCMSのセンター長 岡部教授(右から2番目)も合流し、同施設の設備や展示品を紹介いただいた

  • 京都大学全体のインターネットを管理しているサーバーの説明をしていただいている様子

    京都大学全体のインターネットを管理しているサーバーの説明をしていただいている様子

  • 展示室内のCPUの歴史についてご説明いただいている様子

    展示室内のCPUの歴史についてご説明いただいている様子

  • XEONロゴ

関連リンク

[PR]提供:インテル