マシンラーニングが急速に、色々な分野で利用されるようになってきている。これに伴いマシンラーニングの性能を測定、比較したいという要求が出てくる。答えが1つしかない数値計算ならば、答えを求めるまでの所要時間を比較すれば良いが、推論の場合は、答えの正しさと推論の所要時間が問題になるというように、どういう風に性能を比較するのかも問題になる。

MLPerfの状況と今後の予定

このようなマシンラーニングのベンチマークに取り組んでいるグループがSC20で会合を開き「MLPerf」と名付けたベンチマークの開発状況や今後の方向性を発表した。活動全体の状況を発表したのは、GoogleのPeter Mattson氏である。

  • MLPerf

MLPerfを作りシステムの性能を比較する手段を作ることは、マシンラーニングのハードウェアやソフトウェアの性能向上を推し進めることに役立つ。そしてベンチマークを作ることにより、ベンチマークの範囲を広げていくことができる。さらにベンチマークを実世界のニーズに合わせて充実させていき、定期的な改善を加えていくことはマシンラーニングの普及に役立つ。

MLPerfは現在、MLPerfを開発しているメンバーが管理しているが、近く非営利団体であるMLCommonsに移管される。MLCommonsはマシンラーニングのベンチマークとデータセット、ベストなやり方を集積するという活動を行うために設立された団体である。

  • MLPerf

    MLPerfの概要。マシンラーニングのハード、ソフトの進歩を加速するのがMLPerfを作る目的 (このレポートのスライドはすべてSC20におけるMLPerfの発表資料をスクリーンショットしたもの)

MLPerfは2018年にはTraining(学習)ベンチマークだけであったが、2019年にはInference(推論)を追加し、今年はTiny MLPerf、MLPerf mobileとMLPerf HPCを追加した。そして、最初はハードウェアの速度だけを測定していたが、2020年には電力とソフトウェアの速度の測定を追加した。さらに今後は精度の測定を加えてカバー範囲を拡大していく予定である。

  • MLPerf

    MLPerfの測定対象のシステムと測定項目の拡大のロードマップ。精度の測定を加えるのが今後の目標

そして、ベンチマークを行う問題の範囲の拡大やユーザの必要性に合わせてMLPerfを充実していく。今年公開したv0.7では黄色で塗った欄のベンチマークを追加している。2021年にはビジョン関係のベンチマークはモデルのアップグレードを考えている。また、翻訳関係のベンチマークは削除する予定であるという。

  • MLPerf

    MLPerfベンチマークのカバー範囲の拡大とニーズに合わせた変更のプラン

定期的なアップデートという点では2021年は次の図のようなアップデートを考えている。3月から6月にかけてTrainig 1.0とInference 1.0を公開し、8月から11月にかけてTraining 1.1とInference 1.1を公開する予定で、これはSCとISCに合わせた公開スケジュールでTop500などと同時に発表されるのであろう。

  • MLPerf

    MLPerfは年間2回程度のアップデートを考えている。このスケジュールはSCとISCに合わせたものと考えられる

MLPerfは現在は開発者が管理しているが、ベンチマーク、データセットとベストプラクティスを非営利団体のMLCommonsに移管して、管理してもらうことになっている。このような体制にすることにより、新しい大きな市場に対応し易くなるものと考えているという。

  • MLPerf

    MLPerfのベンチマーク、データ、ベストプラクティスはMLCommonsに移管して将来の市場の拡大に対応できる体制にする

データセットは研究のための原材料であり、これを集めることは重要である。一例であるが、10万時間以上の文字記述のついたスピーチを集め、このデータを広く使えるようなライセンスを行えるようにすることを考えている。スマートスピーカやアシスタントは2025年には世界の全員が持つようになると予想され、1000以上の言語を使う100万人のスピーチが聞き取れるようにする必要があるからである。

  • MLPerf

    データセットは研究の重要な原材料であり、パブリックのデータセットの蓄積が重要。一例として10万時間のスピーチデータを集める

ベストプラクティスを集めて公開すれば採用を加速することができる。MLモデルの輸送用のMLBoxを作ればモデルを共用する場合の問題を減らすことができる。

  • MLPerf

    ベストプラクティスは採用を加速する。コンテナに入れて出荷しやすい形で蓄積する

MLPerfのグループは大きな目標を持っており、多くの人材を必要としている。興味のある人はMLPerfのインフォメーションのメールアドレス(info@mlperf.org。正しくは@は小文字)まで連絡を頂きたいと述べてMattson氏は発表を終わった。

科学向けのMLPerf HPC

続いてローレンスバークレイ国立研究所のSteven Farrel氏がMLPerf HPCについて発表を行った。

科学者のコミュニティーはAIの有用性に目覚め、HPCシステム(スパコン)はAI処理に向いていることも分かってきた。また、AIの問題規模が大きくなり、それらの問題を扱うにはHPCスケールのコンピュータが必要になってきており、スパコンもAI計算を考慮した設計が行われるようになってきている。

  • MLPerf

    科学者はAIの有効性に目覚め、スパコンの主要なワークロードになってきている

このようなシステムを評価するにはそれぞれの分野の代表例となるベンチマークが必要である。科学分野のAIアプリケーションは他の使い方とは異なる性質があり、それに合わせたベンチマークが必要である。

  • MLPerf

    科学では大量の入力データを使うなど、一般のAIとは異なる使い方があり、ベンチマークをカスタマイズする必要がある

科学分野の特別なニーズに対応するように変更を加え、MLPerf HPC v0.5というベンチマークを開発している。HPCの科学計算の中から、大規模なトレーニングができる問題を選び出し、一般の問題のトレーニングのルールにできるだけ沿って小さな修正を加えている。例えば、科学分野では大量のデータを入力として読み込むことが多いので、並列ファイルシステムからの入力時間も測定に加えるというような修正である。

MLPerf HPCは今年は8月24日に測定結果の登録が開始され、10月19日に登録を締め切り、11月に結果を公表した。

  • MLPerf

    MLPerf HPC v0.5は8月24日から結果の受付を開始し、10月19日に締め切り、11月に結果を発表した

MLPerf HPCで使ったベンチマークの1つは宇宙論で出てくる4つのパラメータを予測するCosmoFlowというプログラムで、3次元の畳み込みニューラルネットを使う。入力データは5.1TBとかなり膨大である。

もう1つのHPCベンチマークはDeepCAMというプログラムで、気候のシミュレーションデータから異常気象の部分を見つけ出す。入力データは8.8TBとCossmoFlowよりも大きい。

  • MLPerf

    MLPerf HPCではCosmoFlowという宇宙論のパラメタを予測するプログラムとDeepCAMという気象関係のプログラムを使っている

MLPerf HPLの開発チームとしては、まずはMLPerf HPC v0.5の公表を行い(11月に発表済み)、その後、定期的な測定結果の提出スケジュールを確立する。これと並行してベンチマークスイートの改良を続ける。また、HPCにとって重要なメトリックの収集をベンチマークに組み込む。

  • MLPerf

    11月のMLPerf HPC v0.5の測定結果の発表後は、ベンチマークの改良やHPCに重要なメトリックの収集機能の組み込みを行う