打ち上げから6か月、Spaceborneはどうなったのか?

Spaceborne Computerのプロジェクト期間は1年間を予定しており、2018年の夏ごろにスペースXの補給船で地上に帰還する予定だ。では、半年ほど経った現在、どのような障害が発生しているのか。HPE(旧SGI)のVice President,HPC&AIのChief Technology Officer(CTO)であるDr. Eng Lim Goh氏によると、「実際に稼動を開始した9月以降からのこの6か月で分かったのは、2台のシステムともに完璧に動作を続けている、ということだ」という。ただ、細かなL3キャッシュエラーが複数インシデントとして発生したものの、これは訂正可能なエラーであり、自動的に修正が施されたという。また、コンピュータそのものではなく、電源系に異常が発生したが、これについては冗長系があるため、問題なく稼動は継続しているという。

  • HPE(旧SGI)のEng Lim Goh氏

    HPE(旧SGI)のVice President,HPC&AIのChief Technology Officer(CTO)であり、Spaceborne Computerプロジェクトの主任研究員であるDr. Eng Lim Goh氏 (日本ヒューレット・パッカード(旧 日本SGIオフィスにて編集部撮影))

「電源系の異常については、根本原因の特定を進めているが、データから見える範囲からは、その原因は不明である。1年後に地球に戻ってきてから、より詳細な調査を進めるが、ここまでの稼動で見えてきたのは、実はコンピュータそのものよりも電源の方が弱い(耐性が低い)可能性がある」とする。また、コンピュータのストレージはサーバ1台あたり10台のSSDを搭載している(合計20台)が、そのうち4台にて障害が発生したものの、内3台は、1回のリブートで復帰を確認。4台目については、そのリブート後に発生したため、現在、復帰の確認は出来ていないが、再度、リブートできる機会があれば、試してみて、状況を確認する計画だという。「打ち上げ時の振動で、SSDはともかく、HDDにダメージが行くことが懸念されたが、そうしたことも確認されていない。結論を出せる状況ではないため、あくまで本当に推測、仮説という前提で話せば、コンピュータそのものよりも電源系が弱い可能性がある。ただ、それもスパイク(過渡変動)が生じた可能性を想定しているが、サーバ側の問題だったのか、ISS側に起因するのかの切り分けをしなければ判断できず、システムが地球に戻ってくるまでは確定したことは言えない」(同)とし、残りの6か月の期間、より多くのことを学んで行きたいとする。

実はSpaceborne Computer、ISSにて2台のサーバが稼動しているが、まったく同じ構成のシステムが地上でも稼動を続けており、これをリファレンスとして、1年後に地上と宇宙での詳細な比較を行うことが予定されている。実際に稼動しているアプリケーションは、TOP500の性能測定でもおなじみの「HPL(High Performance LINPACK)」やHPLと実アプリケーション性能の乖離が増加していくという考えから生み出された疎行列の解を求める「HPCG(High Performance Conjugate Gradients)」といった、演算負荷の高いベンチマークを入れ替わりで、延々と自動的に繰り返し処理が行われている。

  • ISSにインストールされた状態のSpaceborne Computer

    ISSにインストールされた状態のSpaceborne Computer (画像提供:NASA/HPE))

「この実験の目標は、コンピュータが火星まで行って戻ってくる間、高負荷な演算に耐え続けられるかどうかを確かめること。だから、ソフト的にエラーが増大してきたら、現在は、自動的に停止させる措置を入れており、問題が解決されたら、復帰させるという手順になっている」(同)とするが、こうしたエラーや故障の頻度は、この6か月間だけのデータであるが、実は発生する確率としては、地上のスパコンシステムで起こる頻度と大差のないレベルであるという。「故障判定のソフトがセンシティブだった可能性もある。システムが手元に戻ってきて調査を行った結果、センシティブすぎた、ということであれば改良する必要があるが、センシティビティ(感度)を下げて、コンピュータが火星に行く際に故障していては元も子もないので、そこの調整は、実際に戻ってきたシステムを調べてから考えたい」とするほか、「今回は2台のサーバを活用しているわけで、片方を高い感度で、もう片方を低い感度で分けてみて試してみる、ということも考えられる」ともしており、まだまだ試してみることは多いという。

またこうした研究で必ず話題になる宇宙放射線の影響がこの半年の間、出ていないことについては「重要なのは、システムがアイドル状態ではなく、ベンチマークが常に動いている状態で、そうした影響を受けなかったという意味は大きい。SSDに問題が起こった可能性があるが、コンピュータそのものに影響が起きた様子が見られないということは驚きに値する」と、自身でもどうなるかを気にしていたものの、予想外に問題がないことに驚いていた。

ちなみに、Spaceborne Computerは地上からの指示もしっかりと受け付けることができる。「Pingを打つと700msで返ってくる」とのことだが、1年間、ずっと苛酷なベンチマークをまわし続けるわけで、壊れないでいて欲しい、という気持ちがある一方、「気持ちが変わって、ソフトの内容を書き換える可能性もある」ともする。ただ、少なくとも、残りの数か月はこのままの状態を継続していくとのことで、もし、ソフトを書き換えるのであれば、ソフトが問題を発見したときに、システムの稼動を停止させるのではなく、処理速度を遅くさせて、問題の解決を試みたり、問題を検知した状態でホールド状態にして、解決が図れたら、そこから復帰できるような新機能を追加したいとしている。

こうしたHPCを宇宙で活用するという研究は初端についたばかりだ。しかし、同氏は、「火星に行くのに1年かかることを想定した形で、ベンチマークを継続していきたいと思っている。欲を言えば、火星に行って、滞在して、地球に帰ってくる、をそれぞれ1年、合計3年間分ほど続けたい」とあくまで、目標は火星との往還に耐えられるHPCの実現であるとしており、すでにNASAとは今回のプロジェクト終了後の動きについても相談を始めているという。

「個人的には、次は月に挑もうという構想を練っている。月を地上から望遠鏡で覗いたら、HPEのロゴが見える、というのはロマンが溢れた話だと思わないか?。その後はやはり火星への挑戦だが、いずれも必ず成功できるのではないかという手ごたえを感じつつある。私がNASAに提案しているのは、高信頼性だけど、性能が低いコンピュータをクリティカルな部分の運用に残し、それ以外の処理を、常に最新のシステムに入れ替えて持っていく、ということ。火星まで行くとなると、地球との通信時間を考えれば、多くのアプリケーションを搭載しておいて、状況ごとに呼び出して、選択して活用できるようにする必要があると思っている。例えば火星への着陸計算。地球からの指示を待っていては、着陸の条件が変わる可能性もある。その場で判断して、着陸、もしくは離昇することができなければいけない。そのためには高い演算性能を現地に持っていく必要がある。そうした意味では、今回の取り組みは、宇宙におけるコンピュータの在り方を根本的に変える可能性があるプロジェクトだと思っています」とするように、同氏の頭の中では、すでに未来の火星でスパコンが活用される姿が描かれているようだ。