ハイレゾは、2024年12月18日に中四国初のAI開発用GPUデータセンター「高松市データセンター」の第一拠点を開設しました。
第一拠点は、公益事業法人かがわ産業支援財団が運営する研究施設「RISTかがわ」の一部を改修。ここに100台のNVIDIA HGX H200を設置し、同社のGPUクラウドサービス「GPUSOROBAN」として提供を行います。
現在は、機材の納入と電源拡張工事が完了していないこともあり、12月から約10台のHGX H200が稼働中で、2024年内に50台、2025年前半中のフル稼働を目指しています。香川県内では、高松市綾川町にある旧綾上中学校にほぼ同様構成の第二拠点を2025年8月に開設予定です。
ハイレゾは、ゲーム会社から発足したスタートアップ企業ですが、2019年からGPUの計算資源を貸し出すGPUSOROBANサービスを「メガクラウドの半分以下」で提供しており、コスパで注目されています。
今回、香川県や高松市の協力もあり、RISTかがわの研究棟にGPUサーバーを設置、国の助成金や地元の優遇策に加えて日本政策銀行の融資も通り、現在稼働中の石川県に続く第二拠点として香川が選ばれました。
今回はGPUを主体とした計算資源を置くというもの。最近の地政学リスクの高まりから、重要データを海外に持ち出さず、国内で処理する機運が高まっています。またGPUを使用した大規模演算は現代のスーパーコンピューターでも多用されており、大規模シミュレーションとして設計現場や研究用途としても使われています。そして、生成AIの構築にも大量のGPUが必要とされており、NVIDIAの売り上げと株価が急上昇したのもよく聞く話となりました。
メガクラウドも相次いで日本への巨額の投資計画を発表していますが、基本的にメガクラウドの立地は需要地の近くで、結果的に首都圏と大阪圏にデータセンターが集中します。メガクラウドが需要地のそばに置く大きな理由は遅延の問題が多く、webサービスなど遅延を極力減らしたい需要のためには距離的に近いところに設置する必要があります。
先日メガクラウドに場所を提供するコロケーションサービスを行っている企業に取材に行きましたが「データセンター内に24時間体制で保守対応可能な人員を配置する必要があるが、地方では難しい」とリクルート上の問題も指摘していました。顧客のサーバーを設置するコロケーションサービスの場合、遅延の問題に加えてトラブル時に顧客が駆け付けやすい場所、つまり大都市から近いところが望まれる事情もあります。
ハイレゾのデータセンターは地方ですが、メガクラウドではできないポイントがあります(後述)。地方の場合、雇用を創出できるほか、遊休施設を活用できるのは理にかなっています。
開設記念式典は、経済産業省によるクラウドプログラム供給確保計画の認定を受けていることもあり、かなり盛大に行われました。
ハイレゾ香川の志倉喜幸社長以外に香川県知事の池田豊人氏、高松市長の大西秀人氏、綾川町長の前田武俊氏と、県、市、町の代表など地元関係者を含む100名程度が列席し、報道関係者やテレビ局の数も多く、地元の期待が集まっていることが伝わります。
テープカットには、香川県知事や高松市長以外にも日本政策投資銀行 常務執行役員の増田真男氏、高松市議会議長の大見昌弘氏や綾川町議会議長の河野雅廣氏など地元議員も加わっていました。
あえての「冗長レス構成」で圧倒的な低価格を実現
GPUSOROBANの安さの秘密に関して、3点が挙げられます。1つはメガクラウドのGPUサービスメニューとは大きく絞った構成です。現在はGPUサーバーを丸ごと貸し出すベアメタルサービスを主体にしています。ただし、将来は複数のGPUサーバーをまとめて貸し出すクラスター構成や(1台のサーバーに8個ある)GPU1つから貸し出すサービスも予定しているといいます。
2つ目は施設を割り切って構築していること。通常のデータセンターでは停電時でもサーバーを安定稼働させるためのUPSや自家発電装置がありますが、今回の香川のデータセンターは最重要サーバーしかUPSを設置しておらず、「停電したらサーバーが止まる」サービスレベルです。瞬時の停止も許されない通常のデータセンターとは異なり、大量の計算に行うバッチ処理での実行に割り切っているため、このような構成が可能なのでしょう。
ちなみにLLM学習以外にGPUを使った大規模利用事例の場合はシミュレーションなどの利用もあり、これにも対応しています(開所時点で動いているH200の中にはシミュレーション用途の稼働もあると説明していました。また、開所時点の台数ではフル稼働しており「設置後に貸し出す」という予約もかなり枠が埋まっているそう)。
一般的なデータセンターでは24時間365日の有人監視サービスが不可欠ですが、ハイレゾ香川の場合「通常の勤務時間はスタッフがいるが、それ以外の時間は警備会社への業務委託」と、かなり割り切った管理体制なのもポイントです。これもバッチ処理メインで運用するからこその体制ですし、24時間365日の場合は(三交代+週5日勤務と各種トレーニング時間を考えると)大まかに言って現場に必要なスタッフ数の5倍の人員が必要となるので、ここにも割り切りを感じました。
最後のポイントはストレージが極小という点。LLMの学習には大量のデータが必要ですが、ハイレゾ香川の施設でユーザーが使えるストレージはGPUサーバー内にある30TBのSSDのみと、極めて少ないのが特徴です。
必要な学習データはネットワーク経由で取得するほか、ストレージをハイレゾ香川内に配送する手配を利用者が行えば、接続して利用可能ということです(データセンター内にストレージデバイスを格納するラックの余裕はあるとのこと)。メガクラウドではストレージサービスも行っていますが、それも排することで低価格を実現しているというわけです。
もちろん、地方の遊休施設を使っていることも安さの要因と言えるでしょう。今回設置されたRISTかがわの研究棟はすでに利用者がおらず空いていた場所ですし、来年8月に予定されている第二拠点も休校した学校の体育館を活用するといいます。
一方、遊休施設を使う場合は、データセンタークラスのサーバー重量に耐えられるかどうかという問題があります。とあるコロケーションサービスの会社では「一平方メートルあたり2000kgに耐えるのが基準」と説明してくれましたが、一般のオフィス用途で建てられた建物の場合は500kg程度です。
また、RISTかがわの研究棟の高さと効果的な放熱のレイアウト上、上の空間を広くとる必要があり、重量を抑えるために最大設置台数の少ない低いラックを使用していました。
なお、NVIDIAのH200を採用した理由はユーザーニーズと納期。現在他社からもAI学習や大規模演算向けの製品は出ていますが、NVIDIAには2007年から提供されているCUDAという開発環境があり、他社を圧倒する豊富なライブラリーとツールが大きなメリットを持っています。このため、割高でもNVIDIA製品が望まれやすいのです。
なお、B200が最新世代の製品ですが、これはまだ出荷されていないため、現時点で稼働するためにはH200が最新世代。来年8月に予定されている第二拠点に関しては「(納期的に問題がなければ)B200の採用もありえる」とのことでした。