富士通研究所は28日、仮想マシンの負荷パターンを機械学習で予測することで業務への影響が少ない時間帯に短時間でメンテナンスを完了することで、業務への影響を回避する技術を開発したことを発表した。

パブリッククラウドの遅延や不具合には原因調査やメンテナンスが必要となるが、メンテナンスには仮想マシン(VM)を一旦停止させて別のサーバで再起動する方法のほかに、VMを停止させずに別のサーバに移動するライブマイグレーション(LM)などがある。しかし、VMが高負荷である時にライブマイグレーションを行うと一時的な性能低下、数秒間の停止などの影響が発生する。多数のユーザーが利用するパブリッククラウドにおいて低負荷のタイミングを調整することは難しく、大きな課題であった。

新技術は、ユーザーのVMごとに過去のメンテナンス時LMにかかる時間、VMの負荷の関係を機械学習を用いた予測モデルを作成。メモリ使用量や通信量など観測可能なデータでVMの負荷を推定し、LM所要時間を分単位で割り出せる。また同時にクラウド全体のメンテナンスが完了する計画を大量の組合せを効率的に算出する技術を開発している。

  • 新技術概要(同社資料より)

    新技術概要(同社資料より)

同社では、8割がCPU負荷90%以上という高負荷、2割が低負荷という商用クラウドの約5,000VMが稼働するシミュレーションを行っている。従来技術では、425VMが高負荷時のメンテナンスが実行されるところ、新技術ではすべてのVMが高負荷時を避けてメンテナンスを行えたとしている。なお、同社では2018年度内に富士通のクラウド「FUJITSU Cloud Service K5」でのサービス化を目指す。