日本オラクルは3月30日、MySQLの機械学習ソリューション「Oracle MySQL HeatWave ML」の提供を開始する。同ソリューションは、Oracle MySQL HeatWaveの新機能で、機械学習(ML)機能を、MySQLデータベース内にネイティブに統合し、データを別のサービスにETL処理することなく利用できるのが特徴だ。
モデルのトレーニングや推論、説明を完全に自動化し、アプリケーションの複雑さを軽減しながら、コスト削減や、データおよびモデルの両方のセキュリティ向上も実現できる。
日本オラクル MySQLグローバルビジネスユニット アジアパシフィック&ジャパン担当 MySQLソリューションエンジニアリングディレクターの梶山隆輔氏は、同ソリューションについて、次のように説明した。
「Oracle MySQL HeatWaveの利用者は、追加費用を支払うことなく、MySQL HeatWave MLを利用できる。データベースに格納された大量のデータを活用して、その中で機械学習の予測処理も行えるようになる。トランザクション処理、分析処理、予測処理をひとつのデータベースで行うことができることから、MySQLのなかに大量のデータを蓄積しているが、データを活用しきれていないというユーザーに活用してもらいたい」
また、機械学習の工程の自動化には、オラクルのAuto MLを利用し、作業効率の向上を図っているという。これにより、機械学習になじみの浅いユーザーから、機械学習エンジニアまでの幅広い層が、分類や回帰といったモデルを簡単に生成できるようになる。「オラクルのMySQL HeatWave の開発リーダーが、Auto MLの開発にも深く関わってきた経緯があり、社内ではMySQL HeatWave にAuto MLを利用することは自然の流れであったともいえる」と、梶山氏は語った。
これまでMySQLアプリケーションに機械学習機能を追加するには、多くの時間を要し、困難な作業が必要であった。例えば、MLモデルの作成とデプロイのために、データベースからデータを抽出し、別のシステムに移すプロセスが必要だった。その際、データに機械学習を適用するために複数のサイロが作られ、データが移動することによるレイテンシが発生していた。
また、データベースの外にデータが拡散するため、セキュリティの脅威にさらされやすくなり、開発者が複数の環境でプログラミングを行う複雑さも発生していた。さらに、開発者がMLモデルの学習プロセスをガイドするスキルが必要であること、既存のMLソリューションのほとんどが予測の実現に関して、説明する機能を備えていないといった課題もあった。
MySQL HeatWave MLでは、こうした課題を解決。さらに、同社が発表したベンチマークでは、Amazon Redshift MLのわずか1%のコストで、25倍もの高速な処理を可能にしたほか、Snowflake、Microsoft、Googleと比較しても、MySQL HeatWaveは大幅な高速化、低コスト化を実現できるという。
また、Amazon Redshiftなどのクラウドデータベースサービスは、データベース外の機械学習機能と統合した上で、機械学習のトレーニングプロセスを開発者が手動で進める必要がある。これに対し、HeatWave MLのモデル生成の各ステージは完全に自動化され、開発者の手を煩わせることがなく、トレーニングプロセスを完了させることができる。
「少数のSQL関数だけで、トレーニング、推論、説明といった機械学習の各工程を実行可能にしている。データベース利用者との親和性が高い点は大きな特徴になる」(梶山氏)
加えて、HeatWave MLは、特定の予測に、どの特徴量が影響を与えたかを判断したり、分析対象データに対するモデルの挙動を詳細に確認したりできることも特徴としている。
既存の説明手法から性能、解釈可能性、品質を改良。機械学習モデルをもとに、企業が意思決定を行う際にも、予測理由などの説明を可能としていることから、機械学習モデルの挙動の理解や、予測にバイアスがかかっていないことも確認できる。
「トレーニングの工程に説明が統合されており、モデルに非依存な方法により、HeatWave MLのあらゆるモデルの説明が可能になっている。法令遵守、公正さ、再現性、因果関係の検証が可能であり、直感的なわかりやすさを持つ説明により、どの要素が最も予測に影響を与えたかといたことを理解できる」(梶山氏)という。
さらに、HeatWave MLは、ハイパーパラメータのチューニングに、勾配降下法に基づくアルゴリズムを採用しており、モデルの精度に影響を与えることなく、ハイパーパラメータを探索できるという。この仕組みにより、他のクラウドサービスと比べて、圧倒的な性能の高さを実現できる。
プロキシモデルの概念を、トレーニングに用いる最適な機械学習のアルゴリズムの決定に利用。正確性を失うことなく、効率的にアルゴリズムの選択ができるほか、モデルのトレーニングでは、データのわずかな部分をサンプリングするインテリジェントな手法を採用。複数の分野や、アプリケーションの広範なデータセットに対してトレーニングを行い、効率的に関係する特徴を特定する特徴選択によって、予測の作成に用いられる機械学習モデルのふるまいを最適化している。
Oracle MySQL HeatWaveでは、「MySQL HeatWave ML」のほかにも機能が強化されている。新機能として、リアルタイムの拡張性により、ダウンタイムや読み取り専用時間なしでHeatWaveクラスタのノード数を自由に増減したり、データ圧縮によりノードあたり約2倍のデータを処理できるようにしたりすることが可能になっている。
また、新たな一時停止/再開機能により、HeatWaveの一時停止によるコストの低減を可能にしている。再開時は、MySQL Autopilotに必要となるデータと統計情報が、自動的にHeatWave内にリロードされる。
梶山氏は「HeatWaveは拡張性が高いものの、サイズ変更の際はシステム停止が必要という課題があった。また、より低価格で利用したいという要望もあった。こうした課題に対しても、リアルタイムの伸縮性、アルゴリズム変更などによるHeatWaveノードあたり最大約800GBまでのデータ格納を実現するとともに、ブルーム・フィルターによる中間結果を削減したことにより、空きメモリを確保。トータルコストの削減を図っている」と説明した。
Oracle MySQL HeatWaveは、2020年12月に発表。高速クエリ処理アクセラレーターによる高速な更新処理と、分析処理を単一のデータベースで実現している点を特徴としている。東京、大阪を含む、全世界37のすべてのOCI(Oracle Cloud Infrastructure)商用リージョンで利用でき、オラクルのMySQLチームにより、開発、運用、サポートされていることから、高い品質保証と、自動アップデートによる常にセキュアな状態を確保。オンプレミスのMySQLと完全互換であり、ロックインの心配がない点も強みとしている。
また、MySQL HeatWaveでは、高いパフォーマンスのクエリを実現する分散クエリ処理の最先端アルゴリズムを備えた超並列、ハイブリッド列指向のクエリ処理エンジンを採用。Oracle MySQL Autopilotにより、プロビジョニング、データの読み込み、クエリの実行などを自動化。時間の経過とともにシステムパフォーマンスを継続的に改善できる。
「インメモリ・カラムナ・アーキテクチャをベースに複雑なクエリ処理を高速化しており、TPC-Hによるベンチマークでは、Amazon Aurora 1100倍の性能を達成しており、2時間30分かかっていた処理を、8秒で処理する。これらの結果は、GitHubで詳細を公開している。そして、圧倒的なコスト効率化を実現しており、Amazon Auroraの3分の1以下になっている」と、梶山氏はコストコスト面での強みを強調した。
今回の発表にあわせて、新たにTPC-DSによるベンチマークを発表。費用対効果の比較において、Redshiftの4.8倍、Snowflakeの14.4倍、BigQueryの12.9倍、Synapseの14.9倍のメリットがあるとしている。
また日本オラクルは、コンシューマ向けゲーム機やスマートデバイス向けゲームの企画・開発・販売を行うジニアス・ソノリティが、同社が提供するゲームサービスのデータ分析基盤として、Oracle MySQL HeatWave Database Serviceを導入したことを発表。同社はユーザーのゲームプレイやサービス利用状況など、ゲーム内データを高速、リアルタイムに分析し、データに基づくゲーム体験向上に取り組むという。