Microsoftは6月7日(現地時間)、Apache Spark用機械学習ライブラリー「Microsoft Machine Learning for Apache Spark(以下、MMLSpark)」を公式ブログで発表した。ソースコードはGitHub上で公開しており、ドキュメントやサンプルコードも用意している。
オープンソースのクラスターコンピューティングフレームワークであるApache Sparkは、大量のデータを複数サーバーによる並列分散処理で、任意の処理結果を得られるため、大規模データ処理分野で広く活用されてきた。MicrosoftはMMLSparkを利用することで、「データサイエンティストは、文字列の索引付けなど低レベルAPIを使わなければならず(本来の目的と異なる部分で)苦労している。(本ライブラリーはApache Sparkを実行するPython APIの)PySparkを通じてモデル構築や処理の簡素化を実現し、生産性向上や実験時間の短縮、機械学習技術を大規模なデータセットに活用できる」と説明している。
MMLSparkは、文字列やカテゴリーなど各種データを処理するために一貫性を持つAPIを提供する。例えばトレーニングに用いるデータに複数要素が含まれている場合、文字列のトークン化や数値への変換といった処理が必要だが、MMLSparkはデータを渡すだけで処理を自動化し、パイプラインの再コーディングを必要としない。具体的な利用シナリオとしてMicrosoftは、深層学習やGPUノードでのトレーニング、拡張性を持つ画像処理パイプラインなどを挙げている。
阿久津良和(Cactus)