ガートナー ジャパンは5月23日~24日、年次カンファレンス「データ&アナリティクスサミット 2017」を都内にて開催した。「予測起点でビジネスを加速する ~機械学習を自動化するプラットフォーム『DataRobot』~」と題して行われたセッションには、新日鉄住金ソリューションズ(以下、NSSOL) ITインフラソリューション事業本部 事業企画推進部 エキスパート 長谷川 祐介氏と同社 ITインフラソリューション事業本部 寺田 洋介氏が登壇。今、注目を集める機械学習プラットフォーム「DataRobot」の解説とデモを行った。
DataRobotの「3つの特徴」と得意分野
NSSOLは2016年7月、国内システムインテグレーターとして初めてDataRobotの提供を開始した。DataRobotは、機械学習における「モデルの作成」と「モデルの実環境への配備」を自動化するソフトウェアである。
機械学習では、どのようなアルゴリズムを用いてどうモデルを作成するかが大きな課題になる。そうしたノウハウを持つのがいわゆるデータサイエンティストだが、企業がデータサイエンティスト人材を採用したり、育成したりすることは容易ではない。また、データサイエンティストの下で機械学習を活用している企業であっても、モデルの作成や精度の向上には試行錯誤が必要で、データをビジネスに生かすためにはかなりの時間を要するのが現状だ。
そんななか注目を集めているのがDataRobotだ。長谷川氏は、DataRobotが「より良い予測を、より速く」をテーマに開発されたソフトウェアであり、大きく3つの特徴があると説明する。
新日鉄住金ソリューションズ ITインフラソリューション事業本部 事業企画推進部 エキスパート 長谷川 祐介氏 |
1つは、世界トップクラスのデータサイエンティストのノウハウが詰まった高精度な予測モデルを自動的に生成できることだ。
「60万人以上のユーザーが参加する世界的なデータサイエンスコンペサイトに『Kaggle』があります。製品を開発するのは、その上位ランカー集団です。共同創業者のCEOとCTOをはじめ、8名が世界的なデータサイエンティストとして知られています」(長谷川氏)
予測モデルは、1,000種類以上のブループリントから30種類ほどを抽出し、自動的に作成される。通常、こうしたモデルは、データサイエンティストがさまざまなアルゴリズムを試しながら作り上げていくが、DataRobotはその作業を自動化してくれるのだ。さらに精度の高いモデルを組み合わせ、より精度の高いアンサンブルモデルを自動的に作成するといった機能も備える。
2つ目の特徴は、徹底的な自動化による効率化と生産性向上だ。
「ワンクリックで高精度な予測モデルを作成し、ノンプログラミングで予測モデルが使用可能になります。とても簡単なので『レンジでチンする機械学習』と呼んでいます」(長谷川氏)
モデル作成工数は最短3クリックで、作業時間は数時間で済むという。アルゴリズムの選択に高度な知識は不要で、モデルのパラメータチューニングは自動。モデルのコーディングも不要で、クリックするだけでデプロイできる。多彩なAPIを備え、さまざまな業務アプリケーションに組み込んで利用することが可能だ。
3つ目の特徴は、「なぜそのモデルを選択したのか」などのモデルのグレーボックス化・可視化の機能が充実していることだ。モデルを自動生成するソフトウェアはほかにもあるが、予測結果の理由は説明されない。だが、DataRobotは「リーズンコード」と呼ぶ機能で、その理由を明らかにする。
「例えば、会員の離脱を判定する場合、通常の予測モデルでは『離脱する』ことしか予測してくれません。これに対し、DataRobotは『離脱する。なぜなら○○で××だから』というところまで予測してくれるのです」(長谷川氏)
一般にデータサイエンティストに求められるスキルは、「IT」「統計学・計算機科学」「業務知識」の3つだと言われる。DataRobotは、これらのうち、ITや統計学・計算機科学を機能として提供する。これにより、DataRobotをデータサイエンティストの代わりに活用したり、既存のデータサイエンティストがより自分の業務の応用にフォーカスしたりといったことができるようになる。
もちろん万能ではない。DataRobotが得意とするのは、教師データ(正解データ)が必要な「教師あり機械学習」と呼ばれる領域で、問題の種類もYes・Noを当てる2値分類問題や、数値を当てる回帰問題が中心となる。とはいえ、こうした問題の予測は、あらゆる業務に適用することができる。既に国内では6社が導入済みで、業種も、メディア、家電、Webサービス、製造業、カード会社、ITと多岐にわたっている。
「機械学習はデータを取得できる全ての業務に適用可能です。製造業を例に取れば、製造時の故障予知、品質予測、試験結果予測があります。販売時の需要予測、顧客へのレコメンデーション、QA効率化、社員のパフォーマンス予測などでも活用できます」(長谷川氏)