「RapidMiner」は、GUI上で簡単にデータの「可視化」「前処理」「機械学習」が行えるツールです。前回の基礎編では、データの取り込みや可視化、前処理、モデル作成などの基本的な操作方法を紹介しました。
今回は新機能編として、より簡単・便利にデータ分析を可能にする新機能や、導入に適した事例を紹介します。
Auto Model:クリック操作だけでモデルを作成・比較
基礎編では、手動で分析フローを組んでいきました。これだけでもプログラミングが不要で簡単なのですが、新機能「Auto Model」を活用すると、ウィザード的なクリック操作だけで、一連の分析フローを自動的に作成し、精度の比較まで可能にしてくれます。
機械学習にあまり詳しくない方にとって大いに役立つ機能であり、また、ある程度詳しい方にとってもモデル作成時の"あたり"をつける上で便利な機能です。
(1)学習方法の選択
では具体的な操作を説明していきます。まず、実行したい学習方法を「予測」「クラスタリング」「外れ値識別」の中から選びます(図1)。例えば、"教師あり学習"で"予測"する場合は、"目的変数"となる行(予測したい値)をクリックすると、オレンジ色で目的変数が設定されます。
(2)説明変数の選択
次に、「NEXT」のボタンをクリックすると、"説明変数"の選択画面に移ります(図2)。
Auto Modelでは、説明変数における要素「相関性」「欠損値の割合」「値がほぼ全て異なる」「値がほぼ全て同一」などを自動的に認識し、予測に有効な変数かどうかを判断します。
その判断結果は、「Status」の項目で一目で確認できます(緑色=有効、黄色=中立、赤=有効ではない)。通常の機械学習では、変数が増えると、一つ一つの変数を選択して評価する手間が必要になりますが、Auto Modelではこの作業が自動化されます。
(3)アルゴリズムの選択
最後に、アルゴリズム(Models)を選択します(図3)。学習方法が"教師あり学習"の"予測"であれば、分類や回帰のアルゴリズムが自動的に選択肢として表示されます。同様に、学習方法が"クラスタリング"であれば、"教師なし学習"のアルゴリズム群が自動的に表示されます。
ここでは、精度を比較するために、複数のアルゴリズムを選択できます。さらに、機械学習の中でも特に難易度の高いパラメータ調整を自動化する機能もあり、予測精度を向上させることができます。
(4)精度の比較
Auto Modelでは、分析フローの作成を自動化するだけではなく、複数の評価指標から作成したモデルの精度を比較できます(図4) 。 また、各モデルの詳細な結果も確認可能です。例えば、Tree系のアルゴリズムであれば、その決定木の構造を確認できたり、アルゴリズムによっては変数の重要度をランキングで表示できたり、予測時の変数の寄与度を確認できたりします。
(5)作成したモデルのフローの確認
なお、自動モデル作成のツールでは、作成したモデルのフローがブラックボックス化になりがちですが、Auto Modelでは、自動で作成されたモデルのフローを「Open Process」機能で確認することが可能です(図5)。中身は複雑になりますが、モデルのフローを調べるには必要な機能です。
Turbo Prep:直感的操作でデータを前処理
ここまで、Auto Modelによる分析モデル作成の自動化を説明してきました。その一方で、データの前処理も重要で、データ分析工程の約8割を占めると言われています。
基礎編で紹介したように、手動で、「Design」画面の「Operator」からデータ加工方法やアルゴリズムを選択・組み合わせて前処理することも可能です。しかし、Operatorには多くの処理方法を含んでいるため、実装したい処理を探すことは、慣れない人には難しい作業です。
これに対して、新機能である「Turbo Prep」では、データを見ながら直感的にデータの前処理操作が可能です。変数同士の掛け合わせや、リネーム、マージなどのさまざまな前処理が可能です(図6)。
モデルを実装する最新機能
先日、最新機能である「Deployments」が公開されました。モデルを作成すると、実データで予測を行いたいというニーズがあります。Deploymentsは、実際にモデルを実装・運用可能にする機能です。
具体的には、データベースのデータソースに直接接続して、未知のデータに対してモデルを実装するほか、実装中の複数モデルによる予測精度の比較、複数モデルの管理、異常値を認識した際のアラート、Webサービスと連携した予測結果のフィードバックなどが可能です(一部の機能に関しては、RapidMinerのサーバライセンスが必要です)。
AI・機械学習は、モデル作成から実装のフェーズに移ろうとしていますが、これに合わせてRapidMinerも進化を続けています。
RapidMinerが"刺さった"事例
最後に、実際にRapidMinerを高く評価いただいた事例を紹介します。
製造業のお客様では、製品の不良品判定、製造品質の改善、設備保全を目的としてデータ分析するケースが多くあります。しかし、取り扱うデータが製造現場の独自のものであることから、プロジェクトを外部に委託することが困難です。そこで、データを扱える人を現場で育てたいという需要がありますが、製造現場を支えることが本来の仕事であり、データ分析のためにプログラミングを習得するにはハードルが高いという課題があります。
こうしたお客様には、プログラミングが不要なRapidMinerが深く刺さるケースが多くあります。
そのほか、同様の動機から、企業のマーケティングや働き方改革のためのデータ分析にも使われています。
ここまで、基礎編・最新機能編と、2回にわたってRapidMinerを紹介してきました。RapidMinerは、今までBIツールやエクセルでデータを可視化・活用していた方が、データ分析のフェーズに進む際に有用なツールと言えるでしょう。
著者プロフィール
伊藤 千輝
ネットワンシステムズ株式会社
ビジネス開発本部 第1応用技術部
2016年にネットワンシステムズに新卒で入社。学生時代に学んだAI技術・データサイエンスを生かし、産学連携の推進やデータ分析・機械学習に関連するコンサルティング・製品販売・教育に従事。他にも、製造業のスマートファクトリー実現に向けた製品の技術検証やプリセールス活動を担当している。