NECは5月26日、都内で記者会見を開き、人工知能(AI)によりビッグデータに混在する多数の規則性を発見する技術「異種混合学習技術」を基に、超大規模データから分散コンピューティングシステムで予測モデルを生成する機能を強化し、開発した「分散版異種混合学習技術」の説明を行った。

NEC データサイエンス研究所主席研究員の藤巻遼平氏

異種混合学習技術はビッグデータの分析・予測において曜日や天気などの条件によるデータの「場合分け」や「因子の組み合わせ」を自動で発見する技術だ。同技術についてNEC データサイエンス研究所主席研究員の藤巻遼平氏は「特徴としてデータの場合に応じて最適な予測式を適用するため、高精度の予測ができるほか、膨大な予測モデル候補から複数の規則性と、それが成立する条件を自動的に導き出す点だ」と語る。

そのうえで同氏は「顧客が異種混合学習技術を使い、ビジネス的な価値を得ている中で超大規模データへのニーズが高いが、同技術では計算に時間を要し、1台のマシンではデータが乗らないという課題がある。分散型異種混合学習技術は異種混合学習技術のアルゴリズムを多くのサーバで分散処理し、その組み合わせ方を統合することで最適なモデルを作成する」と新技術の開発に至った経緯などを説明した。

異種混合学習技術の概要

異種混合学習技術の課題点

分散版異種混合学習技術は分散されたコンピュータ上でそれぞれ異種混合学習で分析を行うとともに全体の整合も行えるため、コンピュータの台数を増やすことでデータの規模に制限なく予測モデルを生成できる。例えば大手金融機関の残高予測や規模通信事業者の解約者予測など、数千万件以上のサンプルによる超大規模データの分析が可能だ。

分散版異種混合学習技術の概要

特徴としては、分散コンピューティングシステムに適応したアルゴリズム開発と、分散コンピューティング基盤のApache Sparkに適合した実行用ソフトウェア開発の2点が挙げられる。

藤巻氏は分散コンピューティングシステムに適応したアルゴリズムついて「複数のコンピュータの上で動作し、ほかのコンピュータを管理する『driver』と具体的な個別計算を行うサーバの『executer』となる。今回、新しく開発した技術はexecuterが全体のデータの一部分を学習し、局所的に異種混合学習のモデルを学習する。そして、executerが学習した結果をdriverに統合することで、全体として最適となるモデルの作成が可能となる。これにより、executerを増やせばCPUやメモリの量も増やせるため、大規模データでも高速処理が実現できる」と述べた。

分散コンピューティングシステムに適応したアルゴリズムの概要

また、Apache Sparkに適合した実行用ソフトウェアは、すべての分析対象データを一度各コンピュータのメモリ上に分散配置した以降は、再配置や再読み込みを行うことなく、分散版異種混合学習アルゴリズムを実行。これにより、通常はコンピュータの台数増加によって頻度が増す分析対象データの通信やディスク読み込みが不要となり、Sparkの特徴である分散メモリ上での計算性能が最大限に発揮されるため、高速にアルゴリズムを実行できるという。

同氏は「データ分析者が実行命令を出し、driver - executor間の通信や分散計算の管理などはSparkが実行し、分散版異種混合学習技術はSparkの性能を最大限に引き出すようなソフトウェアを実装している」と説明した。

Apache Sparkに適合した実行用ソフトウェアの概要

NECでは新技術を用い、日本国内に設置された2万台のATMの残高を推定する実証実験を行い、2300万件の学習データサンプルを使用し、計算機環境として10台のコンピュータ、総CPUコアは128、総メモリ量は2.5TB。結果として、従来と比べて学習速度が約110倍高速化し、予測精度も17%向上したという。

NEC データサイエンス研究所所長の山田昭雄氏

NEC データサイエンス研究所所長の山田昭雄氏は「われわれの人工知能技術開発で分析における強み、こだわりは人間に対して理解を促すことが可能な『説明力』だ。社会システムで、例えば電力系のシステムを考えた時に機械が発電所3カ所を停止しろと指示した場合、人間は納得して行動できない。機械が正しいと認識しても、その根拠がどういったものなのか判断できない限りは人間は決定を下せない。そのような傾向が社会システムにはあり、結果が出ているから『従え』ではなく、分析結果を説明できる技術で、これまで電力需要予測や小売商材需要予測などを行っていた『異種混合学習技術』は今回の新技術のベースになっている。近年では、都市全体の需要予測や多数店舗の仕入れ最適化など、大規模環境への応用ができないかというニーズがあり、新技術はそのようなニーズに対応していくものとなる」と力を込めた。

最後に藤巻氏は「分散版異種混合学習技術により、これまで困難だった数千万サンプル規模のデータを異種混合学習で分析可能とする。将来的にメモリ利用効率の改善やクラウド上のマイクロクラスタに適応するなどの改善を実施することで2017年度の実用化を予定し、金融機関やテレコムキャリア、製造業、リテール分野などへの展開を想定している」と今後の展望に期待を寄せた。