NTTは12月7日、ネットワークやグラフを含む関係データ(例:ユーザの商品購買歴などの行列データ)解析のための機械学習技術として、事前にモデルの構造やパラメータが与えられない場合でもデータ駆動的に最適化して学習し、データをクラスタリングする手法を実現したと明らかにした。
課題に応じて学習モデルの規模やパラメータの調整が必要
現在の統計的機械学習は、膨大な量のさまざまなデータを大規模なパラメータを持つモデルで解析することができるようになっているが、多様な量・特性のデータに対して有効な汎用学習モデルを設計することは難しく、一般に入力データや解きたい課題に応じて学習モデルの規模やパラメータの調整が必要となっている。
また、モデルの調整は職人芸的な技巧や膨大な労力を必要とすることもあり、与えられたデータに合わせてモデルの規模やパラメータを自動的に調整する手法の需要が高まっている一方、我々が解析の対象とするデータの形態もまたより複雑になってきている。
例えば、ユーザと購買商品をそれぞれ行と列に取った行列形式のデータは関係データと呼ばれ、その中に現れる特徴的な性質を捉えることは、ユーザへの商品推薦システムの効率化などで活用されているほか、ソーシャルネットワーキングサービスにおいて、行と列に利用者を並べて利用者間のつながりを表現する隣接行列データと呼ばれるデータの解析は、ネットワークの持つ特性を理解することに活用される。
そのため、複雑なネットワークや関係データに対する解析技術が求められており、そこで同社は事前に特定のモデルやパラメータが与えられない場合でも、これらをデータ駆動的に最適化して、ネットワークやグラフを含む関係データ(ネットワーク・関係データ)をクラスタリングするデータの解析技術の研究開発を行っている。
あらゆる組み合わせ候補を生成できる新しい確率的生成モデル
ネットワークやグラフなどの二次元配列データを、互いに類似するデータが集まっている長方形の領域(長方形クラスタ)に分割することは、データ解析の基本的な手法の1つとなっている。
今回の成果では、任意のサイズのデータに対する長方形分割クラスタリングにおいて、あらゆる組み合わせ候補を生成できる新しい確率的生成モデル(確率的無限長方形分割モデル)を考案し、これを用いることで、長方形クラスタの分割数やそれぞれの大きさなどのモデルパラメータを従来よりも分割パターンに関する制約が少なく、かつ実現可能な時間内でデータ駆動的に最適化できる機械学習技術を実現したという。
従来、ネットワーク・関係データからのデータ駆動型の長方形分割クラスタリング手法の多くでは、解析の結果得られる組み合わせ候補に何らかの制約を設ける必要があり、例えば候補を生成する際にサイズが不規則な碁盤の目のように、格子状の領域に限って分割する手法(regular grid partitioning)や、データを大きなサイズの長方形に分割したのちに段階的に小さなサイズの長方形に分割するような手法(階層的分割)が提案されているが、これらの手法では生成できない組み合わせ候補が存在すると、同社は指摘する。
一方、提案する手法ではあらゆる長方形分割の候補を生成できることが理論的に保証されており、同社は同等の能力を持った解析技術を2014年にも提案しているが、実装が複雑で多くの計算時間が必要だった。
今回の手法では、2014年の手法と比較して実装が簡単になり、ベンチマークデータ課題に対する計算速度は2014年の手法を上回ることが実験的に確認されており、一例として入力データの要素数が25万のとき、提案手法では2014年の手法に対し、同等の予測精度に達する計算時間が約半分に短縮された。
同手法は入力データに対して、あらゆる長方形分割クラスタリングの候補をベイズ推論することで解析結果を得ることができるため、同手法を用いたデータ解析では事前にモデルやパラメータに特定の条件を与える必要がなく、このような事前の知識・条件設定が不要である提案手法は、AIが人間の脳のように多様な状況に合わせて自律的に適応する、自律的AIモデルを実現する可能性を広げたと言えるという。
成果のポイントとは
今回の成果のポイントは、二次元配列(行列)の長方形分割に対して、任意のサイズの行列に対してあらゆる長方形の組み合わせ候補を生成できる、新しい確率的生成モデルを発見したことにあり、同モデルの構成にあたっては組み合わせ論の世界で発見された長方形分割の重要な性質を利用している。
長方形分割は、一見すると図形の操作を扱う幾何学的な問題のように捉えられるが、各長方形クラスタのサイズを不問とすると、それは見取り図分割と見なすことができることに加え、見取り図分割の各長方形クラスタに対して特別な手順によって数字を割り当てると、各見取り図分割に対して一意に定まるバクスター順列と呼ばれる特別な数字列を一対一に対応させることができる。
結果として、ありとあらゆる長方形分割がバクスター順列と各長方形クラスタのサイズという2つのパラメータを表す数字列により、過不足なく取り扱うことができるようになったという。
今回の成果では、先述の長方形分割、見取り図分割、バクスター順列の間の関係(図3)を利用してデータ解析へ適用可能な長方形分割の確率的生成モデルを構成し、まずはあらゆるバクスター順列を過不足なく取りつくすことのできるような確率的生成モデルを構成、次にバクスター順列に対応する見取り図分割から長方形分割へ変換するための確率的なアルゴリズムを構成した。
その結果、任意のサイズのデータに対する長方形分割クラスタリングにおいて、今回の成果において提案する確率的生成モデルが、あらゆる組み合わせ候補を生成できることを理論的に保証できた。同モデルは、モデル自身の構造やパラメータをデータ駆動的に調整して、入力されたネットワーク・関係データを最適にクラスタリングできるという。
将来的にネットワーク・関係データに対するデータ駆動型の解析技術は、さまざまな機械学習・人工知能技術へ積極的に導入されていくことが期待されており、例えばソーシャルネットワーキングサービスから得られる複雑で大量のデータ解析において、エンジニアによる学習モデルの高度な調整を補助するような活用が考えられる。また、ニューラルネットワーク深層学習における学習済みネットワークからの知識獲得や、データ・アプリケーションに最適なネットワーク構造の設計を補助する場面において利用の可能性もある。
さらに、複雑なデータに対するデータ駆動型の解析技術は長期的な機械学習・人工知能の研究開発の発展において、人間の能力に迫るとともに人間を超えるような人工知能の実現に向けて今後より一層その重要性が増していくと考えられるという。
例えば、現在ニューラルネットワーク深層学習技術は、さまざまな課題において人間に迫る能力を示すようになりつつあり、そのネットワーク構造は当初、人間の神経細胞ネットワークからの類推で設計されていたが、徐々にデータ・アプリケーションに応じた固有の構造に発展しつつある。
データ駆動型のデータ解析技術は、モデル構造自身をデータから積極的に学習できます。近い将来、人間が一生かかっても体験することのできないような膨大なデータを機械が学習できるようになった際には、提案技術を利用することで、人類とは違った進化を遂げた人工知能が生み出される可能性があります。