富士通研究所は10月20日、人やモノのつながりを表現できるグラフ構造のデータに対して高精度な解析を可能とする機械学習技術「Deep Tensor(ディープ テンソル)」を開発した。

今回、画像や音声では極めて高い認識精度を達成している既存のDeep Learning技術をグラフ構造のデータにまで適用可能な新技術を開発した。グラフ構造のデータは、構造が複雑であり、大きさや表現方法など多様なデータが混在しているというが、最先端の数学を活用してテンソルと呼ばれる統一的表現に変換することで、Deep Learning技術を用いてグラフ構造のデータを高精度に学習することが可能となる。

具体的には、多様な表現形式を持つグラフ構造のデータを、ベクトルや行列を拡張したテンソルと呼ばれる数学表現を用いて表現。これを最先端のデータマイニング技術であるテンソル分解と呼ばれる数学的操作を用いて統一的な表現形式に変換する。従来は、類似するグラフ構造のデータを、必ずしも類似するテンソル表現に変換することができなかったが、今回、基準となる任意のパターンとの類似度を最大にするようにテンソル分解を行う技術を開発した。

同技術によるグラフ構造データの分類

また、ニューラルネットワークの学習過程で通常用いられている誤差逆伝搬法の適用範囲をテンソル表現まで拡張することにより、分類精度を最大化するように統一的表現も同時に最適化する。具体的には、基準となるパターンを変化させたときのニューラルネットワークの分類誤差の変動の大きさからテンソル表現の基準パターンを更新する。

ニューラルネットワークの学習と統一的表現の最適化

同技術を用いて、化合物のオープンなデータベースPubChem BioAssayのデータをもとに化合物の構造と活性の学習に適用したところ、従来技術の約100倍となる数10万種規模の化合物の構造と個々の活性の関係を学習することができ、既存技術では捉えきれなかった特徴が抽出されたことにより、既存技術に比べ約10%向上となる、約80%の活性予測精度を達成した。今後、これらを活用して、コンピュータやIoT機器などの通信ログ、金融取引、化学組成など、新たな分析ができるようになるという。