日立製作所は7月22日、賛否が分かれる議題に対し、大量のテキストデータを解析し、肯定的もしくは否定的な意見の根拠や理由を英語で提示する技術を開発した。
開発された技術は、意見を述べる際に人やコミュニティに重要と考えられる健康や経済、治安などの価値に着目し、世の中の事象とそれぞれの価値との相関関係を用いて、大量のニュース記事から、より確実性の高い根拠や理由を抽出。複数の価値を基準にすることで、1つの側面に偏ることのない根拠や理由を提示する。
同技術は、人とコンピュータの論理的な対話を可能とする人工知能の実現に向けた基礎技術であり、将来、企業が持つ文書や公開されているレポート、病院の電子カルテなどを解析し、業務を支援するデータや意見を生成するシステムへの応用が期待されるという。
具体的には、「賛否の根拠や理由を抽出するための基準となる価値体系辞書の作成」「大量のテキストデータから事象と価値の相関関係データベースの作成」「抽出した根拠や理由となる可能性のある文について確実性の算出」「多数のアルゴリズムを非同期かつ分散的に実行するアーキテクチャの構築」を行う。
価値体系辞書の作成にあたっては、人やコミュニティが判断をくだす際の根本にある価値をリスト化するとともに、それらの価値と関係が深い単語をデータベースでの使用頻度に基づいて抽出し、価値に対してポジティブかネガティブかに振り分けた。
さらに、使用頻度に応じて重要度を付与することで、価値とそれに関連する単語を体系的に整理し、例えば、「健康」という価値においては、「運動」はポジティブ、「病気」「肥満」はネガティブなどのように単語の関連性を体系的に整理している。
事象と価値の相関関係データベースの作成にあたっては、大量のニュース記事の中で使用されているさまざまな文章の中から、記載されている事象がどのような価値をもたらしているかを抽出した。この手法により、約970万件のニュース記事から、約2億5千万からなる相関関係データベースを作成したという。
そのほか、価値体系辞書と相関関係データベースを活用して抽出した文を、引用元の記載や数値データの有無、使われている表現などの指標を用いて数値化することで、議題に対して関連性の高いものであるかどうかを判定する。根拠や理由となる可能性のある全ての文にこの処理を行い、数値を算出することで、より確実性の高い文を選出し提示することができる。
今回開発されたアーキテクチャは、1つのアルゴリズムを並列に分散処理するとともに、次のプロセスへの非同期な処理を行うことで、指定した時間内に根拠を抽出することができる。
なお同技術は、東北大学(総長:里見進)大学院情報科学研究科の乾・岡崎研究室の協力を得て開発された。