独立行政法人情報通信研究機構(以下、NICT) けいはんな研究所知識創成コミュニケーション研究センターは8月9日、日本語Webページを対象としたWeb情報分析システム「WISDOM(Web Information Sensibly and Discreetly Ordered and Marshaled)」を開発し、サービス提供を開始したと発表した。誰でも無償で利用することができる。

WISDOMの検索結果。意見・評価タブでは、肯定意見が掲載されたWebサイトと否定意見が掲載されたWebサイトが分類されて表示される

WIDOMは、5億を超える日本語Webページを対象に、任意の話題に対して外観、発信者、内容という3つの観点からの分析を行う情報分析システム。NICTが開発した、以下の3技術が使用されている。

  • 情報発信者分析技術 : 「情報発信者抽出技術」と「情報発信者専門性分析技術」から成る。情報発信者抽出技術は、Webページを発信しているサイトの運営者やページ内のコンテンツの著者を自動的に抽出する技術で、情報発信者専門性分析技術は、ある情報発信者の特定のトピックについての専門性を分析し、専門性の高い順に順位付けする技術
  • 評価情報抽出技術 : 「この商品は優れている」、「あの制度には反対だ」というような意見や評価を自動的に抽出し、それが肯定的か否定的かの評価極性を判定する技術
  • 主要・対立・対比情報抽出技術 : 与えられたトピックに関してWeb上で主にどのようなことが言われているのか、さらに、それに対立、対比されていることがあるのか、ということを抽出する手法

使い方は、調べたいキーワードやセンテンスをWISDOMのWebサイトで入力するだけ。例えば「電気自動車は環境に良い?」といった文章で検索をかけると、電気自動車に関するWebサイトの一覧に加えて、肯定意見や否定意見、情報発信者の種別/割合などへのリンクもカテゴリ分けされて、グラフとともに表示される。

WISDOMのレポートタブ。分析結果がグラフで表示される

NICTでは、推薦の言葉としてNICTの元理事長で現在 国立国会図書館 館長を務める長尾真氏の意見を掲載。氏は、「グーグル検索に何が欠けているかを、私がNICTの理事長をしていたときにいろいろと考えた。そこで浮かび上がってきたのは、検索上位の情報がどこまで信頼できるものであるか、それらに対立するような情報がロングテールのどこかにないかどうか、といったことを自然言語処理技術で明らかにすることであった。そこで早速プロジェクトをスタートさせたが、それが今回のWISDOMという世界に類例のない素晴らしい成果となったことは誠に喜ばしい。多くの人に使ってもらいたいものである」とコメントしている。