Xeroxは20日(現地時間)、Xeroxに所属する研究者が新しい文書検索ソフトウェア"FactSpotter"を公開したと発表した。FactSpotterは従来の"キーワード"検索を越え、あたかも「砂浜で1粒の砂金を見つけ出すように指し示す(spot)」技術だとという。

特定の情報を含む文書を検索するのは、現在もオフィスワーカーが労働時間の多大な部分を割く作業となっており、この効率改善がさまざまな形で取り組まれている。この問題に対し、Xeroxの研究者であるFrederique Segond氏は、より多くの文書を「掘り下げ」、語と文脈の意味を解析し、日常語による問い合わせが可能な新技術を生み出し、"FactSpotter"の開発を支援した。Segond氏は仏グルノーブルのXerox Research Center Europe(Xeroxヨーロッパ研究所)でパーシングとセマンティクスに関する研究を統括している。

FactSpotterは強力な言語学エンジンと使いやすいインタフェースとを備えるため、誰もが日常語を使って検索を実行することができる。従来のエンタープライズサーチツールとは異なり、FactSpotterはクエリに含まれるキーワードを探すだけではなく、その語が含まれる文書の文脈も精査する。たとえば、文書の中から"Angelina Jolie(アンジェリーナ・ジョリー、女優)"を探す場合、FactSpotterでは検索結果としてフルネームが使われている箇所だけではなく、代名詞"she(彼女)"が使われている部分も含めて返すことができる。

Segond氏は、「我々の先進的なサーチエンジンは、今日の典型的な"キーワード"検索や現状のデータマイニングソフトウェアを凌駕している。これらはキーワードの出現に依存しているため、関連する文書のうちの40%程度しか見つけることができない。FactSpotterは文書内を深く探求して"概念"を抽出し、その関係性を調べるため、より正確な結果が得られる。文脈を"理解する"ことで、FactSpotterは検索を実行したユーザーが求める適切な情報を返し、文書内の"回答"の場所を正確にハイライトする」と言う。

FactSpotterはXeroxが取り組む"Intelligent document technology"研究の一環である。Xeroxでは、FactSpotterを2008年中に同社の"Xerox Litigation Service"(訴訟関連サービス)に加える計画だ。このサービスには、法令や規則への適合(コンプライアンス)を支援するための"e-discovery"サービスも含まれる。

膨大な量のデータから情報を簡単に引き出せることから、用途として判例検索やセキュリティログ検索、新薬開発やリスクマネジメントなど、さまざまな応用が想定されている。 FactSpotterの技術的な特徴として、

  • 新たなインタフェースを採用し、ユーザーは「コンピュータの論理」ではなく、日常使用している言語による自然な問い合わせ文で検索を実行できる。従来の検索エンジンでは、ユーザーの入力を単語に分解し、単にこれらの単語を含んだ文書を見つけるだけである。
  • 従来の検索エンジンは、検索結果として文書全体を返し、そこから関連する情報を見つけるのはユーザーの手作業に任せていたが、FactSpotterは検索の結果見つかった文書からさらにクエリに関連する特定部分だけを抽出して返すことができる。
  • FactSpotterは近隣の語句の固まりだけでなく、文書全体の文脈を把握する。このため、「関連」検索を文または段落の単位で実現できる。
  • FactSpotterは抽象概念を理解する。たとえば、「人々(people)」や「建物(building)」といった語の意味を理解し、こうした語が指し示すカテゴリに属する他の語を検索結果として抽出することができる。

といった点が挙げられている。

自然言語解析の技術に依存する部分が多いように思えるので、日本語対応が可能なのかどうかが気になるところだ。また、用途としては法律の条文や判例集から必要な情報を見つけ出すという用途が重視されているようなので、こうした文書に特有の語法に最適化されていることも考えられる。自然言語解析技術を踏まえた関連情報検索ということでは、日本語を対象にジャストシステムがConceptBaseを製品化するなど、先行する取り組みもいくつかある。こうした先行技術との比較にも興味を惹かれるところだ。