富士通研究所とアイルランド国立大学ゴールウェイ校の研究機関Digital Enterprise Research Institute、およびFujitsu Laboratories of Europe Limitedは3日、世界中で公開されている互いにリンクが張られたデータであるLinked Open Data(LOD)を格納し、一括検索するLOD活用基盤を開発したと発表した。
学術・政府系を中心に多種多様なデータがLODとしてインターネット上に公開されているが、個々のデータはそれぞれのWebサイトで公開されており、どこにどのようなデータがあるかを把握することが難しいという課題があった。
今回、数百億項目にもおよぶLODを格納し、従来比5~10倍となる高速な検索アルゴリズムにより、格納データを標準的なAPI(Application Programming Interface)で一括検索できるLOD活用基盤を開発した。
データを一元的に収集した場合、リンクによって作られる巨大なデータ構造を取り扱う必要があり、単にデータ量が増加するだけでなく、複雑化するデータのリンク構造を高速に検索する技術の実現が課題であった。特にデータの中からリンクが張られている共通の項目を検索するような場合、膨大なデータを総当たりで照らし合わせる処理(突き合わせ処理)が必要となり、性能劣化の要因となる。
今回、このような突き合わせ処理が必要となる検索処理に対し、LODに特化した分散処理とキャッシュ機構を組み合わせることにより、従来比5~10倍の高速化を実現。具体的には、検索条件を調整し、各スレーブサーバで部分的な突き合わせ処理(1次)を行い、マスタサーバでの突き合わせ処理(2次)の負荷を軽減することで、全体での処理時間を短縮。また、一部のノードにリンクが集中するといったLODのリンク構造の特徴と過去の利用頻度から、突き合わせ処理時にアクセスが集中するデータのみを効率的にキャッシュするアルゴリズムにより、ディスクアクセスの回数を抑えることで高速検索を実現した。
また、リンク情報を含めてデータを可視化する検索インタフェースにより、アプリケーションに必要なデータを視覚的に探索できる機能を開発。これにより、アプリケーション開発者が個々のWebサイトを探しまわることなく、欲しいデータを即時に入手し、利用可能にした。
オープンデータの利活用事例として、同技術および同技術を利用して開発した企業分析アプリケーションの詳細を、4月16日からアイルランド・ダブリンで開催される国際会議「XBRL 26」にて紹介する。
同研究所では、今回開発した技術をクラウド上に実装したLOD活用基盤を、世界に先駆けて無償公開し、オープンデータの利活用を推進するとしている。