IIJイノベーションインスティテュート(IIJ-II)は6月12日、同社のクラウド技術「Project Gryfon」の応用事例として、Wikipediaの人気記事ランキングシステムを構築し、本日一般に公開した。

Wikipedia人気記事ランキングシステム

オンライン百科事典サービスWikipediaは、記事の自由な複製・改変を認められていることから、その辞書データが自然言語処理やテキストマイニングといった研究分野で広く活用されている。

IIJ-IIでは、この辞書データをテキストマイニング系ビッグデータ解析における基礎データとして活用し、クラウドアプリケーション向けプラットフォームとして開発を進めているProject Gryfonの技術を応用した事例として、Wikipedia人気ページを収集・集計するランキングシステムを構築した。

本システムでは、日本語版Wikipediaのデータ(約171万ページ/2013年5月末時点)について、1時間ごとに各ページビュー情報を取得し、アクセス数が多いページを順に表示している。また、前日のデータ集計を基にしたカテゴリ別のランキングを、「急上昇TOP 10」「アクセス数TOP 10」「平均アクセス数TOP 10」などで分類したり、トラフィックの推移をグラフ化したりすることができる。

IIJ-IIでは、本システムでの成果を踏まえ、より効率的にビッグデータを解析するためのプラットフォームの開発を進めるとともに、その応用範囲を拡大していくという。