KDDI研究所は9月13日、独立行政法人情報通信研究機構からの委託研究である「インターネット上の違法・有害情報検出技術の研究開発」の成果の一部として、Webサイトの背景色やリンク先など有害サイトに特有な外形的特徴をとらえることで有害サイトを高速・高精度に検出する技術を開発したと発表した。

同技術が開発された背景には、現在主流のコンテンツフィルタリングシステムのリスト方式では、「URLリストのデータベースの管理に要するコストの増大」や「有害Webサイトと無害Webサイトが同じURLドメインに存在する場合による判定精度の低下」といった課題があるともに、Webサイト内の単語から有害Webサイトを検出する文書解析方式や画像の特徴を解析することで有害な画像を検出する画像解析方式は高精度な検出を行うために処理時間がかかるという課題を有することがある。

同技術は、背景色、リンク先やブラウザに特定の動作をさせるスクリプトなど、WebサイトのHTMLを解析することで、有害サイトに特有な外形的特徴を自動的に学習して検出することを可能にする。

加えて、従来の文書解析方式では1万個の特徴が必要だったのに対し、外形的特徴に基づく同方式では26個の特徴を用いるだけで90.3%の精度で有害サイトを検出することができる。また、処理速度も従来の文書解析方式と比較して、3倍以上を実現している。

Webサイトの外形的特徴のみを用いて有害サイトを検出する技術の仕組み