「Apache Tika 1.2」リリース - 対応ドキュメントの強化など

The Apache Tika toolkit detects and extracts metadata and structured text content from various documents.

The Apache Tikaプロジェクトは17日(グリニッジ標準時)、Apache Tikaの最新版となる「Apache Tika 1.2」を公開した。Apache Tikaは、Javaで開発されたドキュメント分析およびメタデータ抽出ツールキット。さまざまなドキュメント形式に対応しており、対象データからメタデータの抽出を実行できる。以前はApache Luceneのサブプロジェクトだったが、2010年にApacheソフトウェア財団のトッププロジェクトに昇格している。

Apache Tika 1.2ではApache CXFに基づくJAX-RS実装のネットワークサーバモジュールの導入、XMPメタデータを取り扱うための新たなサポートなどが加わっている。また、ファイルフォーマット周りも強化されており、KML(Keyhole Markup Language)ドキュメントの基本サポート、XZやPack200といったアーカイブ/圧縮フォーマット、iWorkファイルからのデータ抽出の改善、FITS(Flexible Image Transport System)ファイルの検出、OLE2オフィスドキュメントからのリソース抽出の向上などが行われている。

Apache TikaはApache License 2.0のもとオープンソースで公開されており、Apache Tika 1.2はプロジェクトサイトのダウンロードページより取得できる。