The Apache Tika toolkit detects and extracts metadata and structured text content from various documents. |
The Apache Tikaプロジェクトは17日(グリニッジ標準時)、Apache Tikaの最新版となる「Apache Tika 1.2」を公開した。Apache Tikaは、Javaで開発されたドキュメント分析およびメタデータ抽出ツールキット。さまざまなドキュメント形式に対応しており、対象データからメタデータの抽出を実行できる。以前はApache Luceneのサブプロジェクトだったが、2010年にApacheソフトウェア財団のトッププロジェクトに昇格している。
Apache Tika 1.2ではApache CXFに基づくJAX-RS実装のネットワークサーバモジュールの導入、XMPメタデータを取り扱うための新たなサポートなどが加わっている。また、ファイルフォーマット周りも強化されており、KML(Keyhole Markup Language)ドキュメントの基本サポート、XZやPack200といったアーカイブ/圧縮フォーマット、iWorkファイルからのデータ抽出の改善、FITS(Flexible Image Transport System)ファイルの検出、OLE2オフィスドキュメントからのリソース抽出の向上などが行われている。
Apache TikaはApache License 2.0のもとオープンソースで公開されており、Apache Tika 1.2はプロジェクトサイトのダウンロードページより取得できる。