PDFやOffice文書からメタデータを抽出する「Apache Tika 1.0」登場

The Apache Tika toolkit detects and extracts metadata and structured text content from various documents.

Apache Tikaの初のメジャーリリースとなる「Apache Tika 1.0」が公開された。Apache TikaはJavaで開発されたドキュメント分析およびメタデータ抽出ツールキット。さまざまなドキュメント形式に対応しており、対象データからメタデータの抽出を実施する。Tikaは以前はApache Luceneのサブプロジェクトだったが、現在ではApacheソフトウェアファウンデーション直下のプロジェクトとして扱われている。

Apache Tikaが対応しているドキュメントはHTML、XHTML、OOXML、ODF、Microsoft Office (OLE 2、OOXML)、OpenDocument (ODF)、PDF、ePUB、RTF、MP3、JPEG、Flash Video、Jar、mboxなど。データのパスそのものは従来から提供されている既存のライブラリを使用する。

Apache Tika 1.0を動作させるにはJDK 1.5またはそれ以降のバージョンが必要。Tika 1.0よりも前のバージョンで提供されていた非推奨のAPIは1.0では削除されているので注意が必要。Tika 1.0はApacheライセンスv2のもとで提供されている。