TISは11月6日、自然言語処理・機械学習向けのデータ作成ツール(アノテーションツール)「doccano」をオープンソースソフトウェア(OSS)として公開すると発表した。

  • 「doccano」の画面イメージ

「doccano」は、テキスト分類、系列ラベリング、系列変換という3つの基本的なタスクで使用するデータを作成することができる。英語以外に日本語にも対応している。

「doccano」を利用することで、手間がかかる系列ラベリングのデータを簡単に作成できる。テキスト分類や系列変換は、Excelなどの帳票ツールでも作成可能だが、系列ラベリングでは文字/単語単位でデータを作る必要があるため、帳票ツールのみでは作成が困難とされている。系列ラベリングに「doccano」を活用すれば、対象の単語を選択し、ボタン、またはショートカットキーを押すだけでラベル付けができる。

これまで手間だった自然言語処理・機械学習向けのデータ作成を容易にすることで、機械学習・自然言語処理を適用できる業務を拡大できるとしている。