TISは11月14日、自然言語処理で企業分析を行うためのデータセット「CoARiJ(Corpus of Annual Reports in Japan)」(コアリジェ)を無償で公開すると発表した。

「CoARiJ」は、有価証券報告書やCSR報告書、統合報告書の記載内容(事業概要や財務情報など)と、数値情報(株価およびTOPIXなどの指数)をまとめたデータセットで、2014年度から2018年度までの5カ年度分を収録されている。

今回、「CoARiJ」を公開した背景には、自然言語処理による非財務分析はまだ発展途上であることから、研究の推進に貢献する狙いがあるという。

高度な企業評価を行いたい研究者また企業は、「CoARiJ」と自然言語処理技術を組み合わせることで、財務・非財務両面で分析を行うことが可能となる。

  • 「CoARiJ」を活用した分析のイメージ

一般の企業にとってもわかりやすい形でのデータ提供は、TISのソリューションとして提供される予定となっている。