リクルートは19日、旅行サイト「じゃらんnet」の口コミに基づく学術研究用データセットを自然言語処理研究を目的に公開したことを発表した。同社AI研究機関Megagon LabsがGitHubにおいて非営利目的でのライセンスで公開している。
公開されているデータセットはリクルートライフスタイルが運営する旅行サイト「じゃらんnet」でのユーザーの感想や評価、説明など約12万件の文章データをもとにラベルを施した2種類のデータセット。
"部屋はオーシャンビューで景色がよかったです。"という文が成立するときに"部屋から海が見える。"という文も成立するか否かでラベル付けした「含意関係データセット」(github)が約55000件。5600件にはポジティブ、ネガティブ、ニュートラルなど感情や宿の特徴が含まれるかどうかのラベルも付している。もうひとつの「根拠説明データセット」(github)は、宿の推薦文に対応する根拠を説明文で示しているか否かをラベルにしたもので約37000件。
同社ではデータの公開について、日本語の自然言語処理のためのデータセットが多言語に比べて圧倒的に少ないことを課題として挙げており、日本語の自然言語処理の発展のためには学術研究用に利用可能なデータセットの拡充が望まれるとしている。