東京大学発のAIスタートアップであるELYZA(イライザ)は9月17日、BERTベースの日本語AIエンジン「ELYZA Brain」を開発したこと、ならびに同エンジンを活用し、パートナー企業と事業の共創を行っていくオープンイノベーションプログラム「パートナープログラムNLP30」を開始したことを発表した。
ディープラーニングを元にしたAI活用はさまざまな分野に広がりを見せているが、自然言語処理はまだ研究段階の側面が強く、近年、ようやく人間のテキスト認識精度を超えることができるようになることが見えてきた程度である。そうした状況を踏まえ、同社は2018年に登場したBERT以降の汎用言語モデルを活用した研究を進め、今回、日本語で人間超えの精度を達成できる日本語特化AIエンジン「ELYZA Brain」の開発に成功したという。
これを実現した取り組みとして、同社代表取締役CEOの曽根岡侑也氏は「BERTモデルを作るにあたって、事前学習のテキストが重要だった。単に量が多ければ良いわけではなく、きれいな重複のないデータが必要だった。そのようなきれいな日本のテキストをひたすら集めた」と地道な前処理の成果とするほか、「日本語なので、文章を区分けする分かち書きをどのように行うべきか、という点を試行錯誤したことで、精度向上が実現された」としている。
また、モデルの大きさ、データ量についても、先行して日本企業が公開しているモデル量が多くて3億パラメータ、データ量としても12GB程度であるのに対し、ELYZA Brainではモデル量は10億超え、データ量も10GB超えと、「海外勢が出しているのと同程度のモデル量、データ量を実装している」(同)ことが精度の高さの背景にあるとする。
そのため同社では、数万のデータを学習できれば、読む行為に付随する業務のうち、大半に同エンジンを適用することができるという。実際に、同社が行った日本語テキストの分類精度比較では、人間が80.6%であったのに対し、ELYZA Brainは83.0%と人間超えを達成できたとのことで、「人間の認識精度を越えたことで、これまで社会で使われてきたユースケースが高精度化したり、精度が足りないから活用されなかったユースケースでも活用が可能になる。また、新たな視点でのユースケースも生み出すことができるようになる」と、社会に変化をもたらせるようになると説明する。
こうした社会の変化を加速させるために同社が用意したのが「パートナープログラムNLP30」となる。
具体的な内容としては、高精度に言語を扱うAIにより実現可能となった新しい働き方、サービスを実現するためのプログラムという位置づけで、応募のあった企業を審査の上、ELYZAのAIエンジンを無償でライセンス提供するほか、価値検証(PoC)フェーズのプロジェクトの無償実施、ならびに人的リソースの提供などが行われるという。
なお、同プログラムの応募期間は2020年9月17日~同年12月17日までを予定。応募は同社の専用申し込みWebサイトから行う。また、採択基準として以下の3点が用意されている。
- 事業共創仮説をお持ちであること
- 本格共同研究に進むにあたっての体制を整備いただけること
- イノベーション実現のための熱い気持ちをお持ちであること