AI・ディープラーニング技術開発・コンサルティング事業を展開するRidge-i(以下略、リッジアイ)は3月26日、2023年7月より開発を進める目的特化型の大規模言語モデル(LLM:Large language Models)が、日本語ベンチマーク「JCommonsenseQA」での検証で、精度60ポイント以上を安定して達成したことを発表した。開発が進められているLLMは、研究開発環境にさくらインターネットのGPU環境を採用。研究開発チームには、自然言語AI領域に強みを持つバオバブ、アドバイザリーとしてカーネギーメロン大学准教授のGraham Neubig氏が参加、日本語に特化していること等の要件に適合する目的特化型のLLMを目指している。
日本語ベンチマーク「JCommonsenseQA」での検証で精度60ポイント以上を出力
LLMは、学習する言語モデルの機能を主に、ニュースなどの時事情報の読解に特化して作成。言語モデルには、与えられたテキスト文の次の単語やトークンを予測する因果的言語モデル(CLM:causal language model)、内部構造にはTransformer方式を採用し、モデルの学習にはEluther AI社が公開している「GPT-NeoX」を使用。学習データには、基幹となる大規模クローリングデータとAPI経由で取得したWikipedia、ニュースサイト、国会議事録などのデータを活用、独自の前処理と配分調整でデータを統合して使用している。
JGLUE(Japanese General Language Understanding Evaluation:日本語言語理解ベンチマーク)の「JCommonsenseQA」「JNLI」「MARC-ja」「JSQuAD」の4つで実施された。中でも5択の選択式問題の解答で常識的な日本語の理解度を図る「JCommonsenseQA」において、両モデルで精度60ポイント以上を安定して出力する検証結果を得ることができたという。
2023年1月時点でStability AI社がGitHubで公開している「JGLUE リーダーボード」との比較において、軽量モデル(モデルサイズ:1.3B、2.7B)で国内主要モデルを超える数値となり、Metaの「Llama2-13B」の74.89に次ぐ成績となる。同社は軽量ながらこの精度を達成した理由として、学習用データ配分の工夫がそれにつながったものとコメントしている。