マネーフォワードは12月6日、同社の研究開発組織であるMoney Forward Labと、理化学研究所革新知能統合研究センター 言語情報アクセス技術チームが共同で取り組む大規模言語モデル(LLM)に関する研究において、11月15日に進捗成果としてリリースされたインストラクションデータを用いて学習させたLLMを公開した。

LLMは、膨大な量のテキストデータと深層学習の技術を用いて人間のような自然な文章を生成できる言語モデルだが、特定の言語や分野に特化した高い精度の出力結果を得るためには、LLMの追加学習が必要となる。

追加学習には、タスクとそれに対する出力の指示(インストラクション)のデータセットを学習させるインストラクションチューニングという手法が存在する。

今回の共同研究では日本語のインストラクションデータを開発することに注力し、Money Foward Labは、共同研究で得られた最新の2903件のインストラクションデータを用い、rinnaが開発した「Youri7B」に対してインストラクションチューニングを実施。

同社でチューニングを行ったモデル「houou-7b」と、他のインストラクションデータを使って学習したモデルを比較すると、回答生成の精度の大幅な改善が認められ、少量であっても質の高い日本語データを作成することで、効果的にLLMを学習できることを確認した。

Money Foward Labでは、共同研究で作成したインストラクションデータのアップデートに合わせて、2024年3月まで継続的にモデルのリリースを予定。また、研究を通して得た知見をもとに、事業の1つであるバックオフィス向けSaaS(Software as a Service)事業において活用可能なLLMを実現するため、日本国内の経理財務や人事労務領域に特化したインストラクションデータの開発にも取り組む考えだ。