rinnaは7月31日、日本語と英語のバイリンガルなLLM(Large Language Models:大規模言語モデル)を開発し、商用利用可能なライセンスでオープンソースとして公開したことを発表した。同社はさらに、対話形式のテキストを生成する対話言語モデル、テキストと画像のマルチモーダル入力対応する画像対話モデル、長いテキストの入力が可能な長期コンテキスト言語モデルも開発し公開している。

同社が今回公開した汎用言語モデル(rinna / bilingual-gpt-neox-4b)は約40億パラメータを持つ日本語と英語のバイリンガルGPTであり、日本語と英語のテキスト生成が可能だ。学習データにはオープンデータセットを用いており、透明性が高い特徴を持つという。学習データの割合は英語56%、日本語33%、ソースコード11%。

長期コンテキストモデル(rinna / bilingual-gpt-neox-4b-8k)は、汎用言語モデルに対して長いテキストの入力を可能とするための追加学習を行っており、入力トークンの上限を2048から8192トークンまで拡大しているという。

また、対話言語モデル(rinna / bilingual-gpt-neox-4b-instruction-sft)は、汎用言語モデルに対して対話形式でユーザの指示に応えているデータを用いてSFT(Supervised Fine-Tuning)追加学習をしており、対話形式のテキスト生成に対応する。

  • 対話言語モデルの出力例(緑がユーザー入力、白がモデル出力)

    対話言語モデルの出力例(緑がユーザー入力、白がモデル出力)

画像対話モデル(rinna / bilingual-gpt-neox-4b-minigpt4)は汎用言語モデルとBLIP-2を組み合わせた追加学習により、テキストと画像のマルチモーダル入力からのテキスト生成を実現しているとのことだ。

  • 画像対話モデルの出力例(画像とオレンジがユーザー入力、グレーがモデル出力)

    画像対話モデルの出力例(画像とオレンジがユーザー入力、グレーがモデル出力)

同社はこれらの4種類の事前学習モデルをHugging Faceに商用利用可能なMITライセンスでオープンソースとして公開することで、日本のAI研究や開発の発展を促すとしている。ダウンロードすればローカル環境で実行できる。

さらに、利用目的に合わせて追加学習することにより、モデルのカスタマイズも可能。日英のバイリンガルモデルであるため、データが充実している英語のデータセットを用いた追加学習が有効だとしている。