国立情報学研究所(NII)はこのほど、研究成果を共有する場として「オープンハウス2024」を開催した。本稿では同イベントの基調講演の中から、SB Intuitionsの取締役を務める井尻善久氏が語った、LLM(Large Language Models:大規模言語モデル)と生成AIのリスクとその対策について紹介したい。
国内最大規模の日本語LLM構築を目指すSB Intuitions
SB Intuitionsはソフトバンクの100%出資子会社として、生成AI技術の研究開発、特に日本語最高品質のモデル創出を目指して取り組んでいる。国内最大規模の計算基盤を構築した上で、医療や教育など各産業領域に個別のソリューションを提供する方針だ。
井尻氏は生成AIの開発について、「学習アルゴリズム」「計算機」「データ」の3要素に「安全性」を加えて、3+1モデルで説明した。
学習アルゴリズムについて、SB IntuitionsではGPTやLlamaといった海外ベンダーのモデルに対し継続学習するのではなく、フルスクラッチで学習を行っている。それは、最高品質の日本語能力を目指しているからだという。
一般的なタスクであれば英語モデルでも高い性能を発揮できるのだが、日本の文化や歴史といった詳細な知識を得るためには、やはり日本語を用いてフルスクラッチで学習したモデルの方が高い性能を発揮する。
日本語のクイズに対する回答を生成するタスクであるAI王のデータセットを用いたテストの結果、同社のモデルはLlama2やGPT-4と比較して高い正解率を達成したとのことだ。
加えて、スケール則(Scaling law)として知られるように、データセットのサイズ、計算能力、パラメータのいずれを増やしても、モデルの精度が向上することが明らかになっている。そのため、同社は大規模な計算資源の上で日本語に特化したモデルの構築を試みている。
ちなみに、NIIオープンハウスが開催された6月時点で2000基以上のNVIDIA TensorコアGPUを搭載したNVIDIA DGX SuperPODを使用しているが、今後さらに数万基規模までGPUを増設予定だという。
しかしその一方で、パラメータ数の多さと性能の高さは必ずしも比例するわけではないそうだ。モデルが高い性能を発揮するためには、パラメータ数と学習データ量の両方が必要となる。むしろ、どちらかと言うと学習データ量を増やすのが最近のトレンドとのこと。