Stability AIは現地時間2023年4月19日、新たなオープンソースの言語モデル「StableLM」を発表した。ソースコードはGitHubから入手できる。同社はAI画像生成サービス「Stable Diffusion」を公開するなど、オープンソースベースでAIに取り組む開発者の注目を集めてきた。本稿執筆時点のStableLMは30億/70億パラメーターモデルを用意しているが、今後は150億から650億パラメーターモデルも予定しているという。開発者はCC BY-SA-4.0ライセンスに沿った商用・研究にStableLMを利用できる。

GitHubのStableLMプロジェクトページ

StableLMの言語モデルは非営利団体のEleutherAIと共同開発し、GPT-JやGPT-NeoX、Pythiasuiteが含みつつ、Cerebras-GPTやDolly-2も参考にしている。また、The Pileをベース構築した実験用データセットを用いて学習しているが、その規模はThe Pileの約3倍となる1.5兆トークンにおよぶ。Stability AIは今後、Alpaca、GPT4All、Dolly、ShareGPT、HH-RLHFと5つのオープンソースデータセットを組み合わせ、StableLMの成長に役立てると説明している。