英Stability AIは4月19日(英国時間)、オープンソースの大規模言語モデル(LLM)「StableLM」を発表した。GitHubやHugging Faceで公開されているアルファ版(StableLM-Alpha)は、30億パラメータと70億パラメータの2つのモデルが用意されており、同社は「小型で効率的なモデルが、適切なトレーニングによって高い性能を発揮できることを示す」としている。ライセンスは「CC BY-SA-4.0」で、商用や研究目的で自由に利用できる。
StableLMの登場は、LLM開発における「プロプリエタリ(非公開) vs オープンソース」の議論において注目を集める発表だ。
昨年末に「ChatGPT」が登場し、またたく間に「対話型AI」がイノベーティブなテクノロジーとして注目されるようになり、それとともにAIのリスクに対して人々が寛容になり始めた。MicrosoftとOpenAI、GoogleなどがクローズドなLLMを一気に浸透させようと活発な競争を展開しているが、拙速とも思われるプロプリエタリな商業化に対して懸念も広がり始めている。3月に、非営利団体Future of Life InstituteがAIシステムの訓練を少なくとも6カ月間、直ちに一時停止することを全てのAI研究所に求める書簡を公開し、イーロン・マスク氏やスティーブ・ウォズニアック氏など多数の業界リーダー、AI専門家や研究者が署名したのが話題になった。技術を収益化することでAIのリスクを適切に管理できると主張する企業に対し、オープンソース・コミュニティは、LLMを私的な製品やサービスではなく公共財や共通資源と見なし、透明性を確保してリスクを軽減する必要性を指摘している。
Stability AIは「AIの民主化」を掲げており、2022年8月にStable Diffusionをオープンソースで公開。派生モデルや関連技術が続々と登場し、画像生成AIの可能性を広げている。同社はStableLMの発表の中で、「言語モデルはデジタル経済のバックボーンを形成するものであり、その設計において誰もが意見を述べられるようにしたいと考えている。StableLMのような、透明性が高く、アクセスしやすく、サポーティブなモデルは、AIテクノロジーへの我々のコミットメントを示す」としている。
オープンソース・モデルに対しては、フィッシングメールの作成やマルウェア攻撃の補助といった好ましくない目的に悪用される可能性の指摘がある。Stability AIは、研究者が性能を検証し、解釈可能な技術に取り組み、潜在的なリスクを特定してセーフガードの開発を支援する、「look under the hood(フードの下を覗く:念入りに調べる)」を実現する正しいアプローチであると主張する。また、「官民の組織が、機密データを共有したり、AI機能の制御を放棄することなく、言語モデルを独自のアプリケーションに適応できる」としている。
StableLMは、非営利の研究組織「EleutherAI」と共同で言語モデルのオープンソース化に取り組んだ経験に基づいて構築した。EleutherAIとは、オープンソースのデータセット「The Pile」でトレーニングした「GPT-J」「GPT-NeoX」「Pythia」などを手がけ、それらをベースに「Cerebras-GPT」や「Dolly-2」が構築された。
StableLMは、The Pileをベースに、その3倍、1.5兆トークンの実験的なデータセットで訓練しており、それによって30億から70億パラメータという小さなサイズにもかかわらず(GPT-3のパラメータ数は1750億)、会話やコーディングのタスクで高い性能を発揮できるという。さらに150億、300億、650億パラメータが進行しており、1750億パラメータの計画もある。
また、StableLM-Base-Alphaモデルに、Alpaca、GPT4All、Dolly、ShareGPT、HHを使って追加学習させた「StableLM-Tuned-Alpha」も用意しており、それは「CC BY-NC-SA-4.0」ライセンスで研究用途に限定した公開になっている。以下は70億パラメータのStableLM-Tuned-Alphaの生成例だ。
発表時点で言語は英語のみ。近く完全な技術レポートを発表する予定で、クラウドソーシング型のRLHFプログラムも開始する。また、Open Assistantなどコミュニティ活動と連携し、AIアシスタント向けのオープンソースデータセットを作成するという。