東京工業大学(東工大)と産業技術総合研究所(産総研)の両者は12月19日、現在公開されている中で、日本語に強い生成AIの基盤である「大規模言語モデル」(LLM)としては最大規模となる「Swallow」を、米・MetaのLLM「Llama 2」の日本語能力を拡張することで構築し、Webサイト「TokyoTech-LLM」にて一般公開したこと、またオープンで商用利用も可能なことを共同で発表した。
同成果は、東工大 情報理工学院 情報工学系の岡崎直観教授、同・横田理央教授、産総研の共同研究チームによるもの。今回、東工大は主にデータの語彙拡張によるモデル学習・推論効率の改善に取り組み、産総研はモデル構築に必須である大規模計算資源としてAI橋渡しクラウド(ABCI)を提供すると同時に、主に継続学習によるモデルの日本語能力の改善を担当したとしている。
生成AIの普及が拡大する現在、日本でもLLMの開発が進められているが、日本語に強く、オープンかつ高性能なLLMは少ないのが現状だ。そこで東工大と産総研は、LLMの共同研究をスタートさせたという。
「Llama 2」シリーズも日本語に対応はしているものの、あくまで英語主体であり、研究チームによれば事前学習データでの日本語の割合は全体の約0.1%しかなかったとのこと。そのため、Llama 2は英語では高い性能を示すにも関わらず、日本語の読み書きは苦手という弱点を抱えていた。
そこで今回の研究では、元々の言語モデルの能力を活かしながら日本語能力を改善することを目指し、Llama 2の7B、13B、70Bのモデルをベースに、東工大が新エネルギー・産業技術総合開発機構(NEDO)のプロジェクトで開発した大規模な「日本語ウェブコーパス」を、英語のコーパスと9:1の比率で混ぜたデータで継続事前学習を行ったという。その結果、研究チームが採用した日本語に関するベンチマークデータにおいて、3モデルはベースモデルよりも高い性能を示したとする。また、日本語コーパスのみで事前学習された同規模の日本語LLMよりも高い性能を示すことから、継続事前学習の有効性が明らかになったとしている。
Llama 2では、バイト対符号化に基づいてテキストがトークンに区切られている。ところがLlama 2には、日本語の主要な単語や文字が語彙に含まれておらず、テキストが不自然な単位に区切られてしまうことがある。たとえば、「吾輩は猫である」という7文字のテキストが、人間には理解しにくい13トークン(<0xE5><0x90><0xBE><0xE8><0xBC><0xA9>は<0xE7><0x8C><0xAB>である)に区切られてしまうという具合だ。これは、「吾」「輩」「猫」という漢字が語彙に収録されていないことが理由だという。
日本語の語彙が不足したLLMは、日本語を不自然な単位で取り扱うことに加え、テキストをより多くのトークンで表現してしまうため、学習や生成の効率が低下する。LLMの学習に必要な計算予算はトークン数に比例するため、逆に計算予算が一定である条件下では、テキストを少ないトークンで表現する方がより多くの情報を学習に詰め込めるのである。また、LLMがテキストを生成するのに要する時間はトークン数に比例するため、同じテキストを生成するのであれば、より少ない数のトークンで表現できる方が短時間で結果を出力することが可能だ。
さらにLLMの入出力には、一度に扱えるトークン長の上限があり、入力をより少ないトークンで表現できる方が、タスクの指示や解き方を多く詰め込めるため、下流タスクでの性能向上も期待できるとする。なお今回は、Llama 2のトークナイザに1万6000件の日本語トークンが追加され、日本語テキストのトークン長を56.2%に削減できたとのことだ。
LLMの学習には膨大な言語データが必要で、中でもWebページを収集しテキスト化したデータは、LLM構築の要である。従来、オープンな日本語LLMの学習には、CC-100、mC4、OSCARなど、既存のデータセットの日本語部分が用いられてきた。ところがこれらのデータセットでは、WebページのHTMLをテキスト化する際のノイズが混入している点や、最新の情報や知識を収録していないという問題もあった。また、これらは多言語のデータセットとして構築されているため、日本語に特化してデータの品質を高めるような工夫は取り入れられていないことも課題だったとする。
そこで今回は、Common Crawlから配布されているアーカイブ(2020~2023年に収集された21スナップショット分、約634億ページ)から日本語のテキストを独自に抽出・精錬し、約3121億文字(約1.73億ページ)からなる日本語ウェブコーパスを構築したという。研究チームは、日本語のLLMの学習コーパスの中では、CC-100(約258億文字)、mC4(約2397億文字)、OSCAR23.10(約740億文字)を抜いて商用利用が可能なものとしては最大級になったと報告した。
なおSwallowのライセンスは、Llama 2の「LLAMA 2 Community License」を継承しており、ライセンスに従う限りにおいては、研究および商業目的での利用が可能だ。研究チームは、日本語に強くオープンなLLMが登場したことで、日本におけるLLMの研究開発・活用がさらに促進され、製品開発や技術革新が進むことが期待されるとしている。