開発が熾烈化する国産の大規模言語モデル(LLM)は、各社それぞれに個性がある。中でも23年に設立されたSB Intuitions株式会社は「日本語に特化したLLM」を掲げ、国内最大級となる1兆パラメーター構築を目指しており、その開発規模の大きさは目を引く。日本語に特化した独自のLLMを開発するには、日夜どのような試行錯誤が行われているのだろうか。現在主流となっている英語ベースのモデルとの違いを解説してもらうとともに、事前学習チームの皆さんに開発の舞台裏を伺った。

  • (写真)SB Intuitions 事前学習チームの皆さん
今回お話を伺った事前学習チームの皆さん
(左)加藤 卓也さん 事前学習のコード整備を担当
(中央)高瀬 翔さん 事前学習チーム ユニットリーダー
(右)李 凌寒さん  事前学習のデータ収集・評価を担当

国内最大級のLLM開発に挑むエンジニアたち(全3回)

人間の技術だけでは高精度なモデルは生まれない?

──はじめに、皆さんがLLMエンジニアを志したきっかけを教えてください。

李さん:一昨年まで大学院で自然言語処理の研究をしていました。自然言語処理の知見を活かせるキャリアを考えるとLLMエンジニアはいわゆる花形の存在でしたから、この道に進みたいと思いました。現在は学習するためのデータ収集やその前処理のほか、完成したモデルの評価も行っています。

高瀬さん:事前学習チームでユニットリーダーを務めています。大学で自然言語処理に出合ってから10年以上、研究開発に携わってきました。自然言語処理は学習に用いるデータを大きくすると、できることが飛躍的に広がる分野です。これまでも機械翻訳などで精度が向上する様子を見てきたので、さらに大規模なデータでモデルを機能させる挑戦をしたいと思った時、LLM開発の道に進むのは必然だったと感じます。

加藤さん:私はもともとヤフーで広告配信の機械学習モデルの開発に従事していたのですが、これからは間違いなく大規模なモデルが主流になるだろうと感じ、LLM開発に関心を持ちました。現在はモデルがきちんと動くよう、事前学習のコードやデータの整備を行っています。

──皆さんが開発されている「日本語に特化したLLM」とは、一体どういうものですか?

高瀬さん:現在普及している海外製モデルは主に英語による学習が行われていますが、そのデータ内には日本語も一部混じっています。しかしながら、さまざまな事柄について流暢な出力を可能にするほど十分なデータ量はないため、違和感を覚える回答が返ってきてしまうのが現状です。日本語のデータ量を充実させることで、ネイティブとしての日本語を理解したLLM構築を目指しています。

李さん:海外製モデルに含まれる日本語の割合は全体の0.1~1%程度に対し、私たちのモデルは大半が日本語で、データ量の豊富さには自信があります。どのモデルも英語が主要言語の中、削られてしまった日本語データを拾ってモデル構築しようというのが私たちの目指すところです。

──どうしたら〝ネイティブとしての日本語〟を理解できるのでしょう。質の良い日本語データを用いて学習しているのですか?

(写真)事前学習のデータ収集を担当 李凌寒さん

事前学習のデータ収集を担当 李凌寒さん

李さん:一般的には教科書などの情報の信頼性が担保されているデータや、Wikipediaなどの多種多様な情報が端的にまとめられたデータが良いデータといわれています。もちろん、データの質を重視することも大事ですが、事前学習の段階では多種多様のデータを幅広く取り入れることが重要です。

高瀬さん:これまでの歴史を振り返っても、人間が「良い教材だ」と厳選したデータをもとにモデルを開発する試みは失敗する傾向にありました。強化学習の第一人者であるリチャード・サットン氏が寄稿した『The Bitter Lesson(苦い経験)』という記事があるのですが、そこでも人間が持つ知識や経験を機械に代替えしようとするのでは、望んだ結果は得られないと語られています。始めは人間がたくさんのデータを与えて、あとは言語の背景にある文法や本来の意味を機械が勝手に学んでくれたほうが性能は良くなると、私たちも考えています。

李さん:とはいえ、高精度なモデルをつくるためには、雑多なデータを前処理することが要となります。文として成立していない広告テキストやECサイトの「送料無料」などの記号的な言語は除いて、ブログやSNSで見られる文章など、なるべく自然体の日本語は残すようにしています。〝Garbage In, Garbage Out(ゴミを入れたら、ゴミが出てくる)〟という言葉もありますから、こうした前処理は、まだまだ私たち人間の仕事です。

──国産LLM開発が熾烈化する今、「日本語精度の向上」は各社の常套句にもなっているように感じます。ほかの国産LLMとの違いはなんだと思いますか?

(写真)事前学習チーム ユニットリーダー 高瀬翔さん

事前学習チーム ユニットリーダー 高瀬翔さん

高瀬さん:当社が国内最大級の計算基盤を有していることは一つのアドバンテージです。もう一ついえるのは自然言語処理の知見を持つ人材の多さではないでしょうか。

加藤さん:確かに、専門性が高いエンジニアが集まっていることは当社の個性だと思います。ヤフーとLINEにそれぞれ属していたエンジニアが集まって開発がスタートしたので、最初はお互いのことをよく知らず、混沌とした状況でした。プロジェクトを進めるうちにそれぞれの得意分野も分かってきて、今はそれぞれの専門性を発揮しながらチームとしてひとつの目標を達成しようという熱意を感じます。

高瀬さん:みんな常に「最善のものを作ること」を意識していますね。とくに私たち事前学習チームは、チューニングという、用途にあわせてモデルを調整するステップの前段階での開発を担っているため、ユーザーのニーズに応えるための最適解が見えづらい環境です。まずはモデルの可能性を広げるためにも試行錯誤を重ねることを惜しまないよう、心掛けています。

前例のない挑戦に対し、立ちはだかる課題とは

──国内最大級となる1兆パラメーター構築を目指していることも、ほかの国産LLMとの大きな違いです。開発においてどんな難しさを感じていますか。

(写真)事前学習のコード整備を担当 加藤卓也さん

事前学習のコード整備を担当 加藤卓也さん

加藤さん:一つ目は、小規模モデルを作成する場合に比べて大規模モデルを作成する場合に必要なコードがかなり複雑になる点です。小規模な実験を行って新たな知見を得られたとしても、その知見を大規模な実験に転用するためには追加でさらなるコードの最適化を行う必要があり、山場が増えた感覚です。 もう一つは、規模が大きくなるにつれてバグの取りこぼしや手戻りが増えてしまう点です。そもそもオープンソースで大規模モデルを動かせる人が少ないのに加え、1兆パラメーターという前例のない規模を目指すとなると、これまでとは違った課題が現れたり、さらに工程が必要になったりする可能性があります。1回の実験に1000GPUを使うとなると気軽にテストできるわけではないので、なおさら緊張感がありますね。

高瀬さん:パラメーター数を増やせば性能が良くなるという考えが広まっていますが、実際には「費やした計算コストに対数比例する」というのが正しいです。計算コストは訓練に用いるデータの量とパラメーター数で適切に分配されている必要があり、パラメーター数をただ増やしただけでは、中身が伴わないイマイチなモデルができてしまう。その上で、かけた計算コストに対してさらに性能を求めていくとなると、難易度は格段と上がります。

李さん:パラメーター数が大きいモデルは、いうならば「食費のかかる育ち盛りの子ども」のようなものですから、たくさん食べさせないと大きく育ってくれません。ただ、場合によっては小規模で密度の濃いモデルをつくったほうが良い場合もあるので、そのトレードオフが悩みどころでもあります。

「主流となる海外製に置き換わるLLMを目指さなければならない」

──まだまだ開発の道は続きますが、皆さんが今後挑戦したいプロジェクトはありますか?

加藤さん:データ量を増やせば精度も上がっていくという考え方が基本ではありますが、今あるデータでもっと賢くなってもらうにはどうしたらいいか、チャレンジしたいです。例えば現状のものだと数学の文章をモデルに読ませたとしても、パラパラと読んでいるだけで深く理解していないように見えます。データ量は頭打ちになっていくことが予想されますから、今あるデータで機械が熟読できるようになれば、さらに良いモデルができるのではないかと考えています。

李さん:私の場合、現在開発中のモデルが日本で一番を取ることが最初の目標です。その上で、他言語にも展開していきたいと思っています。私の両親は中国語が母語で、私自身、大学院でもある言語での知識をほかの言語に適用することを専門に学んでいたので、さまざまな言語を流暢に話せるモデルがつくれたらうれしいです。

高瀬さん:将来的な視点では、音声対応に特化したマルチモーダルに興味があります。自然言語の知見はテキストチャットだけでなく、音声でも活かせると思うので挑戦してみる価値はあるのではないでしょうか。 ただこうした夢を実現するためにも、まずは主流となる海外製に置き換わるようなLLM構築を目指さなければなりません。日本語に特化するということは、英語など他言語の性能は海外製のモデルと同等かつ、日本語では格段に良いモデルを目指すという認識で、モデル全体の底上げが重要です。国内最大級のLLMをうまく機能させるための開発に今後も注力していきたいです。

SB Intuitionsが挑むLLM開発の詳細はこちら

関連リンク

撮影場所:WeWork

[PR]提供:SB Intuitions