日本電信電話(以下、NTT)は11月1日、NTT版の独自のLLM(Large Language Models:大規模言語モデル)である「tsuzumi(つづみ)」を商用サービスとして2024年3月から提供開始することを発表し、記者説明会を開催した。翌月以降には音声から声色を推定する機能の追加や多言語への対応などを開始する。

軽量ながら高性能なLLMを実現

tsuzumiの主な特徴は「高いコストパフォーマンス」「高い言語性能」「柔軟なカスタマイズ」「マルチモーダル」の4点だ。それぞれの特徴を以下に詳しく紹介する。

  • tsuzumiの4つの特徴

    tsuzumiの4つの特徴

特徴1:高い言語性能

NTTはtsuzumiの言語性能の高さを打ち出している。特に日本語で顕著な性能を発揮する。生成した文章の良し悪しをGPT-4が判定する「Rakudaベンチマーク」では、主要なLLMに対しても高い勝率を示した。GPT-3.5に対しても52.5%の勝率だ。

  • 日本語性能のベンチマーク結果

    日本語性能のベンチマーク結果

英語を扱う性能では、lm-evaluation-harnessベンチマークの結果、同サイズのモデルで英語をメインとするようなLlaMa2やElyzaなどとも同程度のスコアを残した。プログラミング言語の出力にも対応し、比較的小さなモデルながら汎用的な利用が可能だ。

  • 英語性能のベンチマーク結果

    英語性能のベンチマーク結果

特徴2:高いコストパフォーマンス

最近話題のLLMだが、文字通り"大規模"なAIモデルとなっており、GPT-3のパラメータ数は1750憶個ほどで、1回の学習には約1300MWhのエネルギーを使用する。これは原発1基分の電力(約1000MWh)を上回る。そこでtsuzumiは言語学習データの質と量を向上し、専門知識を持った複数の小さなLLMを組み合わせるという戦略を取っている。

tsuzumiは超軽量版に相当する6億パラメータを持つ「tsuzumi-0.6B」(以下、0.6B)と、軽量版に当たる70憶パラメータの「tsuzumi-7B」(以下、7B)の2種類を開発している。前者のパラメータ数はGPT-3の約300分の1、後者でも約25分の1と大幅な軽量化が図られている。

  • 軽量化を図ったtsuzumi

    軽量化を図ったtsuzumi

そのため、学習する際のコストも低減しているという。同社の試算によると、GPT-3規模のモデルの学習に4.7憶円を要するところ、軽量版の7Bでは1900万円、0.6Bで160万円程度で学習できる。

  • 学習コストの比較

    学習コストの比較

また、モデルを使用する際の推論コストも抑えられている。GPT-3規模のモデルと比較すると、推論コストは7Bで約20分の1、0.6Bでは約70分の1とのことだ。7Bは下位モデルのGPUでも稼働するようだ。0.6BはもはやGPUではなくCPUでも稼働するという。将来的には、スマートフォンやウェアラブル端末でもLLMを利用できるようになりそうだ。

  • 学習コストの比較

    学習コストの比較

特徴3:柔軟なカスタマイズ

tsuzumiの利用にあたっては、柔軟なチューニングに対応する。プロンプトによって基盤モデルに情報を付加する「プロンプトエンジニアリング」だけでなく、基盤モデル全体に特定の領域の情報を学習させることでパラメータを少しずつ調整する「フルファインチューニング」や、基盤モデルはそのままに新しい情報を付加する「アダプタチューニング」などが可能だ。

  • さまざまなチューニングに対応する

    さまざまなチューニングに対応する

アダプタチューニングを実施することによって、フルファインチューニングよりもコストを抑えながら特定の業界や組織向けにカスタマイズしたLLMを構築できる。tsuzumiは基盤モデルを複数のアダプタで共有する「マルチアダプタ」にも対応する。これにより、同一の組織であっても利用するユーザーや利用シーンに応じて複数のアダプタを切り替えながら利用できるそうだ。

  • マルチアダプタでのチューニングの例

    マルチアダプタでのチューニングの例

特徴4:マルチモーダル

tsuzumiは文字情報の処理だけでなく、画像や音声などのマルチモーダルにも対応可能だ。自然言語(私たちが普段使っている日本語や英語などの言語)のテキストでの質問だけでなく、写真・画像を示しながら質問できるようになる。これにより、請求書や仕様書など画像付きの文書を用いる業務でも効率化が見込める。

  • 画像データからも情報を読み取れる

    画像データからも情報を読み取れる

現時点では未実装だが、将来的には音声データにも対応し、電話を通じて質問者の様子を考慮しながらの応対も可能となるようだ。コールセンターやカウンセリング、相談所など人に寄り添う業務での応用が期待される。

その他、ユーザーの状況に応じて出力を変える機能も実装していくという。現在の主要なLLMは時間や場所にかかわらず回答を返すが、tsuzumiは質問者の場所や時刻に合わせた回答が可能になる。状況に応じて柔軟な回答が求められるカーナビやスマホナビなどのコンシェルジュ業務にも使える。

例えば、江ノ島までドライブに行った際に「近くの近くの駐車場は?」と質問すると、単に駐車場の情報を出力するだけでなく、現在の時刻や質問者の好みなど周囲の情報をを踏まえてランチを提案するような機能を追加していく予定だ。

  • ユーザーの状況に応じた対応も可能になるそうだ

    ユーザーの状況に応じた対応も可能になるそうだ

NTTならではの技術でサステナブルなLLMを展開

tsuzumiの事前学習においては、およそ1兆以上のトークン(≒単語数)を用いて実施したそうだ。日本語と英語に加えて21言語と、プログラミング言語も学習に用いている。専門知識からエンタメ領域までさまざまなドメインをカバーしたという。

さらにその後、より人間の思考に近い出力とするためにインストラクションチューニングを行った。ここではNTTがこれまで約40年以上にわたって研究してきた内製のコーパスを活用している。

  • NTTならではの技術を盛り込んでいるという

    NTTならではの技術を盛り込んでいるという

tsuzumiの学習においては、横須賀に学習データを置き、そこから約100キロメートル離れた三鷹にGPUクラウドを設置して、その間を低遅延・大容量通信が可能なIOWN(Innovative Optical and Wireless Network)のAPN(All-Photonics Network)で接続しており、あたかもローカルで学習しているかのような学習環境を構築している。

  • 横須賀と三鷹をつないで学習した

    横須賀と三鷹をつないで学習した

同社は今後の方針について、何でも知っている単一の巨大なLLMを構築するのではなく、専門性や個性を持った複数の小さなLLMの集合知による社会課題解決を目指すとしている。それぞれのLLM間はIOWNで接続する。

また、同社は今回発表した0.6B(超小型版)と7B(小型版)に加えて、今後は13B以上の中型版モデルも展開する予定だ。より大きなモデルで高い性能を求める場合に提供するという。

  • 展開予定のtsuzumiシリーズ

    展開予定のtsuzumiシリーズ

説明会の中で、代表取締役社長 社長執行役員の島田明氏は「2027年には売上1000憶円以上となるよう展開していく。当社はサステナビリティへの貢献も進めなければならないとも思っており、APNなどを使って消費電力を抑えながら技術の発展に寄与する。今回、NTT版のLLMとして発表したtsuzumiは、まさに社会課題を解決するLLMだという気概で開発してきた」と力強くコメントを述べた。

  • NTT 代表取締役社長 社長執行役員 島田明氏

    NTT 代表取締役社長 社長執行役員 島田明氏