リコーは8月21日、企業ごとのカスタマイズが可能な700億パラメータのLLM(Large Language Models:大規模言語モデル)を開発したことを発表した。日本語・英語・中国語に対応。オンプレミスおよびクラウドのどちらの環境でも導入可能とのことだ。

3カ国後に対応

リコーが今回開発したLLMは、自然言語の学習に利用するコーパスの選定や、誤記や重複の修正などのデータクレンジング、学習するデータの順序や割合を最適化するカリキュラム学習など、独自の方法で学習したという。また、AWS(Amazon Web Services)と共同で開発した学習スクリプトに基づいて訓練されており、日本語・英語・中国語の多様な表現を学習済み。

さらに、独自開発を含む約1万6千件のインストラクションチューニングデータで追加学習することにより、広範なタスクに適応する能力を獲得している。これにより、ユーザーの要望に合わせてプライベートLLMを構築する際の追加学習で生じる破滅的忘却による性能低下を抑制し、高品質なプライベートLLMが開発可能とのことだ。

トークナイザーの改良により日本語の処理効率が43%向上

今回、テキストをトークンに分割してLLMが理解できる形式に変換するトークナイザーを独自に改良し、処理効率を向上。これにより、リソース削減やレスポンス時間の短縮、省コストを実現した。LLMは処理に多くの電力が消費され環境負荷が大きいという社会課題に直面する中、省エネルギーや環境負荷低減にも貢献するとのことだ。

セキュリティを確保したオンプレミス環境でも提供可能

通常、700億パラメータのLLMの運用や学習には複数のサーバをネットワークでつなぐ大規模なクラスタシステムが必要とされる。一方同社のLLMは独自の語彙置換技術などを活用し、モデルサイズを保ったまま学習が可能だ。セキュリティ面の課題からデータを自社内で保有したい企業向けに、クローズドな環境下で機密情報を含めた追加学習が可能だとしている。

約50%のコスト低減および最大25%の電力消費量の削減を実現

「AWS LLM開発支援プログラム」と「AWS 生成AIイノベーションセンター(AWS Generative AI Innovation Center)」によるサポート提供のもと、AWS Trainiumアクセラレーターを搭載したAmazon Elastic Compute Cloud Trn1インスタンスを利用することで、効率的な開発を実現。各企業向けにカスタムLLMを開発する際にも、より安価かつ短納期でのご提供が可能だという。学習に際してTrn1インスタンスを活用することで、同等のアクセラレーテッドコンピューティングEC2インスタンスと比較してエネルギー効率を最大25%改善している。

  • ベンチマークツール(ELYZA-tasks-100)における他モデルとの比較結果

    ベンチマークツール(ELYZA-tasks-100)における他モデルとの比較結果