米Metaは4月18日、オープン大規模言語モデル(LLM)「Llama」の新世代モデル「Llama 3」を発表、最初の2つのモデル(8B:80億パラメータ、70B:700億パラメータ)をリリースした。現在トレーニング中の最大のモデルは4,000億(400B)以上のパラメータを持つ。同社はAIアシスタント「Meta AI」にLlama 3を統合し、新たにMeta AIの独立したWebサイトを開設した。

Llama 3では、128Kトークンの語彙を持つトークナイザを採用し、より効率的に言語をエンコードすることで、モデルの性能を大幅に向上させた。8Bと70Bの両方のモデルでGrouped Query Attention(GQA)を採用し、推論効率を向上させている。

事前学習データは、一般公開されているソースから収集された15兆以上のトークンであり、トレーニングデータセットはLlama 2で使用されたものより7倍大きく、4倍のコードを含む。より高品質なデータで学習されるように、ヒューリスティック・フィルタ、NSFWフィルタ、テキスト分類器などを含むデータフィルタリングパイプラインを開発。テキスト分類器のトレーニングデータの生成では、データ品質の識別に優れたLlama 2を活用している。

また、SFT(Supervised Fine-Tuning:監視付きファインチューニング)、拒否サンプリング、PPO(Proximal Policy Optimization:近接ポリシー最適化)、DPO(Direct Policy Optimization:直接ポリシー最適化)を組み合わせてポスト・トレーニングを改善したことで、偽の拒否率が大きく減少し、アライメントが改善され、モデル応答の多様性が向上している。以下は、Metaが公開したLLMの性能比較によく用いられるベンチマークの結果である。推論、コード生成、命令追従などが大きく向上している。

Llama 3の開発では、現実世界のシナリオでのパフォーマンス最適化を図り、人によるより高品質な評価セットを開発した。アドバイス、質問応答、ブレインストーミング、分類、要約、抽出、コーディング、創造的なライティング、リライティング、推論など、12の主要なユースケースをカバーする約1,800のプロンプトを含む。下のグラフは、Llama 3(70B)、Mistral Medium、GPT-3.5、Llama 2の応答に対する人の評価を集計し、Llama 3(70B)と比較したものである。

今後については、マルチモーダリティ、多言語での会話能力、より長いコンテキスト・ウィンドウ、より強力な対話力を備えた複数のモデルのリリースを予定している。現在トレーニング中の400B+モデルは初期チェックポイントで以下のようなベンチマーク結果を示している。

Meta AIは、Facebook、Instagram、WhatsApp、Messengerに搭載されており、また新しいWebサイトにおいて、ChatGPTやGeminiのWeb版のようにAIチャットボットと対話できるようになった。