OpenAI、言語モデル評価のためのベンチマークツール「simple-evals」

OpenAIは現地時間12日、言語モデル評価のためのベンチマークツール「simple-evals」をGitHub公式リポジトリに公開した。従来公開していたLLM評価ベンチマークツール「evals」の軽量版に位置する「simple-evals」は、最新モデル(gpt-4-turbo-2024-04-09以降)で公開している数値の透明性を保つためにオープンソースで公開しており、以下の各スコアを評価する。

MMLU: 大規模なマルチタスクの言語理解を測定
MATH: MATHデータセットを使用した数学的問題解決の測定
GPQA: 大学院レベルの Google実証済みQ&Aベンチ
DROP: 段落にわたる個別の推論を必要とする読解ベンチマーク
MGSM: 多言語小学校算数ベンチマーク
HumanEval: コードでトレーニングされた大規模な言語モデルの評価

evalsと比較してロールプレイングプロンプト(あなたは専門のソフトウェアプログラマです)などに左右されにくいゼロショットでの思考連鎖を強調するベンチマークだがevalsの置き換えを意図するものではないと説明している。なお、OpenAIの公式Xには課金ユーザーで使用可能になっているgpt-4-turbo-2024-04-09のベンチマークをグラフで掲載している。