米Anthropicは10月22日(現地時間)、大規模言語モデル「Claude 3.5 Sonnet」のアップグレードと、新モデル「Claude 3.5 Haiku」を発表した。Claude 3.5 Sonnetは全面的に改良され、特にコーディング分野で大きな進歩を遂げている。Claude 3.5 Haikuは、前世代のHaikuと同じコストと同程度のスピードで、いくつかのベンチマークでClaude 3 Opusに匹敵する性能を示している。また、「Computer use」というAPIのベータ提供を開始した。これはClaude 3.5 SonnetをAIエージェントにしてコンピュータでの作業を自動化するもので、大規模言語モデルの可能性を広げるものとして注目を集めている。
Claudeシリーズには、高性能モデル「Opus」、インテリジェンスとスピードのバランスがとれた「Sonnet」、コンパクトで高速な「Haiku」の3つのバリエーションがある。今年6月、Anthropicは"3.5"ファミリーの最初のリリースとして、Claude 3.5 Sonnetの提供を開始した。
Claude 3.5 Sonnetのアップグレードでは、GPQA(大学院レベルの専門知識を問うデータセット)のスコアが59.4%から65.0%に向上し、SWE-bench(実世界のソフトウェア課題を解決する能力を測るベンチマーク)のスコアも33.4%から49.0%に大幅に改善された。これらの性能向上は、従来のコストやスピードを維持したままで提供される。
Claude 3.5 Haikuは、コーディングタスクに強いという"3.5"ファミリーの特徴を持ち、全てのスキルセットで Claude 3 Haikuを上回る。HumanEval(プログラミングタスクの正確性からコード生成能力を評価)は88.1%、MATH(数学的な推論能力を評価)は69.2%を記録し、これらはそれぞれClaude 3 Opus(HumanEval:84.9%、MATH:60.1%)を上回る。低レイテンシ、命令追従の改善、正確なツールの使用により、専門的なサブエージェントタスクや、大規模データからの個別体験の生成(在庫記録や購買履歴など)に強みを発揮する。
「Computer use」を通じて、開発者はClaude 3.5 Sonnetモデルを使用してコンピュータのデスクトップ環境を操作(コンピュータ画面の解析、カーソルの操作、ボタンのクリック、テキスト入力など)できるツールとの相互作用が可能となる。コンピュータのタスクを自動するツールは、RPAツールのベンダーから新興企業まで数多くの企業が手掛けており、さらに近年AIエージェント開発で競争が激化している。 AIが人と同じようにコンピュータ・ソフトウェアと直接対話できるようになれば、従来のAIアシスタントには不可能だった膨大なアプリケーションの可能性が広がる。
AnthropicはYouTubeで、顧客(Ant Equipment社)からの依頼でベンダーリクエストフォームにAIが自動で記入するデモを披露している。この作業は、最初にスプレッドシートでAnt Equipment社を探し、記載されていない場合はCRMに移動して詳しい情報を集めなければならない。Claudeは画面のスクリーンショットを撮り、スプレッドシートにAnt Equipment社が記載されていないことを確認し、次にCRMを検索して、その結果から必要な情報を収集してフォームに入力した。
「Computer use」は、Anthropicがこれまでに行ってきたマルチモーダル機能やツール利用に関する研究を基盤としている。 AIエージェントがコンピュータを操作するためには、画面に表示される内容を解釈し、特定の操作をどのタイミングでどのように実行するかを推論する能力も求められる。そうした能力を組み合わせて適切なアクションを実行する訓練で、Claudeは計算機やテキストエディタなどの簡単なソフトウェアを使った小規模なトレーニングから予測を上回るペースで応用を展開し、より複雑なタスクにも対応できる能力を示したという。
「Computer use」は現在実験的な段階であり、操作が不安定になったりエラーが発生しやすいが、開発者からのフィードバックを得て迅速に改善を進めるために早期リリースを決断した。Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyなどの企業がすでに「Computer use」の可能性を探り、数十、場合によっては数百のステップを要するタスクを実行させているという。
アップグレードされたClaude 3.5 Sonnetは、22日からすべてのユーザーが利用できるようになった。 開発者は、Anthropic API、Amazon Bedrock、Google CloudのVertex AI上で「Computer use」のベータ版の利用が可能である。 Claude 3.5 Haikuは、今月末にリリースされる予定である。