米Cloudflareは4月2日(現地時間)、AI推論を大規模にデプロイするためのプラットフォーム「Workers AI」を一般提供開始したこと、AI開発者のためのオープンなコラボレーションプラットフォーム「Hugging Face」から、ワンクリックでCloudflareのグローバルネットワーク上にAIアプリケーションをデプロイ可能になったことを発表した。
「Workers AI」の概要
「Workers AI」はオープン ベータ版として提供されていたが、一般提供開始とともに、組み込まれている負荷分散が内部的にアップグレードされた。
これにより、リクエストをより多くの都市のより多くの GPU にルーティングできるようになり、各都市はAI推論に利用可能な合計容量を認識するという。
ほとんどのLLMで、ベータ版では1分当たり50リクエストだったリクエストが 300リクエストになったとしている。
同社は世界150以上の都市でGPUをデプロイしており、直近ではアフリカ初の拠点としてケープタウン、ダーバン、ヨハネスブルグ、ラゴスで展開を開始し、世界中で低遅延のAI推論を提供している。
加えて、CloudflareダッシュボードのWorkers AIページには、価格をより正確に予測するのに役立つニューロン計算など、モデル全体の使用状況の分析が表示されるようになった。
Hugging Faceとの連携
今回、 Hugging Face で人気のある複数のモデルにアクセスし、プラットフォームで利用可能な場合は、簡単にクリックしてそのモデルをWorkers AI 上で実行できるようになった。
具体的には、OpenChatから、改善されたコンテキスト ウィンドウを備えたMistral 7B v0.2モデル、 Nous Research の Hermes 2 Pro微調整バージョンの Mistral 7B、Google の Gemma 7B、微調整された Starling-LM-7B-betaにアクセスできるようになった。