米Cloudflareは4月2日(現地時間)、AI推論を大規模にデプロイするためのプラットフォーム「Workers AI」を一般提供開始したこと、AI開発者のためのオープンなコラボレーションプラットフォーム「Hugging Face」から、ワンクリックでCloudflareのグローバルネットワーク上にAIアプリケーションをデプロイ可能になったことを発表した。

「Workers AI」の概要

「Workers AI」はオープン ベータ版として提供されていたが、一般提供開始とともに、組み込まれている負荷分散が内部的にアップグレードされた。

これにより、リクエストをより多くの都市のより多くの GPU にルーティングできるようになり、各都市はAI推論に利用可能な合計容量を認識するという。

ほとんどのLLMで、ベータ版では1分当たり50リクエストだったリクエストが 300リクエストになったとしている。

同社は世界150以上の都市でGPUをデプロイしており、直近ではアフリカ初の拠点としてケープタウン、ダーバン、ヨハネスブルグ、ラゴスで展開を開始し、世界中で低遅延のAI推論を提供している。

加えて、CloudflareダッシュボードのWorkers AIページには、価格をより正確に予測するのに役立つニューロン計算など、モデル全体の使用状況の分析が表示されるようになった。

  • 「Workers AI」ダッシュボード

Hugging Faceとの連携

今回、 Hugging Face で人気のある複数のモデルにアクセスし、プラットフォームで利用可能な場合は、簡単にクリックしてそのモデルをWorkers AI 上で実行できるようになった。

具体的には、OpenChatから、改善されたコンテキスト ウィンドウを備えたMistral 7B v0.2モデル、 Nous Research の Hermes 2 Pro微調整バージョンの Mistral 7B、Google の Gemma 7B、微調整された Starling-LM-7B-betaにアクセスできるようになった。