米Snowflakeはこのほど、Metaが提供するオープンソースの多言語LLM(大規模言語モデル)「Llama 3.1コレクションをSnowflake Cortex AIにホスト予定と発表した。
Snowflake Cortex AIとは
Snowflake Cortex AIは、LLMへのアクセスを提供し、AIを活用したアプリケーションを簡単に構築・展開することを実現するフルマネージド型のサービス。
ユーザーが自然言語を使用して構造化データを操作して、インサイトをセルフサービスで取得することを可能にする「Cortex Analyst」、サーバーレスのファインチューニングが行える「Cortex Search」といったコンポーネントの提供が予定されている。
Llama 3.1 405Bを最適化
Snowflake AIリサーチチームは推論とファインチューニングの両方に対してLlama 3.1 405Bを最適化する。導入初日から12万8000トークンという膨大なコンテキストウィンドウをサポートしながら、既存のオープンソース型ソリューションよりも遅延を最大で3分の1削減し、スループットを1.4倍とするリアルタイム推論を実現するという。
さらに、単一のGPUノードを使うだけで大規模モデルをファインチューニング可能なため、Cortex AI内ですべてを処理できるようになり、コストの問題や開発者とユーザーが感じる複雑さを解消する。