未知の可能性を秘めたテクノロジーとして、AI(人工知能)は長い間、企業にとって重要な課題でした。特に近年、マイクロソフトなどによるOpenAIへの巨額の投資や、Meta、グーグルなどによる生成AIへの戦略的な取り組みにより、AIは間違いなく過熱状態にあります。CTOやITチームは今こそ、来るべきAI主導の時代がどのような意味をもつのか、考える必要があります。
テクノロジー分野と社会全般への影響という点で、AIはリレーショナル・データベースの導入にたとえることができます。それは、エンドユーザーとソフトウェア開発者の双方に共鳴し、大規模なデータセットへの理解が広まるきっかけになったという点です。
AIと機械学習(ML)は、強力な新しいアプリケーションを構築するだけでなく、大規模で異種のデータセットとともに画期的なテクノロジーに取り組む方法を強化・改善するための形成的な基盤を提供するという点で、同じ観点から見ることができます。私たちはすでに、これらの開発によって、複雑な問題をこれまでよりもはるかに迅速に解決できることを目の当たりにしています。
膨大なAIデータがもたらすストレージの課題とは
データ・ストレージの観点からAIがもたらす課題を理解するには、その基礎に目を向ける必要があります。
どのような機械学習機能にも、学習データセットが必要です。生成AIの場合、データセットは非常に大きく複雑で、さまざまな種類のデータを含んでいる必要があります。生成AIは複雑なモデルに依存しており、その基礎となるアルゴリズムには、学習させるべき非常に多くのパラメータが含まれる可能性があります。
予測される出力の特徴数、サイズ、ばらつきが大きいほど、推論を開始する前の学習実行におけるエポック数と組み合わせたデータのバッチサイズのレベルが大きくなります。
生成AIとは要するに、データセットに基づいて推測を行ったり、外挿、回帰、分類を行ったりすることをタスクとするものです。モデルが扱うデータが多ければ多いほど、正確な結果が得られる可能性が高くなり、エラーやコスト関数を最小化することができます。
ここ数年、AIは着実にデータセットのサイズを拡大してきましたが、ChatGPTや他の生成AIプラットフォームが依拠する大規模な言語モデル(LLM)の導入により、そのサイズと複雑さは桁外れに大きくなっています。
これは、AIモデルの学習プロセス中に現れる学習された知識パターンをメモリに保存する必要があるためで、大規模なモデルではこれが深刻な課題になります。
また、大規模で複雑なモデルにチェックポイントを設定すると、基盤となるネットワークとストレージのインフラに大きな負荷がかかります。これは、内部データがすべてチェックポイントに保存されるまでモデルを続行できないためです。これらのチェックポイントは、ジョブがクラッシュした場合やエラー勾配が改善しない場合の再起動ポイントまたは回復ポイントとして機能します。
データ量とAIプラットフォームの精度の関係を考えると、AIに投資する組織は、AIがもたらす無限の機会を活用するために、独自の非常に大規模なデータセットの構築を検討するでしょう。
これは、ニューラルネットワークを活用して既存のデータ内のパターンや構造を特定し、新しい独自のコンテンツを作成することで実現できます。データ量は指数関数的に増加しているため、組織が可能な限り高密度で最も効率的なデータ・ストレージを利用し、データセンターの設置面積やそれに伴う電力・冷却コストを抑えることが、かつてないほど重要になってきています。
それにより表面化するもう一つ大きな課題は、2030年から2040年までに温室効果ガス排出量のネットゼロ目標を達成するために、大規模化したストレージ要件が持つ影響です。
CO2排出量や電力消費量がすでに深刻な問題となっている今、AIがデータセンターに余分な需要をもたらすため、サステナビリティへの取り組みに影響を与えることは明らかです。
組織へのプレッシャーも重くなるばかりですが、適切なテクノロジー・サプライヤーと協力することで、対応・管理することができます。最新のGPUサーバは1台あたり6kWから10kWを消費する一方で、ほとんどの既存のデータセンターは1ラックあたり15kW以上を供給できるように設計されていないため、GPUの導入規模が拡大するにつれて、データセンターの専門家は差し迫った大きな課題に直面することになります。
AIに最適なフラッシュストレージ
一部のテクノロジー・ベンダーは、製品設計においてすでにサステナビリティに取り組んでいます。例えば、オールフラッシュ・ストレージ・ソリューションは、スピニング・ディスク(HDD)よりもはるかに効率的です。一部のベンダーは、既製のSSDにとどまらず、オールフラッシュ・アレイとフラッシュ・ストレージとの直接通信を可能にする独自のフラッシュ・モジュールを開発して、フラッシュの能力を最大限に引き出し、パフォーマンス、電力利用、効率を向上させています。
フラッシュ・ストレージはHDDよりも持続可能性が高いだけでなく、AIプロジェクトの実行に適していることも明らかです。なぜなら、その成果の鍵は、AIモデルやAI搭載アプリケーションをデータに接続することだからです。
これを成功させるには、大規模で多様なデータ・タイプ、トレーニング・ジョブ用のストリーミング帯域幅、チェックポイント(およびチェックポイント・リストア)用の書き込み性能、推論用のランダム読み取り性能が必要です。さらに重要なことに、サイロやアプリケーションを越えて、24時間365日信頼性があり、簡単にアクセスできる必要があるのです。このような一連の特性は、運用を支えるHDDベースのストレージでは不可能であり、オールフラッシュが必要です。
データセンターは今、AIと機械学習が引き続き台頭することで悪化する、二次的ながら重要な課題に直面しています。それは水の消費で、特に世界的な気温の継続的な上昇を考えると、さらに大きな問題になることが予想されます。
多くのデータセンターでは、蒸発冷却を利用しています。蒸発冷却は、細かい霧状の水を布片に噴霧し、周囲の熱を水に吸収させることで周囲の空気を冷却する仕組みです。賢明なアイデアではありますが、気候変動が水資源(特に既成市街地)に負担をかけていることを考えると、問題があります。
その結果、この冷却方法は近年好まれなくなり、エアコンのような、従来からある、より電力を消費する冷却方法に頼るようになっています。これが、消費電力がはるかに少なく、HDDやハイブリッドのような集中的な冷却要件がないオールフラッシュ・データセンターに移行すべきもう一つの理由です。
AIとデータ・ストレージの今後
AIと機械学習が急速に進化し続けるにつれて、データのセキュリティ(不正または敵対的な入力が出力を変更できないようにすること)、モデルの再現性(シャプレイ値のようなテクニックを使用して、入力がモデルをどのように変更するかをよりよく理解すること)、より強力な倫理(この非常に強力なテクノロジーが実際に人類に利益をもたらすために使用されるようにすること)に焦点が当てられるようになるでしょう。
これらの価値ある目標はすべて、データ・ストレージにますます新たな要求を課すことになります。これからのストレージは、安全で高性能、スケーラブルかつ効率的であるだけでなく、組織のこれらの目標達成を支援するサステナブルなソリューションであるべきなのです。