生成AIの盛り上がりはいつまで続くだろうか?AIがもたらす変革の可能性をめぐって話題になっているが、しばらくしたらその熱気は信頼性やデータプライバシーに関する懸念の高まりによって急速に冷め始めてしまわないだろうか?

実際にここ数週間で、AI企業に対して著作権侵害を含むいくつかの訴訟が起きている。世界中の政府もまた、こうした企業の活動を調査し、EU AI法のような新たな規制を導入するなどの措置を講じている。

生成AIの活用では信頼できるデータ基盤を確立することが必須

お客さまと話をすると、データプライバシーとセキュリティが、生成AIの導入にあたっての最重要課題であるという話を耳にする。AIが提供できる価値を活用しながら、データのプライバシーを維持し、誤報を防ぎ、最終的に誤った判断やビジネスへの影響を回避するにはどうすればよいのだろうか?

データプライバシーとセキュリティは、クラウドへの移行を含むデータとアナリティクスのイニシアチブにとって重要であるという点で、以前にも目にしたことのある話である。

組織において生成AIを使用するための独自の戦略を定義する際、最初に決める必要があるのは、大規模言語モデル(LLM)に対してどのアプローチを採用するかということだ。

当社のお客さまとの会話や、パートナーであるDatabricksやSnowflakeの活動から見えてきたおすすめのアプローチの1つは、組織が独自のデータで学習させたエンタープライズLLMを実装することである。

安全でコンプライアンスに準拠した方法でエンタープライズLLMを構築するには、自社と顧客のデータを保護するセキュアな環境でモデルを実行することが前提となる。さらに、保護された情報を使用しない基盤モデルを選択することも前提となる。

そして、このようなモデルのトレーニングを成功させるためには、優れたデータがあることを確認しておく必要がある。

前回の記事で書いたように、生成AIはデータがすべてである。大規模な言語モデルは、学習させたデータと同じだけの性能しかないため、最新のデータファブリックで信頼できるデータ基盤を確立することが必須となる。

データ基盤を安全で生成AIに対応可能にするための5つの方法

エンタープライズLLMの実装戦略とインフラ投資を計画する際に、データ基盤を安全かつ生成AIに対応できるようにするための5つの重要な方法を紹介する。

1.データのスマートな移動と統合

多くの企業は膨大な数のソースから、幅広いフォーマットのデータをたくさん持っている。生成AIにとって、大規模な言語モデルは大規模なデータセットで学習することで恩恵を受けるため、これはとても良いことだ。

しかし、コンテンツの作成を最適化するために、シームレスで効率的な情報の流れを可能にするためには、データを特定・、収集し、データウェアハウスやデータレイクに移動できるようにする必要がある。

信頼を得るために: 低遅延と最大限のデータ可用性を保証する、セキュアなポイント・ツー・ポイントのレプリケーション・アーキテクチャを活用する。

2.データの継続的な更新

常に最新のデータを提供することで、大規模な言語モデルを適応、改善し、幅広い言語ベースのタスクやアプリケーションに対して、文脈に関連した首尾一貫した出力を生成することができる。

そのためには、必要なときに必要な場所で継続的にデータを取り込み、複製する、リアルタイムの変更データ取り込みをサポートするデータ管理アプローチが必要だ。

信頼を得るために: リアルタイムのデータをストリーミングすることで、大規模な言語モデルが生成する結果の精度と関連性を最適化する。

3.データの最適な変換

データを大規模言語モデルで使用できるようにするには、生データの状態から適切に変換する必要がある。

ターゲットとするシステムに応じて、最も効率的な方法で変換を実行できる柔軟性が必要だ。例えば、プッシュダウンSQLはクラウドデータウェアハウスに最適だが、SparkクラスタとSpark SQLはデータレイクに適している。

信頼を得るために:データモードとデータ変換ロジックが利用可能であることを確認し、モデルチューニングに活用することで、モデルをトレーニングするためのジェネレーティブコード作成において最適な結果を提供することができる。

4.品質データへのアクセス

データの品質は、モデルの出力の信頼性、正確性、一貫性に直接影響するため、生成AIにとって最も重要である。

学習時に高品質なデータを使用することで、モデルは意味のあるパターンと関連性を学習し、文脈に適した価値あるコンテンツを確実に生成することができる。

信頼を得るために:リアルタイムでデータを自動的にクリーニングし、プロファイリングできるソリューションを活用することで、不良データでモデルをトレーニングする心配がなくなる。

5.データのガバナンス

データガバナンスは、大規模な言語モデルによるデータの責任ある効果的な使用を保証するため、生成AIには不可欠だ。これは、データの収集、キュレーション、保存に関する確立された戦略とポリシーだけでなく、データ・パイプラインのエンドツーエンドのプロセスを自動化するテクノロジーによっても達成できる。例えば、モデルのトレーニングからPIIデータを自動的に保護したいと思うかもしれない。

信頼を得るために:カタログやリネージソリューションを活用することで、データセット間の関係を自動的に見つけて文書化し、データの正確性と一貫性を検証することができる。

あらゆるソースからのデータを活用し、品質を向上させ、安全で包括的な最新のデータファブリックを作成する能力は、生成AIひいてはデータを使って行うほぼすべてのことにおいて成功するための必須条件である。