2024年6月25日に開催された「ビジネス・フォーラム事務局 × TECH+サミットDX 2024 June. イノベーションの競争戦略」にCohesity Japan 技術本部 本部長 笹 岳二氏が登壇。「データ管理とAIの統合によるビジネスイノベーションの推進を実現するITインフラとは?」と題して、これからの時代のITインフラの姿を提案した。
生成AI活用における4つの課題とカギとなるバックアップデータの活用
業務の革新や新しいビジネスの創出に向けて、データ活用は必須の取り組みだ。特に近年は、AI技術の発展により、データを活用してこれまで想像できなかった施策を簡単に実行できるようになっている。
例えば、生成AIを活用することで、チャットボットによる顧客対応や、データ抽出の効率化・検索、市場調査・分析の高度化などが可能だ。また、プログラム作成の自動化やビジネスインテリジェンスとしての活用、さらにはコンプライアンス・セキュリティ対策でも活用され始めている。
こうした、データやAIの活用を推進するうえで重要な役割を果たすのが、セカンダリデータだ。笹氏はこう話す。
「データやAIをさまざまなビジネスシーンで活用していくためには、データをきちんと管理することが重要です。管理したデータを適切に生成AIで処理できて初めて成果につながります。ただ、本番環境にあるプライマリーデータを直接使った分析は、業務への影響から難しい面が多いです。そんななか登場したのが、バックアップデータなどのセカンダリデータの活用です」(笹氏)。
実際にどのようにセカンダリデータを活用するのか。笹氏によると、生成AI活用の課題は大きく4つあるという。「ITインフラコスト」「データ管理コスト」「データの集中管理と可視化」「柔軟なプラットフォーム」だ。
「生成AIを使った取り組みを進める際には、サーバーやストレージ、ネットワークを用意する必要があります。そのためのインフラコストがかかりますし、運用の手間もかかります。また、大量のデータを管理するための仕組みや、いつでもどこからでもデータを取り出すための、検索やデータ処理の仕組みも必要です。さらに、スモールスタートして柔軟に拡張できる仕組みも必要になってきます」(笹氏)。
特に、従来のようなデータ管理の仕組みでは「データの集中管理と可視化」が難しいという。
「使いたいデータを人が探してきて、そのデータをいちいち読み込んで、生成AIで使えるように準備するといった一連のサイクルがあります。これを一つ一つ順番にやっていくとすごく時間がかかります。また、今あるデータを生成AI用にコピーするだけでも長い時間がかかります。さらに利用者から見て、利用するデータはフレッシュで常に最新の状態でなければなりません」(笹氏)。
セカンダリデータを活用すると、生成AI活用の際に直面するこれらの課題を解消できるのだ。
バックアップデータに対してチャットでの情報検索を可能にする「Cohesity Gaia」
Cohesity(コヒシティ)は、GoogleでGoogleファイルシステムの開発をリードし、Nutanixの共同創設者だったDr. Mohit Aron氏が2013年に創業した企業だ。
Cohesityは創業時からセカンダリデータ管理の最適化ソリューションを展開し、2020年からはAIやML(機械学習)を活用したデータセキュリティ機能を追加させた。また、2023年からは生成AIを活用したデータ管理ソリューションを展開し、さらに2024年2月にはVeritas Technologies(ベリタス社)のデータ保護部門を取得し、データ活用やAI活用に向けたソリューション開発を加速させている。
「Cohesityのビジョンは、データの再定義と管理です。これまでセカンダリデータは、バックアップデータのように一度取得されると使われることがありませんでした。そこをしっかり管理することでコスト削減やAI活用に結び付けます。高品質のバックアップデータとCohesityのAI/MLアーキテクチャを組み合わせることで、さまざまなビジネスシーンに活用していきます。具体的には、データ保護、データセキュリティ、データ可動性、データアクセス、データ洞察という5つの柱で事業を展開しています」(笹氏)。
なかでも、データ洞察という点でポイントとなるソリューションが「Cohesity Gaia」だ。
「Cohesity Gaiaは、生成AI活用にあたってのデータ抽出や検索の支援を行うツールです。Cohesityの中にあるバックアップデータやファイルサーバーのデータに対して、素早く検索を行い、適切な結果を素早く得ることができようになります。これまでの情報検索では、データが異なるサイロに分散していることや、キーワードベースの検索や、手動での回答の取得や分析が課題でした。これに対し、Cohesity Gaiaでは、すべてのデータが1箇所で利用でき、文脈に応じたセマンティック検索が可能です。また、RAG(Retrieval-Augmented Generation)によって回答までの時間を短縮できます」(笹氏)。
Cohesity Gaiaは「自然言語を使ってデータに直接話しかける」ソリューションだ。AIを搭載した会話アシスタントで、Cohesity Data Cloud上に保存されたバックアップデータと人間のような会話をすることができる。例えば、Microsoft 365のバックアップデータをCohesity Data Cloud上でインデックス化しておき、「過去120日間に流出した可能性のある患者名と治療計画があるか確認できますか」と問いかけると「はい、過去120日間にメールで流出した情報をいつか見つけました」といった回答を得ることができる。
データ管理プラットフォーム「Cohesity」がビジネスイノベーションを加速させる
Cohesity Gaiaがもたらすビジネスメリットは大きく3つある。
1つめは、質の高いデータを利用したAI搭載の会話型アプリケーションであり、「意思決定のスピードと正確性の向上」が期待できることだ。
「質の高いデータとは、不純物の少ないデータのことです。生成AIでは、インターネット上のさまざまなデータを使うため、利用しなくてもいいデータまで入ってきてしまい、AIが間違った答えを出すことがあります。企業の中のバックアップデータは雑音がないピュアなデータに近いため、必要かつタイムリーな情報検索ができるのです」(笹氏)。
2つめは、セキュアで高性能なRAG AIエンジンを搭載しており「AIイニシアチブを強化」できることだ。
「Cohesityでは、Microsoft 365のバックアップデータだけでなく、仮想マシンの中のファイル、ファイルサーバーのデータ、検索対象となるデータを増やしていく予定です。RAG AIのエンジンもいまはGPT-3やGPT-4ですが、今後も新しいエンジンを取り入れていきます」(笹氏)。
3つめは、企業データを安全に横断検索できるようにすることで、「コンプライアンスとリスク管理の効率化」を見込めることだ。
「例えば、外部流出のリスクなどを定期的に、あるいは、オンデマンドでチェックできるようになります。準備に時間がかかっていたことも、Cohesityを利用すれば短時間で開始することができます」(笹氏)。
このほかにも、ユーザーインタフェースやシステム面でのメリットとして、バックアップの別コピーが不要、引用文献の明示による出所の確認、文脈を意識したセマンティック検索、幻覚(誤認識)がないこと、本番環境データへの影響がないこと、RAGを使うことでモデルトレーニングが必要ないこと、きめ細かなRBAC(役割別アクセス管理)で不正アクセスを防止できることなどが挙げられる。
「Cohesityは、2013年から開発を続けてきたデータ管理プラットフォームです。このデータ管理の仕組みのなかで、さまざまなアプリケーションを動かすことができます。また、オープンなアプリケーションと連携するためのAPIを提供しています。さらに、スケールアウト型のアーキテクチャなので、データ量に応じてスケールさせていくことができます。データへの責任あるアクセスも実現しています」(笹氏)。
Cohesity Gaiaは、こうしたデータ管理プラットフォームのうえで稼働するAIアシスタントだ。精度の高いデータをセキュアにチャット形式で「お手軽・簡単に」活用できる。ビジネスイノベーションを推進する新しいITインフラとして活用していきたい。
[PR]提供:Cohesity Japan