AIに人間の「判断力」を学習させ、多様性と正確性を確保する
生成AIの導入は引き続き世界中で広がっており、インフォマティカがCDO(最高データ責任者)を対象に実施した調査では、すでに45%の企業が生成AIを導入済みであることが明らかになっています。
IDC Japanは、日本国内の生成AIユースケース市場規模について、2022年から年間平均成長率194.7%で成長し、2027年には786億9400万円に拡大すると予測しています。
こうした背景から、さまざまな業界の経営者が、競争力を維持し、遅れをとらないために生成AIの導入を急いでいます。
一方で、公平性を担保し責任あるAIの開発・利用を実現するためには、さまざまな利害関係者であるマルチステークホルダーの意見や視点を取り入れるアプローチが重要です。しかし、そうした多様性や正確性を確保するアプローチや、AI導入の成功を左右するデータ管理に対して、十分な注意が払われていないという課題も存在します。
AIは学習データに基づき最適解を導き出しますが、人間と同等の判断力を備えているわけではありません。AIの導き出した推論結果をもとに、倫理観や多様な価値観を反映させ、最終的な意思決定は人間が行う必要があります。つまり、生成AIのアウトプットをより実用的なものにするためには、人間からのフィードバックを学習データに組み込む必要があります。
また、AIモデルの学習に使用されるデータは、高品質で偏りのないものである必要があります。機械学習分野の “Garbage in, garbage out (ゴミを入れるとゴミが出てくる)” ということわざの通り、AIエンジンがどれだけ最先端であっても、それらに供給されるデータが不完全で、適切なガバナンスが施されていない場合は、潜在能力を最大限に引き出すことができません。
加えて、先述の「ヒューマン・イン・ザ・ループ(人間のフィードバックが組み込まれたプロセス)」が欠如していれば、同様に問題が生じます。AIは質の高い入力データと人間による監視・介入がなければ、完全な機能を果たすことはできないのです。
例えば、生成AIを活用して問い合わせに対する回答を自動作成し、人間のフィードバックをもとにチューニングするとします。もし、ごく一部の限られた担当者のみが情報やフィードバックを提供するのであれば、学習データに偏りが生じてしまいます。
従来のデータ管理やAI開発方法では、特定のグループだけがサイロ化した情報にアクセス・寄与できる状態が一般的です。その結果、学習データに偏見が生まれ、AIの開発効率や精度が大幅に低下するばかりか、人為的ミスのリスクも高まります。
そこで、重要になるのが、多様なステークホルダーの視点を取り入れた学習とチューニングのプロセスです。さまざまな立場の関係者から幅広い意見を集約することで、多角的に問題を発見し、AIの正確性を向上することができます。
民主化によりデータに命を吹き込む
企業がAIをあらゆる分野で効果的に活用するためには、膨大な量の構造化・非構造化データを発見し、クレンジングを行ったうえで、適切なガバナンスが効いた利用可能なデータセットに統合しながら、AIモデルをチューニングする必要があります。
最終的な目標は、AIを組織全体であらゆることに活用することです。これには、従来のデータチームやITチームの知識とスキルに、AIや機械学習の知見を取り入れる必要があります。
限られたグループのみが利用できるAIは、真のイノベーションの原動力とはなり得ません。そこで重要になるのが、社員のデータスキルを向上させ、生成AIの自然言語インタフェースを活用することで、多くのステークホルダーが参加できるプロセスを確立することです。また、データアクセス管理ツールを導入し、プライバシー保護を確保しつつデータアクセスを効率化・自動化することで、適切なデータガバナンスのもとでAIを民主化することができます。
近年、マルチクラウド、ハイブリッドクラウド、SaaSソリューションの利用が進み、ITインフラは複雑化の一途をたどっています。急激に増加するデータを人的リソースだけで管理するのはもはや現実的ではありません。そのため、データガバナンスを確立するツール自体もAIを搭載したものであることが重要です。こうしたツールは複雑なハイブリッド環境でもデータ運用を自動化・簡素化できるため、AIを効果的に活用するための鍵となるのです。
AIが進化する中、競争のカギを握るのはデータ
AIは未来の経済を牽引する要因の一つと言えます。筆者は、AIに注力する企業が大きな変革をもたらすことを目の当たりにしてきました。
例えば、ライフサイエンスの分野では、臨床試験や規制当局の承認に長い時間がかかるため、新薬の市場投入に10年以上かかることがあります。科学が急速に進歩している一方で、イノベーションがそのスピードに追いついていないのが実情です。そこで、生成AIは現在、新薬の設計や研究開発プロセスの加速に活用されつつあります。
国際的バイオテクノロジー企業であるアムジェンは、AIとインフォマティカの MDM (Master Data Management)およびデータ品質ソリューションを使用し、信頼性の高いガバナンスが効いたデータを共有して高度なアナリティクスと洞察を得ることで、製品化までの時間短縮と、患者治療の改善に成功しています。このようなイノベーションは、ライフサイエンス企業にとって数十億ドルにも上る価値をもたらすだけでなく、多くの患者にとって命運を左右する可能性すらあります。
一方、AI導入が広がるにつれて、AIのプロセスを十分に理解していないリーダーによる誤用のリスクや、多様性に欠けるアウトプットが拡散するリスクも高まります。さらに、AIの普及に伴い、AIをビジネスに活用するだけでは差別化を図ることが難しくなるでしょう。その結果、AIやAIスキル開発への投資を先延ばしにしたり、データの管理やマルチステークホルダー・アプローチの確立を怠ったりする企業は、競争から取り残される可能性があります。
多くの企業がAIの進化に追随するなかで、差別化の鍵となるのがデータです。当社のCEOであるアミット・ワリアが指摘するように、企業の大半はクラウドやSaaSを活用しているため、独自のインフラやアプリケーションを持ち合わせていません。また、大規模言語モデル(LLM)の内製化も多くの企業にとって現実的ではありません。つまり、企業が真に所有しているのは企業データだけなのです。そして、包括的で信頼性の高いガバナンスが効いたデータがないと、AIは正しく機能しません。
責任のある生成AIを実現するためには、多様な視点をもとにしたデータの品質管理が不可欠です。そして、フィードバックデータを含む企業データが組織にとって最も重要な資産であり、それをAIに活用し、顧客、サプライヤー、従業員、パートナーに対して差別化された体験を創造することが、成功の鍵となっていくでしょう。
著者プロフィール
米国インフォマティカ Product Management Metadata and CLAIRE担当バイスプレジデント ガウラブ・パタック
2020年4月にインフォマティカのProduct Management Metadata and CLAIRE担当バイスプレジデントに就任。2021年4月には、独自AIエンジン「CLAIRE」を搭載した「Informatica Intelligent Data Management Cloud (IDMC)」、2023年5月には、業界初のデータ管理に特化した生成AI「CLAIRE GPT」のリリースを牽引するなど、AI分野におけるイノベーションを顧客中心のアプローチで推進。