企業では、組織によるデータの管理方法が、従業員が望んでいるデータの使い方と食い違っていることがよくあります。今回は、データ活用の戦略を再構築する方法を紹介します。
DXにつなげる「データオーナーシップの分散化」
最近、経営層は「データオーナーシップの分散化」という新しい考え方に注目しています。この考え方のコンセプトは、「データは、そのデータを最もよく知る人々がキュレーションすべきで、現場から離れたIT部門で囲ってしまうべきではない」ということと、「データのオーナーは、そのデータをプロダクト、すなわち『製品』のように扱わなければならない」ということです。
つまり、常にデータをクリーンで最新の状態に保ち、きちんとインデックス化しておき、そのデータから価値を引き出せる従業員であれば誰でも利用できるようにしておくということです。
最終的に、データは「製品」として管理され、その製品を利用できる人は組織内のすべての人へと広がる可能性があります。データを使うエンドユーザーは、所属先を問いません。そのデータを管理している部門・部署とはまったく関係のない人かもしれません。
「データメッシュ」とも呼ばれることもあるこのアイデアは、DX(デジタルトランスフォーメーション)とデータドリブンの推進を目指す多くの組織にとって魅力的ではあるのですが、良いことだけではありません。
データオーナーシップの分散を試みた組織は、その経験から、分散化の主な障壁は技術的というよりも組織文化的なものであること、そして分散化の道のりは長く難しいものであることがわかっています。また、分散化を目指すことがあらゆるケースに適しているわけではありません。
問題を一言で言えば、「ほとんどの組織でのデータ管理方法が、従業員が望んでいるデータの使い方に沿ったものではない」となります。
こう語るのは、Cloudera米国本社の製品マーケティング担当ディレクターであるウィム・ストゥープ(Wim Stoop)です。「歯を治してもらいたいときや盲腸の手術を受けたいときは、ジェネラリストではなくスペシャリストのところに行きます。同じことが、組織内の人が必要としているデータについても、当てはまります」
にもかかわらず、ほとんどの企業は多くのデータを、中央集権型の保護された資産として扱っています。データは本番アプリケーション、データウェアハウス、データレイクの中に閉じ込められ、一握りの技術専門家によって管理されています。アクセス権は厳重にコントロールされており、ほとんどの従業員は、自分の組織が所有するデータのうち、自分の直接の権限の範囲外にあるものについては存在を認識していません。
また、データメッシュへの関心が高まっている理由の一つに、組織におけるアジリティー(俊敏性)の追求があります。ストゥープはデータメッシュについて、次のように語っています。
「データメッシュにより、データに責任を負うチームがそれぞれ、しっかりと定義された体系の中で、イテレーションをより迅速に回すことができます。データを製品として扱う体制に移行することで、サイロを解消し、データの『寿命』を長くすることができます。なぜならそのような体制の下ではデータが、それをよく知っている従業員によって明確に定義され、サポートされ、維持されるからです」
データメッシュは、残念ながらお金で買うことができません。散らばったデータを統合するツールは数多く出回っていますが、複雑さの原因はむしろ、組織全体にわたり複数のチームの足並みを共通の定義やガバナンス原則においてそろえなければならないことにあるからです。
「個々のチームはそれぞれが、自分のデータインフラを自分たちで管理できる必要がありますが、同時にそのすべて(のデータインフラ)をつなぐ包括的なガバナンスも必要となります」とストゥープは指摘しています。「セキュリティとガバナンスの一貫性を築くことは、単一のデータセンターで行うとしても難しいことです。単一目的の複数のソリューションをオンプレミスとクラウドで使用している場合にはさらに、難易度が高くなります」
分析に使用されたことがないデータを再発見する
では、どうすればよいのでしょうか?
この課題に取り組もうとする企業には「王道ルート」があります。それは、まず自社がすでに所有しているすべてのデータが何かを改めて知ることを始めるのです。
データファブリックは、オンプレミスやクラウドのデータストア全体、あるいはハイブリッドクラウド全体からデータを探し出します。データファブリックはまた、その使用状況を把握、記録、監視するためにも役立ちます。このようなデータの「再発見」により、取り組みのスタートから大きなメリットが得られることになります。というのも、米企業WANdiscoの調査レポートによると、組織が収集しているデータの80%以上は一度も分析に使用されたことがないためです。
さて、こうしたデータを掘り出す確認作業を通じてデータカタログが作成されます。このカタログはデータ資産をデータベース用語ではなく、ビジネス部門向けの言葉で説明するための用語、タグ、規則セットを作る土台となります。ストゥープは、このような規則は、「データの取り込みから変換、クリーニング、モデリング、準備、キュレーション、さらにはセルフサービスAPIによる分散化にまで適用します」と言っています。それが済んだら、いよいよデータとその管理の両方を分散化し始めることができます。
従来のデータウェアハウスやデータレイクが悪いというわけではありません。しかしそれらを使うのは、データのオーナーがそうしたソリューションから価値を引き出せると自信を持っている場合にのみとすべきです。
あらゆる部門・部署が、自分たちのデータの整え方を自ら考え、決めることができるようにすべきです。私たちがパンデミックから学んだことがあるとすれば、それは、組織は素早く方向転換できる能力を備える必要があるということです。それができるのは、モノリシックなデータ体系に縛られていないときだけではないでしょうか。
著者プロフィール
大澤 毅(おおさわ たけし) Cloudera株式会社 社長執行役員
IT業界を中心に大手独立系メーカー、大手SIer、外資系 IT企業のマネジメントや数々の新規事業の立ち上げに携わり、20年以上の豊富な経験と実績を持つ。Cloudera入社以前は、SAPジャパン株式会社 SAP Fieldglass事業本部長として、製品のローカル化、事業開発、マーケティング、営業、パートナー戦略、コンサルティング、サポートなど数多くのマネジメントを担当。2020年10月にCloudera株式会社の社長執行役員に就任。