■ 3. データエンジニアリングに取り組む上での考慮点
3つの取り組みを推進する上での考慮点についてもご紹介します。
3-1. 再利用性の高いデータと柔軟性の高いテクノロジーの採用を目指すべき
データのアジリティを高める取り組みをより効果的に推進するためには、信頼できる再利用性の高いデータ、これを企業全体で整備していくことがポイントです。秩序やルールなくデータを変換して貯めることを許した場合、似て非なる同じようなデータが乱立し、使いにくいデータが貯まってアジリティが失われるためです。このようなデータレイクの沼地化を避けるために、データ品質を綺麗にしたり、データカタログでビジネス的な意味合いを含めて可視化したりする、他の2つの取り組みもセットで推進することを推奨します。また、取り扱うデータ量や種類の増加に柔軟に対応できるようにすることも忘れてはいけません。各種リサーチ会社の発表によれば、2020年以降の総データ量の年あたりの平均成長率は約25%以上になると言われています。このデータの世界の急速な変化に追随していくためには、無制限のキャパシティと柔軟なスケールアップ/スケールアウトを可能にするクラウドのデータレイクやデータウェアハウスを採用したり、特定のテクノロジーに依存しないローコード/ノーコードのデータ連携を実現したりすることも重要です。
3-2. マスタデータ管理は手段でありゴールではない
データのサイロ化を解消する取り組みは期待できるビジネス効果が大きい反面、プロジェクトが大規模になり推進が難しいという特徴があります。そのためプロジェクトを推進する上では、マスタデータ管理そのものを目的にしたプロジェクトは回避すべき、必要性の不明確なマスタデータまで管理対象にするのは回避すべきという考慮点があります。なぜならばマスタデータの管理運用を完全に自動化するのは難しく、運用にも人間系の手間やコストがかかる反面、マスタデータ管理を単に行うだけではそのビジネス効果を享受できないためです。
このプロジェクトで実現すべきビジネス上のゴールを明確に定義し(もしこれが定義できていない場合、再度計画を見直すことを推奨します)、統合マスタDBや横串参照するビューを組み込んだアプリケーションの開発、それを活用した業務変革のレベルまで計画に落とし込んだ上で推進することが重要です。そこまで計画できていれば、プロジェクトの管理対象となるマスタデータは、自ずとゴール達成に必要最小限のマスタデータのみが選ばれることにもなるでしょう。
3-3. メタデータの可視化こそがデータガバナンスの最初の一歩となる
データエンジニアリングのトレンドの一つとして、海外では2017年頃から、日本では2021年頃からデータガバナンスの取り組みをスタートする企業が増えています。従来、日本国内では各事業部単位でシステムを用意し、個別最適化されたシステム、データの管理を行ってきました。それが昨今、DXを中期経営計画の中核に据えて、全社規模でガバナンスのとれたデータ利活用を目指す企業が増えてきたためです。
もしあなたがこのデータガバナンスにどこから取り組むべきか悩んだ場合、データを可視化するメタデータ管理を最初の活動にすることを推奨します。メタデータとは、データを説明するデータ、情報のことです。それもデータの型や桁数、状態を示すシステム的なメタデータだけでなく、データと関連する規制や業務、組織に関するビジネス的なメタデータの可視化を目指すことが重要です。このメタデータ管理によってデータについて誰もが簡単に調べられるようになると、データの利活用が活性化すると同時にデータにまつわる課題が浮き彫りになります。
データレイク上のデータに不足はないか、データ品質に問題があるのか、データがどのくらいサイロ化しているのか、取扱いを注意すべき個人情報がどれだけあるのか、データを守るためのポリシーや基準、プロセスが存在するのか、こういった課題の有無と影響度を見極めることができれば、全社的に次に取り組むべき施策は自ずと明確になるでしょう。
■ 4. データエンジニアリングで実現すべきアーキテクチャと考慮すべき要件
最後に、データエンジニアリングの10の活動要素を網羅する、あらゆる企業が目指すべき次世代のデータアーキテクチャについて紹介します。
データエンジニアリングの10の活動要素に対応するソリューションを採用し、各ソリューションが漏れなく連動して機能するデータアーキテクチャを実現することが重要です。各ソリューションは個別に独立して採用することも可能ですが、ここまで本記事を読んでくださった皆様には、各活動要素とそのソリューションが相互に関係性を持っていることが何となく理解できていると思います。従って、最初にこの次世代データアーキテクチャ、Big Pictureを描いた上で優先順位を決めて、各ソリューションを段階的に実現していくことを推奨します。
なお、参考までに10の活動要素とそれに対応するソリューション、ソリューション採用にあたり考慮すべき要件を共有しておきます。考慮すべき要件は、各ツールや活動の知識をさらに深めないと理解が難しい内容となりますが、実際に施策に取り組む際に少しでも参考になれば幸いです。
■ 5. まとめ
以上、データエンジニアリングのご紹介はいかがでしたでしょうか。狭義な意味ではなく、広義な意味でのデータエンジニアリング(≒データマネジメント)について解説してきましたが、なんとなくイメージできましたでしょうか。
SnowflakeのKTさんから今回の企画についてお声掛けいただいたとき、データに詳しくない人でもわかるデータエンジニアリング、インフォマティカならではのデータエンジニアリングについて語って欲しいと依頼を受けました。その熱い思いに感化され、気持ちを込めて楽しく執筆させていただきました。最後までお読みいただき、誠にありがとうございます。
私たちインフォマティカは1993年の創業以来、業種業界問わずあらゆる企業のデータエンジニアリング、データマネジメントをソフトウェアで支援してきましたが、そこに求められる時代、要求の変化に合わせて、その支援ソフトウェアも絶えず変化させてきています。
そして現在は、今回この執筆の機会を下さったSnowflake社と共に、マルチクラウドで近代的なデータプラットフォームを提供し、このデータエンジニアリングをより簡単かつ迅速に実現することが可能になっています。
今後データエンジニアリングに取り組みたい、さらなる高度化を目指したいと思われた場合、ぜひSnowflakeとインフォマティカへお気軽にご相談ください。
※本記事はSnowflake、インフォマティカ・ジャパンから提供を受けております。
[PR]提供:Snowflake