データの統合とアナリティクスは、企業が各所に分散したデータを活用するために極めて重要です。ここでは、Qlikの顧客の声および調査会社のマーケットリサーチをもとに作成した、2020年データ・BIの10のトレンドを紹介します。
1.リアルタイム対応の企業への転換は必須
自社のデータモザイクを構築するためには、情報が的確なタイミングで適切な場所に提供されることが必要です。現在、世界のトップ企業の間では、さまざまな業務をリアルタイムで対応するようになってきています。マーケティングキャンペーンの効果測定、不正行為に関する異常の検出、医療を始めとする人道的サービスの提供、各種のパーソナライズ処理、サプライチェーンの最適化などです。最近の技術革新のうち、2020 年に業務のリアルタイム化に大きく寄与することが予想されるものとして以下の3つが挙げられます。
・高速ネットワークにいつでもどこでも接続
5G と IPV6 により、あらゆる場所でネットワーク接続が可能になります。
・ 業務量のスケーラビリティが無限に
すべてがクラウドに移行するにつれて、エッジデバイスでも場所を選ばず業務を遂行できる Kubernetes が存在感を強めています。
・強力なストリーミングアーキテクチャが登場
Apach Kafka などのソリューションにより、変更データキャプチャ(CDC)とリアルタイムのデータストリーミングが可能に。短時間で大量のデータを取り込み、処理することができます。
2.単なるデータ、ビッグデータの次はワイドデータ
ビッグデータという言葉に正確な定義はありません。どちらかというとぼんやりした概念です。そのビッグデータに対応するためといって、システムの更新や新規投資をすることは、いまや正しい選択とはいえません。
スケーラビリティが事実上無限であるクラウドストレージを使えば、ビッグデータに関する制約は限りなく小さくなります。一方で、データベース内でのインデックス作成と分析やアナリティクスの普及が広がり、また、分析作業に最も適した場所にデータをもってくるためのツールも成熟しました。技術がビッグデータに追いつき、ビッグデータは、過去の神話となったのです。
では、次に2020年に来るものは? それは、極度に分散した「ワイドデータ」です。データの形式が多様化し、存在場所も断片化する中、分析すべきデータはビッグなだけでなくワイドにもなるわけです。例えば、データ形式の多様化に対応するために、DBMS(データベース管理システム)は商用、OSSの両分野で分立が進み、ある統計によれば2013年の162種類から2019年の342種類に増えました(*)。データの統合はビッグデータ問題を解決し、多様で分散したデータを上手にまとめる力をもつ企業が、強力な競争力を手に入れるでしょう。
(*)出典:DB Engines, https://db-engines.com/en/ranking
3.グラフ分析と連想技術はSQL を超える
私たちは何十年もの間、分析用に最適化されていないソリューションを許容してきました。行と列から成るSQLデータベースは、データの入力に適した設計になっています。リレーショナルデータベースの分析ツールにはさまざまなものがありますが、どれもデータのテーブル同士の関係(リレーションシップ)つまり、予め定義された繋がりだけを頼りデータを分析するという点は変わりません。そのため、予期せぬ繋がりを見つけることが難しくなるだけでなく、分断化が悪化してしまいます。
これに代わるアプローチとしてグラフ分析や連想技術などがあります。こちらであれば、好奇心に沿ってデータを深いところまで理解することができます。グラフ分析と連想技術は同じテクノロジーではありませんが、「ノード」、「関係」、「エッジ」の 3 要素から成り、( 誰かが人為的に決めたデータとテーブルの関係ではなく ) データ同士の自然な関係を分析することを重視した概念である点は共通しています。このような分析であれば、特にAIを組み合わせた場合に、はるかに大きな問題に対処することができ、より良い結果を得ることができます。
4.新たなアジャイル手法: DataOps とセルフサービスの融合
セルフサービスBIは、ビジネスユーザーが意思決定の答えを導くためのツールとしての地位を確立しました。その一方で、BIツールが分析すべきデータをきちんと整備する、データマネジメントの分野はまだ大きく立ち遅れています。
2020年には、この分野に、DataOpsという(おそらく読者の方がまだ聞きなれない)解決手段が登場します。DataOpsとは、データの品質を高め、更新サイクルを早めるための方法論で、DevOps からインスピレーションを受けた手法です。DataOpsは、データの検証と分析者が扱うストレージへの配備を自動的に、しかもリアルタイムで行います。変更データキャプチャ(change data capture、CDC)やストリーミングデータパイプラインといった最新の要素技術を導入しています。最新データの取り込みが途切れないように、ITリソースをオンデマンドで制御する機能もあります。ビジネスの意思決定に必要なデータの80%には、DataOpsによる整然とした管理が必要です。そしてDataOpsがうまく回りだせば、スタンドアロンのセルフサービスBI用にいちいち準備していたデータを作るプロセスが不要になります。
IT管理部門側のDataOpsと、ビジネスユーザー部門側のセルフサービスBIが相乗効果を発揮することで、企業内の情報のバリューチェーンが圧倒的に効率化され、データの統合と分析により、経営を適切に導くための「データモザイク」を形作る過程が合理化されるのです。
5.アクティブメタデータカタログは結合組織へ
分析対象になるデータの種類が増えて、保存場所も分散して…頭の痛い問題が増えます。データはすべて、「在庫管理」され体系化しておかねばならいのですから。放っておくと、データはあっという間に腐ってしまいます。データカタログ(文字通り、どういうデータがどこにあるかの一覧)があればことは簡単になります。なので、データカタログへの需要はとどまるところを知りません。
この分野で期待されているのは、機械学習による「メタデータカタログ」です。データが、動かされるものから動くものに変わります。さらに用途に応じて姿を変えます。もちろん、マルチクラウドやハイブリッドクラウド環境でも。 メタデータカタログは、言ってみればDataOpsとセルフサービスBIによるアジリティを現実のものとするための接着剤であり、データのガバナンスを実現するのです。 同時に、ビジネスユーザーが洞察を得るために、またコンテンツをまとめるために必要とする、自分用のデータを準備するものでもあります。なおメタデータカタログについて注意すべき点は、分散化・細分化したデータをまとめ上げるには、あらゆる分析ツールに対応する必要があるということです。