6ワークロード データシェアリング編【1】 truestar

Snowflakeがデータ利活用を進める人々のプラットフォームとして、組織のデータを集め、貯め、データサイエンスやデータアプリケーションのエンジンとしてさまざまなワークロードを支えていることを見てきた。では、それらの源泉となるデータへ一体どうやってアクセスするのだろうか。これまで組織内でやってきたように、必要なデータをすべて自分のデータプラットフォームに統合するのだろうか?自組織内に留まらない、市場などの外部環境を把握するニーズが高まっている今、必要なデータをすべて自分で取込み、保管する方法は非現実的であろう。こうしたシーンにおいて画期的な方法を提供するのがデータシェアリングである。今回はSnowflakeのサービスパートナーであり、データ分析やデータを活用した業務コンサルティングで企業の旅路を光で照らしているtruestarの代表取締役社長であり、「データビジュアライゼーションの教科書」も出版し、あらゆる方面からデータドリブン文化醸成に邁進している藤 俊久仁氏に解説いただこう。

解説者:株式会社truestar 代表取締役社長 藤 俊久仁氏
Twitter:@VToshikuni
著書:データビジュアライゼーションの教科書

はじめに

今回はデータ分析や可視化の領域での業務支援サービスを手掛け、データの消費者であると同時に供給者でもある株式会社truestarからSnowflakeが掲げる6つのワークロードの1つである『データシェアリング』がもたらす価値をご紹介します。

データシェアリングとは?

その名の通り『データの共有』です。

これだけだと非常に簡単な話に聞こえますね。国内でデータシェアというと、スマホのデータ容量を分け合える、といった意味合いが一般的かもしれませんが、ここでの『データシェアリング』は、組織の枠組みを超えて様々なデータを幅広く共有することを指しています。

データシェアリングはなぜ必要?

『Data is the new oil.』と叫ばれ始めて久しく、昨今ではごく一般の企業でもデータ分析を当たり前に行っています。データ分析をするにあたり、その目的や課題があるのは当然として、データがなければ何もできないことも事実です。データドリブンな意思決定を行ううえでその一丁目一番地として求められるのがデータであり、共有のニーズが高まるのも当然の流れでしょう。

『データの民主化』という言葉も良く耳にするようになってきましたが、誰にでも使いやすいようにデータを共有することはデータの民主化の第一歩です。

また、本来データシェアリングには『ネットワーク効果』によるデータ自体の価値の向上が期待できます。ネットワーク効果とは『製品やサービスの価値が利用者数に依存していること』を指しますが、利用者が増えるほど、利便性が高まり、価値が向上することを意味します。電話やインターネットが代表例です。

※出典:「ネットワーク外部性」『フリー百科事典 ウィキペディア日本語版』2021年3月13日 (土) 08:03 UTC、 URLはこちら

データシェアリングの場合、利用者が増えることによってデータが洗練されて精度が高まる、または使いやすくなるといったデータ自体の価値を高める効果を期待できます。

しかしながら、現在のデータシェアリング環境ではネットワーク効果が期待できません。共有されているデータやプラットフォームが非常に使いづらいため、『便利で使いたい』以前の『不便で使いたくない』状態にあるのが実状です。現在シェアされているデータは、さながら原油であって石油とは言えないのです。

昨今、この『データシェアリング』を取り巻く環境が大きく変わりつつあります。ここからは具体的に現状とその課題を見ていきましょう。

誰が何を共有している?

大別すると以下の三つです。

(1):主に公共機関(官公庁や自治体)によるオープンデータとしての共有
(2):データプロバイダー各社によるオルタナティブデータの共有※オルタナティブデータ:位置情報、POSデータ、SNSやIoTから取得されるデータなど
(3): 自社自部門のデータ(ファーストパーティーデータ)を他部門や組織外となる関係会社間で共有

この中で(1)と(2)は従来から数多く存在し、そのバリエーションも充実してきています。 (3)は各部門が独自にデータを管理し、部門外への共有も不十分でデータ基盤がサイロ化する、といったネガティブな面も取り上げられることがあります。しかしプラットフォームの進化によってこの領域のデータシェアリングが一気に加速することが予想されます。これまでは閉じた環境でのみ利用されていたデータが、オルタナティブデータとして外部に共有、販売されるようになるでしょう。大手通販会社が自社の販売データをパートナー企業に共有して利活用してもらう取り組みが有名ですが、このような事例が増えてくるはずです。

※参考:次々にヒット商品を生み出すECサイト「LOHACO」が考えるデータ活用とは?

どこでどのように共有されている?

政府統計の多くは総務省統計局のe-Statに集約されていますが、一方で官公庁や自治体がそれぞれプラットフォームを用意し、独自の方法で共有するケースも多く存在します。民間のデータプロバイダーも基本的に同様です。個々のプラットフォームを見ても使いづらいものが多く、データを探索する時間が非常にかかるのが実状です。

  • 例)e-Statでの検索例:人口、市区町村と入れても、なぜか国勢調査はヒットしない (説明図版)

    例)e-Statでの検索例:人口、市区町村と入れても、なぜか国勢調査はヒットしない

※出典:政府統計の総合窓口(e-Stat)(https://www.e-stat.go.jp/

データの提供形式としてはAPIが増えてきたものの、まだまだウェブサイトでの“ポチポチ”ダウンロード、ファイル共有サービスやメール添付での圧縮ファイルのやり取りも依然として多く存在します。結果的にデータが小分けにされているケースも多く、ユーザーが解凍と統合作業を行う必要があります。

  • 例)e-Statの町丁目データ:都道府県ごとに“ポチポチ”ダウンロードが必要  (説明図版)

    例)e-Statの町丁目データ:都道府県ごとに“ポチポチ”ダウンロードが必要

※出典:政府統計の総合窓口(e-Stat)(https://www.e-stat.go.jp/

APIを通じてJSONやXML等のファイル形式が提供されることが増え、システム連携しやすい環境が整ってきています。しかし、可読性が低くデータ分析ツール上で扱いづらいため誰にでも簡単にできる話ではなく、APIでの共有はデータの民主化というにはまだまだ距離があります。 API以外ではCSVを中心としたテキスト形式やエクセル形式が一般的ですが、いまだにPDFも数多く存在します。PDFはレポートの共有であり、分析のためのデータとして活用するには『コピペ』が強いられる、極めて非生産的な共有方法です。

データシェアリングはあくまでビジネスや社会に活かすための手段であって目的ではありません。ユーザーの視点がないままに付加価値の高いデータが共有されても、有効活用は進みません。

いつ共有されている?

特に民間のデータにおいては、主にAPIを通じたニアリアルタイムでの共有も増えてきています。こういったデータは鮮度が高く、タイムリーな需要予測等にも使いやすいため付加価値が高いと言えます。

一方、大規模な調査データは年または数年に一度といったものが主流です。たとえば国勢調査は5年に一度実施され、正式なデータが公開されるまでに1年以上かかります。データの品質を保つためにリードタイムが必要なことは理解できますが、これでは調査データの鮮度が失われてしまい、データが持つ潜在価値も十分に活かしきれないでしょう。

自社データの共有については、専門の組織や要員が十分に確保されていない場合、共有インフラの構築や管理コストが非常に高いため、どうしても後手になりがちです。欲しいデータがいつでもタイムリーに共有される環境があるほうが稀であり、情報システム担当者にデータ抽出等の作業依頼を出して順番待ち、といった形が多いのではないでしょうか?

いくらで共有されている?

オープンデータはもちろん無償です。しかし、取得後に発生する非生産的な作業のコストは無視できません。データの収集や分析前の下準備作業に優秀な人材の貴重な時間を費やしているのであれば、結果的に高いコストを払っていることになります。

一方で、有償データの価格はピンキリです。データの種類、提供形式等によりますが、弊社や弊社のお客様の実績を鑑みると、初期費用も併せて年間数十万~数百万円が主流だと認識しています。

有償データに関して重要な課題なのが、ユーザーライセンス数ベースで価格設定しているケースが多く存在することです。TableauなどのBIツールによって敷居が大幅に下がり、誰でもデータ分析を行えるような時代に、特定の人間しか触れないような販売方法ではデータの利活用が広がりません。データは活用シーンによってその価値が変動するため、ライセンス数で縛らないほうが有効活用される機会を多く創出できます。

ユーザー側で価値が見いだせていれば予算は立てやすく、継続購入につながりやすくなります。ユーザーが増えれば先に挙げたネットワーク効果によって、品質改善などのさらなる価値向上が期待できます。

データシェアリングにおけるミクロな課題とマクロな取り組み

ここまで述べてきた通り、従来のデータシェアリングはお世辞にもユーザーにとって効率的・効果的に行われていたとは言い難く、データもデータを共有するプラットフォームも、使い勝手が良いものは限られていたのが実状です。 一方プロバイダーの立場から見ると、データ量は増加の一途をたどり、それに耐えうるインフラが必要です。貴重なコンテンツであるデータの安全な管理、ユーザーの権限設定なども求められます。データシェアリングの重要性を認識できても、ユーザーにとって使いやすく、プロバイダーにとって運用保守しやすい共有環境を構築することはまさに言うは易く行うは難しなのです。

  • データシェアリングの現状 説明図版

少し視点を変えてマクロに見てみましょう。

総務省の令和2年版『情報通信白書』の中で、デジタルデータ活用の現状と課題が詳しく記述されています。

『日本を含む調査対象国においては、デジタルデータの活用における課題等としてデータのフォーマットのばらつきや品質の確保が挙げられており、データ共有の枠組みが構築される過程において、このような課題の解決に向けた議論も促されていくことだろう。』(第1部第3章第2節)とあるように、データの使いづらさや品質面での問題は日本独自ではなく、世界共通の課題です。

さらに日本においては、データの収集、蓄積、処理やオープンデータの利活用について、米国やドイツに比べて遅れていることが下の調査結果から明らかです。

  • データの利活用状況 説明図版

一方で、『国民が安全で安心して暮らせ、豊かさを実感できる強靭なデジタル社会の実現』を基本的な考え方とし、令和2年7月に閣議決定した『世界最先端デジタル国家創造宣言・官民データ活用推進基本計画』 において、国民の利便性の飛躍的向上を目指した『官民連携による円滑なデータ流通に向けた環境整備』として

・分野間データ連携の実現に向けたルール整備
・官民一体的なデータ利活用促進に向けた制度整備

が取り上げられるなど、日本国内においてもデータ流通の重要性は増すばかりです。

※出典: 政府CIOポータル「世界最先端デジタル国家創造宣言・官民データ活用推進基本計画(令和2年7月17日閣議決定)」URL:https://cio.go.jp/node/2413

これらの話はデータシェアリングにとって追い風であり、データもプラットフォームも、世界レベルで課題認識された改善余地の高いポテンシャルのある事業領域であることを示唆していると言えます。

データシェアリングについては、Snowflake以外の大手クラウドベンダーもサービスを展開しています。 2019年にはMicrosoft Azure Data Share、2021年3月にAmazon Redshift Data Sharingがそれぞれ一般提供開始、2021年リリース予定としてGoogle Analytics Hubがプレビュー版で公開済みなど、各社が力を入れ始めています。

なぜSnowflakeなのか?

本来、先に取り上げたデータの課題の多くは『ネットワーク効果』により改善が見込まれます。ユーザーが増えればデータは洗練されてより使いやすくなり、マネタイズもさせやすくなるでしょう。コストがかけられるようになれば、質の担保やデータ鮮度の向上にも繋げやすくなります。

しかし、最初に述べたように、共有されているデータやプラットフォームが使いづらいことが多く、その効果が期待できるほどユーザーが増えないのが現状です。

たとえば、現在サイロ化しているデータ共有プラットフォームが一元的に集約されればそこにはユーザーが集まります。また、誰にでも使いやすいデータ形式で、且つ各分析ツールや業務システムからシームレスに接続可能なプラットフォームであれば、より一層活用が進みます。

Snowflakeは様々なアプリケーションと接続はもちろん、三大クラウド(AWS/MS Azure/GCP)の多数のリージョンで利用が可能で、特定のツールやクラウドサービスに縛られることはありません。しかも、多彩なデータシェアリング機能を備えており、ここで取り上げたプラットフォームの課題のみならず、従来のデータシェアリングサービスが抱えていた課題解決につなげることができます。

  • 従来のデータシェアリングの方法 説明図版

    従来型のデータシェアリング(Snowflake提供)

  • Snowflakeによる安全なデータシェアリング 説明図版

    Snowflakeのデータシェアリング(Snowflake提供)

管理者側で移動やコピーは不要であり、遅延も発生しません。エンドユーザーの権限管理も安全かつ簡単です。ユーザーの環境がAWS、GCP、MS Azureのいずれでも、そのクラウド環境上で利用できます。

プラットフォームは基本的に従量課金のため、ユーザーが使わないデータにはほぼ費用が発生せず(比較的安価な従量課金のストレージ費用のみ)、ユーザーが実際に使った量に応じて費用が発生する極めて合理的なサービスになっています。 また、従量課金はプロバイダー側には使いやすい価値のあるデータ供給を促し、プラットフォーマーにもより良い環境提供を行うモチベーションを常に与えられます。

すなわち、Snowflakeのデータシェアリング機能はユーザー、プロバイダー、プラットフォーマーのそれぞれにとって使いやすく、環境構築がWin-Win-Winにつながる非常に健全なエコシステムなのです。

また、Snowflakeが提供するデータシェアリング機能の一つ、データマーケットプレイスにはすぐに使えるデータセットが揃っており、注文すればたちまち自分のデスクトップにデータが並びます。また、これまでユーザー側だった組織が、自社データや分析の過程で生成したデータセットをシェア・販売することができ、いとも簡単にデータプロバイダー側に立つこともできます。これはデータビジネスにおける『シェール革命』だと言っても過言ではありません。

Snowflakeデータマーケットプレイスには、2021年11月時点で150以上のデータプロバイダーによって、16種類以上のカテゴリーにまたがる約900点ものデータセットがあります。ユーザーにとって一元集約化されたプラットフォームは非常に大きなメリットであり、競争優位性のある魅力的な環境です。国内に限らず、グローバルなデータ共有が簡単なことも大きなメリットでしょう。実際、弊社のデータを掲載した直後に東南アジアの金融系企業から登録申請がありました。

弊社は、データ共有の環境構築を検討していた2020年の冬にSnowflakeデータマーケットプレイスを知りました。1か月のトライアルでユーザーとしての圧倒的な使いやすさ、『ニアゼロメンテナンス』(過去の記事にリンクしたい)と謳われるだけある運用コストの低さを体感し、即導入に至りました。

Prepper Open Data Bank

Snowflakeのデータシェアリング機能はあくまでプラットフォームの話でしたが、プラットフォームが良くても取り扱うデータそのものが課題を抱えていればその価値は半減です。

先述の通り、国の政策として掲げられるほどデータ(特にオープンデータ)の活用が注視されていますが、 弊社が2021年7月末から展開しているPrepper Open Data Bankはその一翼を担うサービスです。

Prepper Open Data Bankでは、e-Stat、国土数値情報、気象庁などが公開する商用二次利用可能なオープンデータを、ユーザーがすぐに使える形に加工して共有しています。Snowflakeのアカウントがあればデータ代は無料で使用できます。

現状、オープンデータを使って分析しようとしても利用するまでに面倒な下準備、いわゆるデータプレパレーションがいくつも発生します。

  • 加工必須のオンプレデータ 説明図版

ユーザーの視点で考えられていればあり得ないような仕様が当り前に存在し、本来価値のあるデータが極めて非効率的に共有されています。これでは生産性は上がるはずがありません。

データ分析者が時間を費やすべきは分析作業そのものです。下準備は誰かが代わりにやればよい作業であり、Prepper Open Data Bankがその部分を肩代わりします。 加工済みのPrepper Open Data Bankのデータなら直ちに分析が可能です。

  • 分析者向けに加工済みオンプレデータを提供する説明図版

たとえば、町丁目レベルの人口統計量やそれに紐づく行政区域ポリゴンを使った可視化がわずか5分で可能です。

※参考:『5分で完成! 町丁目のTableau VizをPrepper Open Data Bankで!』

Prepper Open Data Bankなら

● データを探索する時間
● データをダウンロードする時間
● データを加工する時間
● データをDWHにアップする時間

これらは全て不要です。 確かに、スキルがあれば半日~1日で下準備することは可能だと思います。しかし、Prepper Open Data Bankなら下準備なしで即分析でき、圧倒的な時短につながります。

なお、2021年10月末時点で既に以下のデータが共有済みとなっており、今後も随時追加予定です。

  • 無料共有済みデータ一覧(2021年10月末時点)

既にオープンデータを活用している方にとっては今後の運用保守作業の軽減に、これから活用を検討される方にとっては無駄なデータプレパレーションの回避に役立つデータになります。

Prepper Open Data BankはSnowflakeデータマーケットプレイスからの申請で利用が可能です。是非ご活用ください。

最後に

データ利活用を推進する上で、データシェアリングを避けて通ることはできません。Snowflakeのデータシェアリング機能ならば、データを効率よく多数のユーザーに提供、販売することも可能です。クラウドを前提とし、共有基盤のマネジメントコストを極力抑える仕様が徹底されており、誰でも簡単に運用しやすい環境が揃っています。

データやプラットフォームはあくまで手段であり、SnowflakeやPrepper Open Data Bankを使うだけで課題解決ができる訳ではありません。しかし、貴重なリソースであるデータ分析者の時間を新たに創出することで、本来取り組むべき課題解決や、そのための分析作業に時間を費やすことができます。データ分析者の不足、人件費の高騰が叫ばれる今だからこそ、彼らの時間を生み出す価値は絶大です。

株式会社truestarでは、課題解決のためのデータ分析や可視化の支援も行っています。ご興味があれば是非ご相談ください。 なお、今回ご紹介したPrepper Open Data Bankは、オープンデータの提供元が使いやすい形で共有するようになれば、その役目を終えることになります。しかし、日本全体でデータ利活用が進み、社会全体の生産性が高まるのであればそれに越したことはありません。その日が一日でも早く到来するよう、Snowflakeのプラットフォームを活用しつつ、微力ながら社会に貢献できれば幸いです。

※本記事はSnowflake、truestarから提供を受けております。

[PR]提供:Snowflake