ビッグデータ時代と言われて久しい。もはや現在では、ビッグデータを用いた分析は当然であり、これが将来のビジネスを左右すると言っても過言ではない。今後、ビッグデータを持つものと持たざるものの差は、確実に広がっていくことだろう。

とは言うものの……ビッグデータ分析は、非常にハードルが高いのも事実である。分析を行うためのツールは総じて高価であり、しかも相当な専門知識が必要となる。それ以前に「分析するために、どのようなデータを、どうやってためればいいかがわからない」と頭を抱えている人も多いことだろう。 そんな悩みを抱える人たちの強い味方となる存在が、IDCフロンティアが提供するデータ分析プラットフォームである「Yahoo!ビッグデータインサイト(以下YBI)」である。 自ら「ビッグデータ分析を驚くほどカンタンに」とうたう、このYBIが具体的にどれくらい簡単なのか。本記事では、実際にIDCフロンティアにサポートしてもらいつつ、データを取り込んで分析を行い、検証してみる。

サポートいただいたのは、株式会社IDCフロンティア ビッグデータ戦略グループの髙階誠氏

データをためる器としてクラウドを活用

まず簡単にYBIの概要について解説しよう。YBIは、IDCフロンティアが提供するクラウドサービス「IDCFクラウド」を基盤に、Hadoopなどの分散処理を組み合わせた分析エンジンを構築している。企業内にあるデータソースをクラウドストレージ上にインポートし、分析エンジンにロードを行い高速に集計、BIツールなどで可視化・分析を行う。

今回サポートいただいた株式会社IDCフロンティア ビッグデータ戦略グループの髙階誠氏によれば、「ビッグデータの分析には、大量のデータをためる器が必要です。しかし、そのためにストレージやサーバーなどのインフラ構築をすると、維持管理の手間やコストなどが掛かってしまいます。ですがクラウドであれば、インフラ構築や維持管理するための専任エンジニアも不要となります」とのこと。

データはクラウド側に置かれているため、必要な時にWeb経由で利用が可能。また、データ収集から保管、分析を短期間で高速かつ容易に行うことができる。 クラウドであるが故に、アカウントの登録から分析の開始まで僅か数分という手軽さだ。しかも、レコード数1億5千万件(1,000万件/月)まで無料のスタータープランもあるなど、初めてビッグデータ分析を行う方々にはもってこいのサービスとも言える。

とは言うものの……一般的にデータを取り込みBIツールなどで可視化するためには、データマートの作成など、高度な専門知識が必要だ。となると、いくら導入の手間や負担が少なくても、やはりビッグデータ分析のハードルは高くなる。ではYBIを使うためには、実際にどの程度の専門知識が必要なのか、具体的に試してみることにした。

さて、さっそく作業開始、どのくらい簡単なものなのだろうか

「驚くほどカンタン」なYBIを実際に試してみる

今回は、WebのアクセスログをYBIに取り込み、BIツールで可視化するまでを行うこととなった。では実際に行った手順に沿って、その内容を説明しよう。

1.YBIにサインアップしてデータを取り込む。
まずは、WebサーバーにあるデータをYBIに取り込む。 コンソールにアクセスしてサインアップ後、WebサーバーにCLIツールのインストールを行う。その後、コマンドラインからYBIにアクセスしデータをインポートする。なお、YBIはAPIKeyで管理しているのでAPIの認証が必要となる。

これらの手順は、自由に参照できるご利用ガイドに詳細が記載されているので、そちらを参考にすれば、さほど戸惑うこともないだろう。(Yahoo! ビッグデータインサイト ご利用ガイドはこちら

YBIのトップ画面

2.YBI上にデータベースとテーブルを作成して、Webサーバーから数十秒に1回ずつなどのように、自動的にデータが収集できるように設定を行う。
なお、今回はあらかじめ用意されたアクセスログのデータをインポートしている。

データベース名を入力した後、Createをクリックするとデータベースが作成される

3.アクセスログから1日のアクセス数のデータを集計する。
日付を指定して集計するクエリを記述。「Run」ボタンクリックで集計が完了する。

データを集計するためのクエリを記述

4.集計したデータを分析のために可視化する。
データを可視化するBIツールとして、今回は「Tableau」を利用する。データの集計結果をTableauへエクスポートした後に可視化する。

Tableau側にデータをエクスポート

Tableauで可視化されたWebアクセスログ

5.可視化されたデータを分析する
可視化されたデータを見ると、全体の約1割に404エラーが見受けられた。つまり「折角アクセスしてくれた、約1割ものユーザーに対してコンテンツを提供できていない状況」という、大きな課題が見つかった。

なお、今回の分析は4,000万件のアクセスログから80万件を集計して可視化を行ったものである。サインアップの画面からデータが可視化されるまで、掛かった時間は約1時間。ほぼ初めて操作してこの程度であれば、慣れてくれば、より効率良く分析を実行できるだろう。「驚くほどカンタン」というのも、あながち間違いではないと言える。

だが、実際にどの程度カンタンかは、使う人の経験や知識によって感じ方は異なるだろう。何事も、使ってみなければわからない。前述した通り、YBIには無料で利用できるスタータープランが用意されている。まずは一度、試しに使ってみて、本当に「驚くほどカンタン」を検証してみてもらいたい。