ビッグデータとメールは、いずれも新しいテクノロジではありません。ここ10年あまりのbigdata間、企業は通信手段としてメールを使用してきました。それと同時に、ビッグデータから価値を引き出す方法を模索してきました。実際、ビッグデータの活用には課題があり、METAグループ(ガートナーにより買収)が定義した「量、スピード、多様性」が有名です。

メールはビッグデータの定義にあてはまるか?

メールには、非構造型という特性があります。年々メールは驚くべき速度で増大しています。また、さまざまな添付ファイルを転送し、高速でやりとりされています。こう考えると、メールはビッグデータの定義をすべて満たしているようです。

メールがビッグデータであるとすれば、問題になるのは「メールから価値をどのように引き出せばよいか」という点でしょう。

これには、明確な答えはありません。ビジネストレンドを引きだそうとする企業でさえ、目標を的確に把握していない場合や、ビジネスインテリジェンスに関する理解が不十分な場合もあります。 ビジネスインテリジェンスとビッグデータは異なるものです。

フランスのInserm研究機関のCIOであり、ビッグデータの権威であるピエール・デロート(Pierre Delort)氏によると、ビジネスインテリジェンス(BI)とは、高密度情報から引き出した統計データをもとに、モノの測定やトレンドの検出などを行うものです。これに対してビッグデータとは、低密度の膨大な情報セットから帰納的な統計データや概念を引き出すことによって、関係性や依存状態を検出し、結果や行動を予測するものです。

組織が推進するBIイニシアティブでのメールの位置付け

多くの企業がビジネスインテリジェンス(BI)イニシアティブを推進しようとしていますが、デロート氏の定義に反して、構造型データではなくビッグデータにフォーカスしています。

使用する方法、使用するテクノロジ、分析対象となる保存データがどのようなものであれ、ビッグデータからインテリジェンスを掘り起こそうという試みは、未知の関連性を掘り出す作業とよく似ています。つまり、「何がわからないのかがわからない、ということがわかっている」状態です。別の言い方をすれば、存在することがわかっていない新たなデータポイントを発見しようとする作業なのです。

メールは、インテリジェンスイニシアティブの論理的なフォーカスになっています。メールは転送手段であり、取得したコミュニケーションセットでもありますが、データ量が膨大でスピード転送される点を考えると、ビッグデータメールには未知のデータポイントが存在する可能性が高いでしょう。つまり、インテリジェンスを引き出す対象としては有効なデータセットだといえます。

メールは、数多くのBIイニシアティブで混乱をまねく要因

メールは新たな知見やデータポイントとして有益である一方、BIイニシアティブを簡単にねじ曲げ、結果を無意味にしてしまう可能性もあります。その原因は、メールの冗長性と一過性という特性にあります。

反復性の高さは、メールの特徴の1つです。メールは多数の宛先に送信されますし、受信者がそれに返信すると2倍になります。また、メールをコピーして件名を変更し、それを新しいメールとして送信することもあります(これにより、メタデータに大混乱が発生することがあります)。複数の質問に対して1件のメールで回答する場合などには、分類が難しくなります。

メールには、一過性という性質もあります。メールが有効性を発揮するのはほんの短い期間です。現在の状況について記述しているメールもありますが、メール内で言及されていない内容に関するコメントや、時間の経過と伴に、最初にメールが送信された理由が忘れ去られるケースもあります。

このようなメールは、ROT(Redundant, Obsolete, or Trivial:重複、古い、些細)と呼ばれます。ROTは保存メールのビッグデータに留まることが多く、数が多くなると、抽出されるデータの有益性が低下する原因になります。このような場合、いくら高度な手法を利用しても、ゴミからはゴミしか抽出できないのです。

インテリジェンスイニシアティブでメールを有効活用するには

メールには、非常に古いメールであっても、価値ある知見や新しいデータが含まれていることがあります。したがって企業は、メール情報の価値を評価する方法、特にビジネス価値のないメールを削除する方法を知る必要があります。法規制で定められた保管期間を満たす必要もありますが、保管する理由がないメールや価値がなくなったメールは削除しなければなりません。業務上、保管する理由のないメールの例に、ジャーナルキャプチャの一部として保管される.WAVファイルがあります。このファイルは、従業員同士のジョークなど、業務に関係しない場合があるので、事前に削除しておかないと、数が増えた場合にはBIイニシアティブにマイナスの影響を与える可能性があります。

これよりも重大な問題になるのは、ビジネス価値がなくなったメールです。たとえば、ニュース記事の場合、その日の重大ニュースが配信されますが、その結末を追跡するわけではありません。このようなメールは、その時点での最新ニュースに関する発言や会話の寄せ集めでしかないのです。顧客からの問い合わせがメールで寄せられることがありますが、解決方法がメールに含まれていない場合が多く、このような情報はCRMソリューションで対応されます。このようなメールが何年も蓄積され、BIイニシアティブで使用されたとすれば、BIソフトウェアはデータを解釈できず、全く関連性のない内容と誤って結びつけられてしまう恐れがあります。このように、ROTは価値あるメールになりすまし、BIの結果の有益性を損ないます。

以上の点を考えると、保存メールは、クリーンアップしない限り、インテリジェントイニシアティブには適していないといえます。ROTを削除する最も簡単な方法は、保持ポリシーの適用です。所定の期間を経過したメールをすべて削除することによって、ROTの80%を削除することができます。

また、保存メールのクリーンアップでは、業務に関係ないメールや価値のないメールを消去する方法もあります。

WAVファイルや.MPEGファイル(もちろん、業務上必要な音声や動画ストリーム以外)など、明らかに不要だとわかるものを削除します。

大量のROTが蓄積されないように保存メールをクリーンアップすることが理想的ですが、これにはポリシーベースの保持ソリューションが効果を発揮します。

保存メールは、適切に管理すればビッグデータの価値あるソースになりますが、そのままの状態では期待通りの結果を得ることはできません。

ストーントン市がバラクーダネットワークスのArchiveOneを使用してメールExchangeストアの管理を効率化した事例(pdf)をご覧ください。

※本内容はBarracuda Product Blog 2015年1月26日Is email Big Data?を翻訳したものです。

Rich Turner

本稿は、バラクーダネットワークスのWebサイトに掲載されている『バラクーダラボ』1月26日付の記事の転載です。