「AI活用」「ビッグデータ解析」といった言葉を頻繁に目にするようになりましたが、具体的にはどの分野で、どのように実用化されているのでしょうか?

今回は主にマーケティングに用いられる「テキストマイニング」の技術について解説します。

  • テキストマイニングの意味や使い方を理解していますか?(写真:マイナビニュース)

    テキストマイニングの意味や使い方を理解していますか?

そもそもデータマイニングとは

インターネット上には莫大な量のデータが日々蓄積されています。2025年に全世界で発生するデータの量は、163ゼタバイト(163兆ギガバイト)にも上るだろうとアメリカの大手調査会社IDCは予測しています。(※)
※出典:IDC "DataAge 2025: The Evolution of Data to Life-Critical~Donʼt Focus on Big Data;Focus on the Data Thatʼs Big" March 2017

無秩序に増えていくデータのほとんどは、生まれてからそのまま眠りにつきます。2013年の時点で、活用されるデータは全体の5%に過ぎませんでした。大量のデータを収集・分析し、活用していこうという取り組みが「データマイニング」です。

テキストマイニングの語源

マイニング(mining)とは「発掘する」という意味です。石油や天然ガスのように世界各地に蓄積されているデータを掘り起こし、活用するという考え方からデータマイニングという言葉が生まれました。

データには文章・画像・映像・音楽とさまざまな種類がありますが、LINEやメール、ブログやSNS、ニュースや社会調査など、インターネット上で人々は文章(テキストデータ)を中心に情報をやり取りしています。

データマイニングのうち、大量の文章データから有益な情報を取り出すことを「テキストマイニング」と呼びます。

テキストマイニングを解説

数字と違って文章はあいまいなものです。「84点」「71点」とスコアで評価するならともかく、「いやもうとにかくすげえヤバかった!」「みんなは嫌うだろうけど自分は好きかなぁ」といった感想をコンピューターに読み解かせることは簡単ではありません。

その発言をしているのはどういう層なのか? ネガティブ・ポジティブどちらの反応だったのか? 関連する意見はどれくらいあるか? といった事を見分ける自然言語処理の発展によって、テキストマイニングは実用化されていきました。

テキストマイニングで得られる効果

テキストマイニングによって把握できるのは「全体の傾向」です。たとえば、映画の試写会終了後に自由記述のアンケートを書いてもらったとしましょう。アンケートを1枚ずつすべて読めば、全体として好評だったのかイマイチだったのか、おおよその反応はつかめます。

しかし、アンケート用紙が100万枚あったらどうでしょうか? とても読み切れる量ではありません。その意見は多数派なのか、過去と比べてどう変わったのか、特筆すべきポイントは何か、といった知見を得るために、テキストマイニングが用いられているのです。

テキストマイニングの活用法

具体的なテキストマイニングの活用法を見ていきましょう。最も一般的テキストマイニングの活用法は、アンケートやWeb上のユーザー書き込み、コールセンターの記録などを分析することによって、その商品・サービスの評判を分析したり、新たなニーズを抽出したりするマーケティングでの利用です。

また、営業日報や作業報告書を解析することによって、営業アプローチや障害対応のノウハウを見える化・共有化するなど、業務改善にも役立てられています。

さらに、特許や科学技術論文をテキストマイニングすることによって、どのような分野の技術が発展するのか、将来予測などにも用いられています。

テキストマイニングの解析手法

「テキストマイニングではどのように日本語を解析しているのでしょうか?」という文章は、名詞・動詞・形容詞・副詞・前置詞といった品詞の組み合わせで構成されています。これを分解することが自然言語処理の一歩目です。

その後、各単語の関係性を判別します。まずこの文章は「テキストマイニング」について尋ねていて、特に「日本語」における「解析」を知りたいのだな、といった具合です。さらに、この文章の感情を察知していきます。もし文末が「教えてください!!!」となっていたら、この質問者は強い興味を抱いていると判断できるわけです。

このようにテキストデータの一つひとつを活用可能な情報に変換し、それらを統計的処理することによって、各属性の関係性や傾向を明らかにするのがデータマイニングの解析手法なのです。

テキストマイニングの利用価値

クラウドサービスやAI技術の普及によって、テキストマイニングは誰でも簡単に扱えるようになりました。今後はマーケティングの領域だけに留まらず、さらにさまざまな活用法が生まれていくことでしょう。