NTTデータと中国科学院ソフトウエア研究所(ISCAS)は10月1日、世界的に主流なSNSであるTwitterおよびSina Weiboを対象としたノイズフィルタリング技術の共同研究を、10月より開始すると発表した。両者は、このSNSを対象とした共同研究を進めることで、日本および中国におけるSNSビジネス展開を促進するという。本研究の成果は、2014年2月に発表される予定。

TwitterやFacebookなどのSNSを利用することで、世界中の人々が容易に情報を発信できるようになった。Twitter利用者は全世界で5億人を超え、3億件を超えるツイートが日々発信されていると言われている。

国内においては、世界最高の秒当たりツイート件数を記録するなど(約14万件/秒)、利用者の特に多い地域である。また、中国版Twitterとも言えるSina Weibo(新浪 微博)においては、5億人を超える中国国内最大の登録者が存在し、多種多様な情報が日々交換されている。

最近は、このようなSNS上で生成される膨大な情報(SNSデータ)をビジネスに活用しようとする取り組みが盛んで、SNSデータをマーケティングに活用することで売り上げを大幅に伸ばした企業も出てきている。

NTTデータは、ビッグデータ/ビジネス・アナリティクスでの取り組みを2006年から開始しており、Twitterに代表されるSNSデータの分析についても、対象の1つとして着目しているという。

2012年11月には、TwitterとのFirehose契約に基づいたデータ再販ビジネス、またSina Weiboのデータ提供サービスを開始した。あわせて、マーケティング分析用に評判情報の分析を支援するSaaS型のマーケティング・リサーチサービス「なずきのおと」を展開している。

また日本で初めて選挙活動におけるSNS利用が解禁された第23回参議院選の傾向分析などを行い、その結果を対外的に示す取り組みも進めている。

ISCASは、中華人民共和国国務院直属の研究機関である中国科学院の管轄先の一つであり、コンピューター科学およびソフトウエアを研究する唯一の国立研究所である。

中国語処理やハイパフォーマンス・コンピューティングにおける高度な技術を保有しており、Sina Weiboを含むSNSデータを対象とした豊富な分析実績を有し、これら成果を活用したビジネス展開を視野に入れていた。

NTTデータとISCASは、文字認識技術やテキスト処理技術などの分野において長期間にわたって交流してきたが、こうしたSNSを巡るビジネス展望に基づき、SNSデータの情報活用を目的とした共同研究を行うこととなった。

膨大なSNSデータを研究対象としたマーケティング分析では、数多くのツイートが"ノイズ"として混在している。これらのノイズは、分析の役に立たないだけでなく、分析結果の精度に影響することもあるという。

例えばある企業の評判・口コミを分析する場合、もしデータの中に本来抽出したい企業と同じ名前を持つ別の企業あるいは対象が混在すると、分析精度の低下につながる。また、多くの企業がプログラムによる広告を自動配信していることも、分析の結果に影響を与えることになる。

そこで本研究では、高精度な分析を行えるようにするため、このようなさまざまなノイズを除去するノイズフィルタリング技術を開発する。

NTTデータが日本語Twitterのツイートに対するノイズフィルタリング技術を担当し、ISCASが中国語Sina Weiboのツイートに対する同技術を担当する。両言語間で共通した課題については、連携して推進していくとしている。