情報・システム研究機構 国立情報学研究所(NII)とSansanは、研究コミュニティーへの研究用データ提供で提携し、NIIがSansanの所有する名刺情報のサンプルデータを「Sansanデータセット」として研究コミュニティーに5月23日より無償提供すると発表した。

サンプル名刺データの画像の例

「Sansanデータセット」は、Sansanが2016年に実施したデータサイエンティスト向け分析コンテストで使用された、サンプル名刺をスキャンした画像データ3841枚分のデータ。個人情報である名刺は、データソースが限られるため、大学や研究機関での名刺の画像解析の研究は活発化しにくいのが現状となっている。こうした背景から、Sansanでは2016年にデータサイエンティスト向け分析コンテストを開催するなど、オープンイノベーションを積極的に進めてきた。

今回提供されるデータのサンプル名刺には、最大9種類の項目(会社名、名前、役職、郵便番号を含む住所、電話番号、FAX番号、携帯電話番号、電子メールアドレス、webサイトのURL)のサンプル情報が含まれているが、この名刺はSansanが作成した架空の名刺であり、特定の企業や個人につながる情報や人物を特定できる個人情報は一切含まれていない。同データは、NIIのデータセット共同利用研究開発センターの情報学研究データリポジトリ(IDR)を通じて提供され、サンプル名刺データを広く研究コミュニティーに提供することにより、画像処理や機械学習の研究の発展に貢献できることが期待されている。

クラウド名刺管理を行っているSansanは、通常のドキュメントに比べて非定型でフォントやフォントサイズ、レイアウトなどのフォーマットが決まっていない名刺を年間数億枚も正確にデータ化しなければならない。そのため、画像処理、機械学習のスペシャリストやデータサイエンティストがテクノロジーを進化させるような専門性の高い研究に取り組み、独自開発した名刺データ化システムと人力オペレーションを組み合わせたデータベースを構築している。

また、NIIでは、2010年にIDRを設置し、様々な企業や機関が保有する各種のデータセットを受け入れて研究コミュニティーに提供を行ってきた。2015年4月には、情報学研究に有用なデータセットを整備して研究者に提供するとともにデータセットの構築とその活用基盤に関する研究開発を行うデータセット共同利用研究開発センターを新設し、研究コミュニティーへのビッグデータの提供をさらに強化するとともに、大規模な実データと最先端情報技術を活用したデータサイエンス研究の加速に取り組んでいる。今後も、データセットの拡充とデータセット共同利用の深化のための研究開発に取り組み、より多くの研究者が自由な発想で研究に利用できるようにするためのシステムプラットフォームの構築を進ていく予定だということだ。