情報通信研究機構(NICT)は1月14日、大量のデータを暗号化したまま複数のグループに分類できるビッグデータ向け解析技術を開発したと発表した。
今回、データを暗号化した状態でロジスティック回帰分析を高速に行う手法を世界で初めて開発した。新技術はNICTが開発していた準同型暗号技術である「SPHERE(スフィア)」と機械学習の1つであるロジスティック回帰分析技術を組み合わせることで実現。
新技術は暗号化した状態でデータを分類できるため、個人情報などの機微な情報を安全に効率よく分類することが可能になる。応用例の1つとして、新技術を用いて健康診断などのデータから病気の判定を行う際にデータ処理を行う第三者にデータの内容を開示することなく、プライバシーを保護できるようになると期待されている。
また、大量のデータを暗号化したまま複数のグループに分類することを可能とし、高速化の要となる技術は関数の近似とデータ処理の分割の2点となる。最初にNICTはロジスティック回帰分析中に含まれる複雑な関数を単純な多項式で近似し、準同型暗号と組み合わせることで現実的な時間で動作する方式を考案。
次にロジスティック回帰分析に含まれる計算をデータ加工処理と集計処理の2つの部分に分割し、データ加工をあらかじめデータ提供者側で行うことで高速化を進めた。これら2点の改良と同機構が開発したSPHEREを組み合わせることで、大量のデータを暗号化したままでロジスティック回帰分析を行うことが可能となり、シミュレーションではサーバ上で1億件のデータを30分以内で分析可能であることが確認できた。
さらに、米UCI機械学習リポジトリ(カルフォルニア大学アーバイン校のWebサイトで公開されているデータベース)で公開されている実験用データを用い、新技術によりデータを暗号化したままロジスティック回帰分析を行った結果と、暗号化せずに分析した結果がほぼ一致することを確認した。
新技術を用いることで、クラウドサーバなどを用いてデータの分類を行う際、データに含まれるプライバシー情報がサーバ管理者に漏えいすることを防ぐことができるという。