Google Glass

Google Glassは、今年行われたGoogleの開発者向け会議であるGoogle I/O 2012において、プロトタイプ版を用いてその開発が大々的に発表された「コンピュータ搭載の視覚拡張メガネ」とも言える注目の新技術です。いつ実際に販売され始めるかはまだ発表されていないのですが、コンピュータビジョンの大きな応用として今後注目される技術ですので、ご紹介しておきます。

Google Glass (出典:Project GlassのGoogle Plusアカウント)

Google Glassは漫画ドラゴンボールの「スカウター」のように、片方の眼の先にだけ、各種情報を重ねて表示させることができる透明のディスプレイが搭載されています。そのディスプレイに映る前方の現実世界上に(スカウターと同じ用に)、データや画像などの各種情報が重ねて表示されるというのがGoogle Glassの主要機能です。つまりは、Web上で共有されている沢山の情報を、「拡張現実感」によりリアルタイムにディスプレイ上に表示するメガネといえます。また、カメラ、マイク、Webブラウザ、音声認識を備えたスマートフォン機能が内蔵されています。Webとは無線によりつながっていて、Googleのサーバから、ディスプレイに表示するのに必要な各種情報が送信されてきたり、逆にそれらの情報を引き出すための各種情報がGoogleのユーザーごとのWebキャッシュを元にサーバへ送信されることになります。

言葉だけで説明してもなかなかどういうものかがわからないと思いますので、先程述べたGoogleによるコンセプトムービーを見てみましょう。

この動画のように、各種情報がGoogle Glassのディスプレイ上に表示されるというものです。これまでもスマートフォンのカメラを通してこのようなリアルタイム情報が表示されるアプリケーションはありましたが(例:セカイカメラ)、それらとのGoogle Glassの違いは「眼で見ている視覚のまま、そこに重ね合わされた情報を見る事ができる」という事になります。わたしたち日本人からするとこれはやはり「スカウター」を連想させますね。

一人称メガネは現在ホットな研究トピック

近年、コンピュータビジョンの研究者の中でもこの「一人称視覚(first person vision)」の研究が盛んに行われています。以前は屋外や屋内のカメラであるとか、運動会で徒競走をしている息子を撮っている映像など、「第3者視点のカメラ」で撮影した映像を解析するのが主流でした。しかし、HMD(ヘッドマウントディスプレイ)が手にいれやすくなってきて、そのHMDに関連するVR(Virtual Reality)やAR(Augmented Reality)の技術が急速に発展し、コンピュータビジョンでも視線追跡技術や物体認識技術の発展で一人称視点の映像でも実現できることが多くなってきたことの影響で、それらをまとめて応用する『「人間の視点から見たそのままの映像」=「一人称視覚」の研究』が盛んに行われています。

Google Glassはこの一人称視覚の研究の、初めての大きな応用成功例になる可能性があります。ただし、現在発表されている最初のGoogle Glassの仕様では、映像を解析しての物体認識や人認識による情報表示機能はほとんどなさそうな模様で情報を重ねて表示するだけのようです。つまり、最先端のコンピュータビジョン研究で実現されている一人称視覚システムと比べると、「ARしか搭載されていなくて各種認識技術は搭載されていない」という乖離があります。とはいえ、将来的にこうした一人称視覚メガネが普及したときに、コンピュータビジョン技術による各種解析技術が大きな役割を果たすのは必至と思います。特にGoogleの場合は検索の会社ですので、Google Glassに映る実世界の物体や人からそれぞれ情報検索したいはずで、コンピュータビジョンの各種認識技術を活用することになるからです。

GoogleのGlassプロジェクトのプロダクトマネージャであるSteeve Lee氏は「Google Glassは人をその場その時の現実に集中させる」と言います。これまでのコンピューティングデバイスは、眼と直接つながって外界を見ているわけではなくて、あくまでデバイスで表示されている画像や動画やそれらが組み込まれているWebを通して「後で」見ていたわけであり、それはPathやInstagram、Youtubeといったアプリでも同様でした。また、スマートフォンのカメラ越しにリアルタイムにARが表示されるアプリは既に存在していますが、眼に直接装着してメガネとして使うものではなく、あくまで手でスマートフォンを掲げてそこにカメラで映し出される映像の上にARが映し出されるというものでありました。しかし、このGoogle Glassのような一人称視点によるメガネデバイスでは、「普段目を通して視ている映像の上に直接情報が表示され、視覚が拡張される」わけです。つまり、移動したり作業をしたり会話したりする時の「現実」において役に立つのが、一人称視点のメガネデバイスであるわけです。

Google Glassのような「一人称視点メガネ」が普及した場合の社会的インパクト

このGoogle Glassがどういう風に社会的インパクトが高いかについては、例えば次のように言えると思います。

「人間が生活する中で見る"一人称映像"に現れるものであれば、それらをすべてコンピュータビジョン処理することにより、それらを各ユーザーが装着しているメガネからリアルタイムにデータとして取り込み、Web上で解析・共有することができることになる」

例えば、Googleは問い合わせた写真上に写っている物体がどういったものなのかを、Googleの特定物体認識用データベースから検索して教えてくれる「Google Goggle」という物体認識アプリをすでに提供しています(Google Goggleを実現する「特定物体認識技術」は、後にこの連載でも仕組みを紹介予定です)。しかし、このGoogle Goggleとは違って、Google Glassでは各ユーザーの視界に入って来る映像から得られる情報を次々とリアルタイムに認識し、サーバにアップロードする「実世界分散視覚センサ」の役割を担うというものに将来的に発展するポテンシャルがあります。

またこれは、これまでは手作業で集めていた物体認識や顔認識用の機械学習用の大量の画像データが、各ユーザーのカメラからGoogle Glassにアップロードされることで、それらを用いて機械学習することにより強力な物体認識エンジンを作れる可能性も示していると言えます。そうして強化された物体認識エンジンや顔認識エンジンなどにより、各Google Glassからさらに安定して多くの物体や人の情報を取得できるようになっていく可能性があるわけです。

一方で、同じくGoogle Glassが発表された後に継続してWebなどで議論されていることなのですが、Google Glassは監視カメラ技術の文脈などでも話される「過剰監視社会」を加速するツールになり得る点が危惧されています。例えば将来的にGoogle Glassに顔検出・顔認識アルゴリズムが搭載されたとすると、各ユーザーが出会ったり、街角ですれ違った人間の顔の画像がどんどんGoogleのサーバにアップロードされ、Facebookの顔認識データベースの規模とは比較にならないほどの、巨大な顔認識データベースができあがるわけです。顔認識データベースの網羅範囲が広くなるだけならまだ良いのですが、問題はGoogle Glassは街角の不特定多数の人の顔を捉えるポテンシャルを持っている点です。これは、現状のターミナル駅の改札に設置されている監視カメラよりも更に広範囲において「大量の人間の顔画像を映像から取得してそれらを巨大な顔認識データベースと照合することにより、彼らがどの人物なのかを判別できるシステム」が「メガネを通して」設置される可能性を示しているわけです。

Webやインターネットを介して個人情報を取得することでサービスをもたらす技術は、Google Glassに限らず必ずプライバシーの問題が発生します。その中でメリットとデメリットをうまく捉え、自分が便利だとか楽しいと思った場合はそのサービスを頻繁に使えばいいでしょうし、デメリットが多いと思うのであればそれはやめてくれと声を上げることになるでしょう。Google Glassのような、世の中の仕組みを相当な規模で変えるポテンシャルのある技術の場合は、その技術がどのくらい世の中に浸透しているかによっても、メリットとデメリットの重なり具合や絶対量が変わってきます。新しい技術が浸透して世の中が変わると、新しいルールや常識の元で価値観を構築しなおす必要があるのが人間社会だと思います。Google Glassのような拡張メガネが発売されて普及した時に、この連載で紹介している各コンピュータビジョンの技術の仕組みが、それら新技術の価値を自分の頭で判断する助けになれば幸いです。

今回のまとめ

前回、今回と2回に分けてGoogle X研究所による2つの研究プロジェクトを紹介しました。2つのプロジェクトリーダーでSebastian Thrun氏の専門は人工知能ですが、人工知能やロボット分野において、視覚を計算機で処理する「コンピュータビジョン」が活躍していることがわかって頂けたかと思います。

インターネット/スマートフォン社会がさらに加速的に進展してきている現在、実世界の視覚情報を取得できるコンピュータビジョンの技術は、近い将来に非常に重要な役割を果たし、かつ中心的な技術になると筆者は確信しています。なぜなら、我々が普段眼で見ている世界から、24時間継続的に色々な情報を認識して取得できるからです。したがって、専門の方だけでなくできれば一般の方でも、そういう技術がある、ということを知っておくだけでも受ける印象が変わってくるはずです。

そういった意味では、これまではいつも難しいアルゴリズムの話ばかりしているという印象を持たれていた方もいらっしゃるかもしれませんが、今後は今回のような他分野でどうコンピュータビジョンが応用されているかについても紹介していきたいと思っていますので、それを通じて、コンピュータビジョンを身近に感じてもらえると幸いです。