GTC 2015では、 BaiduのチーフサイエンティストのAndrew Ng氏が3人目の基調講演を行った。中国のBaidu(百度)は日本では馴染みが薄いが、世界的にもGoogleに次いで2位の規模の大手検索サイトである。

BaiduはシリコンバレーにInstitute of Deep Learning(IDL)を作り、スタンフォード大学の現役の准教授で、AIの世界では著名なAndrew Ng氏がこの研究所を率いている。

基調講演を行うBaiduのAndrew Ng氏

Ng氏は、Deep Learningは離陸しつつあるという。その理由は、処理がCPU→GPU→クラウド→HPCと変わって性能があがり、2007年の単一CPUでは1M接続程度のネットワークしか処理できなかったものが、多数のGPUを搭載する2015年のHPCでは100B接続と、10万倍に処理能力が上がっている。これはDeep Learningを離陸させるロケットエンジンの大型化に相当するという。

CPU→GPU→クラウド→HPCと処理性能が上がっている。これはロケットの大型化に相当する

80%の精度を達成するまでの学習時間は、GPU 1基の場合は212時間掛かるが、32GPUを使えば8.6時間で終わる。この処理時間の違いは研究の進捗に大きな影響をもたらす。

横軸は対数目盛の時間で、縦軸は精度である。1GPUでは212時間の学習が32GPUなら8.6時間で終わる

機械学習は、トレーニングしても十分な精度が得られない場合は、モデルを大きくして再度トライする。そうすると学習時間も長く掛かるので、より強力なコンピュータが必要となる。これが強力なロケットが必要な理由である。そして、十分学習し、トレーニングデータはうまく認識できるモデルを使ってもテストデータをうまく認識できない場合は、トレーニングデータを追加する必要がある。これがロケットの燃料にあたり、Deep Learningの離陸には両方が必要である。

機械学習の流れ。精度が上がらない場合はネットワークを大型化するので。強力なロケットエンジンが効く。それでも精度が出ない場合は、テストデータを増やす。これはロケットの燃料を増やすことに相当するという

顔認識の例であるが、上の2つの写真の女性は同一人物、下の2つの写真の男性は別人である。

人間の顔の認識。上の女性の2枚の写真は同一人物。下の2枚の写真の男性は別人

顔の認識に関して、Microsoftは3.67%、Facebookは1.63%、Googleは0.37%のエラー率であるが、Baiduは0.15%を達成した。これは6000人のサンプルに対して、間違ったのはわずか9人という精度である。

顔認識のエラー率は、Microsoftは3.67%、Facebookは1.63%、Googleは0.37%であるが、Baiduは0.15%を達成した

また、Baiduは写真へのキャプション付けも研究している。このためには、対象物の認識とは別に単語ごとの認識層を追加したモデルを使っているという。

写真へのキャプション付けは、対象認識とは別の長い層を設けて、単語ごとに認識している

当然であるが、Baiduでは中国語でキャプションを付ける開発も行っている。

当然、Baiduは、中国語のキャプションも開発している

このような画像認識は応用範囲が広く、医療画像、衣類の販売、自動運転、監視カメラ、高齢者補助、ウエアラブル(Baidu Eye)などの画像の理解とそれに基づく操作に有効と考えており、Baidu Eyeというウエアラブルの画像認識グラスを開発している。

コンピュータビジョンが有効と考えられる分野。医療画像、衣類の販売、自動運転、監視カメラ、高齢者補助、ウエアラブル(Baidu Eye)など

また、Baiduはスピーチの認識にも力を入れている。スピーチ認識の場合は、時系列で音が入ってくるので、短時間の音声サンプルごとに並列に動作する認識層を設け、さらに中間のHidden層の間に左右の層と接続する経路を設けた双方向Recurrent Neural Network(BDRNN)という構造を使っている。

スピーチ認識では、双方向Recurrent Neural Networkという構造を使っている。各時点での音を処理する層があり、隣接層の間に、時間的に前後の層からの入力がある

Baiduは実スピーチデータを7000時間、合成で作ったスピーチデータを含めると10万時間を超えるスピーチデータをもっており、これは他社より圧倒的に大量のデータである。

他社がせいぜい2000時間までのデータしか使っていないのに対して、BaiduのDeep Speechは実データで7000時間、合成で作成したデータを合わせると10万時間以上のデータを使って学習を行っている

この大量のデータを使って学習を行っているので、Apple Dictation、Bing Speech、Google APIなどと比較してスピーチ認識の誤り率が低いという。

左から順に、Apple、MicrosoftのBing、Facebook、Googleのエラー率で、右端がBaiduのエラー率

また、サードパーティーのスピーチ認識に比べてBaiduのDeep Speechは雑音に強いことをデモで示した。そして、一般の人は95%精度と99%精度の違いを理解していないが、99%精度に達すると、携帯電話などの操作を音声で行えるようになり、世界が変わるという。

多くの人は95%と99%の精度の違いを理解していないが、99%になると世界が変わり、携帯電話などもスピーチインタフェースにできるようになる

また、自動車、家電(TVや電子レンジなど)、ウエアラブル機器などもスピーチインタフェースで操作できるようになる。そして、Webのサーチや広告、データセンターの管理、コンピュータのセキュリティなどもスピーチで操作できるようになるという。

画像などのデータのサーチの精度は使い勝手に直接影響するので、検索大手は認識精度で他社に負けるわけにはいかない。このため、Google、Microsoft、Baiduなどの大手は、Deep Learningに力を注いでいる。