「ビッグデータプラットフォームカンパニー」を標榜するClouderaが主催するイベント「Cloudera World Tokyo 2016」が、去る11月8日に東京都内で開催された。ビッグデータ基盤「Apache Hadoop」を取り巻く企業やパートナー、エンドユーザーらが参加した同イベントの基調講演で最初に登壇したのは、米ClouderaのCTO、アマー・アワダラ氏だ。ここでは、「ビッグデータの新次元」と題して行われた同氏の講演の模様をレポートする。

「冬の時代」から返り咲いたAI - その要因となったのは?

講演の冒頭でアワダラ氏は、これまでの人工知能(AI)技術の成長ストーリーを振り返った。AIの歴史は、75年前に英国の学者アラン・チューリングがチューリングテストを定義したことでスタートする。そして1940年代後半から1950年代にかけて、ジョン・マッカーシーがAIを開発するための最初のプログラミング言語「Lisp」を開発。その後、マービン・ミンスキーが最初のニューラルネットワークを開発し、1970年にはテリー・ウィノグラードがMITで会話型のAIシステム「SHRDLU」の開発に成功する。ここまでは順調だった。

ところが、1980年代後半になると「AI冬の時代」に突入する。LISPの失墜・LISPマシン市場の崩壊や、日本の第5世代コンピュータと米国の戦略的コンピューティングの失敗などがその象徴的な出来事だ。

「しかし、機械学習は人々の生活の中から返り咲いた」とアワダラ氏は強調する。

米ClouderaのCTOを務めるアマー・アワダラ氏

氏がその代表的な例として挙げたのが、次々と人間に勝利する囲碁ソフト「AlphaGo」や、AppleやGoogleが提供する音声対話形式のモバイルデバイスのアシスタンス機能、顔の認知AIやSkypeなどのコミュニケーションシステムで使われているAIである。

なぜ今、機械学習は急速に復活したのだろうか。その理由としてアワダラ氏は大きく3つの理由を挙げた。

1. 大規模なデータ収集
2. 十分にスケーラブルな計算
3. オープンソースによるアルゴリズムの「民主化」

まず1の「大規模なデータ収集」とは、近年、オンラインだけでなくオフラインの世界からも大量のデータを集められるようになり、機械学習に必要なデータの収集が容易となったことを指す。

例えば、20年前はATMで預金を引き出した場合、記録に残るのは「誰が何時にいくらおろしたのか」といった構造化データだけだった。それが今や、従来のトランザクションデータはもちろんのこと、カメラで顔を撮影するとともに手の動きまでキャプチャしてデータ化する。加えて、その顧客が銀行のオンラインアプリを利用していれば、預金の引き出しに至るまでの行動も追跡できるようになった。

「つまり、トランザクションデータ以外のさまざまなデータが手に入るようになったことで、その人が一体どんな人なのかを把握できるようになったということです。その結果、すでに一部の銀行ではATMを利用した詐欺行為を格段に減らすことに成功しています」(アワダラ氏)

さらにビッグデータ化は進行している。世界中に存在する全データの90%が過去2年以内に生成されたものであり、しかも現状4.4ZBのデータ量が、今後4年間で10倍の44ZBにまで膨らむと予想されているのだ。その一方で、分析対象となっているのは現在のところ、データ全体の0.5%にすぎない。

2の「十分にスケーラブルな計算」とは、ネットワークやストレージ、CPUなどの進化により、以前は高価な機器や高度なノウハウが必要だった処理も手軽に行えるようになり、スケール感を持ってAIを実行できるようになったことを意味する。

そして、3つ目の「オープンソースによるアルゴリズムの『民主化』」により、かつては大企業や政府関連に限られていた大規模なAI環境の利用が、中小企業にも可能になった。

アワダラ氏は、「ビッグデータプラットフォームの進化はますます進んでおり、さまざまなオープンソースプロジェクトが進行しています。そのプロダクトは世界中で採用され、また多くのベンダーがプロジェクトに貢献しています」と説明した。