深層学習で人工知能の進歩を目指す「ADAM」

Microsoft Researchは、「ADAM」の研究結果を公式ブログで発表した。ADAMは機械学習や人工知能を具現化するプロジェクトのひとつで、視覚化したオブジェクトを人間のように認識し、判断することを目標としている。

人間の脳におけるニューロンネットワークを機械的に実現するのが「Project ADAM」の目標だという

人間の脳は視覚や聴覚などを使い、さまざまな情報をスタックしていると説明

同研究所のEVP(上級副社長)であるHarry Shum氏は、2014年7月14日から15日まで開催した「Faculty Summit 2014」でADAMのデモンストレーションを披露した。Deep Learning(深層学習)の研究として続けられてきたADAMは、脳のニューロンネットワークをコンピューター内部に作り出し、カメラでとらえた内容を、人間の目と脳のように認識するという。

Microsoft ResearchのHarry Shum氏

実際のデモンストレーションはJohnson Apacible氏が担当し、Windows Phoneで映し出された犬種が正しく認識することを披露した。1匹目のダルメシアンでは手間取っていたものの、2匹目のローデシアン・リッジバックや、3匹目のテリアは問題なく認識。デモンストレーションの最後にはShum氏に対して犬種認識に絡めた冗談も語った。

スマートフォンで犬を撮影。今回のFaculty Summit 2014では、Windows Phoneを使うシーンが多く見られた

犬種がローデシアン・リッジバックであると正しく認識した

待たされて暇になったテリアが、Shum氏に興味を持ちだすワンシーンも。ようやく会場に笑いがあふれた

Shum氏を撮影したが、"犬ではない"と認識エラーが発生したところでデモが終了

今回は犬種認識に限られたが、ADAMの応用例は幅広い。たとえば、ドーナツをスマートフォンで撮影すると、ドーナツの種類とカロリー、糖質などを映し出すソリューションや、腕にできたあざを映すと、過去の症例を元に分析して医者にかかる必要があるか判断できる。いずれもダイエットや健康管理といった我々の日常生活に密着する課題に貢献してくれそうだ。

研究当初に比べ30分の1のリソースで50倍の高速化を実現。今回のデモに当たっては、FlickrやWebページ上の1,400万点ものイメージを用いた

ADAMの応用例として食事内容の分析や、健康診断に用いることが可能になるという

ADAMのようなDeep Learningプロジェクトは目新しいものではない。2012年にはGoogleがWebページ上の画像やYouTubeの動画を利用し、コンピューター上で猫を認識する研究が成功したと公式ブログで発表している。Googleが猫だからMicrosoftは犬という訳ではないだろうが、興味深い取り組みであることは確かだ。

なぜならADAMは、Microsoftの音声認識・発声システム「Cortana」と連動し、電話に話しかけるように犬種を質問して、回答は音声とテキストで示すNUI(ナチュラル・ユーザー・インターフェース)を具現化しているからだ。このようにMicrosoftが持つ各種リソースと連動することで、より大きな広がりを見せる可能性がある。

Shum氏が「PCのパラダイムシフトが起きているが、今は中間に位置している。そして重要なのは、コンピューターの能力やストレージ、帯域幅ではない。人々の時間と注目だ」と語ったように、かつて児童雑誌に描かれていた未来予想図の一端が現実になる、新しい未来の入り口がそこまで来ているのだ。

Faculty Summit 2014の公式サイトでは、以前紹介したリアルタイム音声翻訳の「Skype Translator」や、データセンターの処理能力をさせるためにクラスターを構成する「Catapult」など多くの研究結果が披露されている。興味を持っている方は同サイトのオンラインイベントから、各種動画や資料をご覧いただきたい。

阿久津良和(Cactus)