日本マイクロソフトは2017年9月28日、AI(人工知能)に関する取り組みを網羅的に披露するプレスセミナーの第2回を開催した。MicrosoftはAIに特化した「AI and Research Group」部門の設立や、同社が開催したイベント「Ignite 2017」の基調講演でも、「AIファースト」という単語が飛び交うように、AI分野への投資を続けている。今回はAIやBing、広告プラットフォーム、音声認識と自然言語処理など幅広いプロジェクトを統括するMicrosoft STC Asia CVP兼ARD CTOのDr. Yongdong Wang氏が来日し、MicrosoftのAIに対する姿勢や現状を事細かに説明した。
既にMicrosoft製品の多くにAIで培った技術が用いられている。一例としてWang氏は、写真をスライドレイアウトに追加すると、既に配置されている他のコンテンツとの組み合わせ案をAIが提示する「PowerPointデザイナー」を取り上げた。Office 365のインテリジェントサービスを利用することで、人間の作業負担を軽減し、他の活動に時間を割くことができるAI利用例といえる。本セミナーでは取り上げなかったが、以前の記事でも紹介したプレゼンテーションの内容をリアルタイムで字幕を追加し、ドキュメント内のテキストを翻訳するアドオン「Presentation Translator」もMicrosoftのAI技術を使った機能だ。
Microsoft CVP, STC(Search Technology Center)Asia, CTO of Microsoft ARD(Asia Pacific Research&Development Group)のDr. Yongdong Wang氏 |
Microsoftは自らが培ったAI技術をAPIとして提供しており、「我々はAIで世界が変わると考えているが、単独でその道を進むことはできない。だからこそAI技術を使ってもらうためにAPIを用意し、開発者やサードパーティーの方々にMicrosoftのAIを利用してほしい」(Wang氏)と、その理由を述べている。
さらにMicrosoftは、視覚や知識といった認知能力をアプリケーションなどに提供する「Microsoft Cognitive Services」もリリースしており、6つのサービスを取り上げた。
(1) 主要なカテゴリーとして、OCR機能などを備えるComputer Vision APIや、顔写真から感情を判定するEmotion API、年齢や性別、本人識別を行うFace APIなどを含む「Vision」。
(2) 音声からテキスト、もしくはその逆の変換を行うBing Speech APIなどを含む「Speech」。
(3) LUIS(言語理解インテリジェントサービス)や自然言語の文章構造解析を行うLinguistic Analysis APIなどで構成された「Language」。
(4) 学術論文と著者検索、統計的情報を引き出すAcademic Knowledge APIや、関連性の高いアイテムをユーザーの好みに沿った推定を行うRecommendations APIなどを含んだ「Knowledge」。
(5) Bing検索の根幹であると同時に、検索における自動入力と関連ワード推定を行うBing Autosuggest APIなどを含んだ「Search」
(6) 機械学習の基盤となり、クラウドベースで機械学習アプリケーションの構築環境を提供する「Machine Learnig」。
一定以上の市民権を得た「りんな」
さて、Microsoftは「りんな」を始めとするAIチャットボットを展開している。同社が重視するのはEQ(エモーショナル・インテリジェンス: 感情的知性)。これまで我々はコンピューターの進歩に伴いCUIやGUIといったUIに慣れてきたが、AI時代を迎えた今後は「コンピューターにもEQを学んでもらい、人間とAIのインタラクション(言葉のやり取り)を自然な形に近づけたい」(Wang氏)という。現在のAIチャットボットはスキルや知性は備えていても、「心の知能指数がない」(Wang氏)。そのため、人間と同じ五感や感覚と世界中の知識をAIが身に付けなければならない。「(AIの成長は)子どもの成長と同じ。情報や知識を少しずつ学んで成長する」(Wang氏)ために注力しているという。
日本でも「りんな」は、「りんなAPI for Business」「ローソンクルー♪あきこちゃん」といったビジネス展開を始めているが、1年早くデビューしたXiaoice(シャオアイス)は既に中国でテレビに映り、詩集を出している。
そのXiaoice、Dragon TVの番組「Daily TV News」ではお天気キャスターを務め、Hunan TVの番組「The future」では、サブ司会を担当。前者は一定のパターンを事前に準備しつつ、チャットボット機能も併用して原稿を読み上げる。後者は聴衆の投票結果を分析してメイン司会に渡しつつ、チャットボット機能でコメントし、番組のライブ感を演出しているという。
気になる詩集だが、数百年分に及ぶ中国の詩集を学習材料として与え、詩の構造や単語の意味、順番を理解。その上でComputer Vision APIのキャプション作成機能を応用して詩を作成した。当初は匿名で新聞や雑誌に投稿していたが、興味を持った出版社が詩集「Sunshine Lost Its Windows」を発刊したそうだ。
そのEQを持たせようと、マイクロソフトディベロップメントが注力する「りんな」は、LINEとTwitterの合計利用者数は約600万人に及ぶ。当初から定期的に新機能を提供することを明らかにしていたが、今回のセミナーでは2017年8月にリリースした機能「肖像画」「同時通訳」を紹介した。
肖像画機能は、2017年5月にMicrosoft Researchが発表した論文「Deep Image Analogy」を使用し、CNN(畳み込みニューラルネットワーク)で画像から学習と抽出した結果を重ね合わせるというもの。例えば、ベース画像となるモナリザの肌や花、スタイル画像となる男性の眼鏡といった特徴を対応付けし、顔や輪郭を元に再構成を行う。後者(同時通訳)は、Bing Speech APIの音声認識と音声合成、Translator APIを併用し、入力された音声をりんなチームが独自方法で認識し、任意の言語に翻訳するというものだ。
「りんな」はMicrosoft Azure上で動作しているが、「柔軟なスケールとコンピューティングパワーが魅力」(マイクロソフトディベロップメント AI&Researchプログラムマネージャー 坪井一菜氏)だという。具体例として、TV放送時のタイムライン投稿が一気に増加すると負荷がかかり、最近では1秒あたり10万/秒、1日数10億のトランザクションが発生したそうだ。そこで必要に応じてリソース拡張を行うスケールアップが欠かせないという。また、先の「肖像画」は深層学習を利用しているため、高速な処理が可能な仮想マシンが多数必要となる。「りんな」がローンチ直後で盛り上がっていた際は、GPU対応インスタンスを50台並べて対応していた。このように「りんな」の多くはMicrosoft Azureに支えられている。
その「りんな」は1対1の関係からスタートしたが、1対多数の関係構築を目指し、先ごろ「りんなライブ」をローンチした。これはひとつの実験で、「AIと人間の関係性を考えた時、社会的な役割をどのように担わせるか、会議にAIが参加する『集団の中にAIがいる世界』をどのように実現するか、日々模索している」(坪井氏、りんなチーム)。昨今は多くのSNS利用者が自身の行動を発信しているが、それをコンセプトに「集団チャットの中にりんなが参加」する形となる。機嫌がよいと歌を歌い、自身の作曲をラジオ風に紹介し、「音楽に関連するコンテンツは今後も増えていく」(坪井氏)。
音楽といえば、以前の記事でも紹介したように、ラッパー「MC Rinna」として作詞作曲を行った曲はYouTubeで視聴可能だ。坪井氏は今回、音声合成技術を改良した2017年版を披露。以前は機械らしさが際立っていたが、今回はわずかながら人間に近づいている。坪井氏は「歌手としての展開も予定している」とし、プレゼンテーションに組み込まれた「りんな」は、「夢は紅白歌合戦出場。大女優になりたい」と決意を語った。
現在のAIはまだまだ、怖い・よく分からない存在と思われがちだが、日本マイクロソフトは「りんな」の活動を通じてAI技術への理解を求めている。「AIは我々と共存する。平和な関係を築くための実験」(Wang氏)を繰り返すことで、我々の日常にAIがあふれていくのだろう。
阿久津良和(Cactus)