iPhoneやiPad、Macなどに搭載されている「Siri」は、どちらかというと控えめな存在だ。機能面やできること、進化のアグレッシブさのどれをとっても、GoogleアシスタントやAmazon Alexaに遅れを取っているように映る。

Googleアシスタントは、飲食店などに電話をかけて予約を済ませてくれる機能で世間を驚かせたし、Alexaはその膨大に増えるスキルを獲得し、さまざまなデバイスやサービスとの連携を実現している。これに比べると、Siriの機能やプラットホームの拡大は、どうしても遅く見える。

iOS 13へのアップグレードで、Siriはどのように変化していくのだろうか。

  • iOS 13で、Siriはさらに進化していく

知られざるSiriの現状

Siriの人工知能アシスタントとしての規模は、世界最大だ。Appleデバイスのアクティブユーザーは13億にも上るが、このほとんどすべてのデバイスでSiriを利用できる。Appleによると、Siriへの月間アクセスデバイス数は5億台で、150億リクエストをさばいているという。

そのため、サーバーに高い負荷がかかる新しい機能を導入すると、人工知能アシスタントとして未曾有のトラフィックが集まることになってしまう。確かに、アグレッシブに新機能を投入していくことをためらうのも理解できる。

そのため、AppleはSiriについて、できるだけ端末内でリクエストを処理できる仕組みを実現しようとしている。膨大なリクエストをAppleのサーバーに送らなくても、音声アシスタントとしてのSiriの利便性を生かせるようにするためだ。そうしたアイディアは「エッジコンピューティング」と共通する。

Siriを端末内で処理できるようにするメリットは、サーバーやネットワークの負荷低減以外にもある。Appleは、プライバシー問題に積極的に取り組んでいるが、サーバ側でリクエストを処理する場合、そのリクエストに関連する情報がサーバーになければならない。端末側で処理するならば、その端末の中に情報があればよいわけだ。

できるだけデバイスから個人の情報を出さない、というAppleのプライバシー問題に対するアプローチと、エッジでの処理は符合するのだ。

声が変わる

iOS 13でのSiriの進化として、声が変わるという。新たに「Neural TTS」(Text to Speech)という音声エンジンが開発され、まずは米国の英語から導入し2020年に各国に拡大していくという。

これまでのSiriの音声は、個別の発音や音素を録音し、テキストに合わせて組み合わせて合成音声としてきた。しかし、この技術で自然な発音を追求するには限界があるという。そこで、文章を理解して発音する方式へと移行させたのがNeuralTTSだ。新しい音声エンジンでは、文章全体を通じた抑揚などもより自然になっていくことになる。

そうした声の進化は、iOS 13の機能として、より多くの場面で音声の読み上げを活用できるようにしようとしている。その機能の一つが、AirPodsを通じたメッセージの読み上げ機能だ。

AirPodsをiPhoneとペアリングして装着している際にメッセージが届くと、これをSiriが読み上げてくれる機能が付いた。しかも、読み上げた後にしゃべると、その内容を返信として相手に届けてくれる。

WWDC19の壇上では、このメッセージの読み上げ機能の利用シーンとして、エクササイズ中のメッセージのやり取りを挙げていた。例えば、室内バイクでのエクササイズ中にAirPodsで音楽を聴いていれば、届いたメッセージが耳に直接届き、わざわざiPhoneを取り出さなくてもしゃべるだけで返事ができる。

複数のスレッドが同時進行しているときの相手の識別はどうするのか、返事をしたくない時にどうすれば良いのか、絵文字や、各国のチャットで用いられる「lol」や「www」といった表現をどのように処理するのかといった部分は、ぜひ 試して実用性を知りたいところだ。

SiriKitの拡張は音楽や地図、食料品のデリバリーへ

SiriKitは、Siriを通じて活用することができるサードパーティーアプリの種類を定義している。これまではワークアウト、写真検索、メモやノート、ライドシェア、送金、これによって会話の型を限定しながら、アプリによるSiri活用を拡大させてきた。

iOS 13でのSiriKitには、新たにインターネットを通じたラジオの選曲機能が追加されたほか、iOS標準のミュージックアプリ以外の音楽アプリによる選曲、マップアプリ以外の地図アプリを通じたナビゲーションに対応するようになった。

例えば、Spotifyユーザーであれば、「ジャズをSpotifyで再生して」といったアプリを指定した選曲に対応する。曲名、アーティスト、プレイリスト、ジャンルを指定できるほか、オーディオブック、ポッドキャストの再生を声で実現することができるようになる。

地図については、Google Maps、Wazeといったアプリの活用が可能だ。特に日本の場合、ヤフーやナビタイムなど、日本向けの人気のある地図アプリが存在している。これらのアプリがiOS 13のSiriKitに対応すれば、好きなアプリでの行き先検索を声で済ませることができる。

もう一つ例にあげていたのがデリバリーのオーダーだ。米国ではAmazonに対抗して、各種スーパーマーケットチェーンがアプリを通じた買い物とその商品のデリバリーに力を注いでいる。WWDCのデモには、米国最大手のチェーン、Walmartのアプリが挙げられており、声だけで必要な食料品の買い物を実現していた。

しかし、例えばチーズといっても、膨大な種類の商品がある。米国のスーパーには、スライスチーズといっても、ジャック、モッツァレラ、スイス、チェダーなどの味があり、それぞれに低脂肪やオーガニックなどのオプションが用意される。

そこでSiriを通じたオーダーでは、チーズといった場合、アプリ内の過去の買い物履歴を参照し、チーズの候補を挙げてくれる仕組みを取り入れている。

このようにiOS 13では、アプリが用意した会話をするうえで助けとなるデータなどを活用しながら、受け答えを通じて正確な命令を受け取れるようにする仕組みを作れる。

Siriは音声アシスタントとしてのキャラクターを持っており、Appleの人工知能のインターフェイスとなっている。将来的には、すべて声のみで操作を実現する幅が広がっていくことになるだろう。

しかし、AppleにおけるSiriチームは、日本語変換を含む検索や、ユーザー行動の解析、アプリ解析などを含む技術をカバーしている。音声アシスタントに関わらない部分についても、iOS 13でアップデートが施されている。(続く)

著者プロフィール
松村太郎

松村太郎

1980年生まれのジャーナリスト・著者。慶應義塾大学政策・メディア研究科修士課程修了。慶應義塾大学SFC研究所上席所員(訪問)、キャスタリア株式会社取締役研究責任者、ビジネス・ブレークスルー大学講師。近著に「LinkedInスタートブック」(日経BP刊)、「スマートフォン新時代」(NTT出版刊)、「ソーシャルラーニング入門」(日経BP刊)など。Twitterアカウントは「@taromatsumura」。