LINEが9月28日に開催したエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2017」では、10月5日より正式販売が始まったスマートスピーカー「Clova WAVE」を支える技術が紹介された。本稿では、Data Labs / Clova Centerの橋本泰一氏が行った「The Technologies in Clova」の内容を紹介する。
スマートスピーカー「Clova」とは?
橋本氏は、Data Labsでデータ分析プラットフォームの開発チームと、ClovaセンターでClovaのコア技術であるバーチャルアシスタントの言語理解に関する開発チームを統括している。セッションは、「Clovaとは何か?」から開発の経緯、技術的な特徴、今後の展開までを俯瞰する内容となった。
ClovaはLINEが開発しているAIプラットフォームだ。スマートスピーカーの第1弾であるWAVEに搭載されており、音声入力システムを通して、音楽の再生や天候の通知、チャット、アラーム、対応するデジタル家電などが操作できる。WAVEに入力された音声からユーザーが何を求めているか、どういったサービスを利用したいのかを理解し、ユーザーにサービスを提供する基盤となるのがClovaだ。
橋本氏はLINEにおけるAIの位置づけについて「LINEでは、AIをMachine LearningやDeep Learningのようなアルゴリズムだと考えていません。AIは私たちの日常生活に溶け込んでユーザーをサボートしていくバーチャルアシスタントだと定義しています。日常生活のさまざまなことをClovaがサポートしていく。そのような未来をLINEは考えています」と説明した。
Clovaのアーキテクチャは4つのコンポーネント
Clovaの名称は、「Cloud Based Virtual Assistant」の頭文字に由来するという。今のところ、Clovaが搭載されているのはWAVEに留まっているが、今後は、さまざまな日常生活の中にClovaを展開していく。例えば、スマートフォンアプリや家電、自動車、おもちゃなどだ。
Clovaのアーキテクチャは、大きく4つのコンポーネントから成る。1つ目は、アプリなどからのユーザーの入力を受け取り、ユーザーにサービスを提供する「CLIENT」。2つ目は、ユーザーが話した内容を音声認識でテキスト化したり、ユーザーの意図を理解し、音声合成などで出力する「BRAIN」。3つ目は、音楽再生やLINEの送信、家電の操作などユーザーにさまざまなサービスを提供する「SKILL」。4つ目は、認証や認可などの基本機能を提供し、CLIENT、BRAIN、SKILLを横断的につなぎこむ「PLATFORM」だ。
これら4つのコンポーネントを接続する仕組みとして、CIC(Clova Interface Connect)とCEK(Clova Extension Kit)というインタフェースがある。CICはデバイスやアプリなどClovaのCLIENTとPLATFORMをつなぐためのインタフェースで、音声認識や音声合成、自然言語理解などの機能を利用できるようにする。CEKは、さまざなサービスをPLATFORMに提供するためのインタフェースで、サードパーティ製アプリなどをAPIを通してWAVE上でサービス展開できるようにするもの。
「例えば、WAVEに対して『秋に合う音楽をかけて』と話しかけると、その音声データはCICを通じて音声認識モジュールや音声理解モジュールに渡され『秋に聞くと心地が良い音楽』と理解されます。そのうえで音楽をかけるというSKILLを選択し、推薦エンジンを使ってユーザーの意図にあった音楽を決定します。音楽が決定したらCEKからCICを通じて音楽のストリーミング配信が開始されるという流れです」(橋本氏)