ソースネクストのAIボイスレコーダー「AutoMemo(オートメモ)」に、ChatGPTで話題のOpenAIが開発した音声認識AIモデル「Whisper(ウィスパー)」が搭載されました。音声による会話の自動文字起こし、さらに精度が高まっています。
今回、最先端のAI技術を組み込むことを決めたソースネクストの辻正鷹氏、川竹一氏にアップデートの内容を詳しく聞きました。
ChatGPTで話題のOpenAIが開発。文字起こしAI「Whisper」を組み込んだ
AutoMemoは、ソースネクストが2020年12月に最初のモデルを発売したAIボイスレコーダーです。
2022年1月にはコンパクトなポケットサイズの本体に、音声文字起こしの結果をリアルタイムに表示するタッチ液晶を載せた「AutoMemo S」がラインナップに加わりました。本連載では、AutoMemo Sの発売当時に体験レポートを紹介しています。使い勝手については『ライターが惚れた! AIが音声会話を文字に起こす「AutoMemo S」が便利』もご覧になってください。
2022年8月にはAutoMemoがアプリ化されて、スマホでも単体のボイスレコーダーと同様に音声の録音と自動文字起こしができるようになりました。
AutoMemoシリーズの音声データは録音完了の直後にWi-Fi経由でクラウドへ送られ、クラウドにある音声認識エンジンでデータをテキスト化します。音声認識エンジンはユーザーの体験を最大化するために、複数の音声認識モデルを組み合わせています。今回、そのひとつにOpenAIのWhisperが加わったわけです。
ユーザーが所有するAutoMemo端末とアプリは、ユーザーが登録したソースネクストのアカウントにひも付けられています。AutoMemo端末とアプリとで「できること」に違いはほぼありません。録音が終了すると、デバイスとアプリの双方から、音声と文字起こしのデータがユーザー指定のクラウドストレージに保存され、メールアドレスにも届きます。
ノイズ耐性が強くなった。遠くの会話を正しく認識
Whisperは、チャットに最適化されたChatGPTや、画像生成を得意とするDALL・Eと同様に、米OpenAIが独自に開発したオープンソースの音声認識AIモデルです。68万時間にもおよぶ多様性のあるデータを元に学習を重ねてきたAIは、日本語を含むさまざまな言語を認識して文字に起こせます。
ソースネクストでAutoMemoシリーズの商品企画を担当する辻氏は、2022年秋にOpenAIがWhisperを発表した直後、その実力を試してとても良い手応えが得られたと。そこで川竹氏が率いる開発チームに頼み込んで、Whisperをいち早く搭載してもらったと導入の経緯を振り返ります。
川竹氏もWhisperを試したところ、その性能がとても良かったことから、アップデートに向けて開発を急いできました。
「Whisperは環境ノイズへの耐性がとても高く、話者の背後がざわついていたり、BGMが流れていても音声を正しく聞き取れます。離れた場所からでも音声をきれいに録音できます。出席者がリアルとリモートの両方で参加するハイブリッド形式の会議でも、より正確な文字起こしができるため、AutoMemoの使い勝手にもきいてくるはずです」(川竹氏)
ソースネクストは新旧音声認識エンジンの文字起こしの認識精度について、独自に調査した結果を公表しています。データによると、端末から1m離れて4人が会話する会議では旧エンジンの精度が72%でしたが、Whisperを組み込んだ新エンジンでは90%まで向上したそうです。端末から3m離れて2人が会話した場合でも、新旧エンジンの間に精度の向上が見られたといいます。
ムダな「つなぎ言葉」を拾わない! きれいなテキストが生成される
筆者もAutoMemo Sのソフトウェアをアップデートして、Whisperを加えた新エンジンで自動文字起こしを試してみました。
最初におどろいたのは、「フィラー」と呼ばれる会話の「つなぎ言葉」がきれいに取り除かれること。筆者は会話のときに相手の発言に相づちをうったり、発言の前に「あー」「えー」と“ため”を作ったりしがちです。これらは文字に起こされてほしくない音声ですが、Whisperはフィラーを正しく認識して読みやすいテキストを生成します。
ちなみに、上記の“ため”は多くの人が意識せず口にしていると思います(外国語にもあります)。テレビやラジオのアナウンサーはまず言わないので、一度意識して聞いてみるとよいでしょう。
日本語の認識とテキスト化はとても正確ていねいです。固有名詞や特殊な専門用語を除いて、カタカナ英語や数字も正しく識別します。テキストがベタ打ちにならず改行が適度に自動挿入されるため、続くテキストの整理整頓や編集の作業がスムーズになります。
WhisperをAutoMemoに組み込んで使いやすくするために、ソースネクストの開発チームはOpenAIが提供するAPIを元にしながら各所に独自のチューニングを加えました。
Whisperは静かな場所で「物音」を会話音声として認識するクセがあることから、これを可能な限り解消したそうです。また、ユーザーが同時にアクセスした場合でも負荷を分散させて安定動作を提供できるように、サーバーのオートスケールを強化しています。
「文字起こし」が便利になると働き方も変わる?
音声録音と文字起こしができるAIボイスレコーダーとして、AutoMemoシリーズは10,000円を超える商品でありながら圧倒的な人気を獲得しています。2023年3月の時点で、AutoMemoシリーズの累計販売台数は30,000台を突破したそうです。累計の登録アカウント数は65,000件を突破しました。
辻氏によると、AutoMemoは会議の議事録やインタビュー記録のために必要とするビジネスパーソンのほか、教育研究関係者や弁護士など多彩なユーザー層に裾野を広げているとのこと。。
昨今はOpenAIによる対話型AIモデルのChatGPTが急激に耳目を集めたことで、学校現場におけるAIの利活用を巡る議論が活発化しています。かたや、アドビやマイクロソフトなどの大手企業は、AIによるデジタル画像の自動生成機能を自社製品に組み込み、積極的な姿勢を打ち出しています。
AIが自動生成するデジタルコンテンツの著作権やプライバシーに関する議論は今後も慎重に重ねる必要があります。そしてAIが便利になることによって、人間の従事が不要になる仕事があることや、反対に人間のクリエイティビティや生産性の向上につながる側面を見ながら、社会構造の変化を冷静に見ながら次の一手を講じることも肝要でしょう。
AIによる「自動文字起こし」の場合、企業における「会議の質」や「セールストークの質を評価」など、新たなビジネスモデルの創出につながることへも期待が高まっています。近い将来、多く関心の目が向く領域になるような気がしています。
ソースネクストがWebアプリ「AutoMemo Home」を発表
AutoMemoのソフトウェアアップデートが提供されてからまだ間もないですが、辻氏によると、ソースネクストにはWhisper搭載の新エンジンに対して好意的な反響が数多く寄せられているそうです。
「AutoMemoは自動文字起こしに対応するAIボイスレコーダーとして、使いやすいデバイスになるように足腰を常日頃から鍛えてきました。土台がしっかりとしていれば、あとはさまざまなAIエンジンやサービスに接続して色んなことができるんです」(辻氏)と振り返りつつ、展望を抱いています。
4月17日には、ソースネクストはAutoMemoシリーズに対応する新しい無料のWebブラウザアプリ「AutoMemo Home」を発表しました(2023年6月にベータ版を公開予定)。AutoMemoシリーズによる録音データをWeb上で管理・共有しながら、文字起こしの内容を編集できる各種エディタ機能が用意されます。アプリには自動で話者を識別する機能も追加され、AutoMemo Home上から確認できるようになるというから楽しみです。
今後、ユーザーの勘所(かんどころ)をついた機能がWebアプリ(AutoMemo Home)のほうにもそろってくれば、AutoMemoはボイスレコーダーという枠を超えて、ビジネスツールのAI革新をもたらすことになるでしょう。ソースネクストが6月に公開を予定するベータ版からさっそく試してみようと思っています。