今回のお題はソースネクストが発売したAIボイスレコーダーの新製品「AutoMemo S」です。仕事や勉強に役立つスマートデバイスだったことについて、筆者の体験談をお伝えします。
ディスプレイが付いたポケットサイズのAIボイスレコーダー
ソースネクストといえば、セキュリティソフト「ZERO」シリーズや年賀状ソフト「筆王」など、ビジネスからプライベートまで広くパソコン用ソフトウェアを展開するメーカーです。近年では自動外国語翻訳機「ポケトーク」もヒットを飛ばしています。
AutoMemoシリーズは、会話音声を録音しながら自動で文字起こしをしてくれるボイスレコーダーです。AIによる音声認識の技術を活用して、世界72言語(2022年1月時点)の自動文字起こしに対応します。
2020年冬に発売となった初代のAutoMemoは、細長いスティック型のボイスレコーダーでした。そして2022年1月発売のAutoMemo Sは、コンパクトなハンディサイズの本体に2.83インチのタッチパネルディスプレイを搭載しています。「会話を文字で読める」ボイスレコーダーになりました。
そのデザインは、かつて一世を風靡したアップルのポータブルオーディオプレーヤー「iPod」にどことなく似ています。大きさは手のひらサイズ、重さは約88gなので、持ち運びは苦になりません。
AutoMemo Sで録音した音声データは、録音を終了した直後にWi-Fi経由でクラウドへ送られます。クラウド上のAIエンジンが音声データの内容をテキスト化したのち、ユーザーが指定したクラウドストレージとメールアドレスに、文字起こしされたテキストデータが届きます。指定できるクラウドストレージは、OneDrive、Google Drive、Dropboxです。音声データのテキスト化が完了するまでの時間は、「録音時間の3分の1程度」が目安。汎用性の高いテキスト形式のファイルが保存されます。
内蔵バッテリーでの連続使用時間は、約16時間。保存件数や期間に制限がないため、ストレージ残量を気にせず使い倒せるボイスレコーダーとしても魅力的です。本体内蔵の16GBストレージには、AutoMemo Sがオフラインのとき音声データが一時保存されます。AutoMemo SがWi-Fiでネットワークにつながると、音声ファイルはクラウドにアップロードされ、ユーザーにはメールでMP3音声ファイルのダウンロードリンクが届きます。
内蔵ストレージはまた、キャッシュファイル(お気に入りファイル・直近のアクセスファイル5件)の保存領域としても機能します。ストレージの残量が減ってきたら、AutoMemo S内のキャッシュファイルを削除して空き容量を増やします。
ちなみに、AutoMemo Sと同じ再生機能が使えるiOS・Android対応の専用モバイルアプリもあります。画面の大きなスマホなら、会議や講義の文字起こしデータを移動中に読みながら確認できて便利です。
サブスク形式の文字起こしサービス。月間30時間まで/980円
AutoMemoシリーズは、本体と専用アプリによる録音データ(音声ファイル)の再生は無料です。一方、キモとなる機能の「テキスト化」は、毎月1時間分を越えると有料になります。
たとえば筆者のように、インタビューや発表会の取材メモなどにAutoMemo Sを多用するビジネスユーザーのためには、毎月30時間までのテキスト化が使える月額980円(税込)の「プレミアムプラン」が用意されています。
または、AutoMemo Sの性能をとりあえず試してみたい、本当に必要なファイルだけテキストに起こせれば良い――という場合は、オンデマンドで1回10時間分のテキスト化を「チャージ」して使うこともできます。1回のチャージは1,480円(税込)。余ったぶんを翌月以降に繰り越せるので経済的です。AutoMemo S本体やアプリで「自動テキスト化」の設定をオフにすれば、録音ファイルだけがクラウドに送られます。
ただ、やはりインタビューや会議の議事録のために文字起こしを頻繁に使うのであれば、プレミアムプランがお得でしょう。
文字起こしの精度をGoogle Pixel 6と比較
肝心な日本語音声の「テキスト化の精度」に迫りましょう。2021年秋にグーグルが発売したスマホ「Google Pixel 6」シリーズに初期インストールされている「レコーダー」アプリもまた、日本語に対応した音声の自動文字起こし機能を備えています。使い勝手を比べてみました。
Google Pixel 6シリーズのレコーダーアプリ(以下、Pixel 6)とAutoMemo S、文字起こしの正確さはほぼ互角の印象ですが、日本語の場合は細かなところでAutoMemo Sの精度が勝るように感じました。参考までに例を挙げると、Pixel 6に少し語彙認識のブレが発生することがありました。
- AutoMemo S:可能は可能です(正)
- Google Pixel 6:狩野は可能です(誤)
片仮名の外来語はPixel 6も健闘します。
- AutoMemo S:アプタンメンテナンス(誤)
- Google Pixel 6:アフターのメンテナンス(正)
続いて、アメリカ人のネイティブ英語スピーカーと話す機会に使った結果も振り返ってみました。こちらは全体を通して、Pixel 6の精度が少しリードしているように思えます。AutoMemo Sは英単語の認識にところどころブレがありました。Pixel 6が拾えているフレーズを、AutoMemo Sはまるごと飛ばしてしまう箇所もありました。
- AutoMemo S:point of you(誤)
- Google Pixel 6:point of view(正)
- AutoMemo S:the lens system on the Spencer(誤)
- Google Pixel 6:the lens system on the sensor(正)
筆者の場合、日本語や英語といった言語に関係なく、自動文字起こしのテキストデータを目で追いながら、再度音声を聞いて細かな誤りを修正する作業がどうしても必要になります。それでもなお、ゼロから録音データを聞いて文章をタイプするよりかなりラクなので、仕事を大いに助けてもらえる手応えを感じました。
テクノロジーの壁による3つの課題。解決方法はある?
ふたつの異なる製品を比べると、AIによる自動文字起こしサービスが共通に抱える課題も見えてきます。ひとつは会話の合間に発生する、「はい」「へえ」「うーん」などの「相づち」も正確に拾ってしまうことです。あとから省く作業が手間になることから、今後は「相づちっぽい発声は文字に起こさない」という選択もできるようになるとうれしいところ。
もうひとつは、デバイスが「話者の特定」に対応していないことです。インタビューの場合、質問者と話者の発言が「ひとつなぎ」になったテキストファイルが生成されてしまいます。AIが声のパターンまで学習して、ある程度振り分けてくれると大助かりなのですが……。
また、外国語のスピーカーに通訳が付く場面では、AutoMemo SとPixel 6のどちらも、文字に起こせる言語は1種類に限られます。大抵の場合は日本語を優先してAutoMemo Sを動かして、あとから数字や人名、技術用語などあやふやな箇所は音声を聞き直しながら整えれば、それほど不便は感じませんでした。
あるいは文字起こしを英語で行い、別途録音ファイルをAutoMemoのエンジンでテキスト化する「ファイル・テキスト化サービス」に送り、日本語をテキスト化することもできます。こちらは1時間300円の有料サービスです。
AutoMemo SとPixel 6のレコーダー、それぞれの強みは?
Pixel 6に対して、AutoMemo Sにはテキストや音声データを自動でクラウドにアップロードしてくれる機能があり、やはりこれがとても便利です。Pixel 6はファイルをGoogle Driveにアップロードしたり、メールでエクスポートしたりする作業をユーザーが手動で行う必要があります。
かたや、Pixel 6はいつも身に着けているスマホでレコーダーアプリが使えることから、仕事の現場に「忘れる」ことがほぼありません。また、文字起こしの様子がほとんど遅延なくスマホ画面に表示されるので、直前に会話を交わす相手がなんと発言したか、目で振り返りながら追えるので安心です。
「会話を聞きながらメモを取る手間」にさよなら
ライターである筆者は、日ごろ苦労している文字起こしをスマートデバイスに任せられるようになり、仕事の進め方が大きく変わりました。最も大きな収穫は、インタビューの合間にパソコンでメモをタイピングする作業から解き放たれ、会話にいっそう集中できるようになったことです。
AutoMemo Sは仕事に限らず、外国語のスピーチを文字に起こして語学学習に役立てることもできそう。文字起こしを1時間以上使うと追加料金が発生するので、学生にとってはきっと、AutoMemoシリーズは高価に感じるデバイスです。学生のために「学割プラン」を設けると、ユーザーが広がるのではないでしょうか。ともあれ、今後も自動文字起こしに対応するハードウェアやアプリが増えて、「AIボイスレコーダー」というジャンルの確立に期待です。