議事録の作成をラクにしてくれる自動文字起こし機能。最近はスマートフォンにも搭載されており、Androidであれば「音声文字変換&音検知通知というアプリがほぼデフォルトでインストールされている。会議などで記録係を任されることの多い新社会人にとっては非常に便利なものだろう。ただし、気になるのはその精度だ。実際に使ってみると周囲の雑音や複数人の発言によりきちんと文章にならないことが多々ある。

そんなときは専用の機器の出番だ。いくつか有望な製品があるが、今回はiFLYTEKが新しく発表したAIボイスレコーダー「VOITER」(型番:SR502J)の実機をお借りすることができたので、文字起こしの能力を試してみることにする。前述のアプリなどと一線を画しているのが、同社が誇る高性能なノイズ処理テクノロジーによる集音と、AIによる文字の自動修正の機能である。

  • iFLYTEKのAIボイスレコーダー「VOITER」

    iFLYTEKのAIボイスレコーダー「VOITER」(型番:SR502J)

試用の前にまず、基本的なスペックからご紹介しよう。外見は少し厚めの小型スマートフォンと言ったところ。実際、右サイドにはSIMスロットが備わっているほかWi-Fiにも対応している。これらを利用してネットワークに接続することで、リアルタイムに文字起こしが可能になる。つまり、収録した音声を即座にテキスト化してくれるのだ。その後、音声ファイルを専用サーバーにアップロードすることでAIが文字起こしの精度を高めてくれる。ただし、音声データはどうしても容量がそれなりに大きくなってしまうため、接続環境がある場面ではモバイル通信よりもWi-Fiを活用したほうがいいだろう。

  • 右側面には電源ボタンやSIMカードスロットを配置

  • 左側面は録音ボタンと音量ボタンが並ぶ

上部には指向性マイク、フロント面には無指向性マイクを搭載しており、最大距離10メートルの周囲360度の音声をきちんと拾えるようになっている。

  • 上部には2基の指向性マイクが搭載されている。フロント面にも6つの無指向性マイクがあるのだが、黒く小さな穴なので写真ではわかりづらい

背面には800万画素のカメラを備える。写真だけでなく動画の撮影も対応しており、字幕表示が可能になっている。ネットワークに接続している状態であれば、収録している動画にリアルタイムで字幕表示までできてしまう。

  • ネットワークに接続していれば、このようにリアルタイムで文字起こしを行なってくれる

そして、音声から自動的にテキストを作る際の問題のひとつが周囲の雑音だ。こうしたノイズが正確な言葉を判別できなくしてしまうため、出力される文字がおかしくなってしまうことがよくある。ちなみにVOITERは隔年で開催される音声認識技術の国際コンテストである「CHiME」で、2016~2020年まで3回連続で一位となった技術が投入されているという。これにより、騒がしい場所でもかなり正確に文字化してくれるというのだ。ここに、クラウド上にてAIが修正を施す機能が加わることで、より精度が高い文章に仕上げてくれることが期待できる。

また、「会議」「講演」「取材」「標準」「メモ」「音楽」といったモードを選択できるため、状況に合わせた録音と認識が実行できるようになっている。本体内に保存された音声ファイルと文字起こししたテキストファイルは、操作画面からのメールアドレスへの送信・USBケーブルによるPCへのエクスポートなどが可能だ。あわせてiFLYTEKが提供するクラウドスペースを利用してのファイル管理も行える。

  • 前面タッチパネルでモード変更やファイル管理などの機能を扱う

では、実際に自動音声認識文字化機能を試してみよう。実験内容はVOITERとスマートフォンを並べて机の上に置き、こちらのプレスリリースの一文を読み上げるというもの。句読点や括弧などは特に発音せず、ひとつの文章として見ていく。読み上げるのは以下の部分になる。

「正確な文字起こしの鍵となるのが、ノイズ処理テクノロジーです。iFLYTEKは、雑音環境での音声認識技術を競う国際コンテスト「CHiME」で2016~2020年(隔年開催)に3回連続世界No.1を受賞。その高度な技術をVOITER・VOITER miniにも採用しました。」

VOITERのモードは「標準」。対して比較するスマートフォン側で利用するアプリは、Googleが提供している「音声文字変換&音検知通知」だ。

まずは静かな場所で機器から40cmほどの距離から読み上げた。

  • 使用したスマートフォンはGoogle Pixel3。とはいえこちらはハードウェアの機能はさほど関係がない

VOITERの結果

正確な文字起こしの鍵となるのがノイズ処理テクノロジーです。アイフライテックは雑音環境での音声認識技術を競う国際コンテストチャイムで2016年から2020年学年開催に3年界連続世界ナンバーワンを受賞。その高度な技術を覚えたボイタミニにも採用しました。

スマートフォンの結果

正確な文字起こしの鍵となるのはノイズ処理テクノロジーアイフライテックは雑音環境での音声認識技術を競う国際コンテストチャイムで2016年から2020年学年開催に3回連続世界ナンバーワンを受賞その高度な技術をボイラーボイラーミニにも採用しました

社名やモデル名などの固有名詞がカタカナになってしまったり変化してしまったりするのはしかたのないところ。それ以外の部分を比較すると、VOITERのほうがより正確であることがわかる。しかも、句点を文章から自動認識して正しい場所に入れてくれているのがかなり便利だ。

次に、ノイズとしてボーカルなしの音楽をかなりの音量で流しつつ同様の距離から読み上げてみた。結果は以下のとおり。

音楽を流しながらのVOITERの結果

正確な文字起こしの鍵となるのがノイズ処理テクノロジーです。アイフライテックは雑音環境での音声技術を競う国際コンテストチャイムで2016年からに1020年学年開催に3年連続世界ナンバーワンを受賞。その高度な技術を覚えた大分ミニにも採用しました。

音楽を流しながらのスマートフォンの結果

性格桃子の鍵となるのが全部処理テクノロジーですアイフライテックは雑音環境での音声技術を競う国際コンテストチャイムで2016年から2020年開催に3年連続世界ナンバーワンオクションソロコーナー大分大分便にも対応しました。

さすがに両機とも認識のズレが発生しているが、VOITERのほうは相変わらず句点を入れてくれるうえ、遥かに元の文章に近い。スマートフォンによる「性格桃子」や「オクションソロコーナー」は、もうどうしてこうなった状態である。どちらも清書はしなければならないが、スマートフォンのほうはより苦労することが確実である。

ちなみにアップロード後の処理は、アップロード後24時間以内に終了する。ただし、優先的に処理してもらう「加速処理」も使用でき、こちらの場合は20分以内に完了する。現在はサーバーが空いているのか、数分で文字起こし処理が終わった。

今回のVOITERの結果を見る限り、この文字起こし精度の高さがあれば、議事録の作成もかなりラクになりそうだ。我々の職業としても、インタビューなどの取材時に実用的な精度が出ている印象だ。

現在、VOITERの販売はクラウドファンディングサイト「Makuake」のこちらのプロジェクトページで行なわれている。先行販売扱いで税込価格は最安で43,800円。やはり高機能だけに少々値は張るが、筆者としてはそれに見合うだけの活躍はしてくれそうだと評価したい。

  • Makuakeのプロジェクトページ

最後にVOITERの細かいスペックをまとめておくと、ストレージが16GB、記録形式がオーディオはwavとaac、ビデオがmp4、テキストがtxt、画像がjpg。カメラは800万画素で、対応言語は日本語と英語。データ通信は4G、Wi-Fi、Bluetoothに対応。本体サイズがW62.26×D125×H14.8mmで重量が166g。

よりコンパクトな「VOITER mini」の販売も行なわれており、こちらはMakuakeの最安で税込価格が16,280円。本体サイズはW32×D55×15mmで重量が30g。