筆者は取材などの仕事で録音を行うことがある。こうした録音は失敗が許されない。なので筆者は、取材の録音にはICメモリレコーダーを使っている。ICメモリレコーダーは使い方を間違えない限り「失敗しない」からだ。筆者は「録音」には、スマートフォンを使っていないのである。それはなぜか?
残念ながらPCやスマートフォン上の録音アプリは、ユーザーに落ち度がなくても、録音失敗することがある。他のアプリの影響を受ける、システムの負荷が重い場合などに録音が途切れることがある。さらに無録音になるなどの不具合が入り込む余地がある。不具合はアプリのバージョンアップやOSのアップデートのタイミングで発生する。同じアプリでもスマートフォンを機種変更すると正しく動作しない場合もある。
事前に録音が正しく行えるかをチェックすれば、失敗は防げるかもしれない。しかし、アプリやシステムのバージョンアップのタイミングは、年に何回もあり、それに気がつかない可能性もあるため、失敗できない録音の前に毎回チェックしなければならない。もし問題がわかったとしても、代用のアプリを探してインストール、そしてチェックするという手間もかかる。そんなことを考えると、失敗が許されない録音などは、確実に行える専用機器を使うのが簡単だ。
スマートフォンで音声をテキストに変換
では、スマートフォンで音声を扱うのはダメなのか? というとそうでもない。スマートフォンなら単なる録音ではなく、その場で音声をテキストに変換するような使い方がある。録音とは別に音声をテキスト化したものがあれば仕事の作業効率があがる。Microsoft365版WordやGoogle Docsでも日本語音声を文字に変換できるが、ウィンドウがフォーカスを持っているときのみしか動作しない。このため、メモなどにPCを使いながらリアルタイムの音声を文字に変換するにはスマートフォンが便利だ。
Androidには「音声文字変換(Live Transcribe)」という機能が標準で組み込まれている。この機能は、Android 5.0以上であれば、Playストアからダウンロードして組み込みも可能だ。ただし、利用時には、Google側のサーバーと通信が必須だ。機種や状態、利用環境によっては、完全なテキスト化ができないこともあるが、ちゃんとした録音が別にあれば、それをあとからテキスト化することもできるので大きな問題にはならない。
認識言語を英語に限定すれば、話者を区別してくれるOtterというアプリ/サービスがある。毎月一定時間以下なら無料で利用できるし、録音量が多いなら有償サービスもある。取材で利用した限りでは「音声文字変換」より「Otter」のほうが使いやすい。しかし、両者は、そもそもの目的が違う。Otterは、会議などを想定しているのに対して、音声文字変換は、声が聞き取りにくい人の会話サポートを想定しているからだ。仕事で使うにはOtterのほうがいいのだが、いまのところ日本語には対応していない。
音声文字変換を使う
音声文字変換は、Androidの「設定 ⇒ ユーザー補助 ⇒ 音声文字変換」で機能を有効にしてから利用する(写真02)。有効にすると、画面下部のナビゲーションバー右端に人形(ひとがた)のアイコンが表示されるようになる(バーを表示する設定の場合)。これをタップすれば、いつでも音声文字変換が起動する。
すぐに使えるようにするには、事前に設定を完了させておくべきだろう。音声文字変換を起動して画面をタップし、下のメニューバーから歯車アイコンをタップする。簡易設定が開くので、「その他の設定」で詳細設定に入る(写真03)。
「文字起こしを保存」をオンにし、必要なら第2言語を指定しておく。音声文字変換では2つの言語が選択でき、動作中に手動で切り替えができる。なお保存は最大3日間なので、録音終了後にすぐテキストを別のアプリで保存すべきだ。あとでやろうと思うと忘れてしまう。テキストを長押して、「音声文字変換を選択」(あるいは「すべてを選択」)して、「コピー」したのち、別アプリに貼り付ける(写真04)。Androidに標準搭載の「Keepメモ」なら、貼り付けも簡単で、PCからもWebブラウザ経由でアクセスが可能だ。
注意するのは、音声文字変換は、スマートフォンの内蔵マイクのほか、ヘッドセットにも対応することだ。どのマイクを利用するのかは、前述の「その他の設定 ⇒ マイク」で切り替える。Bluetoothヘッドセットを再接続すると自動的にヘッドセット側マイクに復帰することがある点に注意されたい。マイク切り替えのメッセージは表示されるが、音声文字変換の利用中は、どのマイクが有効なのかを意識しておく必要がある。
内蔵マイクの位置はスマートフォンによりちがうので、事前に取説などで確認しておく。機種にもよるが、音声入力用の「メイン」マイクを音源に向けないと音声を認識できないことがある。複数のマイクを内蔵している場合、ノイズキャンセリング用マイクを含む機種もあり、これを音源に向けてしまうとバッグラウンドノイズとして認識されることがある。
音声文字変換が起動しているとき、画面左上に扇形が表示される。この扇形は音声の入力レベルを表示している。有効なマイクを調べるには、マイクの開口部を音が出ない程度に軽く爪でひっかいてみる。扇形の動きでマイクが働いているかどうかを確認できる。マイクが複数あったとき、扇形の動きが大きいほうが「メイン」マイクだ。
なお、録音した音声を文字認識させたい場合には、WindowsでGoogle ドキュメント(Web版)やWordの機能を使うほうが便利だ。これについては機会を改めて解説したい。