2024年、筆者は新しいMacBook Airを買い、iPhoneも買いました。しかし、仕事に与えた影響がもっとも大きかったのは、ソースネクストの文字起こしAIサービス「オートメモ」でした。
- 選んだ製品:ソースネクスト「オートメモ」
- 価格:スタンダードプラン 月額1,480円
- 選んだ理由:仕事効率化のため
- 満足度(5段階):★★★★
文字起こし系サービスは昨今のAIブーム以前から存在していたものの、精度がイマイチ、コストが合わない、といった理由から使用していませんでした。しかし、急増したサービスをいくつか試用するうちに、今年になって「オートメモ」をメインの文字起こしツールとして使用するに至りました。決め手となったのは精度・コストだけでなく、ワークフローに乗せやすい使い勝手の良さでした。
マルチデバイスで柔軟に使えて編集も可能
オートメモは、ブラウザとアプリから使えるクラウド型AI文字起こしサービス。月額1,480円(30時間)のスタンダードプランと、要約機能も使える月額2,480円のプレミアムプランの2種類があり、年払いだと少し割安になります。
ブラウザまたはアプリから音声ファイルをアップロードすれば、自動的に文字起こしを開始。測ったことはありませんが、体感としては録音時間の半分〜3分の1程度で完了するイメージです。mp3・aac・m4aなどの音声ファイルの他、mp4・movなどの動画ファイルにも対応しており、Web会議の録画もそのまま使えます。また、ブラウザ・アプリ上で直接録音も可能です。
ブラウザ版ではテキスト編集機能も可能。テキストと音声の再生位置がリンクされているため、聴きながら修正するのに便利です。
意外に便利だったのは、アップロード音声・動画と文字起こしデータをそのまま保存するストレージとしても機能する点です。月別表示やテキスト検索で、過去のデータもすぐに探せます。さらに、DropBoxなどの外部ストレージにも自動保存が可能です。
文字起こし精度が高くても聴き直す理由
オートメモの文字起こし精度は非常に高いです。目的によっては、文字起こしと要約機能で完了する仕事もあるでしょう。しかしそれでも、筆者が仕事に使う上では音声を聴きながら全編を読み、修正する工程は省けないと思っています。理由は3つあります。
1つは、“音”単位では正しくても区切りや変換違いで意味がわかりにくかったり、1文字違うと意味が変わってしまったりする部分がある点です。例えばこちら。
誤)それに1020年から始めたんですけど
→ 正)それ2020年から始めたんですけど
誤)そこはもうちょっと短い。スパでプロジェクトコーデがアサインされて
→ 正)そこはもうちょっと短いスパンで、プロジェクトごとにアサインされて
もう1つは、複数人が参加した場合に発言者が入れ違っていることがある点です。同世代の男性が区別されていなかったり、短いやり取りが1人の発言と認識されていることもあります。
そしてもっとも大きいのが、文字になることで削がれてしまう情報が少なくない点です。人は普通、会話に含まれる抑揚や間から無意識に多くの情報を得ています。例えば筆者の気になる言葉に「そうですね」があります。字面は同じ「そうですね」でも、賛同を示す「そうですね!」と、受け流す「そうですね〜」と、思考をまとめる間の「そうですねぇ…」とでは意味が違います。文字起こしで補正されてしまう言いよどみ・言い直しも(優秀で助かっているのですが)、時にはその人の迷いや思惑を推し量る要素となります。
相手の「言っていること」ではなく「考えていること」を読み取るには、文字起こしだけでは情報が足りません。逆に、読みながら聴き直すことで、取材時に理解できていなかった論理に気付くこともあります。だから、どれだけ精度が高くなったとしても、ライターとして取材・執筆する限りは聴き直す作業が必要だと考えています。
さて、2025年はAppleのAIアシスタント機能「Apple Intelligence」日本語版のリリースが予告されています。期待も不安もありながら、「ボイスメモ」の文字起こし機能は試してみたいところです。あるいは、他にもっと優秀な文字起こしサービスが登場するかもしれません。1年後の今頃、自分は何を使って原稿を書いているのでしょうか。