ソースネクストは6月15日、AI通訳機「POCKETALK」の大型アップデートを発表。新機能となる「ポケトーク字幕」と「グループ翻訳」を、ユーザーは無料で利用できます。ポケトーク字幕は8月、グループ翻訳は7月のアップデート予定。メディア向けの発表会から、実際の新機能に触れてみた印象とともにお伝えします。
海外とのリモート会議に翻訳の時間をなくす「字幕」を表示
ポケトークの新サービス紹介で壇上に立った、ソースネクスト 代表取締役会長 兼 CEO 松田憲幸氏は「POKETALK(以下、ポケトーク)の事業は『言葉の壁をなくす』というミッションを掲げて取り組んでいます」と述べます。
ソースネクストは翻訳機市場でシェアをほぼ独占していますが、新型コロナの感染拡大で海外旅行や出張が難しくなったこともあり、対面でのコミュニケーション機会が減っています。そんな背景もあり、リモート会議など対面ではない環境でも、ポケトークを利用することで、よりスムーズなコミュニケーションの役に立てないかと考えて開発したのが、新サービス「ポケトーク字幕」と「グループ翻訳」です。
特に「ポケトーク字幕」に関しては、松田氏は次のように語っています。
「海外の映画を観るとき、字幕が表示されることで翻訳のタイムラグなしで物語が楽しめていることに改めて気が付いて、字幕とはすごい発明だと思いました。違う言語の話者同士のリモート会議でも、翻訳がリアルタイムで字幕として画面に表示されれば、日本語同士のようなスムーズさでコミュニケーションできます。通訳の時間というタイムラグも『言葉の壁』の1つだったのだと気が付きました」(松田氏)
発表会では実機を用い、英語話者とタイムラグのほぼない意思疎通をデモンストレーション。
ポケトーク字幕は、リモート会議システムを使うパソコンにソフトウェアをインストールし、ポケトークの実機とひも付けて使います。もちろん、通話相手も同じシステムを用意する必要があります。実際のシーンでは、ポケトーク字幕を起動してからリモート会議ソフトを立ち上げ、ポケトーク実機で話すだけ。
すると、自分が話した言葉が相手側の設定言語へと翻訳され、相手の見ている画面上に翻訳結果を字幕として表示します。相手から自分への会話も同じ動作です。相手が同じようにポケトークで話せば、自分の画面には和訳が表示されます。
会場にはタッチ&トライのコーナーも設けられ、英語や中国語を話すスタッフと字幕で会話できました。
ポケトーク字幕が対応を予定しているリモート会議システムは、Zoom、Skype、Microsoft Teams、Googleハングアウト、Google Meet、LINE、Slack、BlueJeans、Cisco Webex Meetings、Cisco Webex Teams、Discord、OBS、V-CUBE、Chatworkとなっています。
仕組み的なことを補足すると、ポケトーク字幕のソフトウェアは、パソコン上では仮想Webカメラとして認識されます。リモート会議システムの「使用するカメラ」設定で「ポケトーク字幕」を選ぶと、パソコンが搭載する実際のWebカメラの映像をポケトーク字幕のソフトウェアが加工し(翻訳して字幕を重ねる)、リモート会議システムにデータを送るわけです。
複数の国の担当者たちと母国語同士で打ち合わせ
もう1つの「グループ翻訳」は、複数のポケトークをつないでグループを作成し、ポケトークに向かって話しかけることで、グループ参加者全員にそれぞれの自国言語でメッセージが表示される機能です。ポケトーク内蔵の通信機能を利用しており、グローバル通信対応国・地域であれば、どこにいてもグループ翻訳での会話が可能です。
1つのグループに最大100人まで登録できるので、たとえば様々な国の人が参加するプロジェクトの会議でも効率よく進められます。
松田氏は「開発時に中国やバングラデシュの担当者と打ち合わせましたが、グループ翻訳を利用したら会話がスムーズに進みました」と述べました。
発表課のタッチ&トライコーナーで、日本語・英語・中国語のグループ翻訳を試しました。翻訳と字幕表示は完全にリアルタイムとはいきませんが、それほど待たされる感のないレスポンス。これなら、自分がまったく知らない言語を話す相手とでも、意思疎通ができそうです。これまでのポケトークも同じですが、落ち着いてゆっくりはっきり発音すると、翻訳の精度が上がります。
なお、ポケトーク字幕とグループ翻訳が利用できるポケトークは、初代モデルを除く第2世代以降となっています。
過去の会議の録音データもテキスト化して議事録に
合わせて、AIボイスレコーダー「AutoMemo」の新サービスとなる「ファイル・テキスト化サービス」も発表しました。過去に記録した音声や動画ファイルなど、AutoMemo以外のデバイスで録音したデータを、ブラウザで専用のWebページにドラッグ&ドロップすると、スマートフォンの専用アプリに音声を文字起こししたテキストデータが送られてくるという内容です。
料金は1時間あたり300円。6月15日からβサービスを開始し、βサービス期間中は無料で1日10時間まで利用できます(8月4日予定の本サービス提供開始まで)。
テキストデータの送り先は設定によって、メールやクラウドサービス(OneDrive、Google Drive、Dropboxに対応)も選べます。
テキスト化できる音声/動画ファイルの形式は、音声がmp3、wav、aac、m4a、flac、aif、aiff、3gp。動画がmp4、avi、mov、m4v、hevc、mxfとなっています。