rinnaは12月7日、LLM(Large Language Models:大規模言語モデル)の一つであるGPTを活用した日本語音声認識モデル「Nue ASR」を開発し、商用利用可能なライセンスで公開したことを発表した。
今回公開したモデルは、事前学習済みの音声基盤モデルHuBERT(rinna / japanese-hubert-base)とテキスト基盤モデルGPT(rinna / japanese-gpt-neox-3.6b)の間に畳み込み層を挟んで統合したものだという。事前学習済みの基盤モデルを使用しており、音声認識モデルの学習コストを軽減している。
音声認識モデルの学習データには、約1万9000時間からなる日本語音声コーパス「ReazonSpeechコーパス」を用いた。学習した音声認識モデルは、Hugging Faceに商用利用可能なApache-2.0 Licenseで公開している。なお、モデル名は妖怪の「鵺(ぬえ)」に由来するとのことだ。
Nue ASRはGPT構造を用いている。そのため、GPTの高速推論手法であるDeepSpeedを導入すると、リアルタイムファクタ(認識時間 / 音声の長さ)は0.22から0.15まで短縮可能だ。また、CSJの学習セットを用いたドメイン適応のためのファインチューニングにより、CSJ Eval1テストセットの文字誤り率は30.93%から5.43%まで改善している。
同社によると、Nue ASRの認識率や処理速度は、利用条件によってはOpenAI WhisperシリーズやReazonSpeechモデルに匹敵する性能を有するという。現状デファクトスタンダードとなっているGPTを利用したこのモデルは、より高性能な事前学習済みGPTへの置き換えや、日々開発されるGPT高性能化のための手法を導入するなど、さまざまな改良のための選択肢があるとのことだ。