rinna、日本語音声処理に適した3つの事前学習モデルを公開

rinnaは3月7日、日本語の音声処理に対応する事前学習モデル「data2vec 2.0」「HuBERT」「data2vec」を開発し、商用利用可能なApache-2.0ライセンスで公開したことを発表した。

rinnaが新たな音声処理事前学習モデルを公開

同社は2023年4月に、日本語音声コーパスReazonSpeech v1を用いてHuBERT Baseを学習し、事前学習済みモデルを一般公開した。今回は、より多くの選択肢を提供するために「wav2vec 2.0 Base」「HuBERT Large」「data2vec Audio Base」の3つの事前学習モデルを学習し、Hugging FaceにApache-2.0ライセンスで公開したという。

rinnaの日本語音声事前学習モデル

今回、2023年4月に公開したHuBERT Baseに加えて、wav2vec 2.0 Base、HuBERT Large、data2vec Audio Baseの4種類から利用目的に適したモデルを選択できるようになった。全てのモデルは約1万9000時間の日本語音声コーパスReazonSpeech v1を用いて学習しているという。事前学習モデルを活用することで、音声認識や音声合成などのタスクに応用できる。

同社は日本語話し言葉コーパス (CSJ) を用いて、日本語音声認識タスクの実験を行った。各事前学習モデルに対して、日本語の音素をターゲットとしたCTC損失による教師あり学習を行い、単語誤り率（WER、低い値ほど高スコア）を算出。実験結果より、各モデル構造で英語の音声データから学習した事前学習モデルよりも高いスコアを示したとのことだ。