ReazonSpeech

ReazonSpeech は、約19,000時間の放送音声からなるラベル付き日本語音声コーパスです。 日本語音声認識技術の研究の推進を目的として構築されました。

音声コーパスに加えて、コーパスを構築するためのツールキット及び学習済みモデルを 自由なライセンスで公開しています。

公開リソース

ライセンス

URL

学習済みESPnetモデル

Apache-2.0

https://huggingface.co/reazon-research/reazonspeech-espnet-v1

コーパス構築ツールキット

Apache-2.0

https://github.com/reazon-research/ReazonSpeech

日本語音声コーパス

CDLA-Sharing-1.0 (ただし利用目的は著作権法30条の4に定める情報解析に限る)

https://huggingface.co/datasets/reazon-research/reazonspeech

研究論文

http://research.reazon.jp/_static/reazonspeech_nlp2023.pdf

日本語音声認識デモ

ReazonSpeechの音声認識モデルを、実際にブラウザで試すことができます [2] colab

音声認識

認識結果

次のボタンを押してマイクで音声を吹き込むと、認識結果が表示されます。

音声コーパスのサンプル

字幕

音声

気象庁は雪や路面の凍結による交通への影響暴風雪や高波に警戒するとともに雪崩や屋根からの落雪にも十分注意するよう呼びかけています

はやくおじいさんにあのおとこのはなしをきかせたかったのです

ヤンバルクイナとの出会いは18歳の時だった

音声認識技術への応用性

日本語音声認識の研究に利用できることを示すために、 ReazonSpeechでESPnetの音声認識モデルを訓練しました。

JSUT・Common Voiceを検証データとして、他の主要な音声認識モデルと精度を比較した結果を以下に示します。

表: 主な音声認識モデルの認識精度 (CER/Character Error Rate)

JSUT Basic5000

Common Voice

Whisper small

14.4%

15.2%

ESPnet LaboroTVSpeech

11.7%

12.6%

Whisper medium

9.9%

11.4%

Whisper large-v2

8.2%

9.7%

ESPnet ReazonSpeech

8.2%

9.9%

最先端の大規模モデルに匹敵する高い認識精度が実現できています。