ReazonSpeech

ReazonSpeech は、約19,000時間の放送音声からなるラベル付き日本語音声コーパスです。 日本語音声認識技術の研究の推進を目的として構築されました。

音声コーパスに加えて、コーパスを構築するためのツールキット及び学習済みモデルを 自由なライセンスで公開しています。

公開リソース

ライセンス

URL

学習済みESPnetモデル

Apache-2.0

音声処理ライブラリ

Apache-2.0

https://github.com/reazon-research/ReazonSpeech

日本語音声コーパス

CDLA-Sharing-1.0 (ただし利用目的は著作権法30条の4に定める情報解析に限る)

https://huggingface.co/datasets/reazon-research/reazonspeech

研究論文

http://research.reazon.jp/_static/reazonspeech_nlp2023.pdf

日本語音声認識デモ

ReazonSpeechの音声認識モデルを、実際にブラウザで試すことができます [2] colab

音声認識

認識結果

次のボタンを押してマイクで音声を吹き込むと、認識結果が表示されます。

音声コーパスのサンプル

字幕

音声

気象庁は雪や路面の凍結による交通への影響暴風雪や高波に警戒するとともに雪崩や屋根からの落雪にも十分注意するよう呼びかけています

はやくおじいさんにあのおとこのはなしをきかせたかったのです

ヤンバルクイナとの出会いは18歳の時だった

学習済み音声認識モデルの精度

ReazonSpeechモデルは最先端の大規模モデルに匹敵する精度を実現しています。

以下に、 JSUTCommon VoiceTEDx の3つのに対して精度を測定した結果を示します。 このグラフは、縦軸が文字誤り率(CER)を表しており、低ければ低いほど高い精度であることを示しています。

../../_images/cer.png