ReazonSpeech¶
ReazonSpeech は、約19,000時間の放送音声からなるラベル付き日本語音声コーパスです。 日本語音声認識技術の研究の推進を目的として構築されました。
音声コーパスに加えて、コーパスを構築するためのツールキット及び学習済みモデルを 自由なライセンスで公開しています。
公開リソース |
ライセンス |
URL |
---|---|---|
学習済みESPnetモデル |
|
|
音声処理ライブラリ |
||
日本語音声コーパス |
CDLA-Sharing-1.0 (ただし利用目的は著作権法30条の4に定める情報解析に限る) |
https://huggingface.co/datasets/reazon-research/reazonspeech |
研究論文 |
日本語音声認識デモ¶
ReazonSpeechの音声認識モデルを、実際にブラウザで試すことができます [2]
音声認識 |
認識結果 |
---|---|
次のボタンを押してマイクで音声を吹き込むと、認識結果が表示されます。
|
音声コーパスのサンプル¶
字幕 |
音声 |
---|---|
気象庁は雪や路面の凍結による交通への影響暴風雪や高波に警戒するとともに雪崩や屋根からの落雪にも十分注意するよう呼びかけています |
|
はやくおじいさんにあのおとこのはなしをきかせたかったのです |
|
ヤンバルクイナとの出会いは18歳の時だった |
学習済み音声認識モデルの精度¶
ReazonSpeechモデルは最先端の大規模モデルに匹敵する精度を実現しています。
以下に、 JSUT ・ Common Voice ・ TEDx の3つのに対して精度を測定した結果を示します。 このグラフは、縦軸が文字誤り率(CER)を表しており、低ければ低いほど高い精度であることを示しています。
