ReazonSpeech¶
ReazonSpeech は、約19,000時間の放送音声からなるラベル付き日本語音声コーパスです。 日本語音声認識技術の研究の推進を目的として構築されました。
音声コーパスに加えて、コーパスを構築するためのツールキット及び学習済みモデルを 自由なライセンスで公開しています。
公開リソース |
ライセンス |
URL |
---|---|---|
学習済みESPnetモデル |
https://huggingface.co/reazon-research/reazonspeech-espnet-v1 |
|
コーパス構築ツールキット |
||
日本語音声コーパス |
CDLA-Sharing-1.0 (ただし利用目的は著作権法30条の4に定める情報解析に限る) |
https://huggingface.co/datasets/reazon-research/reazonspeech |
研究論文 |
日本語音声認識デモ¶
ReazonSpeechの音声認識モデルを、実際にブラウザで試すことができます [2]
音声認識 |
認識結果 |
---|---|
次のボタンを押してマイクで音声を吹き込むと、認識結果が表示されます。
|
音声コーパスのサンプル¶
字幕 |
音声 |
---|---|
気象庁は雪や路面の凍結による交通への影響暴風雪や高波に警戒するとともに雪崩や屋根からの落雪にも十分注意するよう呼びかけています |
|
はやくおじいさんにあのおとこのはなしをきかせたかったのです |
|
ヤンバルクイナとの出会いは18歳の時だった |
音声認識技術への応用性¶
日本語音声認識の研究に利用できることを示すために、 ReazonSpeechでESPnetの音声認識モデルを訓練しました。
JSUT・Common Voiceを検証データとして、他の主要な音声認識モデルと精度を比較した結果を以下に示します。
表: 主な音声認識モデルの認識精度 (CER/Character Error Rate)
JSUT Basic5000 |
Common Voice |
|
---|---|---|
Whisper small |
14.4% |
15.2% |
ESPnet LaboroTVSpeech |
11.7% |
12.6% |
Whisper medium |
9.9% |
11.4% |
Whisper large-v2 |
8.2% |
9.7% |
ESPnet ReazonSpeech |
8.2% |
9.9% |
最先端の大規模モデルに匹敵する高い認識精度が実現できています。