ReazonSpeech¶

ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。

日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。
音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

リソース	ライセンス	URL
音声認識モデル	Apache-2.0	reazonspeech-nemo-v2 reazonspeech-k2-v2 reazonspeech-espnet-v2
音声処理ライブラリ	Apache-2.0	https://github.com/reazon-research/ReazonSpeech
日本語音声コーパス	CDLA-Sharing-1.0 （ただし利用目的は著作権法３０条の４に定める情報解析に限る）	https://huggingface.co/datasets/reazon-research/reazonspeech
研究論文		http://research.reazon.jp/_static/reazonspeech_nlp2023.pdf

ReazonSpeechコーパスのサンプル音声¶

ラベル	音声
気象庁は、雪や路面の凍結による交通への影響、暴風雪や高波に警戒するとともに、雪崩や屋根からの落雪にも十分注意するよう呼びかけています。
はやくおじいさんにあのおとこのはなしをきかせたかったのです。
ヤンバルクイナとの出会いは１８歳の時だった。
Ｈ２Ａは、打ち上げの成功率は高い一方、１回の打ち上げ費用がおよそ１００億円と、高額であることが課題となっていました。
持ち主とはぐれた傘が風で舞い看板もなぎ倒されてしまったようです。

ReazonSpeechの音声認識モデルの性能¶

ReazonSpeechの音声認識モデルは最先端の性能を実現しています。

次の図は JSUT-bookコーパスを検証データセットとして、日本語音声認識モデルの処理速度と認識精度を散布図にプロットしたものです。
縦軸と横軸ともに、原点に近いほど高い性能であることを表します。

../../_images/rtf1.png

文字誤り率で測定した精度

次の図は、JSUT-BASIC5000 [1], Common Voice v8.0 [2], TEDxJP-10K [3] を検証データセットとして、日本語音声認識モデルの精度を比較したものです。
縦軸が低ければ低いほど、高い性能であることを表します。

../../_images/cer3.png

関連記事:

コンテンツリンク