ReazonSpeech

ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。

  • 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。

  • 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

リソース

ライセンス

URL

音声認識モデル

Apache-2.0

reazonspeech-nemo-v2

reazonspeech-espnet-v2

音声処理ライブラリ

Apache-2.0

https://github.com/reazon-research/ReazonSpeech

日本語音声コーパス

CDLA-Sharing-1.0 (ただし利用目的は著作権法30条の4に定める情報解析に限る)

https://huggingface.co/datasets/reazon-research/reazonspeech

研究論文

http://research.reazon.jp/_static/reazonspeech_nlp2023.pdf

ReazonSpeechの音声認識を試してみる

このデモではReazonSpeechの音声認識モデルを利用して、音声をテキストに変換します。

colab
音声を8倍速でテキストに直します(音声の長さは最大30分まで) テスト音声

アクセスが集中しています。時間をおいて再度お試し下さい。

開始 終了 認識結果
  • WAV・MP3・Flac・Opus・Oggの各音声形式に対応しています。

ReazonSpeechコーパスのサンプル音声

ラベル

音声

気象庁は、雪や路面の凍結による交通への影響、暴風雪や高波に警戒するとともに、雪崩や屋根からの落雪にも十分注意するよう呼びかけています。

はやくおじいさんにあのおとこのはなしをきかせたかったのです。

ヤンバルクイナとの出会いは18歳の時だった。

H2Aは、打ち上げの成功率は高い一方、1回の打ち上げ費用がおよそ100億円と、高額であることが課題となっていました。

持ち主とはぐれた傘が風で舞い看板もなぎ倒されてしまったようです。

ReazonSpeechの音声認識モデルの性能

ReazonSpeechの音声認識モデルは最先端の性能を実現しています。

  • 次の図は JSUT-bookコーパス を検証データセットとして、 日本語音声認識モデルの処理速度と認識精度を散布図にプロットしたものです。

  • 縦軸と横軸ともに、原点に近いほど高い性能であることを表します。

../../_images/rtf1.png
関連記事: