クイックスタート

このチュートリアルでは、ReazonSpeechの日本語音声モデルを利用して、音声認識を行います。

  • より発展的な使い方については HowToガイド で解説しています。

ReazonSpeechモデルで音声認識する

手順

実行例

最初にチュートリアル用のPython環境を作成します。

$ # Pythonのvenv環境作成
$ python3 -m venv venv
$ source venv/bin/activate

$ # ffmpegとCythonをインストール
$ sudo apt install ffmpeg
$ pip install -U pip setuptools
$ pip install Cython

ReazonSpeechレポジトリをクローンし、インストールします。

$ git clone https://github.com/reazon-research/ReazonSpeech
$ pip install ReazonSpeech/pkg/nemo-asr

次のサンプル音源を取得し、右のコマンドを実行します。

$ # 実行時にHugging Faceからモデルを自動取得します (2.3GB)
$ reazonspeech-nemo-asr speech-001.wav

認識結果が出力されれば成功です!

[00:00:00.280 --> 00:00:04.759] 気象庁は雪や路面の凍結による交通への影響、
[00:00:05.160 --> 00:00:07.640] 暴風雪や高波に警戒するとともに
[00:00:08.200 --> 00:00:12.599] 雪崩や屋根からの落雪にも十分注意するよう呼びかけています。

ヒント

ReazonSpeechは複数の出力形式 (WebVTT, SRT, JSON, TSV) をサポートしています。

WebVTTでの出力例

$ reazonspeech-nemo-asr --to=vtt speech-001.wav

WEBVTT

00:00:00.280 --> 00:00:04.759
気象庁は雪や路面の凍結による交通への影響、

00:00:05.160 --> 00:00:07.640
暴風雪や高波に警戒するとともに

00:00:08.200 --> 00:00:12.599
雪崩や屋根からの落雪にも十分注意するよう呼びかけています。

利用可能なオプションの一覧は、ヘルプを参照ください。

$ reazonspeech-nemo-asr --help

参考

この記事で解説した内容は、Google Colabでも試すことができます。次のリンクからノートを参照ください。

colab

次のステップ

この記事では、ReazonSpeechの音声認識モデルを利用する方法を学びました。

  • ReazonSpeechのより詳しい使い方については HowToガイド に進んで下さい。