クイックスタート¶

このチュートリアルでは、ReazonSpeechの日本語音声モデルを利用して、音声認識を行います。

より発展的な使い方については HowToガイドで解説しています。

ReazonSpeechモデルで音声認識する¶

手順	実行例
最初にチュートリアル用のPython環境を作成します。	$ # ffmpegとvenvをインストール $ sudo apt install ffmpeg python3-venv $ # Pythonのvenv環境作成 $ python3 -m venv venv $ source venv/bin/activate
ReazonSpeechレポジトリをクローンし、インストールします。	$ git clone https://github.com/reazon-research/ReazonSpeech $ pip install ReazonSpeech/pkg/k2-asr
右のスクリプトを `asr.py` という名前で保存します。	import sys from reazonspeech.k2.asr import load_model, transcribe, audio_from_path # GPUで推論したい場合は device='cuda' と指定ください model = load_model(device='cpu') # ローカルの音声ファイルを読み込む audio = audio_from_path(sys.argv[1]) # 音声認識を適用する ret = transcribe(model, audio) print(ret.text)
次のサンプル音源を取得し、スクリプトを実行します。サンプル音源: `speech-001.wav` 結果が表示されたら成功です！	$ # 実行時にHugging Faceからモデルを取得します (1.5GB) $ python3 asr.py speech-001.wav 気象庁は雪や路面の凍結による交通への影響暴風雪や高波に警戒するとともに雪崩や屋根からの落雪にも十分注意するよう呼びかけています

ヒント

ReazonSpeechを利用すると、文字起こしの結果だけではなく、発話に対応するタイムスタンプ情報も取得することができます。

サンプルコード

from reazonspeech.k2.asr import load_model, transcribe, audio_from_path

model = load_model()
audio = audio_from_path('speech-001.wav')

ret = transcribe(model, audio)
for sw for ret.subwords:
    print(sw.seconds, sw.token)

出力例

$ python3 test.py
00 気
04 象
20 庁
44 は
96 雪
16 や
56 路
80 面
92 の
20 凍
44 結
...

詳細は APIリファレンス reazonspeech.k2.asr を参照ください。

参考

ReazonSpeechを手軽に試せるGoogle Colabノートブックを用意しています。

次のステップ¶

この記事では、ReazonSpeechの音声認識モデルを利用する方法を学びました。

ReazonSpeechのより詳しい使い方については HowToガイドに進んで下さい。