reazonspeech.espnet.asr¶
このリファレンスでは、ESPnetモデルで音声認識するためのインターフェイスを解説します。
関数¶
- load_model(device=None)¶
ReazonSpeechのESPnetモデルをロードする。
- パラメータ:
str (device) --
cuda
もしくはcpu
(None
指定で自動選択)- 戻り値の型:
espnet.bin.asr_inference.Speech2Text
- transcribe(model, audio, config=None)¶
ReazonSpeechモデルで音声を認識し、結果を返却する。
サンプルコード
from reazonspeech.espnet.asr import audio_from_path, load_model, transcribe audio = audio_from_path("test.wav") model = load_model() ret = transcribe(model, audio) print('TEXT:') print(' -', ret.text) print('SEGMENTS:') for segment in ret.segments: print(' -', segment)
実行結果
TEXT: - ヤンバルクイナとの出会いは18歳の時だった。 SEGMENTS: - Segment(start_seconds=0.91, end_seconds=6.08, text='ヤンバルクイナとの出会いは18歳の時だった。')
- パラメータ:
model (espnet2.bin.asr_inference.Speech2Text) -- ReazonSpeechモデル
audio (AudioData) -- 音声データ
config (reazonspeech.espnet.asr.TranscribeConfig) -- 追加オプション(省略可)
- 戻り値の型:
補助関数¶
- audio_from_numpy(array, samplerate)¶
Numpyの配列を受け取り、音声データを返却する。
- パラメータ:
numpy.ndarray (array) -- 音声データ
int (samplerate) -- サンプリングレート
- 戻り値の型: