reazonspeech.k2.asr¶
このリファレンスでは、K2モデルで音声認識するためのインターフェイスを解説します。
関数¶
- load_model(device='cpu', precision='fp32')¶
ReazonSpeechのK2モデルをロードする。
- パラメータ:
device --
cuda
,cpu
またはcoreml
precision --
fp32
,int8
またはint8-fp32
- 戻り値の型:
sherpa_onnx.OfflineRecognizer
- transcribe(model, audio, config=None)¶
ReazonSpeechモデルで音声を認識し、結果を返却する。
サンプルコード
from reazonspeech.k2.asr import audio_from_path, load_model, transcribe audio = audio_from_path("test.wav") model = load_model() ret = transcribe(model, audio) print('TEXT:') print(' -', ret.text) print('SUBWORDS:') for subword in ret.subwords[:9]: print(' -', subword)
実行結果
TEXT: - ヤンバルクイナとの出会いは十八歳の時だった SUBWORDS: - Subword(seconds=0.03, token='ヤ') - Subword(seconds=1.36, token='ン') - Subword(seconds=1.55, token='バ') - Subword(seconds=1.75, token='ル') - Subword(seconds=1.91, token='ク') - Subword(seconds=2.11, token='イ') - Subword(seconds=2.27, token='ナ') - Subword(seconds=2.51, token='と') - Subword(seconds=2.67, token='の')
- パラメータ:
model (sherpa_onnx.OfflineRecognizer) -- ReazonSpeechモデル
audio (AudioData) -- 音声データ
config (TranscribeConfig) -- 追加オプション(省略可)
- 戻り値の型:
補助関数¶
- audio_from_numpy(array, samplerate)¶
Numpyの配列を受け取り、音声データを返却する。
- パラメータ:
numpy.ndarray (array) -- 音声データ
int (samplerate) -- サンプリングレート
- 戻り値の型: