reazonspeech.k2.asr¶

このリファレンスでは、K2モデルで音声認識するためのインターフェイスを解説します。

関数¶

load_model(device='cpu', precision='fp32', language='ja')¶

ReazonSpeechのK2モデルをロードする。

パラメータ:

device -- cuda, cpu または coreml
precision -- fp32, int8 または int8-fp32
language -- ja または ja-en

戻り値の型:

sherpa_onnx.OfflineRecognizer

transcribe(model, audio, config=None)¶

ReazonSpeechモデルで音声を認識し、結果を返却する。

サンプルコード

from reazonspeech.k2.asr import audio_from_path, load_model, transcribe

audio = audio_from_path("test.wav")
model = load_model()
ret = transcribe(model, audio)

print('TEXT:')
print('  -', ret.text)

print('SUBWORDS:')
for subword in ret.subwords[:9]:
    print('  -', subword)

実行結果

TEXT:
  - ヤンバルクイナとの出会いは十八歳の時だった
SUBWORDS:
  - Subword(seconds=0.03, token='ヤ')
  - Subword(seconds=1.36, token='ン')
  - Subword(seconds=1.55, token='バ')
  - Subword(seconds=1.75, token='ル')
  - Subword(seconds=1.91, token='ク')
  - Subword(seconds=2.11, token='イ')
  - Subword(seconds=2.27, token='ナ')
  - Subword(seconds=2.51, token='と')
  - Subword(seconds=2.67, token='の')

パラメータ:

model (sherpa_onnx.OfflineRecognizer) -- ReazonSpeechモデル
audio (AudioData) -- 音声データ
config (TranscribeConfig) -- 追加オプション（省略可）

戻り値の型:

TranscribeResult

補助関数¶

audio_from_path(path)¶

音声ファイルを読み込み、音声データを返却する。

パラメータ:: path (str) -- 音声ファイルのパス
戻り値の型:: AudioData

audio_from_numpy(array, samplerate)¶

Numpyの配列を受け取り、音声データを返却する。

パラメータ:

numpy.ndarray (array) -- 音声データ
int (samplerate) -- サンプリングレート

戻り値の型:

AudioData

audio_from_tensor(tensor, samplerate)¶

PyTorchのテンソルを受け取り、音声データを返却する。

パラメータ:

torch.tensor (array) -- 音声データ
int (samplerate) -- サンプリングレート

戻り値の型:

AudioData

クラス¶

class TranscribeConfig¶

音声認識の処理を調整するための設定値クラス

verbose: bool = True¶

class TranscribeResult¶

音声認識の結果を格納するためのデータクラス

text: str¶: 音声認識結果の文字列

subwords: List[Subword]¶: サブワード単位のタイムスタンプ情報

class Subword¶

サブワード単位の認識結果

seconds: float¶: サブワードの出現時刻

token: str¶: サブワード文字列

class AudioData¶

音声データを格納するためのコンテナ

waveform: numpy.array¶: 音声データ

samplerate: int¶: サンプリングレート