reazonspeech.k2.asr

このリファレンスでは、K2モデルで音声認識するためのインターフェイスを解説します。

関数

load_model(device='cpu', precision='fp32')

ReazonSpeechのK2モデルをロードする。

パラメータ:
  • device -- cuda, cpu または coreml

  • precision -- fp32, int8 または int8-fp32

戻り値の型:

sherpa_onnx.OfflineRecognizer

transcribe(model, audio, config=None)

ReazonSpeechモデルで音声を認識し、結果を返却する。

サンプルコード

from reazonspeech.k2.asr import audio_from_path, load_model, transcribe

audio = audio_from_path("test.wav")
model = load_model()
ret = transcribe(model, audio)

print('TEXT:')
print('  -', ret.text)

print('SUBWORDS:')
for subword in ret.subwords[:9]:
    print('  -', subword)

実行結果

TEXT:
  - ヤンバルクイナとの出会いは十八歳の時だった
SUBWORDS:
  - Subword(seconds=0.03, token='ヤ')
  - Subword(seconds=1.36, token='ン')
  - Subword(seconds=1.55, token='バ')
  - Subword(seconds=1.75, token='ル')
  - Subword(seconds=1.91, token='ク')
  - Subword(seconds=2.11, token='イ')
  - Subword(seconds=2.27, token='ナ')
  - Subword(seconds=2.51, token='と')
  - Subword(seconds=2.67, token='の')
パラメータ:
  • model (sherpa_onnx.OfflineRecognizer) -- ReazonSpeechモデル

  • audio (AudioData) -- 音声データ

  • config (TranscribeConfig) -- 追加オプション(省略可)

戻り値の型:

TranscribeResult

補助関数

audio_from_path(path)

音声ファイルを読み込み、音声データを返却する。

パラメータ:

path (str) -- 音声ファイルのパス

戻り値の型:

AudioData

audio_from_numpy(array, samplerate)

Numpyの配列を受け取り、音声データを返却する。

パラメータ:
  • numpy.ndarray (array) -- 音声データ

  • int (samplerate) -- サンプリングレート

戻り値の型:

AudioData

audio_from_tensor(tensor, samplerate)

PyTorchのテンソルを受け取り、音声データを返却する。

パラメータ:
  • torch.tensor (array) -- 音声データ

  • int (samplerate) -- サンプリングレート

戻り値の型:

AudioData

クラス

class TranscribeConfig

音声認識の処理を調整するための設定値クラス

verbose: bool = True
class TranscribeResult

音声認識の結果を格納するためのデータクラス

text: str

音声認識結果の文字列

subwords: List[Subword]

サブワード単位のタイムスタンプ情報

class Subword

サブワード単位の認識結果

seconds: float

サブワードの出現時刻

token: str

サブワード文字列

class AudioData

音声データを格納するためのコンテナ

waveform: numpy.array

音声データ

samplerate: int

サンプリングレート