すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:Paraformer real-time speech recognition Python SDK

最終更新日:Dec 26, 2025

このトピックでは、Paraformer リアルタイム音声認識 Python SDK のパラメーターとインターフェイスについて説明します。

重要

このドキュメントは、中国 (北京) リージョンにのみ適用されます。モデルを使用するには、中国 (北京) リージョンの API キー を使用する必要があります。

ユーザーガイド:モデルの説明と選択ガイダンスについては、「リアルタイム音声認識 - Fun-ASR/Paraformer」をご参照ください。

前提条件

  • Model Studio を有効化し、API キーを作成済みであること。セキュリティリスクを防ぐため、API キーをコードにハードコーディングするのではなく、環境変数としてエクスポートしてください。

    説明

    サードパーティのアプリケーションやユーザーに一時的なアクセス権限を付与する場合、または機密データへのアクセスや削除などのリスクの高い操作を厳密に制御したい場合は、一時的な認証トークンの使用を推奨します。

    長期的な API キーと比較して、一時的な認証トークンは有効期間が短い (60 秒) ため、より安全です。一時的な呼び出しシナリオに適しており、API キー漏洩のリスクを効果的に低減できます。

    一時的なトークンを使用するには、コード内の認証に使用する API キーを一時的な認証トークンに置き換えます。

  • DashScope SDK の最新バージョンをインストールする

モデルリスト

paraformer-realtime-v2

paraformer-realtime-8k-v2

シナリオ

ライブストリーミングや会議などのシナリオ

電話カスタマーサービスやボイスメールなど、8 kHz オーディオの認識シナリオ

サンプルレート

任意

8 kHz

言語

中国語 (標準語および各種方言)、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語

サポートされている中国語の方言:上海語、呉語、閩南語、東北方言、甘粛方言、貴州方言、河南方言、湖北方言、湖南方言、江西語、寧夏方言、山西語、陝西語、山東方言、四川方言、天津方言、雲南語、広東語

中国語

句読点予測

✅ デフォルトでサポート済み。設定は不要です。

✅ デフォルトでサポート済み。設定は不要です。

逆テキスト正規化 (ITN)

✅ デフォルトでサポート済み。設定は不要です。

✅ デフォルトでサポート済み。設定は不要です。

カスタム語彙

✅ 「カスタムホットワード」をご参照ください

✅ 「カスタムホットワード」をご参照ください

認識言語の指定

language_hints パラメーターを使用して言語を指定します。

感情認識

✅ (クリックして使用方法を表示)

感情認識には以下の制約があります:

  • paraformer-realtime-8k-v2 モデルでのみ利用可能です。

  • セマンティック句読点を無効にする必要があります (リクエストパラメーター semantic_punctuation_enabled で制御)。デフォルトでは、セマンティック句読点は無効になっています。

  • 感情認識の結果は、RecognitionResult オブジェクトの is_sentence_end メソッドが True を返す場合にのみ表示されます。

感情検出の結果を取得するには、単文情報 (Sentence)emo_tag および emo_confidence フィールドから、それぞれ現在の文の感情と感情の信頼度を取得します。

はじめに

Recognition クラスは、非ストリーミングおよび双方向ストリーミング呼び出しのメソッドを提供します。要件に応じて適切なメソッドを選択できます:

  • 非ストリーミング呼び出し:ローカルファイルを認識し、完全な結果を一度に返します。これは、事前に録音されたオーディオの処理に適しています。

  • 双方向ストリーミング呼び出し:オーディオストリームを認識し、結果をリアルタイムで出力します。オーディオストリームは、マイクなどの外部デバイスから取得することも、ローカルファイルから読み取ることもできます。これは、即時のフィードバックが必要なシナリオに適しています。

非ストリーミング呼び出し

このメソッドは、ローカルファイルのリアルタイム音声テキスト変換タスクを送信します。プロセスは、完全な文字起こし結果が返されるまでブロックされます。

Recognition クラスをインスタンス化し、リクエストパラメーターを設定し、call メソッドを呼び出して認識を実行し、RecognitionResult を取得します。

クリックして完全な例を表示

この例で使用されているオーディオファイルは asr_example.wav です。

from http import HTTPStatus
from dashscope.audio.asr import Recognition

# 環境変数に API キーが設定されていない場合は、次の行のコメントを解除し、apiKey をご自身の API キーに置き換えてください。
# import dashscope
# dashscope.api_key = "apiKey"

recognition = Recognition(model='paraformer-realtime-v2',
                          format='wav',
                          sample_rate=16000,
                          # "language_hints" パラメーターは、paraformer-realtime-v2 モデルでのみサポートされています。
                          language_hints=['zh', 'en'],
                          callback=None)
result = recognition.call('asr_example.wav')
if result.status_code == HTTPStatus.OK:
    print('認識結果:')
    print(result.get_sentence())
else:
    print('エラー:', result.message)
    
print(
    '[Metric] requestId: {}, first package delay ms: {}, last package delay ms: {}'
    .format(
        recognition.get_last_request_id(),
        recognition.get_first_package_delay(),
        recognition.get_last_package_delay(),
    ))

双方向ストリーミング呼び出し

このメソッドは、リアルタイム音声テキスト変換タスクを送信し、コールバックインターフェイスを介してリアルタイムの認識結果を返します。

  1. ストリーミング音声認識の開始

    Recognition クラスをインスタンス化し、リクエストパラメーターコールバックインターフェイス (RecognitionCallback) を設定してから、start メソッドを呼び出します。

  2. オーディオのストリーミング

    `Recognition` クラスsend_audio_frame メソッドを繰り返し呼び出して、ローカルファイルまたはデバイス (マイクなど) からのバイナリオーディオストリームをセグメントに分けてサーバーに送信します。

    オーディオデータが送信されると、サーバーは RecognitionCallback コールバックインターフェイスon_event メソッドを使用して、認識結果をリアルタイムでクライアントに返します。

    送信する各オーディオセグメントの長さは約 100 ミリ秒、データサイズは 1 KB から 16 KB の間にすることを推奨します。

  3. 処理の終了

    Recognition クラスstop メソッドを呼び出して、音声認識を停止します。

    このメソッドは、コールバックインターフェイス (RecognitionCallback)on_complete または on_error コールバックがトリガーされるまで、現在のスレッドをブロックします。

クリックして完全な例を表示

マイクからの音声を認識する

import os
import signal  # キーボードイベント処理用 (「Ctrl+C」を押して録音を終了)
import sys

import dashscope
import pyaudio
from dashscope.audio.asr import *

mic = None
stream = None

# 録音パラメーターの設定
sample_rate = 16000  # サンプリングレート (Hz)
channels = 1  # モノラルチャンネル
dtype = 'int16'  # データの型
format_pcm = 'pcm'  # オーディオデータのフォーマット
block_size = 3200  # バッファーごとのフレーム数


def init_dashscope_api_key():
    """
        DashScope API キーを設定します。詳細情報:
        https://github.com/aliyun/alibabacloud-bailian-speech-demo/blob/master/PREREQUISITES.md
    """

    if 'DASHSCOPE_API_KEY' in os.environ:
        dashscope.api_key = os.environ[
            'DASHSCOPE_API_KEY']  # 環境変数 DASHSCOPE_API_KEY から API キーを読み込み
    else:
        dashscope.api_key = '<your-dashscope-api-key>'  # API キーを手動で設定


# リアルタイム音声認識コールバック
class Callback(RecognitionCallback):
    def on_open(self) -> None:
        global mic
        global stream
        print('RecognitionCallback open.')
        mic = pyaudio.PyAudio()
        stream = mic.open(format=pyaudio.paInt16,
                          channels=1,
                          rate=16000,
                          input=True)

    def on_close(self) -> None:
        global mic
        global stream
        print('RecognitionCallback close.')
        stream.stop_stream()
        stream.close()
        mic.terminate()
        stream = None
        mic = None

    def on_complete(self) -> None:
        print('RecognitionCallback completed.')  # 認識完了

    def on_error(self, message) -> None:
        print('RecognitionCallback task_id: ', message.request_id)
        print('RecognitionCallback error: ', message.message)
        # オーディオストリームが実行中の場合は停止して閉じる
        if 'stream' in globals() and stream.active:
            stream.stop()
            stream.close()
        # プログラムを強制終了
        sys.exit(1)

    def on_event(self, result: RecognitionResult) -> None:
        sentence = result.get_sentence()
        if 'text' in sentence:
            print('RecognitionCallback text: ', sentence['text'])
            if RecognitionResult.is_sentence_end(sentence):
                print(
                    'RecognitionCallback sentence end, request_id:%s, usage:%s'
                    % (result.get_request_id(), result.get_usage(sentence)))


def signal_handler(sig, frame):
    print('Ctrl+C が押されました。認識を停止します...')
    # 認識を停止
    recognition.stop()
    print('認識が停止しました。')
    print(
        '[Metric] requestId: {}, first package delay ms: {}, last package delay ms: {}'
        .format(
            recognition.get_last_request_id(),
            recognition.get_first_package_delay(),
            recognition.get_last_package_delay(),
        ))
    # プログラムを強制終了
    sys.exit(0)


# main 関数
if __name__ == '__main__':
    init_dashscope_api_key()
    print('初期化中...')

    # 認識コールバックを作成
    callback = Callback()

    # 非同期モードで認識サービスを呼び出し、モデル、フォーマット、
    # サンプルレートなどの認識パラメーターをカスタマイズできます
    recognition = Recognition(
        model='paraformer-realtime-v2',
        format=format_pcm,
        # 'pcm'、'wav'、'opus'、'speex'、'aac'、または 'amr'。サポートされているフォーマットはドキュメントで確認できます。
        sample_rate=sample_rate,
        # 8000 または 16000 がサポートされています。
        semantic_punctuation_enabled=False,
        callback=callback)

    # 認識を開始
    recognition.start()

    signal.signal(signal.SIGINT, signal_handler)
    print("「Ctrl+C」を押して録音と認識を停止してください...")
    # 「Ctrl+C」が押されるまでキーボードリスナーを作成

    while True:
        if stream:
            data = stream.read(3200, exception_on_overflow=False)
            recognition.send_audio_frame(data)
        else:
            break

    recognition.stop()

ローカルオーディオファイルを認識する

この例で使用されているオーディオファイルは asr_example.wav です。

import os
import time
from dashscope.audio.asr import *

# 環境変数に API キーが設定されていない場合は、次の行のコメントを解除し、apiKey をご自身の API キーに置き換えてください。
# import dashscope
# dashscope.api_key = "apiKey"

from datetime import datetime

def get_timestamp():
    now = datetime.now()
    formatted_timestamp = now.strftime("[%Y-%m-%d %H:%M:%S.%f]")
    return formatted_timestamp

class Callback(RecognitionCallback):
    def on_complete(self) -> None:
        print(get_timestamp() + ' 認識完了')  # 認識完了

    def on_error(self, result: RecognitionResult) -> None:
        print('Recognition task_id: ', result.request_id)
        print('Recognition error: ', result.message)
        exit(0)

    def on_event(self, result: RecognitionResult) -> None:
        sentence = result.get_sentence()
        if 'text' in sentence:
            print(get_timestamp() + ' RecognitionCallback text: ', sentence['text'])
            if RecognitionResult.is_sentence_end(sentence):
                print(get_timestamp() + 
                    'RecognitionCallback sentence end, request_id:%s, usage:%s'
                    % (result.get_request_id(), result.get_usage(sentence)))


callback = Callback()

recognition = Recognition(model='paraformer-realtime-v2',
                          format='wav',
                          sample_rate=16000,
                          # "language_hints" パラメーターは、paraformer-realtime-v2 モデルでのみサポートされています。
                          language_hints=['zh', 'en'],
                          callback=callback)

recognition.start()

try:
    audio_data: bytes = None
    f = open("asr_example.wav", 'rb')
    if os.path.getsize("asr_example.wav"):
        while True:
            audio_data = f.read(3200)
            if not audio_data:
                break
            else:
                recognition.send_audio_frame(audio_data)
            time.sleep(0.1)
    else:
        raise Exception(
            '指定されたファイルは空でした (0 バイト)。')
    f.close()
except Exception as e:
    raise e

recognition.stop()

print(
    '[Metric] requestId: {}, first package delay ms: {}, last package delay ms: {}'
    .format(
        recognition.get_last_request_id(),
        recognition.get_first_package_delay(),
        recognition.get_last_package_delay(),
    ))

同時呼び出し

Python では、グローバルインタプリタロックのため、一度に 1 つのスレッドしか Python コードを実行できませんが、一部のパフォーマンス指向のライブラリではこの制限が解除される場合があります。マルチコアコンピュータの計算リソースをより有効に活用するためには、multiprocessing または concurrent.futures.ProcessPoolExecutor の使用を推奨します。マルチスレッドは、高い同時実行性下で SDK の呼び出しレイテンシーを大幅に増加させる可能性があります。

リクエストパラメーター

リクエストパラメーターは、Recognition クラスのコンストラクター (__init__) で設定します。

パラメーター

デフォルト

必須

説明

model

str

-

はい

リアルタイム音声認識に使用するモデル。詳細については、「モデルリスト」をご参照ください。

sample_rate

int

-

はい

音声のサンプリングレート (Hz)。

このパラメーターはモデルによって異なります:

  • paraformer-realtime-v2 は任意のサンプルレートをサポートします。

  • paraformer-realtime-8k-v2 は 8000 Hz のサンプルレートのみをサポートします。

format

str

-

はい

認識対象のオーディオのフォーマット。

サポートされているオーディオフォーマット:pcm、wav、mp3、opus、speex、aac、amr。

重要

opus/speex:Ogg にカプセル化されている必要があります。

wav:PCM エンコーディングである必要があります。

amr:AMR-NB タイプのみがサポートされています。

vocabulary_id

str

-

いいえ

ホットワード語彙の ID。このパラメーターは設定された場合にのみ有効になります。このフィールドを使用して、v2 以降のモデルのホットワード ID を設定します。

このホットワード ID のホットワード情報は、音声認識リクエストに適用されます。詳細については、「カスタムホットワード」をご参照ください。

disfluency_removal_enabled

bool

False

いいえ

フィラーワードをフィルターするかどうかを指定します:

  • true

  • false (デフォルト)

language_hints

list[str]

["zh", "en"]

いいえ

認識する言語の言語コード。事前に言語を特定できない場合は、このパラメーターを未設定のままにすることができます。モデルが自動的に言語を検出します。

現在サポートされている言語コード:

  • zh:中国語

  • en:英語

  • ja:日本語

  • yue:広東語

  • ko:韓国語

  • de:ドイツ語

  • fr:フランス語

  • ru:ロシア語

このパラメーターは多言語モデルにのみ適用されます。詳細については、「モデルリスト」をご参照ください。

semantic_punctuation_enabled

bool

False

いいえ

セマンティックな文分割を有効にするかどうかを指定します。この機能はデフォルトで無効になっています。

  • true:セマンティックな文分割を有効にし、音声アクティビティ検出 (VAD) による文分割を無効にします。

  • false (デフォルト):VAD による文分割を有効にし、セマンティックな文分割を無効にします。

セマンティックな文分割はより高い精度を提供し、会議の文字起こしシナリオに適しています。VAD による文分割はレイテンシーが低く、対話型シナリオに適しています。

semantic_punctuation_enabled パラメーターを調整することで、さまざまなシナリオに合わせて文分割方法を柔軟に切り替えることができます。

このパラメーターは、v2 以降のモデルでのみ有効です。

max_sentence_silence

int

800

いいえ

VAD による文分割の無音期間のしきい値 (ミリ秒)。

音声セグメントの後の無音期間がこのしきい値を超えると、システムは文が終了したと判断します。

パラメーターの範囲は 200 ミリ秒から 6000 ミリ秒です。デフォルト値は 800 ミリ秒です。

このパラメーターは、semantic_punctuation_enabled パラメーターが `false` (VAD 分割) で、モデルが v2 以降の場合にのみ有効です。

multi_threshold_mode_enabled

bool

False

いいえ

このパラメーターを `true` に設定すると、VAD が長すぎる文を分割するのを防ぎます。この機能はデフォルトで無効になっています。

このパラメーターは、semantic_punctuation_enabled パラメーターが `false` (VAD 分割) で、モデルが v2 以降の場合にのみ有効です。

punctuation_prediction_enabled

bool

True

いいえ

認識結果に句読点を自動的に追加するかどうかを指定します:

  • true (デフォルト)

  • false

このパラメーターは、v2 以降のモデルでのみ有効です。

heartbeat

bool

False

いいえ

サーバーとの持続的接続を維持するかどうかを制御します:

  • true:無音オーディオを継続的に送信する場合、サーバーとの接続を中断せずに維持します。

  • false (デフォルト):無音オーディオを継続的に送信しても、60 秒後にタイムアウトにより接続が切断されます。

    無音オーディオとは、オーディオファイルまたはデータストリーム内で音信号がないコンテンツを指します。Audacity や Adobe Audition などのオーディオ編集ソフトウェア、または FFmpeg などのコマンドラインツールを使用して、さまざまな方法で無音オーディオを生成できます。

このパラメーターは、v2 以降のモデルでのみ有効です。

このフィールドを使用する場合、SDK のバージョンは 1.23.1 以降である必要があります。

inverse_text_normalization_enabled

bool

True

いいえ

テキスト正規化 (ITN) を有効にするかどうかを指定します。

この機能はデフォルトで有効 (`true`) です。有効にすると、漢数字がアラビア数字に変換されます。

このパラメーターは、v2 以降のモデルでのみ有効です。

callback

RecognitionCallback

-

いいえ

RecognitionCallback インターフェイス

主要なインターフェイス

Recognition クラス

Recognition クラスは `from dashscope.audio.asr import *` を使用してインポートされます。

メンバーメソッド

メソッドシグネチャ

説明

call

def call(self, file: str, phrase_id: str = None, **kwargs) -> RecognitionResult

ローカルファイルを使用する非ストリーミング呼び出し。このメソッドは、オーディオファイル全体が読み取られるまで現在のスレッドをブロックします。ファイルには読み取り権限が必要です。

認識結果は RecognitionResult 型として返されます。

start

def start(self, phrase_id: str = None, **kwargs)

音声認識を開始します。

これはコールバックベースのストリーミングリアルタイム認識メソッドで、現在のスレッドをブロックしません。send_audio_frame および stop と一緒に使用する必要があります。

send_audio_frame

def send_audio_frame(self, buffer: bytes)

オーディオストリームをプッシュします。毎回プッシュするオーディオストリームは、大きすぎたり小さすぎたりしないようにしてください。各オーディオパケットの長さは約 100 ミリ秒、サイズは 1 KB から 16 KB の間にすることを推奨します。

認識結果は、コールバックインターフェイス (RecognitionCallback) の on_event メソッドを介して取得できます。

stop

def stop(self)

音声認識を停止します。このメソッドは、サービスが受信したすべてのオーディオを認識し、タスクが完了するまでブロックします。

get_last_request_id

def get_last_request_id(self)

request_id を取得します。これは、コンストラクターが呼び出された後 (オブジェクトが作成された後) に使用できます。

get_first_package_delay

def get_first_package_delay(self)

最初のパケットの遅延を取得します。これは、最初のオーディオパケットを送信してから最初の認識結果パケットを受信するまでのレイテンシーです。タスク完了後に使用します。

get_last_package_delay

def get_last_package_delay(self)

最後のパケットの遅延を取得します。これは、stop 命令を送信してから最後の認識結果パケットを受信するまでの時間です。タスク完了後に使用します。

コールバックインターフェイス (RecognitionCallback)

双方向ストリーミング呼び出し中、サーバーはコールバックを使用して主要なプロセス情報とデータをクライアントに返します。返された情報とデータを処理するために、コールバックメソッドを実装する必要があります。

クリックして例を表示

class Callback(RecognitionCallback):
    def on_open(self) -> None:
        print('接続に成功しました')

    def on_event(self, result: RecognitionResult) -> None:
        # 認識結果を受信するロジックを実装

    def on_complete(self) -> None:
        print('タスクが完了しました')

    def on_error(self, result: RecognitionResult) -> None:
        print('例外が発生しました:', result)

    def on_close(self) -> None:
        print('接続が閉じられました')


callback = Callback()

メソッド

パラメーター

戻り値

説明

def on_open(self) -> None

None

None

このメソッドは、サーバーとの接続が確立された直後に呼び出されます。

def on_event(self, result: RecognitionResult) -> None

result: RecognitionResult

None

このメソッドは、サービスが応答を送信したときに呼び出されます。

def on_complete(self) -> None

None

None

このメソッドは、すべての認識結果が返された後に呼び出されます。

def on_error(self, result: RecognitionResult) -> None

result: 認識結果

None

このメソッドは、例外が発生したときに呼び出されます。

def on_close(self) -> None

None

None

このメソッドは、サービスが接続を閉じた後に呼び出されます。

応答結果

認識結果 (RecognitionResult)

RecognitionResult は、双方向ストリーミング呼び出しにおける単一のリアルタイム認識、または非ストリーミング呼び出しの認識結果を表します。

メンバーメソッド

メソッドシグネチャ

説明

get_sentence

def get_sentence(self) -> Union[Dict[str, Any], List[Any]]

現在認識されている文とタイムスタンプ情報を取得します。コールバックでは単一の文が返されるため、このメソッドは Dict[str, Any] 型を返します。

詳細については、「Sentence」をご参照ください。

get_request_id

def get_request_id(self) -> str

リクエストの request_id を取得します。

is_sentence_end

@staticmethod
def is_sentence_end(sentence: Dict[str, Any]) -> bool

指定された文が終了したかどうかを判断します。

Sentence (Sentence)

Sentence クラスのメンバーは次のとおりです:

パラメーター

説明

begin_time

int

文の開始時刻 (ミリ秒)。

end_time

int

文の終了時刻 (ミリ秒)。

text

str

認識されたテキスト。

words

単語のタイムスタンプ情報 (Word) のリスト

単語のタイムスタンプ情報。

emo_tag

str

現在の文の感情:

  • positive:肯定的感情 (嬉しい、満足など)

  • negative:否定的感情 (怒り、悲しみなど)

  • neutral:明確な感情なし

感情認識には以下の制約があります:

  • paraformer-realtime-8k-v2 モデルでのみ利用可能です。

  • セマンティック句読点を無効にする必要があります (リクエストパラメーター semantic_punctuation_enabled で制御)。デフォルトでは、セマンティック句読点は無効になっています。

  • 感情認識の結果は、RecognitionResult オブジェクトの is_sentence_end メソッドが True を返す場合にのみ表示されます。

emo_confidence

float

現在の文で認識された感情の信頼度。値の範囲は 0.0 から 1.0 です。値が大きいほど信頼度が高くなります。

感情認識には以下の制約があります:

  • paraformer-realtime-8k-v2 モデルでのみ利用可能です。

  • セマンティック句読点を無効にする必要があります (リクエストパラメーター semantic_punctuation_enabled で制御)。デフォルトでは、セマンティック句読点は無効になっています。

  • 感情認識の結果は、RecognitionResult オブジェクトの is_sentence_end メソッドが True を返す場合にのみ表示されます。

単語のタイムスタンプ情報 (Word)

Word クラスのメンバーは次のとおりです:

パラメーター

説明

begin_time

int

単語の開始時刻 (ミリ秒)。

end_time

int

単語の終了時刻 (ミリ秒)。

text

str

単語。

punctuation

str

句読点。

エラーコード

エラーが発生した場合は、「エラーメッセージ」を参照してトラブルシューティングを行ってください。

問題が解決しない場合は、開発者グループに参加して問題を報告してください。問題を調査するために、リクエスト ID をご提供ください。

その他の例

その他の例については、GitHub をご参照ください。

よくある質問

機能

Q:長時間の無音状態でもサーバーとの持続的接続を維持するにはどうすればよいですか?

heartbeat リクエストパラメーターを true に設定し、無音オーディオを継続的にサーバーに送信することで維持できます。

無音オーディオとは、オーディオファイルまたはデータストリーム内で音信号がないコンテンツを指します。Audacity や Adobe Audition などのオーディオ編集ソフトウェア、または FFmpeg などのコマンドラインツールを使用して、さまざまな方法で無音オーディオを生成できます。

Q:オーディオフォーマットを必要なフォーマットに変換するにはどうすればよいですか?

FFmpeg ツールを使用できます。詳細については、FFmpeg の公式ウェブサイトをご参照ください。

# 基本的な変換コマンド (汎用テンプレート)
# -i: 入力ファイルパスを指定します。例:audio.wav
# -c:a: オーディオエンコーダーを指定します。例:aac, libmp3lame, pcm_s16le
# -b:a: ビットレートを指定します (オーディオ品質を制御)。例:192k, 320k
# -ar: サンプルレートを指定します。例:44100 (CD), 48000, 16000
# -ac: サウンドチャンネル数を指定します。例:1 (モノラル), 2 (ステレオ)
# -y: 既存のファイルを上書きします (値は不要)。
ffmpeg -i input_audio.ext -c:a encoder_name -b:a bit_rate -ar sample_rate -ac num_channels output.ext

# 例:WAV から MP3 へ (元の品質を維持)
ffmpeg -i input.wav -c:a libmp3lame -q:a 0 output.mp3
# 例:MP3 から WAV へ (16 ビット PCM 標準フォーマット)
ffmpeg -i input.mp3 -c:a pcm_s16le -ar 44100 -ac 2 output.wav
# 例:M4A から AAC へ (Apple オーディオの抽出/変換)
ffmpeg -i input.m4a -c:a copy output.aac  # 再エンコードせずに直接抽出
ffmpeg -i input.m4a -c:a aac -b:a 256k output.aac  # 品質を向上させるために再エンコード
# 例:FLAC ロスレスから Opus へ (高圧縮)
ffmpeg -i input.flac -c:a libopus -b:a 128k -vbr on output.opus
Q:各文の時間範囲を表示できますか?

はい、できます。音声認識結果には、各文の開始と終了のタイムスタンプが含まれています。これらのタイムスタンプを使用して、各文の時間範囲を特定できます。

Q:ローカルファイル (録音済みオーディオファイル) を認識するにはどうすればよいですか?

ローカルファイルを認識するには、2 つの方法があります:

  • ローカルファイルのパスを直接渡す:この方法では、ファイルが完全に処理された後に完全な認識結果が返されます。即時のフィードバックが必要なシナリオには適していません。

    Recognition クラスcall メソッドにファイルパスを渡して、オーディオファイルを直接認識します。詳細については、「非ストリーミング呼び出し」をご参照ください。

  • ローカルファイルをバイナリストリームに変換して認識する:この方法では、ファイルの処理中に認識結果がストリームで返されます。即時のフィードバックが必要なシナリオに適しています。

    Recognition クラスsend_audio_frame メソッドを使用して、バイナリストリームをサーバーに送信して認識します。詳細については、「双方向ストリーミング呼び出し」をご参照ください。

トラブルシューティング

Q:認識結果が表示されないのはなぜですか?

  1. リクエストパラメーターのオーディオの formatsampleRate/sample_rate が正しく設定され、パラメーターの制約を満たしているか確認してください。以下は一般的なエラー例です:

    • オーディオファイルの拡張子は .wav ですが、MP3 フォーマットであり、format パラメーターが誤って `mp3` に設定されている。

    • オーディオのサンプルレートは 3600 Hz ですが、sampleRate/sample_rate パラメーターが誤って 48000 に設定されている。

    ffprobe ツールを使用して、コンテナー、エンコーディング、サンプルレート、サウンドチャンネルなどのオーディオ情報を取得できます:

    ffprobe -v error -show_entries format=format_name -show_entries stream=codec_name,sample_rate,channels -of default=noprint_wrappers=1 input.xxx
  2. paraformer-realtime-v2 モデルを使用する場合、language_hints で設定された言語がオーディオの実際の言語と一致しているか確認してください。

    例えば、オーディオは中国語ですが、language_hintsen (英語) に設定されている場合などです。

  3. 上記のすべてのチェックをパスした場合、カスタムホットワードを使用して特定の単語の認識を向上させることができます。