すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:ベストプラクティス

最終更新日:Oct 15, 2025
重要

このドキュメントは [中国 (北京)] リージョンにのみ適用されます。モデルを使用するには、[中国 (北京)] リージョンの [APIキー] を使用する必要があります。

音声ファイル認識シナリオにおけるファイル転写効率向上のためにビデオファイルを前処理する

Paraformer 音声認識 API はビデオファイルと互換性があります。ただし、通常はサイズが大きく、転送に時間がかかります。音声認識に必要な音声トラックのみを抽出し、適切な圧縮を適用してファイルサイズを大幅に削減することで、前処理することをお勧めします。これにより、ビデオファイルの転写のスループット効率が大幅に向上します。以下のベストプラクティスは、関連する前処理に ffmpeg を使用する方法を示しています。

前提条件

ffmpeg をインストールします。公式 ffmpeg ウェブサイトにアクセスしてください

ビデオファイルを前処理する

ffmpeg を使用して、ビデオファイルから最初の音声トラックを抽出し、16kHz にダウンサンプリングし、opus エンコーディングを使用して圧縮できます。

ffmpeg -i input-video-file -ac 1 -ar 16000 -acodec libopus output-audio-file.opus

一般的に、出力音声ファイルは入力ビデオファイルよりも大幅に小さくなります。次に、この音声ファイル (URL で指定) をファイル転写 API に送信して、音声認識結果を取得できます。