使用ffmpeg預先處理視頻檔案提高語音辨識效率-大模型服務平台百鍊-阿里雲

重要

本文檔僅適用於“華北2（北京）”地區。如需使用模型，需使用“華北2（北京）”地區的API Key。

預先處理視頻檔案以提高檔案轉寫效率（針對錄音檔案識別情境）

雖然Paraformer語音辨識API可以相容視頻檔案，但由於視頻檔案尺寸通常較大、傳輸較為耗時，建議對其進行預先處理，僅提取需要進行語音辨識的音軌，並進行合理壓縮，從而顯著降低檔案尺寸。這樣做將大大加快視頻檔案轉寫的吞吐效率。在以下最佳實務中，展示了如何使用ffmpeg進行有關的預先處理。

使用ffmpeg提取視頻檔案中的第一條音軌、降採樣到16kHz、並壓縮編碼為opus檔案。

Shell

ffmpeg -i input-video-file -ac 1 -ar 16000 -acodec libopus output-audio-file.opus

一般情況下，輸出的音頻檔案將顯著小於輸入的視頻檔案的尺寸，接下去可向檔案轉寫API提交該音頻檔案（以URL指定），獲得語音辨識結果。