全部產品
Search
文件中心

Alibaba Cloud Model Studio:最佳實務

更新時間:Oct 15, 2025
重要

本文檔僅適用於“華北2(北京)”地區。如需使用模型,需使用“華北2(北京)”地區的API Key

預先處理視頻檔案以提高檔案轉寫效率(針對錄音檔案識別情境)

雖然Paraformer語音辨識API可以相容視頻檔案,但由於視頻檔案尺寸通常較大、傳輸較為耗時,建議對其進行預先處理,僅提取需要進行語音辨識的音軌,並進行合理壓縮,從而顯著降低檔案尺寸。這樣做將大大加快視頻檔案轉寫的吞吐效率。在以下最佳實務中,展示了如何使用ffmpeg進行有關的預先處理。

前提條件

安裝ffmpeg:請前往ffmpeg官方網站

預先處理視頻檔案

使用ffmpeg提取視頻檔案中的第一條音軌、降採樣到16kHz、並壓縮編碼為opus檔案。

ffmpeg -i input-video-file -ac 1 -ar 16000 -acodec libopus output-audio-file.opus

一般情況下,輸出的音頻檔案將顯著小於輸入的視頻檔案的尺寸,接下去可向檔案轉寫API提交該音頻檔案(以URL指定),獲得語音辨識結果。