重要
本文檔僅適用於“華北2(北京)”地區。如需使用模型,需使用“華北2(北京)”地區的API Key。
預先處理視頻檔案以提高檔案轉寫效率(針對錄音檔案識別情境)
雖然Paraformer語音辨識API可以相容視頻檔案,但由於視頻檔案尺寸通常較大、傳輸較為耗時,建議對其進行預先處理,僅提取需要進行語音辨識的音軌,並進行合理壓縮,從而顯著降低檔案尺寸。這樣做將大大加快視頻檔案轉寫的吞吐效率。在以下最佳實務中,展示了如何使用ffmpeg進行有關的預先處理。
前提條件
安裝ffmpeg:請前往ffmpeg官方網站。
預先處理視頻檔案
使用ffmpeg提取視頻檔案中的第一條音軌、降採樣到16kHz、並壓縮編碼為opus檔案。
ffmpeg -i input-video-file -ac 1 -ar 16000 -acodec libopus output-audio-file.opus一般情況下,輸出的音頻檔案將顯著小於輸入的視頻檔案的尺寸,接下去可向檔案轉寫API提交該音頻檔案(以URL指定),獲得語音辨識結果。