全部產品
Search
文件中心

Alibaba Cloud Model Studio:錄音檔案識別-Fun-ASR/Paraformer

更新時間:Dec 18, 2025

錄音檔案識別(也稱為錄音檔案轉寫)是指對音視頻檔案進行語音辨識,將語音轉換為文本。支援單個檔案識別和批量檔案識別,適用於處理不需要即時返回結果的情境。

應用情境

  • 會議、課堂錄音記錄:將錄音檔案轉成文字,方便後期快速進行資訊檢索、分析和整理重點內容。

  • 客服電話分析:自動記錄並分析客戶電話,快速理解客戶需求,自動分類服務要求,甚至識別客戶情緒,從而提升服務品質與效率。

  • 字幕產生:協助媒體製作與後期編輯人員識別音視頻材料並產生對應的字幕,加速後期製作的流程。

  • 市場研究與資料分析:將市場調研中收集到的消費者訪談、焦點小組討論等錄音資料,通過識別模型進行分析,提取消費者意見、偏好等資訊,為企業決策提供支援。

  • 歌唱識別:即使在伴隨背景音樂(BGM)的情況下,也能實現整首歌曲的轉寫(僅fun-asr和fun-asr-2025-11-07模型支援該功能)。

支援的模型

Fun-ASR

Fun-ASR是通義百聆旗下的語音辨識模型,其中fun-asr模型支援中文(普通話及多地方言)、英文和日語,fun-asr-mtlfun-asr的多語言版本,支援中文(普通話、粵語)、英語、日語、 泰語、 越南語、印尼語等語言,尤其適合東南亞出海情境。

國際(新加坡)

模型名稱

版本

支援的語言

支援的採樣率

適用情境

支援的音頻格式

單價

免費額度(注)

fun-asr

當前等同fun-asr-2025-11-07

穩定版

中文(普通話、粵語、吳語、閩南語、客家話、贛語、湘語、晉語;並支援中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、港台等,包括河南、陝西、湖北、四川、重慶、雲南、貴州、廣東、廣西、河北、天津、山東、安徽、南京、江蘇、杭州、甘肅、寧夏等地區官話口音)、英文、日語

任意

ApsaraVideo for Live、電話語音、會議同傳等

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

$0.000035/秒

36,000秒(10小時)

有效期間90天

fun-asr-2025-11-07

相較fun-asr-2025-08-25做了遠場VAD最佳化,識別更准

快照版

fun-asr-2025-08-25

中文(普通話)、英文

fun-asr-mtl

當前等同fun-asr-mtl-2025-08-25

穩定版

中文(普通話、粵語)、英文、日語、韓語、越南語、印尼語、泰語、馬來語、菲律賓語、阿拉伯語、印地語、保加利亞語、克羅地亞語、捷克語、丹麥語、荷蘭語、愛沙尼亞語、芬蘭語、希臘語、匈牙利語、愛爾蘭語、拉脫維亞語、立陶宛語、馬爾他語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、瑞典語

fun-asr-mtl-2025-08-25

快照版

中國大陸(北京)

模型名稱

版本

支援的語言

支援的採樣率

適用情境

支援的音頻格式

單價

fun-asr

當前等同fun-asr-2025-11-07

穩定版

中文(普通話、粵語、吳語、閩南語、客家話、贛語、湘語、晉語;並支援中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、港台等,包括河南、陝西、湖北、四川、重慶、雲南、貴州、廣東、廣西、河北、天津、山東、安徽、南京、江蘇、杭州、甘肅、寧夏等地區官話口音)、英文、日語

任意

ApsaraVideo for Live、電話語音、會議同傳等

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

$0.000032/秒

fun-asr-2025-11-07

相較fun-asr-2025-08-25做了遠場VAD最佳化,識別更准

快照版

fun-asr-2025-08-25

中文(普通話)、英文

fun-asr-mtl

當前等同fun-asr-mtl-2025-08-25

穩定版

中文(普通話、粵語)、英文、日語、韓語、越南語、印尼語、泰語、馬來語、菲律賓語、阿拉伯語、印地語、保加利亞語、克羅地亞語、捷克語、丹麥語、荷蘭語、愛沙尼亞語、芬蘭語、希臘語、匈牙利語、愛爾蘭語、拉脫維亞語、立陶宛語、馬爾他語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、瑞典語

fun-asr-mtl-2025-08-25

快照版

Paraformer

Paraformer基於通義實驗室的非自迴歸端到端模型,大幅提高語音辨識精度和準確率,目前有多個模型版本,越新的版本(版本號碼越大越新)效果越好。

說明

僅支援中國大陸(北京)地區。

模型名稱

支援的語言

支援的採樣率

適用情境

支援的音頻格式

單價

paraformer-v2

中文(普通話、粵語、吳語、閩南語、東北話、甘肅話、貴州話、河南話、湖北話、湖南話、寧夏話、山西話、陝西話、山東話、四川話、天津話、江西話、雲南話、上海話)、英文、日語、韓語、德語、法語、俄語

任意

ApsaraVideo for Live

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

$0.000012/秒

paraformer-8k-v2

中文普通話

8kHz

電話語音

模型選型建議

  1. 語種支援

    • 對於中文(普通話、方言)、英文和日語,建議優先選擇Fun-ASR(最新版fun-asr-2025-11-07)或Paraformer(最新版Paraformer-v2)模型以獲得更優效果。

    • 對於韓語、西班牙語、法語、德語、意大利語,建議優先選擇Paraformer模型。特別是最新版Paraformer-v2模型,它支援指定語種,包括中文(含普通話和多種方言)、粵語、英文、日語、韓語。指定語種後,系統能夠集中演算法資源和語言模型於該特定語種,避免了在多種可能的語種中進行猜測和切換,從而減少了誤識別的機率。

    • 對於越南語、泰語、印尼語、粵語、粵中英混讀等東南亞或香港地區的語言建議選擇Fun-ASR多語言版本(fun-asr-mtl模型)。

  2. 熱詞定製:如果您的業務領域中,有部分專有名詞和行業術語識別效果不夠好,您可以定製熱詞,將這些詞添加到詞表從而改善識別結果。如需使用熱詞功能,請選擇Paraformer或Fun-ASR模型。關於熱詞的更多資訊,請參見定製熱詞

點擊查看模型功能特性對比

Fun-ASR錄音檔案識別

Paraformer錄音檔案識別

接入方式

Java/Python SDK、RESTful API

Java/Python SDK、RESTful API

定製熱詞

情感和事件識別

歌唱識別

✅ 僅fun-asr和fun-asr-2025-11-07模型支援該功能

敏感詞過濾

語氣詞過濾

自動說話人分離

說話人數量參考

時間戳記

流式輸入

流式輸出

識別本地檔案

❌ 僅支援傳入公網可訪問的待識別檔案URL

❌ 僅支援傳入公網可訪問的待識別檔案URL

標點符號預測

待識別音頻格式

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

待識別音頻聲道

不限

不限

待識別音頻採樣率

任意

因模型而異:

  • paraformer-v2 支援任意採樣率

  • paraformer-8k-v2 僅支援8kHz採樣率

待識別音頻大小

單次識別最多能指定100個檔案URL,每個URL對應的錄音檔案大小應小於等於2GB,詳見輸入檔案限制

單次識別最多能指定100個檔案URL,每個URL對應的錄音檔案大小應小於等於2GB,詳見輸入檔案限制

語言

  • fun-asr、fun-asr-2025-11-07:中文(普通話、粵語、吳語、閩南語、客家話、贛語、湘語、晉語;並支援中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、港台等,包括河南、陝西、湖北、四川、重慶、雲南、貴州、廣東、廣西、河北、天津、山東、安徽、南京、江蘇、杭州、甘肅、寧夏等地區官話口音)、英文、日語

  • fun-asr-2025-08-25:中文(普通話)、英文

  • fun-asr-mtl、fun-asr-mtl-2025-08-25:中文(普通話、粵語)、英文、日語、韓語、越南語、印尼語、泰語、馬來語、菲律賓語、阿拉伯語、印地語、保加利亞語、克羅地亞語、捷克語、丹麥語、荷蘭語、愛沙尼亞語、芬蘭語、希臘語、匈牙利語、愛爾蘭語、拉脫維亞語、立陶宛語、馬爾他語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、瑞典語

因模型而異:

  • paraformer-v2:

    • 中文,包含中文普通話和各種方言:上海話、吳語、閩南語、東北話、甘肅話、貴州話、河南話、湖北話、湖南話、江西話、寧夏話、山西話、陝西話、山東話、四川話、天津話、雲南話、粵語

    • 英文

    • 日語

    • 韓語

    • 德語

    • 法語

    • 俄語

  • paraformer-8k-v2 僅支援中文

單價

國際(新加坡):$0.000035/秒

中國大陸(北京):$0.000032/秒

中國大陸(北京):$0.000012/秒

快速開始

下面是調用API的範例程式碼。

您需要已擷取與配置 API Key配置API Key到環境變數(準備下線,併入配置 API Key)。如果通過SDK調用,還需要安裝DashScope SDK

Fun-ASR

由於音視頻檔案的尺寸通常較大,檔案傳輸和語音辨識處理均需要時間,檔案轉寫API通過非同步呼叫方式來提交任務。開發人員需要通過查詢介面,在檔案轉寫完成後獲得語音辨識結果。

Python

from http import HTTPStatus
from dashscope.audio.asr import Transcription
import dashscope
import os
import json

# 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'

# 新加坡地區和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
# 若沒有配置環境變數,請用百鍊API Key將下行替換為:dashscope.api_key = "sk-xxx"
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")

task_response = Transcription.async_call(
    model='fun-asr',
    file_urls=['https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav',
               'https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav']
)

transcribe_response = Transcription.wait(task=task_response.output.task_id)
if transcribe_response.status_code == HTTPStatus.OK:
    print(json.dumps(transcribe_response.output, indent=4, ensure_ascii=False))
    print('transcription done!')

Java

import com.alibaba.dashscope.audio.asr.transcription.*;
import com.alibaba.dashscope.common.TaskStatus;
import com.alibaba.dashscope.utils.Constants;
import com.google.gson.*;

import java.util.Arrays;

public class Main {
    public static void main(String[] args) {
        // 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1
        Constants.baseHttpApiUrl = "https://dashscope-intl.aliyuncs.com/api/v1";
        // 建立轉寫請求參數
        TranscriptionParam param =
                TranscriptionParam.builder()
                        // 新加坡地區和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
                        // 若沒有配置環境變數,請用百鍊API Key將下行替換為:.apiKey("sk-xxx")
                        //.apiKey("apikey")
                        .model("fun-asr")
                        .fileUrls(
                                Arrays.asList(
                                        "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav",
                                        "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav"))
                        .build();
        try {
            Transcription transcription = new Transcription();
            // 提交轉寫請求
            TranscriptionResult result = transcription.asyncCall(param);
            System.out.println("RequestId: " + result.getRequestId());
            // 迴圈擷取任務執行結果,直到任務結束
            while (true) {
                result = transcription.fetch(TranscriptionQueryParam.FromTranscriptionParam(param, result.getTaskId()));
                if (result.getTaskStatus() == TaskStatus.SUCCEEDED || result.getTaskStatus() == TaskStatus.FAILED) {
                    break;
                }
                Thread.sleep(1000);
            }
            // 列印結果
            System.out.println(new GsonBuilder().setPrettyPrinting().create().toJson(result.getOutput()));
        } catch (Exception e) {
            System.out.println("error: " + e);
        }
        System.exit(0);
    }
}

完整的識別結果會以JSON格式列印在控制台。完整結果包含轉換後的文本以及文本在音視頻檔案中的起始、結束時間(以毫秒為單位)。

{
    "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav",
    "properties": {
        "audio_format": "pcm_s16le",
        "channels": [
            0
        ],
        "original_sampling_rate": 16000,
        "original_duration_in_milliseconds": 4726
    },
    "transcripts": [
        {
            "channel_id": 0,
            "content_duration_in_milliseconds": 4720,
            "text": "Hello world, 這裡是阿里巴巴語音實驗室。",
            "sentences": [
                {
                    "begin_time": 0,
                    "end_time": 4720,
                    "text": "Hello world, 這裡是阿里巴巴語音實驗室。",
                    "words": [
                        {
                            "begin_time": 0,
                            "end_time": 472,
                            "text": "Hello ",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 472,
                            "end_time": 944,
                            "text": "world",
                            "punctuation": ", "
                        },
                        {
                            "begin_time": 944,
                            "end_time": 1573,
                            "text": "這裡",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 1573,
                            "end_time": 2202,
                            "text": "是阿",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 2202,
                            "end_time": 2831,
                            "text": "裡巴",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 2831,
                            "end_time": 3460,
                            "text": "巴語",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 3460,
                            "end_time": 4089,
                            "text": "音實",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 4089,
                            "end_time": 4720,
                            "text": "驗室",
                            "punctuation": "。"
                        }
                    ]
                }
            ]
        }
    ]
}
{
    "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav",
    "properties": {
        "audio_format": "pcm_s16le",
        "channels": [
            0
        ],
        "original_sampling_rate": 16000,
        "original_duration_in_milliseconds": 3834
    },
    "transcripts": [
        {
            "channel_id": 0,
            "content_duration_in_milliseconds": 3820,
            "text": "Hello world, 這裡是阿里巴巴語音實驗室。",
            "sentences": [
                {
                    "begin_time": 0,
                    "end_time": 3820,
                    "text": "Hello world, 這裡是阿里巴巴語音實驗室。",
                    "words": [
                        {
                            "begin_time": 0,
                            "end_time": 382,
                            "text": "Hello ",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 382,
                            "end_time": 764,
                            "text": "world",
                            "punctuation": ", "
                        },
                        {
                            "begin_time": 764,
                            "end_time": 1273,
                            "text": "這裡",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 1273,
                            "end_time": 1782,
                            "text": "是阿",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 1782,
                            "end_time": 2291,
                            "text": "裡巴",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 2291,
                            "end_time": 2800,
                            "text": "巴語",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 2800,
                            "end_time": 3309,
                            "text": "音實",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 3309,
                            "end_time": 3820,
                            "text": "驗室",
                            "punctuation": "。"
                        }
                    ]
                }
            ]
        }
    ]
}
transcription done!

Paraformer

由於音視頻檔案的尺寸通常較大,檔案傳輸和語音辨識處理均需要時間,檔案轉寫API通過非同步呼叫方式來提交任務。開發人員需要通過查詢介面,在檔案轉寫完成後獲得語音辨識結果。

Python

from http import HTTPStatus
from dashscope.audio.asr import Transcription
import json

# 若沒有將API Key配置到環境變數中,需將下面這行代碼注釋放開,並將apiKey替換為自己的API Key
# import dashscope
# dashscope.api_key = "apiKey"

task_response = Transcription.async_call(
    model='paraformer-v2',
    file_urls=['https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav',
               'https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav'],
    language_hints=['zh', 'en']  # “language_hints”只支援paraformer-v2模型
)

transcribe_response = Transcription.wait(task=task_response.output.task_id)
if transcribe_response.status_code == HTTPStatus.OK:
    print(json.dumps(transcribe_response.output, indent=4, ensure_ascii=False))
    print('transcription done!')

Java

import com.alibaba.dashscope.audio.asr.transcription.*;
import com.google.gson.*;

import java.util.Arrays;

public class Main {
    public static void main(String[] args) {
        // 建立轉寫請求參數
        TranscriptionParam param =
                TranscriptionParam.builder()
                        // 若沒有將API Key配置到環境變數中,需將apiKey替換為自己的API Key
                        //.apiKey("apikey")
                        .model("paraformer-v2")
                        // “language_hints”只支援paraformer-v2模型
                        .parameter("language_hints", new String[]{"zh", "en"})
                        .fileUrls(
                                Arrays.asList(
                                        "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav",
                                        "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav"))
                        .build();
        try {
            Transcription transcription = new Transcription();
            // 提交轉寫請求
            TranscriptionResult result = transcription.asyncCall(param);
            System.out.println("RequestId: " + result.getRequestId());
            // 阻塞等待任務完成並擷取結果
            result = transcription.wait(
                    TranscriptionQueryParam.FromTranscriptionParam(param, result.getTaskId()));
            // 列印結果
            System.out.println(result.getOutput());
        } catch (Exception e) {
            System.out.println("error: " + e);
        }
        System.exit(0);
    }
}

完整的識別結果會以JSON格式列印在控制台。完整結果包含轉換後的文本以及文本在音視頻檔案中的起始、結束時間(以毫秒為單位)。

{
    "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav",
    "properties": {
        "audio_format": "pcm_s16le",
        "channels": [
            0
        ],
        "original_sampling_rate": 16000,
        "original_duration_in_milliseconds": 4726
    },
    "transcripts": [
        {
            "channel_id": 0,
            "content_duration_in_milliseconds": 4720,
            "text": "Hello world, 這裡是阿里巴巴語音實驗室。",
            "sentences": [
                {
                    "begin_time": 0,
                    "end_time": 4720,
                    "text": "Hello world, 這裡是阿里巴巴語音實驗室。",
                    "words": [
                        {
                            "begin_time": 0,
                            "end_time": 472,
                            "text": "Hello ",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 472,
                            "end_time": 944,
                            "text": "world",
                            "punctuation": ", "
                        },
                        {
                            "begin_time": 944,
                            "end_time": 1573,
                            "text": "這裡",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 1573,
                            "end_time": 2202,
                            "text": "是阿",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 2202,
                            "end_time": 2831,
                            "text": "裡巴",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 2831,
                            "end_time": 3460,
                            "text": "巴語",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 3460,
                            "end_time": 4089,
                            "text": "音實",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 4089,
                            "end_time": 4720,
                            "text": "驗室",
                            "punctuation": "。"
                        }
                    ]
                }
            ]
        }
    ]
}
{
    "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav",
    "properties": {
        "audio_format": "pcm_s16le",
        "channels": [
            0
        ],
        "original_sampling_rate": 16000,
        "original_duration_in_milliseconds": 3834
    },
    "transcripts": [
        {
            "channel_id": 0,
            "content_duration_in_milliseconds": 3820,
            "text": "Hello world, 這裡是阿里巴巴語音實驗室。",
            "sentences": [
                {
                    "begin_time": 0,
                    "end_time": 3820,
                    "text": "Hello world, 這裡是阿里巴巴語音實驗室。",
                    "words": [
                        {
                            "begin_time": 0,
                            "end_time": 382,
                            "text": "Hello ",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 382,
                            "end_time": 764,
                            "text": "world",
                            "punctuation": ", "
                        },
                        {
                            "begin_time": 764,
                            "end_time": 1273,
                            "text": "這裡",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 1273,
                            "end_time": 1782,
                            "text": "是阿",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 1782,
                            "end_time": 2291,
                            "text": "裡巴",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 2291,
                            "end_time": 2800,
                            "text": "巴語",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 2800,
                            "end_time": 3309,
                            "text": "音實",
                            "punctuation": ""
                        },
                        {
                            "begin_time": 3309,
                            "end_time": 3820,
                            "text": "驗室",
                            "punctuation": "。"
                        }
                    ]
                }
            ]
        }
    ]
}
transcription done!

輸入檔案限制

Fun-ASR模型

Paraformer模型

輸入檔案的方式

音頻檔案的URL

檔案數量

不超過100個

檔案大小

每個URL中的檔案不超過2 GB,時間長度為12小時以內

檔案格式

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

採樣率

任意

paraformer-v2模型對採樣率無限制,paraformer-8k-v2 僅支援8kHz採樣率

檔案大小說明:如果超出限制,可嘗試對檔案進行預先處理以降低檔案尺寸。具體操作,請參見最佳實務
音頻格式說明:由於音視頻檔案格式及其變種眾多,因此不能保證所有格式均能夠被正確識別。請通過測實驗證您所提供的檔案能夠獲得正常的語音辨識結果。
採樣率說明:採樣率是指每秒對聲音訊號的採樣次數。更高的採樣率提供更多資訊,有助於提高語音辨識的準確率,但過高的採樣率可能引入更多無關資訊,反而影響識別效果。應根據實際採樣率選擇合適的模型。例如,8000Hz的語音資料應直接使用支援8000Hz的模型,無需轉換為16000Hz。

API參考

常見問題

Q:如何提升識別準確率?

需綜合考慮影響因素並採取相應措施。

主要影響因素:

  1. 聲音品質:錄音裝置、採樣率及環境雜訊影響清晰度(高品質音頻是基礎)

  2. 說話人特徵:音調、語速、口音和方言差異(尤其少見方言或重口音)增加識別難度

  3. 語言和詞彙:多語言混合、專業術語或俚語提升識別難度(熱詞配置可最佳化)

  4. 上下文理解:缺乏上下文易導致語義歧義(尤其在依賴前後文才能正確識別的語境中)

最佳化方法:

  1. 最佳化音頻品質:使用高效能麥克風及推薦採樣率裝置;減少環境雜訊與回聲

  2. 適配說話人:針對顯著口音/方言情境,選用支援方言的模型

  3. 配置熱詞:為專業術語、專有名詞等設定熱詞(參見定製熱詞-Paraformer/Fun-ASR

  4. 保留上下文:避免過短音頻分段