すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:音声ファイル音声認識 - Fun-ASR/Paraformer

最終更新日:Feb 07, 2026

Fun-ASR/Paraformer 音声ファイル音声認識モデルは、録音された音声をテキストに変換します。これらのモデルは、単一ファイルおよびバッチファイルの認識をサポートしており、即時結果を必要としないシナリオに適しています。

コア機能

  • 多言語認識: 中国語 (各種方言を含む)、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語など、複数の言語の認識をサポートしています。

  • 幅広いフォーマット互換性: 任意のサンプルレートをサポートし、AAC、WAV、MP3 などの主要なオーディオおよびビデオフォーマットと互換性があります。

  • 長尺音声ファイル処理: 最大12時間、サイズ2 GB の単一音声ファイルの非同期文字起こしをサポートしています。

  • 歌唱認識: バックグラウンドミュージック (BGM) がある場合でも、曲全体を文字起こしします。この機能は、Fun-ASR および Fun-ASR-2025-11-07 モデルのみがサポートしています。

  • 豊富な認識機能: 話者ダイアリゼーション、禁止用語フィルター、文/単語レベルの UNIX タイムスタンプ、ホットワードブースティングなど、個別のニーズを満たす設定可能な機能を提供します。

適用範囲

サポートされているモデル:

国際

国際デプロイメントモードでは、アクセスポイントとデータストレージはシンガポールリージョンにあります。モデル推論用計算リソースは、中国本土を除き、グローバルに動的にスケジュールされます。

以下のモデルを呼び出す際は、シンガポールリージョン用の API キー を選択してください。

  • Fun-ASR: fun-asr (安定版、現在は fun-asr-2025-11-07 と同等)、fun-asr-2025-11-07 (スナップショット版)、fun-asr-2025-08-25 (スナップショット版)、fun-asr-mtl (安定版、現在は fun-asr-mtl-2025-08-25 と同等)、fun-asr-mtl-2025-08-25 (スナップショット版)

中国本土

中国本土デプロイメントモードでは、アクセスポイントとデータストレージは北京リージョンに配置されます。モデル推論計算リソースは中国本土に限定されます。

以下のモデルを呼び出す際は、北京リージョン用の API キー を選択してください。

  • Fun-ASR: fun-asr (安定版、現在は fun-asr-2025-11-07 と同等)、fun-asr-2025-11-07 (スナップショット版)、fun-asr-2025-08-25 (スナップショット版)、fun-asr-mtl (安定版、現在は fun-asr-mtl-2025-08-25 と同等)、fun-asr-mtl-2025-08-25 (スナップショット版)

  • Paraformer: paraformer-v2、paraformer-8k-v2

詳細については、「モデルリスト」をご参照ください。

モデル選択

シナリオ

推奨モデル

理由

中国語認識 (会議/ライブストリーム)

fun-asr

中国語向けに深く最適化されており、さまざまな方言をカバーしています。強力な遠距離 VAD とノイズ耐性を備えています。ノイズの多い環境や複数話者の長距離音声など、実世界のシナリオに適しており、より高い精度を実現します。

多言語認識 (国際会議)

fun-asr-mtl、paraformer-v2

1つのモデルで複数の言語ニーズに対応し、開発とデプロイメントを簡素化します。

エンターテイメントコンテンツ分析と字幕生成

fun-asr

独自の歌唱認識により、歌やライブパフォーマンスのセグメントを効果的に文字起こしします。ノイズ耐性と組み合わせることで、複雑なメディアオーディオに最適です。

ニュース/インタビューの字幕生成

fun-asr、paraformer-v2

長尺音声 + 句読点予測 + UNIX タイムスタンプにより、構造化された字幕を直接生成します。

スマートハードウェア向け遠距離音声対話

fun-asr

遠距離 VAD (音声活動検出) は、家庭や車両などのノイズの多い環境でユーザーコマンドをより正確にキャプチャして認識するように最適化されています。

詳細については、「モデル機能比較」をご参照ください。

クイックスタート

以下のコードサンプルは、API を呼び出す方法を示しています。

API キーを取得し、API キーを環境変数として設定する必要があります。SDK を使用して呼び出しを行う場合は、DashScope SDK をインストールする必要もあります。

Fun-ASR

オーディオおよびビデオファイルは通常サイズが大きいため、ファイル転送と音声認識処理には時間がかかる場合があります。ファイル文字起こし API は、非同期呼び出しを使用してタスクを送信します。文字起こしが完了した後、インターフェイスを照会して音声認識結果を取得する必要があります。

Python

from http import HTTPStatus
from dashscope.audio.asr import Transcription
from urllib import request
import dashscope
import os
import json

# 次の URL はシンガポールリージョン用です。北京リージョンのモデルを使用する場合は、URL を以下に置き換えてください: https://dashscope.aliyuncs.com/api/v1
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'

# シンガポールリージョンと北京リージョンの API キーは異なります。API キーを取得するには、こちらをご参照ください: https://www.alibabacloud.com/help/zh/model-studio/get-api-key
# 環境変数を設定していない場合は、次の行を Model Studio API キーに置き換えてください: dashscope.api_key = "sk-xxx"
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")

task_response = Transcription.async_call(
    model='fun-asr',
    file_urls=['https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav',
               'https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav'],
    language_hints=['zh', 'en']  # language_hints は、認識対象の音声の言語コードを指定するために使用するオプションパラメーターです。有効値については、API リファレンスドキュメントをご参照ください。
)

transcription_response = Transcription.wait(task=task_response.output.task_id)

if transcription_response.status_code == HTTPStatus.OK:
    for transcription in transcription_response.output['results']:
        if transcription['subtask_status'] == 'SUCCEEDED':
            url = transcription['transcription_url']
            result = json.loads(request.urlopen(url).read().decode('utf8'))
            print(json.dumps(result, indent=4,
                            ensure_ascii=False))
        else:
            print('transcription failed!')
            print(transcription)
else:
    print('Error: ', transcription_response.output.message)

Java

import com.alibaba.dashscope.audio.asr.transcription.*;
import com.alibaba.dashscope.utils.Constants;
import com.google.gson.*;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.Arrays;
import java.util.List;

public class Main {
    public static void main(String[] args) {
        // 次の URL はシンガポールリージョン用です。北京リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1 に置き換えてください。
        Constants.baseHttpApiUrl = "https://dashscope-intl.aliyuncs.com/api/v1";
        // 文字起こしリクエストパラメーターを作成します。
        TranscriptionParam param =
                TranscriptionParam.builder()
                        // シンガポールリージョンと北京リージョンの API キーは異なります。API キーの取得: https://www.alibabacloud.com/help/zh/model-studio/get-api-key
                        // 環境変数を設定していない場合は、次の行を実際の Model Studio API キーに置き換えてください: .apiKey("sk-xxx")
                        .apiKey(System.getenv("DASHSCOPE_API_KEY"))
                        .model("fun-asr")
                        // language_hints は、認識対象の音声の言語コードを指定するためのオプションパラメーターです。有効値については、API リファレンスドキュメントをご参照ください。
                        .parameter("language_hints", new String[]{"zh", "en"})
                        .fileUrls(
                                Arrays.asList(
                                        "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav",
                                        "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav"))
                        .build();
        try {
            Transcription transcription = new Transcription();
            // 文字起こしリクエストを送信します。
            TranscriptionResult result = transcription.asyncCall(param);
            System.out.println("RequestId: " + result.getRequestId());
            // タスクの完了をブロックして待機し、結果を取得します。
            result = transcription.wait(
                    TranscriptionQueryParam.FromTranscriptionParam(param, result.getTaskId()));
            // 文字起こし結果を取得します。
            List<TranscriptionTaskResult> taskResultList = result.getResults();
            if (taskResultList != null && taskResultList.size() > 0) {
                for (TranscriptionTaskResult taskResult : taskResultList) {
                    String transcriptionUrl = taskResult.getTranscriptionUrl();
                    HttpURLConnection connection =
                            (HttpURLConnection) new URL(transcriptionUrl).openConnection();
                    connection.setRequestMethod("GET");
                    connection.connect();
                    BufferedReader reader =
                            new BufferedReader(new InputStreamReader(connection.getInputStream()));
                    Gson gson = new GsonBuilder().setPrettyPrinting().create();
                    JsonElement jsonResult = gson.fromJson(reader, JsonObject.class);
                    System.out.println(gson.toJson(jsonResult));
                }
            }
        } catch (Exception e) {
            System.out.println("error: " + e);
        }
        System.exit(0);
    }
}

完全な認識結果は JSON 形式でコンソールに出力されます。結果には、変換されたテキストと、オーディオまたはビデオファイル内のテキストの開始時刻と終了時刻 (ミリ秒単位) が含まれます。

  • 最初の結果

    {
        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav",
        "properties": {
            "audio_format": "pcm_s16le",
            "channels": [
                0
            ],
            "original_sampling_rate": 16000,
            "original_duration_in_milliseconds": 3834
        },
        "transcripts": [
            {
                "channel_id": 0,
                "content_duration_in_milliseconds": 2480,
                "text": "Hello World, this is Alibaba Cloud Speech Lab.",
                "sentences": [
                    {
                        "begin_time": 760,
                        "end_time": 3240,
                        "text": "Hello World, this is Alibaba Cloud Speech Lab.",
                        "sentence_id": 1,
                        "words": [
                            {
                                "begin_time": 760,
                                "end_time": 1000,
                                "text": "Hello",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 1000,
                                "end_time": 1120,
                                "text": " World",
                                "punctuation": ","
                            },
                            {
                                "begin_time": 1400,
                                "end_time": 1920,
                                "text": "this is",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 1920,
                                "end_time": 2520,
                                "text": "Alibaba Cloud",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 2520,
                                "end_time": 2840,
                                "text": "Speech",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 2840,
                                "end_time": 3240,
                                "text": "Lab",
                                "punctuation": "."
                            }
                        ]
                    }
                ]
            }
        ]
    }
  • 2番目の結果

    {
        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav",
        "properties": {
            "audio_format": "pcm_s16le",
            "channels": [
                0
            ],
            "original_sampling_rate": 16000,
            "original_duration_in_milliseconds": 4726
        },
        "transcripts": [
            {
                "channel_id": 0,
                "content_duration_in_milliseconds": 3800,
                "text": "Hello World, this is Alibaba Cloud Speech Lab.",
                "sentences": [
                    {
                        "begin_time": 680,
                        "end_time": 4480,
                        "text": "Hello World, this is Alibaba Cloud Speech Lab.",
                        "sentence_id": 1,
                        "words": [
                            {
                                "begin_time": 680,
                                "end_time": 960,
                                "text": "Hello",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 960,
                                "end_time": 1080,
                                "text": " World",
                                "punctuation": ","
                            },
                            {
                                "begin_time": 1480,
                                "end_time": 2160,
                                "text": "this is",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 2160,
                                "end_time": 3080,
                                "text": "Alibaba Cloud",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 3080,
                                "end_time": 3520,
                                "text": "Speech",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 3520,
                                "end_time": 4480,
                                "text": "Lab",
                                "punctuation": "."
                            }
                        ]
                    }
                ]
            }
        ]
    }

Paraformer

オーディオおよびビデオファイルは通常サイズが大きいため、ファイル転送と音声認識処理には時間がかかる場合があります。ファイル文字起こし API は、非同期呼び出しを使用してタスクを送信します。文字起こしが完了した後、インターフェイスを照会して音声認識結果を取得する必要があります。

Python

from http import HTTPStatus
from dashscope.audio.asr import Transcription
from urllib import request
import dashscope
import os
import json


# API キーを取得するには、https://www.alibabacloud.com/help/zh/model-studio/get-api-key を参照してください。
# 環境変数を設定していない場合は、次の行を Model Studio API キーに置き換えてください: dashscope.api_key = "sk-xxx"
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")

task_response = Transcription.async_call(
    model='paraformer-v2',
    file_urls=['https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav',
               'https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav'],
    language_hints=['zh', 'en']  # language_hints は、認識対象の音声の言語コードを指定するために使用されるオプションのパラメーターです。Paraformer シリーズの paraformer-v2 モデルでのみこのパラメーターがサポートされています。有効値については、API リファレンスドキュメントをご参照ください。
)

transcription_response = Transcription.wait(task=task_response.output.task_id)

if transcription_response.status_code == HTTPStatus.OK:
    for transcription in transcription_response.output['results']:
        if transcription['subtask_status'] == 'SUCCEEDED':
            url = transcription['transcription_url']
            result = json.loads(request.urlopen(url).read().decode('utf8'))
            print(json.dumps(result, indent=4,
                            ensure_ascii=False))
        else:
            print('transcription failed!')
            print(transcription)
else:
    print('Error: ', transcription_response.output.message)

Java

import com.alibaba.dashscope.audio.asr.transcription.*;
import com.google.gson.*;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.Arrays;
import java.util.List;

public class Main {
    public static void main(String[] args) {
        // 文字起こしリクエストパラメーターを作成します
        TranscriptionParam param =
                TranscriptionParam.builder()
                        // API キーを取得するには、https://www.alibabacloud.com/help/zh/model-studio/get-api-key を参照してください
                        // 環境変数を設定していない場合は、次の行を Model Studio API キーで置き換えてください: .apiKey("sk-xxx")
                        .apiKey(System.getenv("DASHSCOPE_API_KEY"))
                        .model("paraformer-v2")
                        // language_hints は、認識対象の音声の言語コードを指定するためのオプションパラメーターです。このパラメーターは、Paraformer シリーズの paraformer-v2 モデルでのみサポートされています。有効値については、API リファレンスドキュメントをご参照ください。
                        .parameter("language_hints", new String[]{"zh", "en"})
                        .fileUrls(
                                Arrays.asList(
                                        "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav",
                                        "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav"))
                        .build();
        try {
            Transcription transcription = new Transcription();
            // 文字起こしリクエストを送信します
            TranscriptionResult result = transcription.asyncCall(param);
            System.out.println("RequestId: " + result.getRequestId());
            // ブロッキングしてタスクの完了を待機し、結果を取得します
            result = transcription.wait(
                    TranscriptionQueryParam.FromTranscriptionParam(param, result.getTaskId()));
            // 文字起こし結果を取得します
            List<TranscriptionTaskResult> taskResultList = result.getResults();
            if (taskResultList != null && taskResultList.size() > 0) {
                for (TranscriptionTaskResult taskResult : taskResultList) {
                    String transcriptionUrl = taskResult.getTranscriptionUrl();
                    HttpURLConnection connection =
                            (HttpURLConnection) new URL(transcriptionUrl).openConnection();
                    connection.setRequestMethod("GET");
                    connection.connect();
                    BufferedReader reader =
                            new BufferedReader(new InputStreamReader(connection.getInputStream()));
                    Gson gson = new GsonBuilder().setPrettyPrinting().create();
                    JsonElement jsonResult = gson.fromJson(reader, JsonObject.class);
                    System.out.println(gson.toJson(jsonResult));
                }
            }
        } catch (Exception e) {
            System.out.println("error: " + e);
        }
        System.exit(0);
    }
}

完全な認識結果は JSON 形式でコンソールに出力されます。結果には、変換されたテキストと、オーディオまたはビデオファイル内のテキストの開始時刻と終了時刻 (ミリ秒単位) が含まれます。

  • 最初の結果

    {
        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_male2.wav",
        "properties": {
            "audio_format": "pcm_s16le",
            "channels": [
                0
            ],
            "original_sampling_rate": 16000,
            "original_duration_in_milliseconds": 4726
        },
        "transcripts": [
            {
                "channel_id": 0,
                "content_duration_in_milliseconds": 4720,
                "text": "Hello world, this is the Alibaba Cloud Speech Lab.",
                "sentences": [
                    {
                        "begin_time": 0,
                        "end_time": 4720,
                        "text": "Hello world, this is the Alibaba Cloud Speech Lab.",
                        "sentence_id": 1,
                        "words": [
                            {
                                "begin_time": 0,
                                "end_time": 629,
                                "text": "Hello ",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 629,
                                "end_time": 944,
                                "text": "world",
                                "punctuation": ", "
                            },
                            {
                                "begin_time": 944,
                                "end_time": 1484,
                                "text": "this",
                                "punctuation": " "
                            },
                            {
                                "begin_time": 1484,
                                "end_time": 2024,
                                "text": "is",
                                "punctuation": " "
                            },
                            {
                                "begin_time": 2024,
                                "end_time": 2564,
                                "text": "the",
                                "punctuation": " "
                            },
                            {
                                "begin_time": 2564,
                                "end_time": 3104,
                                "text": "Alibaba",
                                "punctuation": " "
                            },
                            {
                                "begin_time": 3104,
                                "end_time": 3644,
                                "text": "Cloud",
                                "punctuation": " "
                            },
                            {
                                "begin_time": 3644,
                                "end_time": 4184,
                                "text": "Speech",
                                "punctuation": " "
                            },
                            {
                                "begin_time": 4184,
                                "end_time": 4720,
                                "text": "Lab",
                                "punctuation": "."
                            }
                        ]
                    }
                ]
            }
        ]
    }
  • 2番目の結果

    {
        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav",
        "properties": {
            "audio_format": "pcm_s16le",
            "channels": [
                0
            ],
            "original_sampling_rate": 16000,
            "original_duration_in_milliseconds": 3834
        },
        "transcripts": [
            {
                "channel_id": 0,
                "content_duration_in_milliseconds": 3720,
                "text": "Hello word, this is Alibaba Cloud Speech Lab.",
                "sentences": [
                    {
                        "begin_time": 100,
                        "end_time": 3820,
                        "text": "Hello word, this is Alibaba Cloud Speech Lab.",
                        "sentence_id": 1,
                        "words": [
                            {
                                "begin_time": 100,
                                "end_time": 596,
                                "text": "Hello ",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 596,
                                "end_time": 844,
                                "text": "word",
                                "punctuation": ", "
                            },
                            {
                                "begin_time": 844,
                                "end_time": 1092,
                                "text": "this",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 1092,
                                "end_time": 1340,
                                "text": "is",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 1340,
                                "end_time": 1588,
                                "text": "Alibaba",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 1588,
                                "end_time": 1836,
                                "text": "Cloud",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 1836,
                                "end_time": 2084,
                                "text": "Speech",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 2084,
                                "end_time": 2332,
                                "text": "Lab",
                                "punctuation": ""
                            },
                            {
                                "begin_time": 2332,
                                "end_time": 2580,
                                "text": ".",
                                "punctuation": ""
                            }
                        ]
                    }
                ]
            }
        ]
    }

API リファレンス

モデル機能の比較

機能

Fun-ASR

Paraformer

対応言語

モデルによって異なります:

  • fun-asr および fun-asr-2025-11-07:中国語(標準中国語、広東語、呉語、閩南語、客家語、贛語、湘語、晋語)、中原官話、西南官話、冀魯官話、江淮官話、蘭銀官話、膠遼官話、東北官話、北京官話、香港・台湾アクセントを含む地域別標準中国語アクセント、および英語、日本語

  • fun-asr-2025-08-25:中国語(標準中国語)および英語

  • fun-asr-mtl および fun-asr-mtl-2025-08-25:中国語(標準中国語、広東語)、英語、日本語、韓国語、ベトナム語、インドネシア語、タイ語、マレー語、フィリピン語、アラビア語、ヒンディー語、ブルガリア語、クロアチア語、チェコ語、デンマーク語、オランダ語、エストニア語、フィンランド語、ギリシャ語、ハンガリー語、アイルランド語、ラトビア語、リトアニア語、マルタ語、ポーランド語、ポルトガル語、ルーマニア語、スロバキア語、スロベニア語、スウェーデン語

モデルによって異なります:

  • paraformer-v2:中国語(標準中国語、広東語、呉語、閩南語、東北官話、甘粛官話、貴州官話、河南官話、湖北官話、湖南官話、寧夏官話、山西官話、陝西官話、山東官話、四川官話、天津官話、江西官話、雲南官話、上海方言)、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語

  • paraformer-8k-v2:中国語(標準中国語のみ)

対応音声フォーマット

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

サンプルレート

任意

モデルによって異なります:

  • paraformer-v2:任意

  • paraformer-8k-v2:8 kHz

音声チャンネル数

任意

入力方法

文字起こし対象の音声ファイルの、公開アクセス可能な URL。1 回のリクエストで最大 100 個の音声ファイルを指定できます。

音声ファイルのサイズおよび再生時間

各音声ファイルは、サイズが 2 GB を超えず、再生時間が 12 時間を超えない必要があります。

感情検出

未対応

タイムスタンプ

対応 常に有効

対応 デフォルトでは無効です。必要に応じて有効化してください。

句読点予測

対応 常に有効

ホットワード

対応 設定可能

ITN

対応 常に有効

歌唱音声認識

対応 fun-asr および fun-asr-2025-11-07 のみで利用可能です。

未対応

ノイズ拒否

対応 常に有効

禁止用語フィルター

対応 デフォルトで Alibaba Cloud Model Studio 禁止用語リスト を使用してコンテンツをフィルター処理します。追加のコンテンツに対しては、カスタマイズ可能なフィルターを設定できます。

話者分離

対応 デフォルトでは無効です。必要に応じて有効化してください。

フィラー語フィルター

未対応

対応 デフォルトでは無効です。必要に応じて有効化してください。

VAD

対応 常に有効

レート制限(RPS)

ジョブ送信 API:10

ジョブ照会 API:20

ジョブ送信 API:20

ジョブ照会 API:20

接続方式

DashScope:Java、Python SDK;RESTful API

課金

国際:1 秒あたり USD 0.000035

中国本土:1 秒あたり USD 0.000032

中国本土:1 秒あたり USD 0.000012

よくある質問

Q: 認識精度を向上させるにはどうすればよいですか?

関連するすべての要因を考慮し、適切な対策を講じる必要があります。

主な影響要因:

  1. 音声品質: 録音デバイス、サンプルレート、バックグラウンドノイズは、音声の明瞭さに影響します。高品質な音声が不可欠です。

  2. 話者の特徴: ピッチ、話速、アクセント、方言の違いは、特に珍しい方言や強いアクセントの場合、認識の難易度を高める可能性があります。

  3. 言語と語彙: 複数の言語の混在、専門用語、スラングは、認識の難易度を高める可能性があります。このような場合、ホットワード設定を使用して認識を最適化できます。

  4. 文脈の理解: 文脈がないと、特に正しい認識が前後のテキストに依存する場合、意味の曖昧さが生じやすくなります。

最適化の方法:

  1. 音声品質の向上: 高性能マイクを使用し、推奨サンプルレートで録音してください。バックグラウンドノイズとエコーを低減してください。

  2. 話者への対応: 強いアクセントや方言を持つ話者の場合は、それらの方言をサポートするモデルを使用してください。

  3. ホットワードの設定: 専門用語や固有名詞のホットワードを追加します。詳細については、「ホットワードのカスタマイズ」をご参照ください。

  4. 文脈の維持: 音声を過度に短いセグメントに分割しないでください。