すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:音声・動画翻訳 - Qwen API リファレンス

最終更新日:Dec 12, 2025

このトピックでは、OpenAI 互換インターフェイスを介した qwen3-livetranslate-flash の入出力パラメーターについて説明します。

リファレンス: 音声・動画翻訳 - Qwen
DashScope インターフェイスはサポートされていません。

OpenAI との互換性

シンガポールリージョン

SDK の base_urlhttps://dashscope-intl.aliyuncs.com/compatible-mode/v1

HTTP の endpointPOST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions

北京リージョン

SDK の base_urlhttps://dashscope.aliyuncs.com/compatible-mode/v1

HTTP の endpointPOST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions

まず、API キーを作成し、API キーを環境変数としてエクスポートします。OpenAI SDK を使用するには、SDK をインストールします。

リクエストボディ

import os
from openai import OpenAI

client = OpenAI(
    # 環境変数を設定していない場合は、次の行をご利用の Model Studio API キーに置き換えてください: api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    # 以下はシンガポールリージョンの base_url です。北京リージョンのモデルを使用する場合は、base_url を https://dashscope.aliyuncs.com/compatible-mode/v1 に置き換えてください
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

# ---------------- 音声入力 ----------------
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "input_audio",
                "input_audio": {
                    "data": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250211/tixcef/cherry.wav",
                    "format": "wav",
                },
            }
        ],
    }
]

# ---------------- 動画入力 (コメントを解除して使用) ----------------
# messages = [
#     {
#         "role": "user",
#         "content": [
#             {
#                 "type": "video_url",
#                 "video_url": {
#                     "url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241115/cqqkru/1.mp4"
#                 },
#             }
#         ],
#     },
# ]

completion = client.chat.completions.create(
    model="qwen3-livetranslate-flash",
    messages=messages,
    modalities=["text", "audio"],
    audio={"voice": "Cherry", "format": "wav"},
    stream=True,
    stream_options={"include_usage": True},
    extra_body={"translation_options": {"source_lang": "zh", "target_lang": "en"}},
)

for chunk in completion:
    print(chunk)
import OpenAI from "openai";

const client = new OpenAI({
    // 環境変数を設定していない場合は、次の行をご利用の Model Studio API キーに置き換えてください: apiKey: "sk-xxx",
    apiKey: process.env.DASHSCOPE_API_KEY,
    // 以下はシンガポールリージョンの base_url です。北京リージョンのモデルを使用する場合は、base_url を https://dashscope.aliyuncs.com/compatible-mode/v1 に置き換えてください
    baseURL: "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
});

// ---------------- 音声入力 ----------------
const messages = [
    {
        role: "user",
        content: [
            {
                type: "input_audio",
                input_audio: {
                    data: "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250211/tixcef/cherry.wav",
                    format: "wav",
                },
            },
        ],
    },
];

// ---------------- 動画入力 (コメントを解除して使用) ----------------
// const messages = [
//     {
//         role: "user",
//         content: [
//             {
//                 type: "video_url",
//                 video_url: {
//                     url: "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241115/cqqkru/1.mp4",
//                 },
//             },
//         ],
//     },
// ];

async function main() {
    const completion = await client.chat.completions.create({
        model: "qwen3-livetranslate-flash",
        messages: messages,
        modalities: ["text", "audio"],
        audio: { voice: "Cherry", format: "wav" },
        stream: true,
        stream_options: { include_usage: true },
        translation_options: { source_lang: "zh", target_lang: "en" },
    });

    for await (const chunk of completion) {
        console.log(JSON.stringify(chunk));
    }
}

main();
# ======= 重要 =======
# 以下はシンガポールリージョンの例です。北京リージョンのモデルを使用する場合は、リクエスト URL を https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions に置き換えてください
# === 実行前にこのコメントを削除してください ===
curl -X POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
    "model": "qwen3-livetranslate-flash",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250211/tixcef/cherry.wav",
                        "format": "wav"
                    }
                }
            ]
        }
    ],
    "modalities": ["text", "audio"],
    "audio": {
        "voice": "Cherry",
        "format": "wav"
    },
    "stream": true,
    "stream_options": {
        "include_usage": true
    },
    "translation_options": {
        "source_lang": "zh",
        "target_lang": "en"
    }
}'

model string (必須)

モデル名。サポートされているモデルは qwen3-livetranslate-flash と qwen3-livetranslate-flash-2025-12-01 です。

messages array (必須)

大規模言語モデルにコンテキストを提供するメッセージの配列。ユーザーメッセージは 1 つのみサポートされます。

メッセージタイプ

ユーザーメッセージ object (必須)

ユーザーメッセージ。

プロパティ

content array (必須)

メッセージの内容。

プロパティ

type string (必須)

有効な値:

  • input_audio

    音声入力の場合、値を input_audio に設定します。

  • video_url

    動画ファイル入力の場合、値を video_url に設定します。

input_audio object

入力音声情報。このパラメーターは typeinput_audio の場合に必須です。

プロパティ

data string (必須)

音声ファイルの URL または Base64 データ URL。ローカルファイルの渡し方の詳細については、「Base64 エンコードされたローカルファイルの入力」をご参照ください。

format string (必須)

入力音声のフォーマット。例:mp3wav

video_url object

入力動画ファイル情報。このパラメーターは typevideo_url の場合に必須です。

プロパティ

url string (必須)

動画ファイルの公開 URL または Base64 データ URL。ローカル動画ファイルの入力方法の詳細については、「Base64 エンコードされたローカルファイルの入力」をご参照ください。

role string (必須)

ユーザーメッセージのロール。値は user に固定されています。

stream boolean (必須) デフォルト:false

出力をストリーミング方式で返すかどうかを指定します。このモデルはストリーミング出力の呼び出しのみをサポートしています。このパラメーターは true に設定する必要があります。

stream_options object (オプション)

ストリーミング出力の設定項目。このパラメーターは stream パラメーターが true に設定されている場合にのみ有効です。

プロパティ

include_usage boolean (オプション) デフォルト:false

最後のデータブロックにトークン使用量情報を含めるかどうかを指定します。

有効な値:

  • true

  • false

modalities array (オプション) デフォルト:["text"]

出力データのモダリティ。有効な値は次のとおりです:

  • ["text","audio"]:テキストと音声を出力します。

  • ["text"]:テキストのみを出力します。

audio object (オプション)

出力音声の音声とフォーマット。modalities パラメーターは ["text","audio"] に設定する必要があります。

プロパティ

voice string (必須)

出力音声の音声。詳細については、「サポートされている音声」をご参照ください。

format string (必須)

出力音声のフォーマット。wav のみがサポートされています。

max_tokens integer (オプション)

生成するトークンの最大数。生成されたコンテンツがこの値を超えると、応答は切り捨てられます。

デフォルト値と最大値は、どちらもモデルの最大出力長です。詳細については、「モデルの選択」をご参照ください。

seed integer (オプション)

乱数シード。このパラメーターは、同じ入力とパラメーターを使用した場合に結果が再現可能であることを保証します。呼び出しに同じ seed と他のパラメーターを使用すると、モデルは可能な限り同じ結果を返します。

有効値: [0, 2<sup>31</sup>−1]

temperature float (オプション) デフォルト:0.000001

サンプリング温度。生成されるコンテンツの多様性をコントロールします。温度が高いほど多様なコンテンツが生成され、低いほど決定論的なコンテンツが生成されます。

有効値: [0, 2)

翻訳の精度を確保するため、この値の変更は推奨されません。

top_p float (オプション) デフォルト:0.8

ニュークリアスサンプリングの確率のしきい値。生成されるコンテンツの多様性をコントロールします。

top_p の値が高いほど多様なコンテンツが生成されます。値が低いほど決定論的なコンテンツが生成されます。

有効値: (0, 1.0]

翻訳の精度を確保するため、この値の変更は推奨されません。

presence_penalty float (オプション) デフォルト:0

生成されるテキスト内のコンテンツの繰り返しをコントロールします。

有効値: [-2.0, 2.0]。正の値は繰り返しを減らし、負の値は繰り返しを増やします。翻訳の精度を確保するため、この値の変更は推奨されません。

top_k integer (オプション) デフォルト:1

生成時のサンプリングのための候補セットのサイズ。例えば、このパラメーターを 50 に設定すると、1 回の生成で最もスコアの高い 50 個のトークンのみがランダムサンプリングの候補セットとして使用されます。値が大きいほどランダム性が増し、小さいほど決定論的になります。値が None または 100 より大きい場合、top_k ポリシーは有効にならず、top_p ポリシーのみが有効になります。

値は 0 以上である必要があります。翻訳の精度を確保するため、この値の変更は推奨されません。

このパラメーターは標準の OpenAI パラメーターではありません。Python SDK を使用する場合、このパラメーターを extra_body オブジェクトに配置します。例: extra_body={"top_k": xxx}。Node.js SDK を使用する場合、または HTTP 呼び出しを行う場合は、このパラメーターをトップレベルで渡します。

repetition_penalty float (オプション) デフォルト:1.05

モデル生成時の連続するシーケンスにおける繰り返しの度合い。repetition_penalty の値が高いほど繰り返しが減少します。値 1.0 はペナルティがないことを示します。値は 0 より大きい必要があります。翻訳の精度を確保するため、この値の変更は推奨されません。

このパラメーターは標準の OpenAI パラメーターではありません。Python SDK を使用する場合、このパラメーターを extra_body オブジェクトに配置します。例: extra_body={"repetition_penalty": xxx}。Node.js SDK を使用する場合、または HTTP 呼び出しを行う場合は、このパラメーターをトップレベルで渡します。

translation_options object (必須)

翻訳パラメーター。

プロパティ

source_lang string (オプション)

ソース言語の完全な英語名。「サポートされている言語」をご参照ください。このパラメーターを設定しない場合、モデルは自動的に入力言語を検出します。

target_lang string (必須)

ターゲット言語の完全な英語名。「サポートされている言語」をご参照ください。

このパラメーターは標準の OpenAI パラメーターではありません。Python SDK を使用する場合、このパラメーターを extra_body オブジェクトに配置します。例: extra_body={"translation_options": xxx}。Node.js SDK を使用する場合、または HTTP 呼び出しを行う場合は、このパラメーターをトップレベルで渡します。

チャット応答チャンクオブジェクト (ストリーミング出力)

テキスト出力チャンク

{
  "id": "chatcmpl-c22a54b8-40cc-4a1d-988b-f84cdf86868f",
  "choices": [
    {
      "delta": {
        "content": " of",
        "function_call": null,
        "refusal": null,
        "role": null,
        "tool_calls": null
      },
      "finish_reason": null,
      "index": 0,
      "logprobs": null
    }
  ],
  "created": 1764755440,
  "model": "qwen3-livetranslate-flash",
  "object": "chat.completion.chunk",
  "service_tier": null,
  "system_fingerprint": null,
  "usage": null
}

音声出力チャンク

{
  "id": "chatcmpl-c22a54b8-40cc-4a1d-988b-f84cdf86868f",
  "choices": [
    {
      "delta": {
        "content": null,
        "function_call": null,
        "refusal": null,
        "role": null,
        "tool_calls": null,
        "audio": {
          "data": "///+//7////+////////////AAAAAAAAAAABA......",
          "expires_at": 1764755440,
          "id": "audio_c22a54b8-40cc-4a1d-988b-f84cdf86868f"
        }
      },
      "finish_reason": null,
      "index": 0,
      "logprobs": null
    }
  ],
  "created": 1764755440,
  "model": "qwen3-livetranslate-flash",
  "object": "chat.completion.chunk",
  "service_tier": null,
  "system_fingerprint": null,
  "usage": null
}

トークン使用量チャンク

{
  "id": "chatcmpl-c22a54b8-40cc-4a1d-988b-f84cdf86868f",
  "choices": [],
  "created": 1764755440,
  "model": "qwen3-livetranslate-flash",
  "object": "chat.completion.chunk",
  "service_tier": null,
  "system_fingerprint": null,
  "usage": {
    "completion_tokens": 242,
    "prompt_tokens": 415,
    "total_tokens": 657,
    "completion_tokens_details": {
      "accepted_prediction_tokens": null,
      "audio_tokens": 191,
      "reasoning_tokens": null,
      "rejected_prediction_tokens": null,
      "text_tokens": 51
    },
    "prompt_tokens_details": {
      "audio_tokens": 415,
      "cached_tokens": null,
      "text_tokens": 0
    }
  }
}

id string

この呼び出しの一意の識別子。各チャンクオブジェクトは同じ ID を持ちます。

choices array

モデルによって生成されたコンテンツの配列。include_usage パラメーターを true に設定した場合、最後のチャンクでは choices は空の配列になります。

プロパティ

delta object

リクエストされた増分オブジェクト。

プロパティ

content string

増分メッセージの内容。

reasoning_content string

この値は null で固定です。

function_call object

この値は null で固定です。

audio object

出力音声情報。

プロパティ

data string

増分 Base64 エンコード音声データ。

expires_at integer

リクエストが作成されたときのタイムスタンプ。

id string

出力音声の一意の識別子。

refusal object

この値は null で固定です。

role string

増分メッセージオブジェクトのロール。このフィールドは最初のチャンクにのみ値を持ちます。

tool_calls array

この値は null で固定です。

finish_reason string

モデルがコンテンツの生成を停止した理由。考えられる値は次のとおりです:

  • 出力が自然に停止した場合、値は stop です。

  • 生成が完了していない場合、値は null です。

  • 出力が長すぎるために生成が停止した場合、値は length です。

index integer

choices 配列内の現在の応答のインデックス。値は 0 に固定されています。

logprobs object

この値は null で固定です。

created integer

このリクエストが作成されたときのタイムスタンプ。各チャンクは同じタイムスタンプを持ちます。

model string

このリクエストに使用されたモデル。

object string

値は常に chat.completion.chunk です。

service_tier string

この値は null で固定です。

system_fingerprintstring

この値は null で固定です。

usage object

このリクエストによって消費されたトークン。このフィールドは、include_usage パラメーターが true に設定されている場合にのみ、最後のチャンクに表示されます。

プロパティ

completion_tokens integer

モデル出力のトークン数。

prompt_tokens integer

入力トークンの数。

total_tokens integer

トークンの総数。これは prompt_tokenscompletion_tokens の合計です。

completion_tokens_details object

出力トークンの詳細情報。

プロパティ

audio_tokens integer

出力音声トークンの数。

reasoning_tokens integer

この値は null で固定です。

text_tokens integer

出力テキストトークンの数。

prompt_tokens_details object

入力トークンの詳細な分類。

プロパティ

audio_tokens integer

入力音声トークンの数。

このパラメーターは、動画ファイル内の音声トークンの数を返します。

text_tokens integer

入力テキストトークンの数。この値は 0 に固定されています。

video_tokens integer

入力動画トークンの数。