Alibaba Cloud Model Studio リアルタイムオーディオ＆ビデオ翻訳への qwen3-livetranslate-flash の使用 - Model Studio

このトピックでは、OpenAI 互換インターフェイスを介した qwen3-livetranslate-flash の入出力パラメーターについて説明します。

リファレンス：音声・動画翻訳 - Qwen

DashScope インターフェイスはサポートされていません。

OpenAI との互換性

シンガポールリージョン

SDK の base_url： https://dashscope-intl.aliyuncs.com/compatible-mode/v1

HTTP の endpoint： POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions

北京リージョン

SDK の base_url： https://dashscope.aliyuncs.com/compatible-mode/v1

HTTP の endpoint： POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions

まず、API キーを作成し、API キーを環境変数としてエクスポートします。OpenAI SDK を使用するには、SDK をインストールします。

リクエストボディ

Python

import os
from openai import OpenAI

client = OpenAI(
    # 環境変数を設定していない場合は、次の行をご利用の Model Studio API キーに置き換えてください： api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    # 以下はシンガポールリージョンの base_url です。北京リージョンのモデルを使用する場合は、base_url を https://dashscope.aliyuncs.com/compatible-mode/v1 に置き換えてください
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

# ---------------- 音声入力 ----------------
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "input_audio",
                "input_audio": {
                    "data": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250211/tixcef/cherry.wav",
                    "format": "wav",
                },
            }
        ],
    }
]

# ---------------- 動画入力 (コメントを解除して使用) ----------------
# messages = [
#     {
#         "role": "user",
#         "content": [
#             {
#                 "type": "video_url",
#                 "video_url": {
#                     "url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241115/cqqkru/1.mp4"
#                 },
#             }
#         ],
#     },
# ]

completion = client.chat.completions.create(
    model="qwen3-livetranslate-flash",
    messages=messages,
    modalities=["text", "audio"],
    audio={"voice": "Cherry", "format": "wav"},
    stream=True,
    stream_options={"include_usage": True},
    extra_body={"translation_options": {"source_lang": "zh", "target_lang": "en"}},
)

for chunk in completion:
    print(chunk)

Node.js

import OpenAI from "openai";

const client = new OpenAI({
    // 環境変数を設定していない場合は、次の行をご利用の Model Studio API キーに置き換えてください： apiKey: "sk-xxx",
    apiKey: process.env.DASHSCOPE_API_KEY,
    // 以下はシンガポールリージョンの base_url です。北京リージョンのモデルを使用する場合は、base_url を https://dashscope.aliyuncs.com/compatible-mode/v1 に置き換えてください
    baseURL: "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
});

// ---------------- 音声入力 ----------------
const messages = [
    {
        role: "user",
        content: [
            {
                type: "input_audio",
                input_audio: {
                    data: "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250211/tixcef/cherry.wav",
                    format: "wav",
                },
            },
        ],
    },
];

// ---------------- 動画入力 (コメントを解除して使用) ----------------
// const messages = [
//     {
//         role: "user",
//         content: [
//             {
//                 type: "video_url",
//                 video_url: {
//                     url: "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241115/cqqkru/1.mp4",
//                 },
//             },
//         ],
//     },
// ];

async function main() {
    const completion = await client.chat.completions.create({
        model: "qwen3-livetranslate-flash",
        messages: messages,
        modalities: ["text", "audio"],
        audio: { voice: "Cherry", format: "wav" },
        stream: true,
        stream_options: { include_usage: true },
        translation_options: { source_lang: "zh", target_lang: "en" },
    });

    for await (const chunk of completion) {
        console.log(JSON.stringify(chunk));
    }
}

main();

curl

# ======= 重要 =======
# 以下はシンガポールリージョンの例です。北京リージョンのモデルを使用する場合は、リクエスト URL を https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions に置き換えてください
# === 実行前にこのコメントを削除してください ===
curl -X POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
    "model": "qwen3-livetranslate-flash",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250211/tixcef/cherry.wav",
                        "format": "wav"
                    }
                }
            ]
        }
    ],
    "modalities": ["text", "audio"],
    "audio": {
        "voice": "Cherry",
        "format": "wav"
    },
    "stream": true,
    "stream_options": {
        "include_usage": true
    },
    "translation_options": {
        "source_lang": "zh",
        "target_lang": "en"
    }
}'

model string (必須)

モデル名。サポートされているモデルは qwen3-livetranslate-flash と qwen3-livetranslate-flash-2025-12-01 です。

messages array (必須)

大規模言語モデルにコンテキストを提供するメッセージの配列。ユーザーメッセージは 1 つのみサポートされます。

メッセージタイプ

ユーザーメッセージ object (必須)

ユーザーメッセージ。

プロパティ

content array (必須)

メッセージの内容。

プロパティ

type string (必須)

有効な値：

input_audio
音声入力の場合、値を input_audio に設定します。
video_url
動画ファイル入力の場合、値を video_url に設定します。

input_audio object

入力音声情報。このパラメーターは type が input_audio の場合に必須です。

プロパティ

data string (必須)

音声ファイルの URL または Base64 データ URL。ローカルファイルの渡し方の詳細については、「Base64 エンコードされたローカルファイルの入力」をご参照ください。

format string (必須)

入力音声のフォーマット。例：mp3、wav。

video_url object

入力動画ファイル情報。このパラメーターは type が video_url の場合に必須です。

プロパティ

url string (必須)

動画ファイルの公開 URL または Base64 データ URL。ローカル動画ファイルの入力方法の詳細については、「Base64 エンコードされたローカルファイルの入力」をご参照ください。

role string (必須)

ユーザーメッセージのロール。値は user に固定されています。

stream boolean (必須) デフォルト：false

出力をストリーミング方式で返すかどうかを指定します。このモデルはストリーミング出力の呼び出しのみをサポートしています。このパラメーターは true に設定する必要があります。

stream_options object (オプション)

ストリーミング出力の設定項目。このパラメーターは stream パラメーターが true に設定されている場合にのみ有効です。

プロパティ

include_usage boolean (オプション) デフォルト：false

最後のデータブロックにトークン使用量情報を含めるかどうかを指定します。

有効な値：

true
false

modalities array (オプション) デフォルト：["text"]

出力データのモダリティ。有効な値は次のとおりです：

["text","audio"]：テキストと音声を出力します。
["text"]：テキストのみを出力します。

audio object (オプション)

出力音声の音声とフォーマット。modalities パラメーターは ["text","audio"] に設定する必要があります。

プロパティ

voice string (必須)

出力音声の音声。詳細については、「サポートされている音声」をご参照ください。

format string (必須)

出力音声のフォーマット。wav のみがサポートされています。

max_tokens integer (オプション)

生成するトークンの最大数。生成されたコンテンツがこの値を超えると、応答は切り捨てられます。

デフォルト値と最大値は、どちらもモデルの最大出力長です。詳細については、「モデルの選択」をご参照ください。

seed integer (オプション)

乱数シード。このパラメーターは、同じ入力とパラメーターを使用した場合に結果が再現可能であることを保証します。呼び出しに同じ seed と他のパラメーターを使用すると、モデルは可能な限り同じ結果を返します。

有効値： [0, 2<sup>31</sup>−1]。

temperature float (オプション) デフォルト：0.000001

サンプリング温度。生成されるコンテンツの多様性をコントロールします。温度が高いほど多様なコンテンツが生成され、低いほど決定論的なコンテンツが生成されます。

有効値： [0, 2)

翻訳の精度を確保するため、この値の変更は推奨されません。

top_p float (オプション) デフォルト：0.8

ニュークリアスサンプリングの確率のしきい値。生成されるコンテンツの多様性をコントロールします。

top_p の値が高いほど多様なコンテンツが生成されます。値が低いほど決定論的なコンテンツが生成されます。

有効値： (0, 1.0]

翻訳の精度を確保するため、この値の変更は推奨されません。

presence_penalty float (オプション) デフォルト：0

生成されるテキスト内のコンテンツの繰り返しをコントロールします。

有効値： [-2.0, 2.0]。正の値は繰り返しを減らし、負の値は繰り返しを増やします。翻訳の精度を確保するため、この値の変更は推奨されません。

top_k integer (オプション) デフォルト：1

生成時のサンプリングのための候補セットのサイズ。例えば、このパラメーターを 50 に設定すると、1 回の生成で最もスコアの高い 50 個のトークンのみがランダムサンプリングの候補セットとして使用されます。値が大きいほどランダム性が増し、小さいほど決定論的になります。値が None または 100 より大きい場合、top_k ポリシーは有効にならず、top_p ポリシーのみが有効になります。

値は 0 以上である必要があります。翻訳の精度を確保するため、この値の変更は推奨されません。

このパラメーターは標準の OpenAI パラメーターではありません。Python SDK を使用する場合、このパラメーターを extra_body オブジェクトに配置します。例： extra_body={"top_k": xxx}。Node.js SDK を使用する場合、または HTTP 呼び出しを行う場合は、このパラメーターをトップレベルで渡します。

repetition_penalty float (オプション) デフォルト：1.05

モデル生成時の連続するシーケンスにおける繰り返しの度合い。repetition_penalty の値が高いほど繰り返しが減少します。値 1.0 はペナルティがないことを示します。値は 0 より大きい必要があります。翻訳の精度を確保するため、この値の変更は推奨されません。

このパラメーターは標準の OpenAI パラメーターではありません。Python SDK を使用する場合、このパラメーターを extra_body オブジェクトに配置します。例： extra_body={"repetition_penalty": xxx}。Node.js SDK を使用する場合、または HTTP 呼び出しを行う場合は、このパラメーターをトップレベルで渡します。

translation_options object (必須)

翻訳パラメーター。

プロパティ

source_lang string (オプション)

ソース言語の完全な英語名。「サポートされている言語」をご参照ください。このパラメーターを設定しない場合、モデルは自動的に入力言語を検出します。

target_lang string (必須)

ターゲット言語の完全な英語名。「サポートされている言語」をご参照ください。

このパラメーターは標準の OpenAI パラメーターではありません。Python SDK を使用する場合、このパラメーターを extra_body オブジェクトに配置します。例： extra_body={"translation_options": xxx}。Node.js SDK を使用する場合、または HTTP 呼び出しを行う場合は、このパラメーターをトップレベルで渡します。

チャット応答チャンクオブジェクト (ストリーミング出力)	テキスト出力チャンク `{ "id": "chatcmpl-c22a54b8-40cc-4a1d-988b-f84cdf86868f", "choices": [ { "delta": { "content": " of", "function_call": null, "refusal": null, "role": null, "tool_calls": null }, "finish_reason": null, "index": 0, "logprobs": null } ], "created": 1764755440, "model": "qwen3-livetranslate-flash", "object": "chat.completion.chunk", "service_tier": null, "system_fingerprint": null, "usage": null }` 音声出力チャンク { "id": "chatcmpl-c22a54b8-40cc-4a1d-988b-f84cdf86868f", "choices": [ { "delta": { "content": null, "function_call": null, "refusal": null, "role": null, "tool_calls": null, "audio": { "data": "///+//7////+////////////AAAAAAAAAAABA......", "expires_at": 1764755440, "id": "audio_c22a54b8-40cc-4a1d-988b-f84cdf86868f" } }, "finish_reason": null, "index": 0, "logprobs": null } ], "created": 1764755440, "model": "qwen3-livetranslate-flash", "object": "chat.completion.chunk", "service_tier": null, "system_fingerprint": null, "usage": null } トークン使用量チャンク { "id": "chatcmpl-c22a54b8-40cc-4a1d-988b-f84cdf86868f", "choices": [], "created": 1764755440, "model": "qwen3-livetranslate-flash", "object": "chat.completion.chunk", "service_tier": null, "system_fingerprint": null, "usage": { "completion_tokens": 242, "prompt_tokens": 415, "total_tokens": 657, "completion_tokens_details": { "accepted_prediction_tokens": null, "audio_tokens": 191, "reasoning_tokens": null, "rejected_prediction_tokens": null, "text_tokens": 51 }, "prompt_tokens_details": { "audio_tokens": 415, "cached_tokens": null, "text_tokens": 0 } } }
id `string` この呼び出しの一意の識別子。各チャンクオブジェクトは同じ ID を持ちます。
choices `array` モデルによって生成されたコンテンツの配列。`include_usage` パラメーターを `true` に設定した場合、最後のチャンクでは `choices` は空の配列になります。プロパティ delta `object` リクエストされた増分オブジェクト。プロパティ content `string` 増分メッセージの内容。 reasoning_content `string` この値は `null` で固定です。 function_call `object` この値は `null` で固定です。 audio `object` 出力音声情報。プロパティ data `string` 増分 Base64 エンコード音声データ。 expires_at `integer` リクエストが作成されたときのタイムスタンプ。 id `string` 出力音声の一意の識別子。 refusal `object` この値は `null` で固定です。 role `string` 増分メッセージオブジェクトのロール。このフィールドは最初のチャンクにのみ値を持ちます。 tool_calls `array` この値は `null` で固定です。 finish_reason `string` モデルがコンテンツの生成を停止した理由。考えられる値は次のとおりです：出力が自然に停止した場合、値は `stop` です。生成が完了していない場合、値は `null` です。出力が長すぎるために生成が停止した場合、値は `length` です。 index `integer` `choices` 配列内の現在の応答のインデックス。値は 0 に固定されています。 logprobs `object` この値は `null` で固定です。
created `integer` このリクエストが作成されたときのタイムスタンプ。各チャンクは同じタイムスタンプを持ちます。
model `string` このリクエストに使用されたモデル。
object `string` 値は常に `chat.completion.chunk` です。
service_tier `string` この値は `null` で固定です。
system_fingerprint`string` この値は `null` で固定です。
usage `object` このリクエストによって消費されたトークン。このフィールドは、`include_usage` パラメーターが `true` に設定されている場合にのみ、最後のチャンクに表示されます。プロパティ completion_tokens `integer` モデル出力のトークン数。 prompt_tokens `integer` 入力トークンの数。 total_tokens `integer` トークンの総数。これは `prompt_tokens` と `completion_tokens` の合計です。 completion_tokens_details `object` 出力トークンの詳細情報。プロパティ audio_tokens `integer` 出力音声トークンの数。 reasoning_tokens `integer` この値は `null` で固定です。 text_tokens `integer` 出力テキストトークンの数。 prompt_tokens_details `object` 入力トークンの詳細な分類。プロパティ audio_tokens `integer` 入力音声トークンの数。このパラメーターは、動画ファイル内の音声トークンの数を返します。 text_tokens `integer` 入力テキストトークンの数。この値は 0 に固定されています。 video_tokens `integer` 入力動画トークンの数。

OpenAI との互換性

シンガポールリージョン

北京リージョン

リクエストボディ

チャット応答チャンクオブジェクト (ストリーミング出力)

テキスト出力チャンク

音声出力チャンク

トークン使用量チャンク