限流 - 大模型服务平台百炼

百炼按主账号维度对模型调用设置限流，账号下所有RAM子账号、业务空间和API Key 的调用量合并计算。超出限制时请求会被拒绝，通常在一分钟内自动恢复。

限流规则

账号级别限流：限流按主账号维度计算，账号下所有RAM子账号、业务空间和API Key 的调用量合并计算。
模型独立限流：不同模型限流额度相互独立，具体参见下方表格。

FAQ

为什么触发限流？

根据错误信息判断触发了哪类限流：

Requests rate limit exceeded 或 You exceeded your current requests list：触发了每分钟请求数（RPM）限流。
Allocated quota exceeded 或 You exceeded your current quota：触发了每分钟 Token 消耗（TPM）限流。
Request rate increased too quickly：请求频率在短时间内激增，触发了系统稳定性保护——即使总调用量未达到 RPM 或 TPM 上限也会触发。
其他报错，参见错误码确认原因。

除 RPM 和 TPM 外，限流策略可能按秒级 RPS（RPM/60）与 TPS（TPM/60）执行。即使每分钟总调用量未超限，短时间内的请求爆发也可能触发限流。

如何查看模型调用量？

模型调用完一小时后，在模型监控（新加坡或北京）页面设置查询条件（例如，选择时间范围、业务空间等），再在模型列表区域找到目标模型并单击操作列的监控，即可查看该模型的调用统计结果。具体请参见模型监控文档。

数据按小时更新，高峰期可能有小时级延迟，请您耐心等待。

遇到限流后多久恢复？

通常在一分钟内恢复。如出现其他报错，参见错误码进行处理。

如何避免限流？

选用高限流模型：稳定版或最新版比带日期的快照版本限流更宽松。
优化调用策略
- 降低调用频率：收到 Requests rate limit exceeded 或 You exceeded your current requests list 时，降低API调用频率。
- 减少 Token 消耗：收到 Allocated quota exceeded 或 You exceeded your current quota 时，缩短输入或限制输出长度。
- 平滑请求速率：收到 Request rate increased too quickly 时，采用匀速调度、指数退避或请求队列将请求均匀分散，避免瞬时高峰。

添加备选模型

触发限流后切换到备用模型继续生成，可降低失败概率、提升吞吐量。以下代码在调用 qwen-plus-2025-07-28 触发限流后，自动改用 qwen-plus-2025-07-14 重试。

示例代码

import os
import asyncio
from openai import AsyncOpenAI, APIStatusError

# 配置
API_KEY = os.getenv("DASHSCOPE_API_KEY")
# 主用模型
MODEL = "qwen-plus-2025-07-28"
# 备选模型
BACKUP_MODEL = "qwen-plus-2025-07-14"
# 测试问题
QUESTION = "你是谁？"
# 并发设置
NUM_REQUESTS = 10

client = AsyncOpenAI(
    api_key=API_KEY,
    # 调用时请将WorkspaceId替换为真实的业务空间ID
    base_url="https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/compatible-mode/v1"
)

async def send_request(model):
    """发送单个请求"""
    try:
        await client.chat.completions.create(
            model=model,
            messages=[{"role": "user", "content": QUESTION}]
        )
        return True
    except APIStatusError as e:
        if e.status_code == 429:
            print(f"[限流触发] 模型 {model}")
            return False
        raise
    except Exception as e:
        print(f"[请求失败] 模型 {model}，错误：{e}")
        return False

async def task(i):
    # 尝试主模型
    if await send_request(MODEL):
        return True
    # 限流时尝试备用模型
    return await send_request(BACKUP_MODEL)

async def main():
    results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
    print(f"成功请求: {sum(results)}, 失败请求: {len(results) - sum(results)}")

if __name__ == "__main__":
    asyncio.run(main())

拆分任务：长对话或大型文档会快速消耗大量 Token。将大批量任务拆分为小批次，分时段提交。
批量推理：无需实时响应时，使用批量推理（Batch API）。批量请求不受实时限流约束，但需考虑排队和处理时间。
提升限流额度：默认限流额度不足时，在百炼控制台的限流提额页面提升模型的临时 TPM 额度，提交后立即生效。详见提升临时限流额度。

如何控制 Token 用量或费用支出？

限流仅约束单位时间内的调用速率，不限制累计用量。如需控制 Token 用量或费用支出，可通过以下方式管理：

设置消费限额与费用告警：在账单费用卡片设置费用告警，开启月度消费限额并配置阈值通知，达到阈值即提醒，避免超额支出。详见账单查询与成本管理。
开启免费额度用完即停：对支持免费额度的模型，可开启免费额度用完即停，免费额度耗尽后自动停止调用，避免产生额外费用。详见新人免费额度。
监控模型调用量：定期查看各模型的 Token 用量，及时发现异常增长，参见上文如何查看模型调用量？。

提升临时限流额度

默认限流额度不足时，可在百炼控制台提升模型的临时 TPM 额度。提交后立即生效，有效期 30 天，到期后自动恢复为系统默认值。

目前支持华北2（北京）和新加坡地域。

登录百炼控制台，进入限流提额页面。
单击页面右上角的提升模型临时限流额度。
在弹窗中选择模型，填写期望的 Token 账号限流（Token/60 秒）值。弹窗中会显示当前额度和可设置上限。
单击确定，提额立即生效。

提额生效后，可通过以下方式确认：

在限流提额页面的列表中，查看已提额的模型及对应限流数据。
在模型列表中进入对应模型的详情页，查看更新后的限流数据。

说明

支持临时提额的模型以限流提额页面弹窗的可选列表为准。
对已提额的模型再次提交视为重新申请，有效期随之重置为 30 天。
按实际需求申请额度。若配置容量长期显著超过实际使用量，系统可能在提前通知后将其恢复为默认值。

文本生成-千问

千问语言模型

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.7-max	国际	600	1,000,000
qwen3.7-max-2026-06-08	国际	60	1,000,000
qwen3.7-max-2026-05-20	国际	60	1,000,000
qwen3.7-max-preview	国际	600	1,000,000
qwen3.7-max-2026-05-17	国际	600	1,000,000
qwen3.6-max-preview	国际	600	1,000,000
qwen3-max	国际	600	1,000,000
qwen3-max-2026-01-23	国际	600	1,000,000
qwen3-max-2025-09-23	国际	60	100,000
qwen3-max-preview	国际	600	1,000,000
qwen-max 用Batch API调用服务时，不受限流限制。	国际	600	1,000,000
qwen3.7-plus	国际	15,000	5,000,000
qwen3.7-plus-2026-05-26	国际	60	1,000,000
qwen3.6-plus	国际	15,000	5,000,000
qwen3.6-plus-2026-04-02	国际	60	1,000,000
qwen3.6-flash	国际	15,000	5,000,000
qwen3.6-flash-2026-04-16	国际	60	1,000,000
qwen3.5-plus	国际	15,000	6,000,000
qwen3.5-plus-2026-04-20	国际	600	1,000,000
qwen3.5-plus-2026-02-15	国际	60	1,000,000
qwen-plus 用Batch API调用服务时，不受限流限制。	国际	600	1,500,000
qwen-plus-latest	国际	600	1,000,000
qwen-plus-2025-12-01	国际	120	1,000,000
qwen-plus-2025-09-11	国际	120	1,000,000
qwen-plus-2025-07-28	国际	60	100,000
qwen-plus-2025-07-14 (qwen-plus-0714)	国际	60	100,000
qwen-plus-2025-04-28 (qwen-plus-0428)	国际	60	1,000,000
qwen-plus-2025-01-25 (qwen-plus-0125)	国际	60	100,000
qwen3.5-flash	国际	15,000	5,000,000
qwen3.5-flash-2026-02-23	国际	60	1,000,000
qwen-flash 用Batch API调用服务时，不受限流限制。	国际	600	5,000,000
qwen-flash-2025-07-28	国际	600	5,000,000
qwq-plus	国际	60	100,000
qwen-turbo 用Batch API调用服务时，不受限流限制。	国际	600	5,000,000

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.7-max	全球	30,000	5,000,000
qwen3.7-max-2026-06-08	全球	600	1,000,000
qwen3.7-max-2026-05-20	全球	600	1,000,000
qwen3-max	全球	600	1,000,000
qwen3-max-preview	全球	600	1,000,000
qwen3-max-2025-09-23	全球	60	100,000
qwen3.7-plus	全球	30,000	5,000,000
qwen3.7-plus-2026-05-26	全球	600	1,000,000
qwen3.6-plus	全球	30,000	5,000,000
qwen3.6-plus-2026-04-02	全球	600	1,000,000
qwen3.6-flash	全球	15,000	5,000,000
qwen3.6-flash-2026-04-16	全球	60	1,000,000
qwen3.5-plus	全球	30,000	5,000,000
qwen3.5-plus-2026-02-15	全球	600	1,000,000
qwen-plus	全球	15,000	5,000,000
qwen-plus-us	美国	600	1,000,000
qwen-plus-2025-12-01	全球	60	1,000,000
qwen-plus-2025-09-11	全球	60	1,000,000
qwen-plus-2025-07-28	全球	60	1,000,000
qwen-plus-2025-12-01-us	美国	60	1,000,000
qwen3.5-flash	全球	30,000	10,000,000
qwen3.5-flash-2026-02-23	全球	600	1,000,000
qwen-flash	全球	15,000	10,000,000
qwen-flash-us	美国	600	5,000,000
qwen-flash-2025-07-28	全球	60	1,000,000
qwen-flash-2025-07-28-us	美国	600	5,000,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.7-max 用Batch API调用服务时，不受限流限制。	中国内地	30,000	5,000,000
qwen3.7-max-2026-06-08	中国内地	600	1,000,000
qwen3.7-max-2026-05-20	中国内地	600	1,000,000
qwen3.6-max-preview	中国内地	600	1,000,000
qwen3-max 用Batch API调用服务时，不受限流限制。	中国内地	30,000	5,000,000
qwen3-max-2026-01-23	中国内地	600	1,000,000
qwen3-max-2025-09-23	中国内地	60	100,000
qwen3-max-preview	中国内地	600	1,000,000
qwen-max 用Batch API调用服务时，不受限流限制。	中国内地	1,200	1,000,000
qwen3.7-plus	中国内地	30,000	5,000,000
qwen3.7-plus-2026-05-26	中国内地	600	1,000,000
qwen3.6-plus 用Batch API调用服务时，不受限流限制。	中国内地	30,000	5,000,000
qwen3.6-plus-2026-04-02	中国内地	600	1,000,000
qwen3.6-flash 用Batch API调用服务时，不受限流限制。	中国内地	30,000	10,000,000
qwen3.6-flash-2026-04-16	中国内地	600	1,000,000
qwen3.5-plus 用Batch API调用服务时，不受限流限制。	中国内地	30,000	5,000,000
qwen3.5-plus-2026-04-20	中国内地	600	1,000,000
qwen3.5-plus-2026-02-15	中国内地	600	1,000,000
qwen-plus 用Batch API调用服务时，不受限流限制。	中国内地	30,000	5,000,000
qwen-plus-latest 用Batch API调用服务时，不受限流限制。	中国内地	15,000	1,200,000
qwen-plus-2025-12-01	中国内地	120	1,000,000
qwen-plus-2025-09-11	中国内地	60	1,000,000
qwen-plus-2025-07-28 （qwen-plus-0728）	中国内地	60	1,000,000
qwen-plus-2025-07-14 （qwen-plus-0714）	中国内地	60	100,000
qwen-plus-2025-04-28 （qwen-plus-0428）	中国内地	60	1,000,000
qwen-plus-2025-01-25 （qwen-plus-0125）	中国内地	60	150,000
qwen-plus-2025-01-12 （qwen-plus-0112）	中国内地	60	150,000
qwen-plus-2024-12-20 （qwen-plus-1220）	中国内地	60	150,000
qwen3.5-flash 用Batch API调用服务时，不受限流限制。	中国内地	30,000	10,000,000
qwen3.5-flash-2026-02-23	中国内地	600	1,000,000
qwen-flash 用Batch API调用服务时，不受限流限制。	中国内地	30,000	10,000,000
qwen-flash-2025-07-28	中国内地	60	1,000,000
qwq-plus 用Batch API调用服务时，不受限流限制。	中国内地	600	1,000,000
qwen-turbo	中国内地	1,200	5,000,000
qwen-long-latest 用Batch API调用服务时，不受限流限制。	中国内地	1,200	60,000
qwen-long-2025-01-25 (qwen-long-0125)	中国内地	3	7,500

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.7-max	全球	30,000	5,000,000
qwen3.7-max-2026-06-08	全球	600	1,000,000
qwen3.7-max-2026-05-20	全球	600	1,000,000
qwen3-max	全球	600	1,000,000
qwen3-max	欧盟	600	1,000,000
qwen3-max-preview	全球	600	1,000,000
qwen3-max-2026-01-23	欧盟	600	1,000,000
qwen3-max-2025-09-23	全球	60	100,000
qwen3.7-plus	全球	30,000	5,000,000
qwen3.7-plus-2026-05-26	全球	600	1,000,000
qwen3.6-plus	全球	30,000	5,000,000
qwen3.6-plus-2026-04-02	全球	600	1,000,000
qwen3.6-flash	全球	15,000	5,000,000
qwen3.6-flash-2026-04-16	全球	60	1,000,000
qwen3.5-plus	全球	30,000	5,000,000
qwen3.5-plus-2026-02-15	全球	600	1,000,000
qwen-plus	全球	15,000	5,000,000
qwen-plus	欧盟	600	1,000,000
qwen-plus-2025-12-01	全球	60	1,000,000
qwen-plus-2025-12-01	欧盟	120	1,000,000
qwen-plus-2025-09-11	全球	60	1,000,000
qwen-plus-2025-07-28	全球	60	1,000,000
qwen3.5-flash	全球	30,000	10,000,000
qwen3.5-flash	欧盟	30,000	10,000,000
qwen3.5-flash-2026-02-23	全球	600	1,000,000
qwen3.5-flash-2026-02-23	欧盟	600	1,000,000
qwen-flash	全球	15,000	10,000,000
qwen-flash-2025-07-28	全球	60	1,000,000

中国香港

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-max	中国香港	600	1,000,000
qwen3-max-2026-01-23	中国香港	600	1,000,000
qwen3.6-plus	全球	30,000	5,000,000
qwen3.6-flash	全球	15,000	5,000,000
qwen-plus	中国香港	600	1,000,000
qwen-plus-2025-12-01	中国香港	120	1,000,000
qwen3.5-flash	中国香港	15,000	5,000,000
qwen3.5-flash-2026-02-23	中国香港	60	1,000,000

日本（东京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.7-max	全球	30,000	5,000,000
qwen3.7-max-2026-05-20	全球	600	1,000,000
qwen3.7-plus	全球	30,000	5,000,000
qwen3.7-plus-2026-05-26	全球	600	1,000,000
qwen3.7-plus	日本	15,000	5,000,000
qwen3.7-plus-2026-05-26	日本	60	1,000,000
qwen3.6-plus	全球	30,000	5,000,000
qwen3.6-plus-2026-04-02	全球	600	1,000,000
qwen3.6-flash	全球	15,000	5,000,000
qwen3.6-flash-2026-04-16	全球	60	1,000,000

千问VL（视觉理解/图生文）

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-plus	国际	1,200	1,000,000
qwen3-vl-plus-2025-12-19	国际	60	100,000
qwen3-vl-plus-2025-09-23	国际	120	1,000,000
qwen3-vl-flash	国际	1,200	1,000,000
qwen3-vl-flash-2026-01-22	国际	60	100,000
qwen3-vl-flash-2025-10-15	国际	120	1,000,000
qwen-vl-max	国际	1,200	1,000,000
qwen-vl-plus	国际	1,200	1,000,000
qvq-max	国际	60	100,000

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-plus	全球	1,200	1,000,000
qwen3-vl-plus-2025-09-23	全球	60	100,000
qwen3-vl-flash	全球	1,200	1,000,000
qwen3-vl-flash-us	美国	1,200	1,000,000
qwen3-vl-flash-2025-10-15	全球	60	100,000
qwen3-vl-flash-2026-01-22-us	美国	120	1,000,000
qwen3-vl-flash-2025-10-15-us	美国	120	1,000,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-plus 用Batch API调用服务时，不受限流限制。	中国内地	3,000	5,000,000
qwen3-vl-plus-2025-12-19	中国内地	60	100,000
qwen3-vl-plus-2025-09-23	中国内地	60	100,000
qwen3-vl-flash 用Batch API调用服务时，不受限流限制。	中国内地	3,000	5,000,000
qwen3-vl-flash-2026-01-22	中国内地	60	100,000
qwen3-vl-flash-2025-10-15	中国内地	60	100,000
qwen-vl-max 用Batch API调用服务时，不受限流限制。	中国内地	1,200	1,000,000
qwen-vl-plus 用Batch API调用服务时，不受限流限制。	中国内地	1,200	1,000,000
qvq-max	中国内地	60	100,000
qvq-plus	中国内地	60	100,000

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-plus	全球	1,200	1,000,000
qwen3-vl-plus	欧盟	1,200	1,000,000
qwen3-vl-plus-2025-09-23	全球	60	100,000
qwen3-vl-flash	全球	1,200	1,000,000
qwen3-vl-flash	欧盟	1,200	1,000,000
qwen3-vl-flash-2026-01-22	欧盟	60	100,000
qwen3-vl-flash-2025-10-15	全球	60	100,000
qwen3-vl-flash-2025-10-15	欧盟	60	100,000

中国香港

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-plus	中国香港	1,200	1,000,000
qwen3-vl-plus-2025-12-19	中国香港	60	100,000

千问Omni（全模态）

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.5-omni-flash	国际	60	100,000
qwen3.5-omni-flash-2026-03-15	国际	60	100,000
qwen3.5-omni-plus	国际	60	100,000
qwen3.5-omni-plus-2026-03-15	国际	60	100,000
qwen3-omni-flash	国际	60	100,000
qwen3-omni-flash-2025-12-01	国际	60	100,000
qwen3-omni-flash-2025-09-15	国际	60	100,000
qwen-omni-turbo	国际	60	100,000
qwen-omni-turbo-latest	国际	60	100,000
qwen-omni-turbo-2025-03-26	国际	60	100,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.5-omni-flash	中国内地	60	100,000
qwen3.5-omni-flash-2026-03-15	中国内地	60	100,000
qwen3.5-omni-plus	中国内地	60	100,000
qwen3.5-omni-plus-2026-03-15	中国内地	60	100,000
qwen3-omni-flash	中国内地	60	100,000
qwen3-omni-flash-2025-12-01	中国内地	60	100,000
qwen3-omni-flash-2025-09-15	中国内地	60	100,000
qwen-omni-turbo	中国内地	60	100,000
qwen-omni-turbo-latest	中国内地	60	100,000
qwen-omni-turbo-2025-03-26 （qwen-omni-turbo-0326）	中国内地	60	100,000
qwen-omni-turbo-2025-01-19 （qwen-omni-turbo-0119）	中国内地	60	100,000

千问Omni-Realtime（实时多模态）

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.5-omni-plus-realtime	国际	60	100,000
qwen3.5-omni-plus-realtime-2026-03-15	国际	60	100,000
qwen3.5-omni-flash-realtime	国际	60	100,000
qwen3.5-omni-flash-realtime-2026-03-15	国际	60	100,000
qwen3-omni-flash-realtime	国际	60	100,000
qwen3-omni-flash-realtime-2025-12-01	国际	60	100,000
qwen3-omni-flash-realtime-2025-09-15	国际	60	100,000
qwen-omni-turbo-realtime	国际	60	10,000
qwen-omni-turbo-realtime-latest	国际	60	10,000
qwen-omni-turbo-realtime-2025-05-08	国际	60	10,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.5-omni-plus-realtime	中国内地	60	100,000
qwen3.5-omni-plus-realtime-2026-03-15	中国内地	60	100,000
qwen3.5-omni-flash-realtime	中国内地	60	100,000
qwen3.5-omni-flash-realtime-2026-03-15	中国内地	60	100,000
qwen3-omni-flash-realtime	中国内地	60	100,000
qwen3-omni-flash-realtime-2025-12-01	中国内地	60	100,000
qwen3-omni-flash-realtime-2025-09-15	中国内地	60	100,000
qwen-omni-turbo-realtime	中国内地	60	100,000
qwen-omni-turbo-realtime-latest	中国内地	60	100,000
qwen-omni-turbo-realtime-2025-05-08	中国内地	60	100,000

千问OCR（文字提取）

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-vl-ocr	国际	600	6,000,000
qwen-vl-ocr-2025-11-20	国际	1,200	6,000,000

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-vl-ocr	全球	600	6,000,000
qwen-vl-ocr-2025-11-20	全球	1,200	6,000,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.5-ocr	中国内地	6,000	30,000,000
qwen-vl-ocr 用Batch API调用服务时，不受限流限制。	中国内地	600	6,000,000
qwen-vl-ocr-latest	中国内地	1,200	6,000,000
qwen-vl-ocr-2025-11-20	中国内地	1,200	6,000,000
qwen-vl-ocr-2025-04-13	中国内地	600	6,000,000
qwen-vl-ocr-2024-10-28	中国内地	600	6,000,000

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-vl-ocr	全球	600	6,000,000
qwen-vl-ocr-2025-11-20	全球	1,200	6,000,000

千问数学模型

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-math-plus	中国内地	1,200	1,000,000
qwen-math-plus-latest	中国内地	1,200	1,000,000
qwen-math-plus-2024-09-19 （qwen-math-plus-0919）	中国内地	60	100,000
qwen-math-plus-2024-08-16 （qwen-math-plus-0816）	中国内地	10	20,000
qwen-math-turbo	中国内地	1200	1,000,000

千问Coder

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-plus	国际	2,400	2,000,000
qwen3-coder-plus-2025-09-23	国际	600	1,000,000
qwen3-coder-plus-2025-07-22	国际	60	1,000,000
qwen3-coder-flash	国际	600	5,000,000
qwen3-coder-flash-2025-07-28	国际	600	5,000,000

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-plus	全球	2,400	2,000,000
qwen3-coder-plus-2025-09-23	全球	60	1,000,000
qwen3-coder-plus-2025-07-22	全球	60	1,000,000
qwen3-coder-flash	全球	1,200	1,000,000
qwen3-coder-flash-2025-07-28	全球	60	1,000,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-plus	中国内地	5,000	5,000,000
qwen3-coder-plus-2025-09-23	中国内地	60	1,000,000
qwen3-coder-plus-2025-07-22	中国内地	60	1,000,000
qwen3-coder-flash	中国内地	5,000	5,000,000
qwen3-coder-flash-2025-07-28	中国内地	60	1,000,000
qwen-coder-plus	中国内地	1,200	1,000,000
qwen-coder-turbo	中国内地	1,200	1,000,000

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-plus	全球	2,400	2,000,000
qwen3-coder-plus-2025-09-23	全球	60	1,000,000
qwen3-coder-plus-2025-07-22	全球	60	1,000,000
qwen3-coder-flash	全球	1,200	1,000,000
qwen3-coder-flash-2025-07-28	全球	60	1,000,000

千问翻译模型

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-mt-plus	国际	60	100,000
qwen-mt-flash	国际	60	100,000
qwen-mt-lite	国际	60	100,000
qwen-mt-turbo	国际	60	100,000

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-mt-plus	全球	60	25,000
qwen-mt-flash	全球	60	35,000
qwen-mt-lite	全球	60	100,000
qwen-mt-lite-us	美国	60	100,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-mt-plus	中国内地	60	25,000
qwen-mt-flash	中国内地	60	35,000
qwen-mt-lite	中国内地	60	100,000
qwen-mt-turbo	中国内地	60	35,000

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-mt-plus	全球	60	25,000
qwen-mt-flash	全球	60	35,000
qwen-mt-lite	全球	60	100,000

千问数据挖掘模型

华北2（北京）

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen-doc-turbo

中国内地

600

3,000,000

千问深入研究模型

华北2（北京）

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen-deep-research

中国内地

120

1,200,000

文本生成-千问-开源版

千问语言模型开源版

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.6-35b-a3b	国际	600	1,000,000
qwen3.6-27b	国际	600	1,000,000
qwen3.5-397b-a17b	国际	600	1,000,000
qwen3.5-122b-a10b	国际	600	1,000,000
qwen3.5-27b	国际	600	1,000,000
qwen3.5-35b-a3b	国际	600	5,000,000
qwen3-next-80b-a3b-thinking	国际	600	1,000,000
qwen3-next-80b-a3b-instruct	国际	600	1,000,000
qwen3-235b-a22b-thinking-2507	国际	600	1,000,000
qwen3-235b-a22b-instruct-2507	国际	600	1,000,000
qwen3-30b-a3b-thinking-2507	国际	600	5,000,000
qwen3-30b-a3b-instruct-2507	国际	600	5,000,000
qwen3-235b-a22b	国际	600	1,000,000
qwen3-32b	国际	600	1,000,000
qwen3-30b-a3b	国际	600	1,000,000
qwen3-14b	国际	600	1,000,000
qwen3-8b	国际	600	1,000,000
qwen3-4b	国际	600	1,000,000
qwen3-1.7b	国际	600	1,000,000
qwen3-0.6b	国际	600	1,000,000

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.5-397b-a17b	全球	600	1,000,000
qwen3.5-122b-a10b	全球	600	1,000,000
qwen3.5-27b	全球	600	1,000,000
qwen3.6-35b-a3b	全球	600	1,000,000
qwen3.5-35b-a3b	全球	600	1,000,000
qwen3-next-80b-a3b-thinking	全球	600	1,000,000
qwen3-next-80b-a3b-instruct	全球	600	1,000,000
qwen3-235b-a22b-thinking-2507	全球	600	1,000,000
qwen3-235b-a22b-instruct-2507	全球	600	1,000,000
qwen3-30b-a3b-thinking-2507	全球	600	1,000,000
qwen3-30b-a3b-instruct-2507	全球	600	1,000,000
qwen3-235b-a22b	全球	600	1,000,000
qwen3-30b-a3b	全球	600	1,000,000
qwen3-32b	全球	600	1,000,000
qwen3-14b	全球	600	1,000,000
qwen3-8b	全球	600	1,000,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.6-35b-a3b	中国内地	600	1,000,000
qwen3.6-27b	中国内地	600	1,000,000
qwen3.5-397b-a17b	中国内地	600	1,000,000
qwen3.5-122b-a10b	中国内地	600	1,000,000
qwen3.5-27b	中国内地	600	1,000,000
qwen3.5-35b-a3b	中国内地	600	1,000,000
qwen3-next-80b-a3b-thinking	中国内地	600	1,000,000
qwen3-next-80b-a3b-instruct	中国内地	600	1,000,000
qwen3-235b-a22b-thinking-2507	中国内地	600	1,000,000
qwen3-235b-a22b-instruct-2507	中国内地	600	1,000,000
qwen3-30b-a3b-thinking-2507	中国内地	600	1,000,000
qwen3-30b-a3b-instruct-2507	中国内地	600	1,000,000
qwen3-235b-a22b	中国内地	600	1,000,000
qwen3-30b-a3b	中国内地	600	1,000,000
qwen3-32b	中国内地	2400	1,000,000
qwen3-14b	中国内地	600	1,000,000
qwen3-8b	中国内地	600	1,000,000
qwen3-4b	中国内地	600	1,000,000
qwen3-1.7b	中国内地	600	1,000,000
qwen3-0.6b	中国内地	600	1,000,000
qwen2.5-3b-instruct	中国内地	1,200	2,000,000
qwen2.5-1.5b-instruct	中国内地	1,200	2,000,000
qwen2.5-0.5b-instruct	中国内地	1,200	2,000,000

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.5-397b-a17b	全球	600	1,000,000
qwen3.5-122b-a10b	全球	600	1,000,000
qwen3.5-27b	全球	600	1,000,000
qwen3.6-35b-a3b	全球	600	1,000,000
qwen3.5-35b-a3b	全球	600	1,000,000
qwen3-next-80b-a3b-thinking	全球	600	1,000,000
qwen3-next-80b-a3b-instruct	全球	600	1,000,000
qwen3-235b-a22b-thinking-2507	全球	600	1,000,000
qwen3-235b-a22b-instruct-2507	全球	600	1,000,000
qwen3-30b-a3b-thinking-2507	全球	600	1,000,000
qwen3-30b-a3b-instruct-2507	全球	600	1,000,000
qwen3-235b-a22b	全球	600	1,000,000
qwen3-30b-a3b	全球	600	1,000,000
qwen3-32b	全球	600	1,000,000
qwen3-14b	全球	600	1,000,000
qwen3-8b	全球	600	1,000,000

Qwen-VL（视觉理解/图生文）

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-32b-thinking	国际	60	100,000
qwen3-vl-32b-instruct	国际	60	100,000
qwen3-vl-30b-a3b-thinking	国际	60	100,000
qwen3-vl-30b-a3b-instruct	国际	60	100,000
qwen3-vl-8b-thinking	国际	60	100,000
qwen3-vl-8b-instruct	国际	60	100,000
qwen3-vl-235b-a22b-thinking	国际	60	100,000
qwen3-vl-235b-a22b-instruct	国际	60	100,000

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-235b-a22b-thinking	全球	60	100,000
qwen3-vl-235b-a22b-instruct	全球	60	100,000
qwen3-vl-32b-thinking	全球	600	1,000,000
qwen3-vl-32b-instruct	全球	600	1,000,000
qwen3-vl-30b-a3b-thinking	全球	600	1,000,000
qwen3-vl-30b-a3b-instruct	全球	600	1,000,000
qwen3-vl-8b-thinking	全球	600	1,000,000
qwen3-vl-8b-instruct	全球	600	1,000,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-32b-thinking	中国内地	600	1,000,000
qwen3-vl-32b-instruct	中国内地	600	1,000,000
qwen3-vl-30b-a3b-thinking	中国内地	600	1,000,000
qwen3-vl-30b-a3b-instruct	中国内地	600	1,000,000
qwen3-vl-8b-thinking	中国内地	600	1,000,000
qwen3-vl-8b-instruct	中国内地	600	1,000,000
qwen3-vl-235b-a22b-thinking	中国内地	60	100,000
qwen3-vl-235b-a22b-instruct	中国内地	60	100,000
qwen2-vl-72b-instruct	中国内地	1,200	1,000,000
qwen2-vl-7b-instruct	中国内地	1,200	1,000,000
qwen2-vl-2b-instruct	中国内地	1,200	1,000,000

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-vl-235b-a22b-thinking	全球	60	100,000
qwen3-vl-235b-a22b-instruct	全球	60	100,000
qwen3-vl-32b-thinking	全球	600	1,000,000
qwen3-vl-32b-instruct	全球	600	1,000,000
qwen3-vl-30b-a3b-thinking	全球	600	1,000,000
qwen3-vl-30b-a3b-instruct	全球	600	1,000,000
qwen3-vl-8b-thinking	全球	600	1,000,000
qwen3-vl-8b-instruct	全球	600	1,000,000

Qwen3-Omni

新加坡

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen2.5-omni-7b

国际

100,000

华北2（北京）

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen2.5-omni-7b

中国内地

100,000

Qwen3-Omni-Captioner

新加坡

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen3-omni-30b-a3b-captioner

国际

100,000

华北2（北京）

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

qwen3-omni-30b-a3b-captioner

中国内地

100,000

Qwen-Math

华北2（北京）

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

Qwen-Coder

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-next	国际	600	1,000,000
qwen3-coder-480b-a35b-instruct	国际	600	1,000,000
qwen3-coder-30b-a3b-instruct	国际	600	1,000,000

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-480b-a35b-instruct	全球	600	1,000,000
qwen3-coder-30b-a3b-instruct	全球	600	1,000,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-next	中国内地	600	1,000,000
qwen3-coder-480b-a35b-instruct	中国内地	600	1,000,000
qwen3-coder-30b-a3b-instruct	中国内地	600	1,000,000

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-coder-480b-a35b-instruct	全球	600	1,000,000
qwen3-coder-30b-a3b-instruct	全球	600	1,000,000
qwen3-coder-next	欧盟	600	1,000,000

文本生成-第三方模型

DeepSeek

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
deepseek-v4-pro	国际	10,000	1,200,000
deepseek-v4-flash	国际	10,000	1,200,000
deepseek-v3.2	国际	10,000	1,200,000

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
deepseek-v4-pro	全球	15,000	1,200,000
deepseek-v4-pro-us	国际	10,000	1,200,000
deepseek-v4-flash	全球	15,000	1,200,000
deepseek-v4-flash-us	国际	10,000	1,200,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
deepseek-v4-pro	中国内地	15,000	1,200,000
deepseek-v4-flash	中国内地	15,000	1,200,000
deepseek-v3.2 用Batch API调用服务时，不受限流限制。	中国内地	15,000	1,200,000
deepseek-v3.2-exp	中国内地	15,000	1,200,000
deepseek-v3.1	中国内地	15,000	1,200,000
deepseek-r1-0528	中国内地	60	100,000
deepseek-r1 用Batch API调用服务时，不受限流限制。	中国内地	15,000	1,200,000
deepseek-v3 用Batch API调用服务时，不受限流限制。	中国内地	15,000	1,200,000
deepseek-r1-distill-qwen-7b	中国内地	15,000	1,200,000
deepseek-r1-distill-qwen-14b	中国内地	15,000	1,200,000
deepseek-r1-distill-qwen-32b	中国内地	15,000	1,200,000
deepseek-r1-distill-qwen-1.5b	中国内地	60	100,000
deepseek-r1-distill-llama-8b	中国内地	60	100,000
deepseek-r1-distill-llama-70b	中国内地	60	100,000

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
deepseek-v4-pro	全球	15,000	1,200,000
deepseek-v4-flash	全球	15,000	1,200,000

日本（东京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
deepseek-v4-pro	日本	10,000	1,200,000
deepseek-v4-flash	日本	10,000	1,200,000
deepseek-v4-pro	全球	15,000	1,200,000
deepseek-v4-flash	全球	15,000	1,200,000

Kimi

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
kimi-k2.7-code	中国内地	500	1,000,000
kimi-k2.6	中国内地	500	1,000,000
kimi-k2.5	中国内地	500	1,000,000
kimi-k2-thinking	中国内地	500	1,000,000
Moonshot-Kimi-K2-Instruct	中国内地	500	1,000,000

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
kimi-k2.7-code	全球	500	1,000,000
kimi-k2.5	全球	500	1,000,000

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
kimi-k2.7-code	全球	500	1,000,000
kimi-k2.5	全球	500	1,000,000

中国香港

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

kimi-k2.7-code

全球

500

1,000,000

日本（东京）

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

kimi-k2.5

全球

500

1,000,000

新加坡

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

kimi-k2.7-code

国际

500

1,000,000

MiniMax

华北2（北京）

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

MiniMax-M2.5

中国内地

500

1,000,000

GLM

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
glm-5.2	全球	500	1,000,000
glm-5.1	全球	500	1,000,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
glm-5.2	中国内地	500	1,000,000
glm-5.1	中国内地	500	1,000,000
glm-5	中国内地	500	1,000,000
glm-4.7	中国内地	500	1,000,000
glm-4.6	中国内地	60	1,000,000

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
glm-5.2	全球	500	1,000,000
glm-5.1	全球	500	1,000,000

新加坡

模型名称	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
glm-5.2	500	1,000,000
glm-5.1	500	1,000,000

中国香港

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

glm-5.2

全球

500

1,000,000

日本（东京）

模型名称

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

glm-5.1

500

1,000,000

图像生成

千问（Qwen-Image）

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	任务下发接口调用限制	同时处理中任务数量（并发数）
qwen-image-2.0-pro	国际	2 次/分钟	同步接口无限制
qwen-image-2.0-pro-2026-06-22	中国内地	2 次/分钟	同步接口无限制
qwen-image-2.0-pro-2026-04-22	国际	2 次/分钟	同步接口无限制
qwen-image-2.0-pro-2026-03-03	国际	2 次/分钟	同步接口无限制
qwen-image-2.0	国际	2 次/秒	同步接口无限制
qwen-image-2.0-2026-03-03	国际	2 次/秒	同步接口无限制
qwen-image-max	国际	2 次/分钟	同步接口无限制
qwen-image-max-2025-12-30	国际	2 次/分钟	同步接口无限制
qwen-image-plus	国际	2 次/秒	同步接口无限制 / 异步接口 2
qwen-image-plus-2026-01-09	国际	2 次/秒	同步接口无限制
qwen-image	国际	2 次/秒	同步接口无限制 / 异步接口 2
qwen-image-edit-max	国际	2 次/分钟	同步接口无限制
qwen-image-edit-max-2026-01-16	国际	2 次/分钟	同步接口无限制
qwen-image-edit-plus	国际	2 次/秒	同步接口无限制
qwen-image-edit-plus-2025-12-15	国际	2 次/秒	同步接口无限制
qwen-image-edit-plus-2025-10-30	国际	2 次/秒	同步接口无限制
qwen-image-edit	国际	2 次/秒	同步接口无限制

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	任务下发接口调用限制	同时处理中任务数量（并发数）
qwen-image-2.0-pro	中国内地	2 次/分钟	同步接口无限制
qwen-image-2.0-pro-2026-06-22	中国内地	2 次/分钟	同步接口无限制
qwen-image-2.0-pro-2026-04-22	中国内地	2 次/分钟	同步接口无限制
qwen-image-2.0-pro-2026-03-03	中国内地	2 次/分钟	同步接口无限制
qwen-image-2.0	中国内地	2 次/秒	同步接口无限制
qwen-image-2.0-2026-03-03	中国内地	2 次/秒	同步接口无限制
qwen-image-max	中国内地	2次/分钟	同步接口无限制
qwen-image-max-2025-12-30	中国内地	2次/分钟	同步接口无限制
qwen-image-plus	中国内地	2 次/秒	同步接口无限制 / 异步接口 2
qwen-image-plus-2026-01-09	中国内地	2 次/秒	同步接口无限制
qwen-image	中国内地	2 次/秒	同步接口无限制 / 异步接口 2
qwen-image-edit-max	中国内地	2 次/分钟	同步接口无限制
qwen-image-edit-max-2026-01-16	中国内地	2 次/分钟	同步接口无限制
qwen-image-edit-plus	中国内地	2 次/秒	同步接口无限制
qwen-image-edit-plus-2025-12-15	中国内地	2 次/秒	同步接口无限制
qwen-image-edit-plus-2025-10-30	中国内地	2 次/秒	同步接口无限制
qwen-image-edit	中国内地	2 次/秒	同步接口无限制
qwen-mt-image	中国内地	1 次/秒	2

文生图-Z-Image

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
		每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
z-image-turbo	国际	2	同步接口无限制

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
		每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
z-image-turbo	中国内地	2	同步接口无限制

万相

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
wan2.7-image-pro	国际	5	5
wan2.7-image	国际	5	5
wan2.6-image	国际	5	5
wan2.6-t2i	国际	5	5
wan2.5-t2i-preview	国际	5	5
wan2.2-t2i-flash	国际	2	2
wan2.2-t2i-plus	国际	2	2
wan2.1-t2i-turbo	国际	2	2
wan2.1-t2i-plus	国际	2	2
wan2.5-i2i-preview	国际	5	5

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
wan2.6-t2i	全球	5	5
wan2.6-image	全球	5	5

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
wan2.7-image-pro	中国内地	5	5
wan2.7-image	中国内地	5	5
wan2.6-image	中国内地	5	5
wan2.6-t2i	中国内地	1	5
wan2.5-t2i-preview	中国内地	5	5
wanx2.0-t2i-turbo	中国内地	2	2
wanx2.1-t2i-turbo	中国内地	2	2
wanx2.1-t2i-plus	中国内地	2	2
wan2.2-t2i-flash	中国内地	2	2
wan2.2-t2i-plus	中国内地	2	2
wan2.5-i2i-preview	中国内地	5	5
wanx2.1-imageedit	中国内地	2	2

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
wan2.6-t2i	全球	5	5
wan2.6-image	全球	5	5

AI试衣OutfitAnyone

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	作业提交接口RPS限制	同时处理中任务数量
aitryon-plus	中国内地	10	5
aitryon-parsing-v1	中国内地	10	同步接口无限制

视频生成

HappyHorse系列

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
happyhorse-1.1-t2v	国际	10	5
happyhorse-1.1-i2v	国际	10	5
happyhorse-1.1-r2v	国际	10	5
happyhorse-1.0-t2v	国际	10	5
happyhorse-1.0-i2v	国际	10	5
happyhorse-1.0-r2v	国际	10	5
happyhorse-1.0-video-edit	国际	10	5

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
happyhorse-1.1-t2v	全球	10	5
happyhorse-1.1-i2v	全球	10	5
happyhorse-1.1-r2v	全球	10	5
happyhorse-1.0-t2v	全球	10	5
happyhorse-1.0-i2v	全球	10	5
happyhorse-1.0-r2v	全球	10	5
happyhorse-1.0-video-edit	全球	10	5

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
happyhorse-1.1-t2v	中国内地	10	5
happyhorse-1.1-i2v	中国内地	10	5
happyhorse-1.1-r2v	中国内地	10	5
happyhorse-1.0-t2v	中国内地	10	5
happyhorse-1.0-i2v	中国内地	10	5
happyhorse-1.0-r2v	中国内地	10	5
happyhorse-1.0-video-edit	中国内地	10	5

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
happyhorse-1.1-t2v	全球	10	5
happyhorse-1.1-i2v	全球	10	5
happyhorse-1.1-r2v	全球	10	5
happyhorse-1.0-t2v	全球	10	5
happyhorse-1.0-i2v	全球	10	5
happyhorse-1.0-r2v	全球	10	5
happyhorse-1.0-video-edit	全球	10	5

中国香港

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
happyhorse-1.1-t2v	全球	10	5
happyhorse-1.1-i2v	全球	10	5
happyhorse-1.1-r2v	全球	10	5

万相系列

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
wan2.7-t2v-2026-04-25	国际	5	5
wan2.7-t2v	国际	5	5
wan2.6-t2v	国际	5	5
wan2.5-t2v-preview	国际	5	5
wan2.2-t2v-plus	国际	2	2
wan2.1-t2v-turbo	国际	2	2
wan2.1-t2v-plus	国际	2	2
wan2.7-i2v-2026-04-25	国际	5	5
wan2.7-i2v	国际	5	5
wan2.6-i2v-flash	国际	5	5
wan2.6-i2v	国际	5	5
wan2.5-i2v-preview	国际	5	5
wan2.2-i2v-flash	国际	2	2
wan2.1-i2v-plus	国际	2	2
wan2.1-i2v-turbo	国际	2	2
wan2.2-i2v-plus	国际	2	2
wan2.2-kf2v-flash	国际	2	2
wan2.1-kf2v-plus	国际	1	2
wan2.1-vace-plus	国际	2	2
wan2.7-videoedit	国际	5	5
wan2.7-r2v	国际	5	5
wan2.6-r2v-flash	国际	5	5
wan2.6-r2v	国际	5	5
wan2.2-animate-move	国际	5	1
wan2.2-animate-mix	国际	5	1

美国（弗吉尼亚）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
wan2.6-t2v	全球	5	5
wan2.6-i2v	全球	5	5
wan2.6-r2v	全球	5	5
wan2.6-t2v-us	美国	5	5
wan2.6-i2v-us	美国	5	5

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
wan2.7-t2v-2026-04-25	中国内地	5	5
wan2.7-t2v	中国内地	5	5
wan2.6-t2v	中国内地	5	5
wan2.5-t2v-preview	中国内地	5	5
wan2.2-t2v-plus	中国内地	2	2
wanx2.1-t2v-turbo	中国内地	2	2
wanx2.1-t2v-plus	中国内地	2	2
wan2.7-i2v-2026-04-25	中国内地	5	5
wan2.7-i2v	中国内地	5	5
wan2.6-i2v-flash	中国内地	5	5
wan2.6-i2v	中国内地	5	5
wan2.5-i2v-preview	中国内地	5	5
wan2.2-i2v-plus	中国内地	2	2
wanx2.1-i2v-turbo	中国内地	2	2
wanx2.1-i2v-plus	中国内地	2	2
wan2.2-kf2v-flash	中国内地	2	2
wanx2.1-kf2v-plus	中国内地	2	2
wanx2.1-vace-plus	中国内地	2	2
wan2.7-videoedit	中国内地	5	5
wan2.7-r2v	中国内地	5	5
wan2.6-r2v-flash	中国内地	5	5
wan2.6-r2v	中国内地	5	5
wan2.2-s2v-detect	中国内地	5	同步接口无限制
wan2.2-s2v	中国内地	5	1
wan2.2-animate-move	中国内地	5	1
wan2.2-animate-mix	中国内地	5	1

德国（法兰克福）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）
模型名称	服务部署范围	每秒钟任务下发接口RPS限制	同时处理中任务数量（并发数）
wan2.6-t2v	全球	5	5
wan2.6-i2v	全球	5	5
wan2.6-r2v	全球	5	5

舞动人像AnimateAnyone

华北2（北京）

模型名称	服务部署范围	任务下发接口RPS限制	同时处理中任务数量
animate-anyone-detect-gen2	中国内地	5	同步接口无限制
animate-anyone-template-gen2	中国内地	5	1 在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。
animate-anyone-gen2	中国内地	5	1 在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

悦动人像EMO

华北2（北京）

模型名称

服务部署范围

任务下发接口RPS限制

同时处理中任务数量

emo-detect-v1

中国内地

同步接口无限制

emo-v1

中国内地

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

灵动人像LivePortrait

华北2（北京）

模型名称

服务部署范围

任务下发接口RPS限制

同时处理中任务数量

liveportrait-detect

中国内地

同步接口无限制

liveportrait

中国内地

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

声动人像VideoRetalk

华北2（北京）

模型名称

服务部署范围

任务下发接口RPS限制

同时处理中任务数量

videoretalk

中国内地

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

表情包Emoji

华北2（北京）

模型名称

服务部署范围

任务下发接口RPS限制

同时处理中任务数量

emoji-detect-v1

中国内地

同步接口无限制

emoji-v1

中国内地

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

视频风格重绘

华北2（北京）

模型名称

服务部署范围

任务下发接口RPS限制

同时处理中任务数量

video-style-transform

中国内地

在同一时刻，只有1个作业实际处于运行状态，其他队列中的作业处于排队状态。

音乐生成

华北2（北京）

模型名称	服务部署范围	每分钟调用次数（RPM）
fun-music-preview	中国内地	180
fun-music-v1	中国内地	180

语音合成（文本转语音）

千问语音合成

新加坡

千问3-TTS-Instruct-Flash

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-instruct-flash	国际	180
qwen3-tts-instruct-flash-2026-01-26	国际	180

千问3-TTS-VD

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-vd-2026-01-26	国际	180

千问3-TTS-VC

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-vc-2026-01-22	国际	180

千问3-TTS-Flash

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-flash	国际	180
qwen3-tts-flash-2025-11-27	国际	180
qwen3-tts-flash-2025-09-18	国际	10

华北2（北京）

千问3-TTS-Instruct-Flash

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-instruct-flash	中国内地	180
qwen3-tts-instruct-flash-2026-01-26	中国内地	180

千问3-TTS-VD

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-vd-2026-01-26	中国内地	180

千问3-TTS-VC

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-vc-2026-01-22	中国内地	180

千问3-TTS-Flash

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-flash	中国内地	180
qwen3-tts-flash-2025-11-27	中国内地	180
qwen3-tts-flash-2025-09-18	中国内地	10

千问-TTS

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
		每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-tts	中国内地	10	100,000
qwen-tts-latest	中国内地
qwen-tts-2025-05-22	中国内地
qwen-tts-2025-04-10	中国内地

千问实时语音合成

新加坡

千问3-TTS-Instruct-Flash-Realtime

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-instruct-flash-realtime	国际	180
qwen3-tts-instruct-flash-realtime-2026-01-22	国际	180

千问3-TTS-VD-Realtime

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-vd-realtime-2026-01-15	国际	180
qwen3-tts-vd-realtime-2025-12-16	国际	180

千问3-TTS-VC-Realtime

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-vc-realtime-2026-01-15	国际	180
qwen3-tts-vc-realtime-2025-11-27	国际	180

千问3-TTS-Flash-Realtime

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-flash-realtime	国际	180
qwen3-tts-flash-realtime-2025-11-27	国际	180
qwen3-tts-flash-realtime-2025-09-18	国际	10

华北2（北京）

千问3-TTS-Instruct-Flash-Realtime

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-instruct-flash-realtime	中国内地	180
qwen3-tts-instruct-flash-realtime-2026-01-22	中国内地	180

千问3-TTS-VD-Realtime

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-vd-realtime-2026-01-15	中国内地	180
qwen3-tts-vd-realtime-2025-12-16	中国内地	180

千问3-TTS-VC-Realtime

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-vc-realtime-2026-01-15	中国内地	180
qwen3-tts-vc-realtime-2025-11-27	中国内地	180

千问3-TTS-Flash-Realtime

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-tts-flash-realtime	中国内地	180
qwen3-tts-flash-realtime-2025-11-27	中国内地	180
qwen3-tts-flash-realtime-2025-09-18	中国内地	10

千问-TTS-Realtime

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
		每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-tts-realtime	中国内地	10	100,000
qwen-tts-realtime-latest	中国内地
qwen-tts-realtime-2025-07-15	中国内地

千问声音复刻

新加坡

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen-voice-enrollment	国际	180

华北2（北京）

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen-voice-enrollment	中国内地	180

千问声音设计

新加坡

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen-voice-design	国际	180

华北2（北京）

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen-voice-design	中国内地	180

CosyVoice语音合成

新加坡

模型名称	服务部署范围	提交作业接口RPS限制
cosyvoice-v3-plus	国际	3
cosyvoice-v3-flash	国际	3

华北2（北京）

模型名称	服务部署范围	提交作业接口RPS限制
cosyvoice-v3.5-plus	中国内地	3
cosyvoice-v3.5-flash	中国内地
cosyvoice-v3-plus	中国内地
cosyvoice-v3-flash	中国内地
cosyvoice-v2	中国内地

CosyVoice声音复刻/设计

CosyVoice声音复刻共用一个模型，共用限流额度。

新加坡

模型名称	服务部署范围	提交作业接口RPS限制
voice-enrollment	国际	10

华北2（北京）

模型名称	服务部署范围	提交作业接口RPS限制
voice-enrollment	中国内地	10

语音识别（语音转文本）与翻译（语音转成指定语种的文本）

千问3-LiveTranslate-Flash

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-livetranslate-flash	国际	100	100,000
qwen3-livetranslate-flash-2025-12-01	国际	6,000	1,000,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
		每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3-livetranslate-flash	中国内地	100	100,000
qwen3-livetranslate-flash-2025-12-01	中国内地

千问-LiveTranslate-Flash-Realtime

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
		每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.5-livetranslate-flash-realtime	国际	10	100,000
qwen3.5-livetranslate-flash-realtime-2026-05-19	国际
qwen3-livetranslate-flash-realtime	国际
qwen3-livetranslate-flash-realtime-2025-09-22	国际

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
		每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen3.5-livetranslate-flash-realtime	中国内地	10	100,000
qwen3.5-livetranslate-flash-realtime-2026-05-19	中国内地
qwen3-livetranslate-flash-realtime	中国内地
qwen3-livetranslate-flash-realtime-2025-09-22	中国内地

千问录音文件识别

新加坡

千问3-ASR-Flash-Filetrans

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-asr-flash-filetrans	国际	100
qwen3-asr-flash-filetrans-2025-11-17	国际	100

千问3-ASR-Flash

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-asr-flash	国际	100
qwen3-asr-flash-2026-02-10	国际
qwen3-asr-flash-2025-09-08	国际

美国（弗吉尼亚）

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-asr-flash-us	美国	100
qwen3-asr-flash-2025-09-08-us	美国	100

华北2（北京）

千问3-ASR-Flash-Filetrans

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-asr-flash-filetrans	中国内地	100
qwen3-asr-flash-filetrans-2025-11-17	中国内地	100

千问3-ASR-Flash

模型名称	服务部署范围	每分钟调用次数（RPM）
qwen3-asr-flash	中国内地	100
qwen3-asr-flash-2026-02-10	中国内地
qwen3-asr-flash-2025-09-08	中国内地

千问实时语音识别

新加坡

模型名称	服务部署范围	每秒钟调用次数（RPS）
qwen3-asr-flash-realtime	国际	20
qwen3-asr-flash-realtime-2026-02-10	国际
qwen3-asr-flash-realtime-2025-10-27	国际

华北2（北京）

模型名称	服务部署范围	每秒钟调用次数（RPS）
qwen3-asr-flash-realtime	中国内地	20
qwen3-asr-flash-realtime-2026-02-10	中国内地
qwen3-asr-flash-realtime-2025-10-27	中国内地

Paraformer语音识别

华北2（北京）

模型名称	服务部署范围	提交作业接口RPS限制
paraformer-realtime-v2	中国内地	20
paraformer-realtime-8k-v2	中国内地	20

模型名称	服务部署范围	每分钟调用次数（RPM）
paraformer-v2	中国内地	1,200

模型名称	服务部署范围	提交作业接口RPS限制	同时处理中任务数量（并发数）
paraformer-8k-v2	中国内地	20	100

Fun-ASR 录音文件识别

新加坡

模型名称	服务部署范围	每分钟调用次数（RPM）
fun-asr	国际	600
fun-asr-2025-11-07	国际	600
fun-asr-2025-08-25	国际	600
fun-asr-mtl	国际	100
fun-asr-mtl-2025-08-25	国际	100
fun-asr-flash-2026-06-15	国际	600

华北2（北京）

模型名称	服务部署范围	每分钟调用次数（RPM）
fun-asr	中国内地	600
fun-asr-2025-11-07	中国内地
fun-asr-2025-08-25	中国内地
fun-asr-mtl	中国内地
fun-asr-mtl-2025-08-25	中国内地
fun-asr-flash-2026-06-15	中国内地

Fun-ASR 实时语音识别

新加坡

模型名称	服务部署范围	提交作业接口RPS限制
fun-asr-realtime	国际	20
fun-asr-realtime-2025-11-07	国际	20

华北2（北京）

模型名称	服务部署范围	提交作业接口RPS限制
fun-asr-realtime	中国内地	20
fun-asr-realtime-2026-02-28	中国内地
fun-asr-realtime-2025-11-07	中国内地
fun-asr-realtime-2025-09-15	中国内地
fun-asr-flash-8k-realtime	中国内地
fun-asr-flash-8k-realtime-2026-01-28	中国内地

文本向量

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）/作业数含输入与输出Token
text-embedding-v4	国际	1,800	1,000,000
text-embedding-v3	国际	6,000	24,000,000

华北2（北京）

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

每秒钟调用次数（RPS）

每分钟消耗Token数（TPM）/作业数

含输入与输出Token

text-embedding-v4

用Batch API调用服务时，不受限流限制。

中国内地

1,200,000

中国香港

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）/作业数

含输入与输出Token

text-embedding-v4

中国香港

1,800

1,000,000

多模态向量

新加坡

模型名称	服务部署范围	限流条件以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）仅输入Token
tongyi-embedding-vision-plus	国际	600	200,000
tongyi-embedding-vision-flash	国际	600	200,000

华北2（北京）

模型名称	服务部署范围	限流条件以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）仅输入Token
qwen3-vl-embedding	中国内地	2,400	1,200,000
multimodal-embedding-v1	中国内地	120	100,000

排序模型

新加坡

模型名称

服务部署范围

限流条件

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

仅输入Token

qwen3-rerank

国际

5,400

5,000,000,000

华北2（北京）

模型名称	服务部署范围	限流条件以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）仅输入Token
qwen3-rerank	中国内地	5,400	5,000,000,000
qwen3-vl-rerank	中国内地	600	9,000,000
gte-rerank-v2	中国内地	5,040	4,980,000,000

行业

意图理解

华北2（北京）

模型名称

服务部署范围

限流条件（超出任一数值时触发限流）

以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制

每分钟调用次数（RPM）

每分钟消耗Token数（TPM）

含输入与输出Token

tongyi-intent-detect-v3

中国内地

1,200

1,000,000

角色扮演

新加坡

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-plus-character	国际	120	500,000
qwen-flash-character	国际	120	500,000
qwen-plus-character-ja	国际	120	500,000

华北2（北京）

模型名称	服务部署范围	限流条件（超出任一数值时触发限流）以下为每分钟限流条件，服务可能按 RPS（RPM/60）与 TPS（TPM/60）限制
模型名称	服务部署范围	每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
qwen-plus-character	中国内地	120	500,000
qwen-flash-character	中国内地	120	500,000

已下线模型

详细信息，请参见模型下线机制说明。

2026年1月30日下线

类别	模型名称	限流条件（超出任一数值时触发限流）
		每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
千问Plus	qwen-plus-2024-11-27	0	0
	qwen-plus-2024-11-25
	qwen-plus-2024-09-19
	qwen-plus-2024-08-06
千问Turbo	qwen-turbo-2024-09-19
千问VL	qwen-vl-max-2024-10-30
	qwen-vl-max-2024-08-09
	qwen-vl-plus-2024-08-09

2025年8月20日下线

类别	模型名称	限流条件（超出任一数值时触发限流）
		每分钟调用次数（RPM）	每分钟消耗Token数（TPM）含输入与输出Token
文本生成-千问	qwen2-72b-instruct	0	0
	qwen2-57b-a14b-instruct
	qwen2-7b-instruct
	qwen1.5-110b-chat
	qwen1.5-72b-chat
	qwen1.5-32b-chat
	qwen1.5-14b-chat
	qwen1.5-7b-chat