为了保证用户调用模型的公平性,阿里云百炼设置了基础限流。限流基于模型维度且与用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。若超出限制,API请求将会失败,需等到解除限流条件时再次调用。
限流规则
主账号维度:按主账号下,所有RAM子账号、所有业务空间、所有API-KEY的调用总和计算。
不同模型独立限流:具体参见下方表格。
限流FAQ
为什么触发限流?
根据错误信息判断:
Requests rate limit exceeded或You exceeded your current requests list:表示调用频率触发限流。
Allocated quota exceeded或You exceeded your current quota:表示Token消耗触发限流。
Request rate increased too quickly:表示在未达到RPM或TPM限流条件时,因调用频率在短时间内激增,触发了系统稳定性保护机制。
其他报错请参考错误信息确认原因。
注意:除了RPM(Requests Per Minute,每分钟请求数)和TPM,限流策略可能按秒级 RPS(RPM/60)与 TPS(TPM/60)限制,即使总调用量未达到每分钟上限,短时间内的请求爆发也可能触发限流。
如何查看模型调用量?
模型调用完一小时后,在模型观测(新加坡或北京)页面设置查询条件(例如,选择时间范围、业务空间等),再在模型列表区域找到目标模型并单击操作列的监控,即可查看该模型的调用统计结果。具体请参见模型监控文档。
数据按小时更新,高峰期可能有小时级延迟,请您耐心等待。

遇到限流后多久恢复?
通常在一分钟内恢复。若出现其他报错,请根据错误信息进行解决。
如何避免限流?
选用高限流模型:稳定版或最新版比带日期的快照版本限流更宽松。
优化调用策略
调整调用频率:触发Requests rate limit exceeded或You exceeded your current requests list时,降低调用频率。
减少Token消耗:触发Allocated quota exceeded或You exceeded your current quota时,缩短输入或输出长度。
平滑请求速率:当调用频率骤增并触发系统稳定性保护(收到 Request rate increased too quickly 报错)时,建议优化客户端调用逻辑,采用平滑请求策略(如匀速调度、指数退避或请求队列缓冲),将请求均匀分散在时间窗口内,避免瞬时高峰。
添加备选模型
建议您在遇到限流报错后切换到备用模型继续生成,提升并发并降低失败概率。以下代码展示了调用
qwen-plus-2025-07-28触发限流,改用qwen-plus-2025-07-14重发请求的示例。任务拆分:处理长对话或大型文档会快速消耗大量Token。可以将大批量任务拆分为小批次,在不同时间段提交。
批量推理:如果无需实时返回结果,可使用批量推理(Batch API),不受实时限流约束,但需考虑排队和处理时间。
文本生成-通义千问
通义千问语言模型
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-max | 600 | 1,000,000 |
qwen3-max-2025-09-23 | 60 | 100,000 |
qwen3-max-preview | 600 | 1,000,000 |
qwen-max | 600 | 1,000,000 |
qwen-max-latest | 60 | 100,000 |
qwen-max-2025-01-25 (qwen-max-0125) | ||
qwen-plus | 600 | 1,000,000 |
qwen-plus-latest | 60 | 100,000 |
qwen-plus-2025-12-01 | 1,000,000 | |
qwen-plus-2025-09-11 | 120 | |
qwen-plus-2025-07-28 | 60 | 100,000 |
qwen-plus-2025-07-14 (qwen-plus-0714) | ||
qwen-plus-2025-04-28 (qwen-plus-0428) | ||
qwen-plus-2025-01-25 (qwen-plus-0125) | ||
qwen-flash | 600 | 5,000,000 |
qwen-flash-2025-07-28 | 600 | 5,000,000 |
qwq-plus | 60 | 100,000 |
qwen-turbo | 600 | 5,000,000 |
qwen-turbo-latest | 60 | |
qwen-turbo-2025-04-28 (qwen-turbo-0428) | ||
qwen-turbo-2024-11-01 (qwen-turbo-1101) | ||
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-max | 600 | 1,000,000 |
qwen3-max-2025-09-23 | 60 | 100,000 |
qwen3-max-preview | 600 | 1,000,000 |
qwen-max | 1,200 | 1,000,000 |
qwen-max-latest | ||
qwen-max-2025-01-25 (qwen-max-0125) | 60 | 100,000 |
qwen-max-2024-09-19 (qwen-max-0919) | ||
qwen-plus | 15,000 | 5,000,000 |
qwen-plus-latest | 1,200,000 | |
qwen-plus-2025-12-01 | 60 | 1,000,000 |
qwen-plus-2025-09-11 | ||
qwen-plus-2025-07-28 (qwen-plus-0728) | ||
qwen-plus-2025-07-14 (qwen-plus-0714) | 100,000 | |
qwen-plus-2025-04-28 (qwen-plus-0428) | 1,000,000 | |
qwen-plus-2025-01-25 (qwen-plus-0125) | 150,000 | |
qwen-plus-2025-01-12 (qwen-plus-0112) | ||
qwen-plus-2024-12-20 (qwen-plus-1220) | ||
qwen-plus-2024-11-27 (qwen-plus-1127) | ||
qwen-plus-2024-11-25 (qwen-plus-1125) | ||
qwen-plus-2024-09-19 (qwen-plus-0919) | ||
qwen-plus-2024-08-06 (qwen-plus-0806) | ||
qwen-flash | 15,000 | 10,000,000 |
qwen-flash-2025-07-28 | 60 | 1,000,000 |
qwq-plus | 600 | 1,000,000 |
qwq-plus-latest | ||
qwq-plus-2025-03-05 | 60 | 100,000 |
qwen-turbo | 1,200 | 5,000,000 |
qwen-turbo-latest | ||
qwen-turbo-2025-04-28 (qwen-turbo-0428) | 60 | 1,000,000 |
qwen-turbo-2025-02-11 (qwen-turbo-0211) | 5,000,000 | |
qwen-turbo-2024-11-01 (qwen-turbo-1101) | ||
qwen-turbo-2024-09-19 (qwen-turbo-0919) | 150,000 | |
qwen-long-latest | 1,200 | 60,000 |
qwen-long-2025-01-25 (qwen-long-0125) | 3 | 7,500 |
通义千问VL(视觉理解/图生文)
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-vl-plus | 1,200 | 1,000,000 |
qwen3-vl-plus-2025-12-19 | 60 | 100,000 |
qwen3-vl-plus-2025-09-23 | ||
qwen3-vl-flash | 1,200 | 1,000,000 |
qwen3-vl-flash-2025-10-15 | 120 | 1,000,000 |
qwen-vl-max | 1,200 | 1,000,000 |
qwen-vl-max-latest | ||
qwen-vl-max-2025-08-13 (qwen-vl-max-0813) | 60 | 100,000 |
qwen-vl-max-2025-04-08 (qwen-vl-max-0408) | 1,200 | 1,000,000 |
qwen-vl-plus | ||
qwen-vl-plus-latest | ||
qwen-vl-plus-2025-08-15 (qwen-vl-plus-0815) | 120 | 1,000,000 |
qwen-vl-plus-2025-05-07 (qwen-vl-plus-0507) | ||
qwen-vl-plus-2025-01-25 (qwen-vl-plus-0125) | 1,200 | |
qvq-max | 60 | 100,000 |
qvq-max-latest | ||
qvq-max-2025-03-25 (qvq-max-0325) | ||
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-vl-plus | 1,200 | 1,000,000 |
qwen3-vl-plus-2025-12-19 | 60 | 100,000 |
qwen3-vl-plus-2025-09-23 | ||
qwen3-vl-flash | 1,200 | 1,000,000 |
qwen3-vl-flash-2025-10-15 | 60 | 100,000 |
qwen-vl-max | 1,200 | 1,000,000 |
qwen-vl-max-latest | ||
qwen-vl-max-2025-08-13 (qwen-vl-max-0813) | 60 | 100,000 |
qwen-vl-max-2025-04-08 (qwen-vl-max-0408) | ||
qwen-vl-max-2025-04-02 (qwen-vl-max-0402) | ||
qwen-vl-max-2025-01-25 (qwen-vl-max-0125) | ||
qwen-vl-max-2024-12-30 (qwen-vl-max-1230) | ||
qwen-vl-max-2024-11-19 (qwen-vl-max-1119) | ||
qwen-vl-max-2024-10-30 (qwen-vl-max-1030) | ||
qwen-vl-max-2024-08-09 (qwen-vl-max-0809) | 15 | 25,000 |
qwen-vl-plus | 1,200 | 1,000,000 |
qwen-vl-plus-latest | ||
qwen-vl-plus-2025-08-15 (qwen-vl-plus-0815) | 60 | 100,000 |
qwen-vl-plus-2025-07-10 (qwen-vl-plus-0710) | ||
qwen-vl-plus-2025-05-07 (qwen-vl-plus-0507) | ||
qwen-vl-plus-2025-01-25 (qwen-vl-plus-0125) | ||
qwen-vl-plus-2025-01-02 (qwen-vl-plus-0102) | ||
qwen-vl-plus-2024-08-09 (qwen-vl-plus-0809) | ||
qvq-max | ||
qvq-max-latest | ||
qvq-max-2025-05-15 (qvq-max-0515) | ||
qvq-max-2025-03-25 (qvq-max-0325) | ||
qvq-plus | ||
qvq-plus-latest | ||
qvq-plus-2025-05-15 (qvq-plus-0515) | ||
通义千问Omni(全模态)
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-omni-flash | 60 | 100,000 |
qwen3-omni-flash-2025-12-01 | ||
qwen3-omni-flash-2025-09-15 | ||
qwen-omni-turbo | ||
qwen-omni-turbo-latest | ||
qwen-omni-turbo-2025-03-26 | ||
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-omni-flash | 60 | 100,000 |
qwen3-omni-flash-2025-12-01 | ||
qwen3-omni-flash-2025-09-15 | ||
qwen-omni-turbo | ||
qwen-omni-turbo-latest | ||
qwen-omni-turbo-2025-03-26 (qwen-omni-turbo-0326) | ||
qwen-omni-turbo-2025-01-19 (qwen-omni-turbo-0119) | ||
通义千问Omni-Realtime(实时多模态)
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-omni-flash-realtime | 60 | 100,000 |
qwen3-omni-flash-realtime-2025-12-01 | ||
qwen3-omni-flash-realtime-2025-09-15 | ||
qwen-omni-turbo-realtime | ||
qwen-omni-turbo-realtime-latest | ||
qwen-omni-turbo-realtime-2025-05-08 | ||
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-omni-flash-realtime | 60 | 100,000 |
qwen3-omni-flash-realtime-2025-12-01 | ||
qwen3-omni-flash-realtime-2025-09-15 | ||
qwen-omni-turbo-realtime | ||
qwen-omni-turbo-realtime-latest | ||
qwen-omni-turbo-realtime-2025-05-08 | ||
通义千问OCR(文字提取)
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-vl-ocr | 600 | 6,000,000 |
qwen-vl-ocr-2025-11-20 | 1,200 | |
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-vl-ocr | 600 | 6,000,000 |
qwen-vl-ocr-latest | 1,200 | |
qwen-vl-ocr-2025-11-20 | ||
qwen-vl-ocr-2025-04-13 | 600 | |
qwen-vl-ocr-2024-10-28 | ||
通义千问数学模型
仅支持中国大陆(北京)地域。
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-math-plus | 1,200 | 1,000,000 |
qwen-math-plus-latest | ||
qwen-math-plus-2024-09-19 (qwen-math-plus-0919) | 60 | 100,000 |
qwen-math-plus-2024-08-16 (qwen-math-plus-0816) | 10 | 20,000 |
qwen-math-turbo | 1200 | 1,000,000 |
qwen-math-turbo-latest | ||
qwen-math-turbo-2024-09-19 (qwen-math-turbo-0919) | 60 | 100,000 |
通义千问Coder
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-coder-plus | 2,400 | 2,000,000 |
qwen3-coder-plus-2025-09-23 | 60 | 1,000,000 |
qwen3-coder-plus-2025-07-22 | 60 | 1,000,000 |
qwen3-coder-flash | 600 | 5,000,000 |
qwen3-coder-flash-2025-07-28 | 600 | 5,000,000 |
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-coder-plus | 2,400 | 2,000,000 |
qwen3-coder-plus-2025-09-23 | 60 | 1,000,000 |
qwen3-coder-plus-2025-07-22 | ||
qwen3-coder-flash | 1,200 | |
qwen3-coder-flash-2025-07-28 | 60 | |
qwen-coder-plus | 1,200 | |
qwen-coder-plus-latest | ||
qwen-coder-plus-2024-11-06 (qwen-coder-plus-1106) | 60 | 100,000 |
qwen-coder-turbo | 1,200 | 1,000,000 |
qwen-coder-turbo-latest | ||
qwen-coder-turbo-2024-09-19 (qwen-coder-turbo-0919) | 60 | 100,000 |
通义千问翻译模型
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-mt-plus | 60 | 100,000 |
qwen-mt-flash | ||
qwen-mt-lite | ||
qwen-mt-turbo | ||
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-mt-plus | 60 | 25,000 |
qwen-mt-flash | 35,000 | |
qwen-mt-lite | 100,000 | |
qwen-mt-turbo | 35,000 | |
通义千问数据挖掘模型
仅支持中国大陆(北京)地域。
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-doc-turbo | 600 | 3,000,000 |
通义千问深入研究模型
仅支持中国大陆(北京)地域。
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-deep-research | 120 | 1,200,000 |
文本生成-通义千问-开源版
通义千问语言模型开源版
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-next-80b-a3b-thinking | 600 | 1,000,000 |
qwen3-next-80b-a3b-instruct | ||
qwen3-235b-a22b-thinking-2507 | ||
qwen3-235b-a22b-instruct-2507 | ||
qwen3-30b-a3b-thinking-2507 | ||
qwen3-30b-a3b-instruct-2507 | ||
qwen3-235b-a22b | ||
qwen3-32b | ||
qwen3-30b-a3b | ||
qwen3-14b | ||
qwen3-8b | ||
qwen3-4b | ||
qwen3-1.7b | ||
qwen3-0.6b | ||
qwen2.5-14b-instruct-1m | 60 | 1,000,000 |
qwen2.5-7b-instruct-1m | ||
qwen2.5-72b-instruct | 100,000 | |
qwen2.5-32b-instruct | ||
qwen2.5-14b-instruct | ||
qwen2.5-7b-instruct | ||
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-next-80b-a3b-thinking | 600 | 1,000,000 |
qwen3-next-80b-a3b-instruct | ||
qwen3-235b-a22b-thinking-2507 | ||
qwen3-235b-a22b-instruct-2507 | ||
qwen3-30b-a3b-thinking-2507 | ||
qwen3-30b-a3b-instruct-2507 | ||
qwen3-235b-a22b | ||
qwen3-30b-a3b | ||
qwen3-32b | ||
qwen3-14b | ||
qwen3-8b | ||
qwen3-4b | ||
qwen3-1.7b | ||
qwen3-0.6b | ||
qwq-32b | ||
qwq-32b-preview | 1,200 | |
qwen2.5-72b-instruct | ||
qwen2.5-32b-instruct | ||
qwen2.5-14b-instruct | ||
qwen2.5-14b-instruct-1m | ||
qwen2.5-7b-instruct | ||
qwen2.5-7b-instruct-1m | ||
qwen2.5-3b-instruct | 2,000,000 | |
qwen2.5-1.5b-instruct | ||
qwen2.5-0.5b-instruct | ||
Qwen-VL(视觉理解/图生文)
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-vl-32b-thinking | 60 | 100,000 |
qwen3-vl-32b-instruct | ||
qwen3-vl-30b-a3b-thinking | ||
qwen3-vl-30b-a3b-instruct | ||
qwen3-vl-8b-thinking | ||
qwen3-vl-8b-instruct | ||
qwen3-vl-235b-a22b-thinking | ||
qwen3-vl-235b-a22b-instruct | ||
qwen2.5-vl-72b-instruct | ||
qwen2.5-vl-32b-instruct | ||
qwen2.5-vl-7b-instruct | ||
qwen2.5-vl-3b-instruct | ||
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-vl-32b-thinking | 600 | 1,000,000 |
qwen3-vl-32b-instruct | ||
qwen3-vl-30b-a3b-thinking | ||
qwen3-vl-30b-a3b-instruct | ||
qwen3-vl-8b-thinking | ||
qwen3-vl-8b-instruct | ||
qwen3-vl-235b-a22b-thinking | 60 | 100,000 |
qwen3-vl-235b-a22b-instruct | ||
qwen2.5-vl-72b-instruct | ||
qwen2.5-vl-32b-instruct | ||
qwen2.5-vl-7b-instruct | 1,200 | 1,000,000 |
qwen2.5-vl-3b-instruct | ||
qwen2-vl-72b-instruct | 60 | 100,000 |
qwen2-vl-7b-instruct | 1,200 | 1,000,000 |
qwen2-vl-2b-instruct | ||
qvq-72b-preview | 60 | 100,000 |
Qwen3-Omni
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen2.5-omni-7b | 60 | 100,000 |
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen2.5-omni-7b | 60 | 100,000 |
Qwen3-Omni-Captioner
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-omni-30b-a3b-captioner | 60 | 100,000 |
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-omni-30b-a3b-captioner | 60 | 100,000 |
Qwen-Math
仅支持中国大陆(北京)地域。
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen2.5-math-72b-instruct | 1,200 | 1,000,000 |
qwen2.5-math-7b-instruct | ||
qwen2.5-math-1.5b-instruct | ||
Qwen-Coder
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-coder-480b-a35b-instruct | 600 | 1,000,000 |
qwen3-coder-30b-a3b-instruct | 600 | 1,000,000 |
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-coder-480b-a35b-instruct | 600 | 1,000,000 |
qwen3-coder-30b-a3b-instruct | 600 | |
qwen2.5-coder-32b-instruct | 1,200 | |
qwen2.5-coder-14b-instruct | ||
qwen2.5-coder-7b-instruct | ||
qwen2.5-coder-3b-instruct | 2,000,000 | |
qwen2.5-coder-1.5b-instruct | ||
qwen2.5-coder-0.5b-instruct | ||
文本生成-第三方模型
DeepSeek
仅支持中国大陆(北京)地域。
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
deepseek-v3.2 | 15,000 | 1,200,000 |
deepseek-v3.2-exp | 15,000 | 1,200,000 |
deepseek-v3.1 | 15,000 | 1,200,000 |
deepseek-r1-0528 | 60 | 100,000 |
deepseek-r1 | 15,000 | 1,200,000 |
deepseek-v3 | ||
deepseek-r1-distill-qwen-7b | ||
deepseek-r1-distill-qwen-14b | ||
deepseek-r1-distill-qwen-32b | ||
deepseek-r1-distill-qwen-1.5b | 60 | 100,000 |
deepseek-r1-distill-llama-8b | ||
deepseek-r1-distill-llama-70b | ||
Kimi
仅支持中国大陆(北京)地域。
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
kimi-k2-thinking | 60 | 100,000 |
Moonshot-Kimi-K2-Instruct | 60 | 100,000 |
图像生成
通义千问(Qwen-Image)
国际(新加坡)
模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
文生图 | qwen-image-plus | 2 | 2 |
qwen-image | 2 | 2 | |
图像编辑 | qwen-image-edit-plus | 2 | 同步接口无限制 |
qwen-image-edit-plus-2025-12-15 | 2 | 同步接口无限制 | |
qwen-image-edit-plus-2025-10-30 | 2 | 同步接口无限制 | |
qwen-image-edit | 2 | 同步接口无限制 | |
中国大陆(北京)
模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
文生图 | qwen-image-plus | 2 | 2 |
qwen-image | 2 | 2 | |
图像编辑 | qwen-image-edit-plus | 2 | 同步接口无限制 |
qwen-image-edit-plus-2025-12-15 | 2 | 同步接口无限制 | |
qwen-image-edit-plus-2025-10-30 | 2 | 同步接口无限制 | |
qwen-image-edit | 2 | 同步接口无限制 | |
图像翻译 | qwen-mt-image | 1 | 2 |
通义-文生图-Z-Image
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | |
z-image-turbo | 2 | 2 |
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | |
z-image-turbo | 2 | 2 |
通义万相
国际(新加坡)
模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
文生图 | wan2.6-t2i | 5 | 5 |
wan2.5-t2i-preview | |||
wan2.2-t2i-flash | 2 | 2 | |
wan2.2-t2i-plus | |||
wan2.1-t2i-turbo | |||
wan2.1-t2i-plus | |||
图像编辑 | wan2.5-i2i-preview | 5 | 5 |
图像生成 | wan2.6-image | 5 | 5 |
中国大陆(北京)
模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
文生图 | wan2.6-t2i | 5 | 5 |
wan2.5-t2i-preview | 5 | 5 | |
wanx2.0-t2i-turbo | 2 | 2 | |
wanx2.1-t2i-turbo | |||
wanx2.1-t2i-plus | |||
wan2.2-t2i-flash | |||
wan2.2-t2i-plus | |||
通用图像编辑 | wan2.5-i2i-preview | 5 | 5 |
wanx2.1-imageedit | 2 | 2 | |
图像生成 | wan2.6-image | 5 | 5 |
AI试衣OutfitAnyone
仅支持中国大陆(北京)地域。
模型名称 | 限流条件(超出任一数值时触发限流) | |
作业提交接口RPS限制 | 同时处理中任务数量 | |
aitryon-plus | 10 | 5 |
aitryon-parsing-v1 | 10 | 同步接口无限制 |
视频生成
通义万相系列
国际(新加坡)
模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
文生图 | wan2.6-t2v | 5 | 5 |
wan2.5-t2v-preview | |||
wan2.2-t2v-plus | 2 | 2 | |
wan2.1-t2v-turbo | |||
wan2.1-t2v-plus | |||
图生视频-基于首帧 | wan2.6-i2v | 5 | 5 |
wan2.5-i2v-preview | |||
wan2.2-i2v-flash | 2 | 2 | |
wan2.1-i2v-plus | |||
wan2.1-i2v-turbo | |||
wan2.2-i2v-plus | |||
图生视频-基于首尾帧 | wan2.1-kf2v-plus | ||
通用视频编辑 | wan2.1-vace-plus | ||
参考生视频 | wan2.6-r2v | 5 | 5 |
图生动作 | wan2.2-animate-move | 5 | 1 |
视频换人 | wan2.2-animate-mix | 5 | 1 |
中国大陆(北京)
模型服务 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟任务下发接口RPS限制 | 同时处理中任务数量(并发数) | ||
文生视频 | wan2.6-t2v | 5 | 5 |
wan2.5-t2v-preview | |||
wan2.2-t2v-plus | 2 | 2 | |
wanx2.1-t2v-turbo | |||
wanx2.1-t2v-plus | |||
图生视频-基于首帧 | wan2.6-i2v | 5 | 5 |
wan2.5-i2v-preview | |||
wan2.2-i2v-plus | 2 | 2 | |
wanx2.1-i2v-turbo | |||
wanx2.1-i2v-plus | |||
图生视频-基于首尾帧 | wanx2.1-kf2v-plus | ||
通用视频编辑 | wanx2.1-vace-plus | ||
参考生视频 | wan2.6-r2v | 5 | 5 |
数字人s2v | wan2.2-s2v-detect | 5 | 同步接口无限制 |
wan2.2-s2v | 1 | ||
图生动作 | wan2.2-animate-move | 5 | 1 |
视频换人 | wan2.2-animate-mix | 5 | 1 |
舞动人像AnimateAnyone
仅支持中国大陆(北京)地域。
模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 |
animate-anyone-detect-gen2 | 5 | 同步接口无限制 |
animate-anyone-template-gen2 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 | |
animate-anyone-gen2 |
悦动人像EMO
仅支持中国大陆(北京)地域。
模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 |
emo-detect-v1 | 5 | 同步接口无限制 |
emo-v1 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 |
灵动人像LivePortrait
仅支持中国大陆(北京)地域。
模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 |
liveportrait-detect | 5 | 同步接口无限制 |
liveportrait | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 |
声动人像VideoRetalk
仅支持中国大陆(北京)地域。
模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 |
videoretalk | 1 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 |
表情包Emoji
仅支持中国大陆(北京)地域。
模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 |
emoji-detect-v1 | 1 | 同步接口无限制 |
emoji-v1 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 |
视频风格重绘
仅支持中国大陆(北京)地域。
模型名称 | 任务下发接口RPS限制 | 同时处理中任务数量 |
video-style-transform | 2 | 1 在同一时刻,只有1个作业实际处于运行状态,其他队列中的作业处于排队状态。 |
语音合成(文本转语音)
通义千问语音合成
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)限制 |
每分钟调用次数(RPM) | |
qwen3-tts-flash | 10 |
qwen3-tts-flash-2025-11-27 | 180 |
qwen3-tts-flash-2025-09-18 | 10 |
中国大陆(北京)
通义千问3-TTS-Flash
模型名称 | 每分钟调用次数(RPM) |
qwen3-tts-flash | 10 |
qwen3-tts-flash-2025-11-27 | 180 |
qwen3-tts-flash-2025-09-18 | 10 |
通义千问-TTS
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-tts | 10 | 100,000 |
qwen-tts-latest | ||
qwen-tts-2025-05-22 | ||
qwen-tts-2025-04-10 | ||
通义千问实时语音合成
国际(新加坡)
通义千问3-TTS-VD-Realtime
模型名称 | 每分钟调用次数(RPM) |
qwen3-tts-vd-realtime-2025-12-16 | 180 |
通义千问3-TTS-VC-Realtime
模型名称 | 每分钟调用次数(RPM) |
qwen3-tts-vc-realtime-2025-11-27 | 180 |
通义千问3-TTS-Flash-Realtime
模型名称 | 每分钟调用次数(RPM) |
qwen3-tts-flash-realtime | 10 |
qwen3-tts-flash-realtime-2025-11-27 | 180 |
qwen3-tts-flash-realtime-2025-09-18 | 10 |
中国大陆(北京)
通义千问3-TTS-VD-Realtime
模型名称 | 每分钟调用次数(RPM) |
qwen3-tts-vd-realtime-2025-12-16 | 180 |
通义千问3-TTS-VC-Realtime
模型名称 | 每分钟调用次数(RPM) |
qwen3-tts-vc-realtime-2025-11-27 | 180 |
通义千问3-TTS-Flash-Realtime
模型名称 | 每分钟调用次数(RPM) |
qwen3-tts-flash-realtime | 10 |
qwen3-tts-flash-realtime-2025-11-27 | 180 |
qwen3-tts-flash-realtime-2025-09-18 | 10 |
通义千问-TTS-Realtime
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-tts-realtime | 10 | 100,000 |
qwen-tts-realtime-latest | ||
qwen-tts-realtime-2025-07-15 | ||
通义千问声音复刻
国际(新加坡)
模型名称 | 每分钟调用次数(RPM) |
qwen-voice-enrollment | 180 |
中国大陆(北京)
模型名称 | 每分钟调用次数(RPM) |
qwen-voice-enrollment | 180 |
通义千问声音设计
国际(新加坡)
模型名称 | 每分钟调用次数(RPM) |
qwen-voice-design | 180 |
中国大陆(北京)
模型名称 | 每分钟调用次数(RPM) |
qwen-voice-design | 180 |
CosyVoice语音合成
仅支持中国大陆(北京)地域。
语音合成
模型名称 | 提交作业接口RPS限制 |
cosyvoice-v3-plus | 3 |
cosyvoice-v3-flash | |
cosyvoice-v2 |
声音复刻
模型名称 | 提交作业接口RPS限制 |
cosyvoice-v3-plus | 10 无论声音复刻功能是单独调用某一模型版本,还是同时调用多个模型版本,其总并发请求数均限制为 10 RPS。这意味着:
|
cosyvoice-v3-flash | |
cosyvoice-v2 |
语音识别(语音转文本)与翻译(语音转成指定语种的文本)
通义千问3-LiveTranslate-Flash
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-livetranslate-flash | 100 | 100,000 |
qwen3-livetranslate-flash-2025-12-01 | ||
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-livetranslate-flash | 100 | 100,000 |
qwen3-livetranslate-flash-2025-12-01 | ||
通义千问3-LiveTranslate-Flash-Realtime
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-livetranslate-flash-realtime | 10 | 100,000 |
qwen3-livetranslate-flash-realtime-2025-09-22 | ||
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen3-livetranslate-flash-realtime | 10 | 100,000 |
qwen3-livetranslate-flash-realtime-2025-09-22 | ||
通义千问录音文件识别
国际(新加坡)
通义千问3-ASR-Flash-Filetrans
模型名称 | 每分钟调用次数(RPM) |
qwen3-asr-flash-filetrans | 100 |
qwen3-asr-flash-filetrans-2025-11-17 |
通义千问3-ASR-Flash
模型名称 | 每分钟调用次数(RPM) |
qwen3-asr-flash | 100 |
qwen3-asr-flash-2025-09-08 |
中国大陆(北京)
通义千问3-ASR-Flash-Filetrans
模型名称 | 每分钟调用次数(RPM) |
qwen3-asr-flash-filetrans | 100 |
qwen3-asr-flash-filetrans-2025-11-17 |
通义千问3-ASR-Flash
模型名称 | 每分钟调用次数(RPM) |
qwen3-asr-flash | 100 |
qwen3-asr-flash-2025-09-08 |
通义千问实时语音识别
国际(新加坡)
模型名称 | 每秒钟调用次数(RPS) |
qwen3-asr-flash-realtime | 20 |
qwen3-asr-flash-realtime-2025-10-27 |
中国大陆(北京)
模型名称 | 每秒钟调用次数(RPS) |
qwen3-asr-flash-realtime | 20 |
qwen3-asr-flash-realtime-2025-10-27 |
Paraformer语音识别
仅支持中国大陆(北京)地域。
模型名称 | 提交作业接口RPS限制 |
paraformer-realtime-v2 | 20 |
paraformer-realtime-8k-v2 |
模型名称 | 提交作业接口RPS限制 | 任务查询接口RPS限制 |
paraformer-v2 | 20 | 20 |
paraformer-8k-v2 | 20 |
Fun-ASR 录音文件识别
国际(新加坡)
模型名称 | 提交作业接口RPS限制 | 任务查询接口RPS限制 |
fun-asr | 10 | 20 |
fun-asr-2025-11-07 | ||
fun-asr-2025-08-25 |
模型名称 | 提交作业接口RPM限制 | 任务查询接口RPS限制 |
fun-asr-mtl | 100 | 20 |
fun-asr-mtl-2025-08-25 |
中国大陆(北京)
模型名称 | 提交作业接口RPS限制 | 任务查询接口RPS限制 |
fun-asr | 10 | 20 |
fun-asr-2025-11-07 | ||
fun-asr-2025-08-25 | ||
fun-asr-mtl | ||
fun-asr-mtl-2025-08-25 |
Fun-ASR 实时语音识别
国际(新加坡)
模型名称 | 提交作业接口RPS限制 |
fun-asr-realtime | 20 |
fun-asr-realtime-2025-11-07 |
中国大陆(北京)
模型名称 | 提交作业接口RPS限制 |
fun-asr-realtime | 20 |
fun-asr-realtime-2025-11-07 | |
fun-asr-realtime-2025-09-15 |
文本向量
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM)/作业数 含输入与输出Token | |
text-embedding-v4 | 1,800 | 1,000,000 |
text-embedding-v3 | 6,000 | 24,000,000 |
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) | |
每秒钟调用次数(RPS) | 每分钟消耗Token数(TPM)/作业数 含输入与输出Token | |
text-embedding-v4 | 30 | 1,200,000 |
多模态向量
仅支持中国大陆(北京)地域。
模型名称 | 限流条件 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 仅输入Token | |
multimodal-embedding-v1 | 120 | 200,000 |
文本排序
仅支持中国大陆(北京)地域。
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
gte-rerank-v2 | 5,040 | 4,980,000,000 |
行业
意图理解
仅支持中国大陆(北京)地域。
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
tongyi-intent-detect-v3 | 1,200 | 1,000,000 |
角色扮演
国际(新加坡)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-plus-character-ja | 60 | 100,000 |
中国大陆(北京)
模型名称 | 限流条件(超出任一数值时触发限流) 以下为每分钟限流条件,服务可能按 RPS(RPM/60)与 TPS(TPM/60)限制 | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | |
qwen-plus-character | 120 | 20,000 |
已下线模型
详细信息,请参见模型下线机制说明。
2025年8月20日下线
类别 | 模型名称 | 限流条件(超出任一数值时触发限流) | |
每分钟调用次数(RPM) | 每分钟消耗Token数(TPM) 含输入与输出Token | ||
文本生成-通义千问 | qwen2-72b-instruct | 0 | 0 |
qwen2-57b-a14b-instruct | |||
qwen2-7b-instruct | |||
qwen1.5-110b-chat | |||
qwen1.5-72b-chat | |||
qwen1.5-32b-chat | |||
qwen1.5-14b-chat | |||
qwen1.5-7b-chat | |||