使用阿里云百炼的模型服务时,需正确选择地域和部署模式,二者将影响模型服务的响应速度、成本、可用模型及默认限流。
地域:决定您的模型服务接入点(Endpoint/Base URL),以及模型调用过程中产生的静态数据(如提示词输入、模型输出等)的存储位置。
部署模式:决定模型推理计算的执行区域。
目前,地域与部署模式为系统预设绑定关系,不支持自由组合。
地域选择
选择时请考虑:
就近:选择主要(或大多数)调用端近邻地域,通常可降低网络延迟,从而提升模型的响应速度。
可用平台功能:阿里云百炼为不同地域提供的平台功能有差异,详见下表。
板块
功能
新加坡
美国(弗吉尼亚)
华北2(北京)
使用
实时推理
批量推理
模型体验
管理
模型监控
模型告警
传输安全
权限管理
优化
模型调优
支持的地域
地域名称 | 地域 ID | 静态数据存储位置 |
新加坡 |
| 新加坡 |
美国(弗吉尼亚) |
| 弗吉尼亚 |
华北2(北京) |
| 北京 |
通过 API 或 SDK 调用模型时,需要使用与地域对应的模型服务接入点,详情请参见通义千问API参考。
部署模式选择
不同部署模式支持的模型、模型调用计费、限流有差异。选型建议:
全球:希望使用全球算力资源池,从而提升模型的可用性及默认限流。
国际:需使用非中国内地计算资源。
美国:希望数据处理与推理行为均发生在美国境内。
中国内地:需使用中国内地计算资源并在中国内地处理数据。
支持的部署模式
部署模式 | 绑定地域 | 模式触发条件 | 模型推理计算范围 | 是否涉及跨境计算 |
全球 | 美国(弗吉尼亚) | 选择绑定地域,调用不带 | 全球 | 是(您需自行确保用户业务数据跨境处理的合法性) |
国际 | 新加坡 | 选择绑定地域即可 | 全球(不含中国内地) | 是(您需自行确保用户业务数据跨境处理的合法性) |
美国 | 美国(弗吉尼亚) | 选择绑定地域,调用带 | 仅限美国境内 | 否 |
中国内地 | 华北2(北京) | 选择绑定地域即可 | 仅限中国内地 | 否 |
在全球和国际模式下,跨区推理请求由所选地域的前端接入点接收。模型调用过程中产生的静态数据(如提示词输入、模型输出等)仅在推理过程中进行瞬时处理,不会在计算节点所在地域进行持久化存储;数据在传输过程中全程加密。
如何在控制台切换地域与部署模式
进入阿里云百炼控制台,点击页面右上角的
地域图标。
新加坡:模型为国际部署模式。
美国(弗吉尼亚):您调用的模型将决定部署模式。
不带
-us后缀(如qwen-flash):模型为全球部署模式。带
-us后缀(如qwen-flash-us):模型为美国部署模式。
华北2(北京):模型为中国内地部署模式。
如何在 API 或 SDK 调用时选择地域与部署模式
在调用API或SDK时,通过指定模型服务接入点以选择地域,部署模式则由地域和模型名称共同决定。以下是 OpenAI 兼容模式的接入点信息,详情请参见通义千问API参考。
新加坡地域
SDK 调用配置的base_url:https://dashscope-intl.aliyuncs.com/compatible-mode/v1
HTTP 请求地址:POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
美国(弗吉尼亚)地域
SDK 调用配置的base_url:https://dashscope-us.aliyuncs.com/compatible-mode/v1
HTTP 请求地址:POST https://dashscope-us.aliyuncs.com/compatible-mode/v1/chat/completions
华北2(北京)地域
SDK 调用配置的base_url:https://dashscope.aliyuncs.com/compatible-mode/v1
HTTP 请求地址:POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions
例如,使用美国模式的模型,需要配置美国(弗吉尼亚)地域的接入点,并调用带-us后缀(如 qwen-flash-us)的模型。同理,若要使用全球模式,也需配置美国(弗吉尼亚)地域的接入点,但需调用不带-us后缀的模型(如 qwen-flash)。