EAS 服务部署后默认提供共享网关,支持通过公网地址或 VPC 内网地址调用已部署的模型推理服务。
建议在开发测试环境使用共享网关,生产环境请使用专属网关。
选择调用地址
共享网关部署完成后默认提供两种调用地址:
调用地址 | 说明 | 适用场景 |
公网地址 | 请求经 EAS 共享网关转发至目标服务,适用于可访问公网的任意环境。 |
|
VPC 地址 | 适用于应用程序与EAS服务部署在同一地域的情况。 重要 相比公网调用,VPC内网调用速度更快(免去公网调用中的网络性能开销)且成本更低(内网流量通常免费)。 |
|
调用服务
步骤一:获取访问地址和 Token
服务部署完成后,系统自动生成访问地址和授权令牌。
控制台提供的是基础地址。构造完整请求 URL 时,需在基础地址后拼接正确的接口路径。路径错误是导致404 Not Found的最常见原因。
在推理服务页签,单击目标服务名称进入概览页面。
在基本信息区域,单击查看调用信息。
在调用信息面板,复制访问地址和 Token:
根据需要选择公网地址或VPC 地址。
后续示例中使用 <EAS_ENDPOINT> 表示访问地址,<EAS_TOKEN> 表示 Token。

步骤二:构造并发送请求
无论使用公网地址还是 VPC 地址,请求格式相同。标准请求包含以下要素:
要素 | 说明 |
请求方法(Method) | 最常用的是 POST 和 GET |
请求路径(URL) | 格式:<EAS_ENDPOINT> + API 路径,示例: |
Authorization(必填) |
|
Content-Type |
|
请求体(Body) | 格式由所部署的模型 API 规范决定,通过网关调用时不得超过 1 MB |
调用示例
以下示例调用通过 vLLM 部署的 DeepSeek-R1-Distill-Qwen-7B 模型服务,假设 <EAS_ENDPOINT> 为http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test。
请求体:
{
"model": "DeepSeek-R1-Distill-Qwen-7B",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "hello!"
}
]
}代码示例:
curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
"model": "DeepSeek-R1-Distill-Qwen-7B",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "hello!"
}
]
}' import requests
# 替换为实际访问地址
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions'
# header信息 Authorization的值为实际的Token
headers = {
"Content-Type": "application/json",
"Authorization": "*********5ZTM1ZDczg5OT**********",
}
# 根据具体模型要求的数据格式构造服务请求。
data = {
"model": "DeepSeek-R1-Distill-Qwen-7B",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "hello!"
}
]
}
# 发送请求
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)更多 LLM 服务调用说明,请参见LLM 调用。
其他部署场景调用
通过 Model Gallery 部署的模型:其模型介绍页面通常提供 API 调用示例,包括完整的 URL 路径和请求格式。
cURL 命令
常用参数:
参数
说明
示例
-X指定 HTTP 方法
-X POST-H添加请求头
-H "Content-Type: application/json"-d添加请求体
-d '{"key": "value"}'
Python 代码
以下通过 Qwen3-Reranker-8B 模型为例,说明如何使用 Python 代码调用服务。注意其 URL 和请求体与 cURL 示例不同,请以对应的模型介绍页面为准。

场景化部署:
通用 Processor(包括 TensorFlow、Caffe、PMML 等)部署的服务:请参见基于通用Processor构造服务请求。
其他自定义服务:请求格式由自定义镜像或代码中定义的数据输入格式决定。
自己训练的模型:调用方式与原模型一致。
常见问题
关于服务调用的常见问题和解决方案,请参见服务调用 FAQ。