EAS(Elastic Algorithm Service)的自定义部署提供高度灵活和全面的AI推理服务托管能力,支持将任意算法或模型封装成在线服务。
推荐优先尝试场景化部署(适用于 LLM、ComfyUI 等),不满足需求时,再使用自定义部署。
快速开始:部署一个简单的Web服务
本节将使用镜像部署模式,快速部署一个简单的Web服务。
第1步:准备代码文件
将如下Flask应用代码保存为app.py文件。注意,服务监听在8000端口。
第2步:上传代码至OSS
将app.py文件上传到OSS Bucket中(请确保OSS Bucket与EAS工作空间在同一地域)。例如,上传至oss://examplebucket/code/目录下。
第3步:配置并部署服务
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS。
在推理服务页签,单击部署服务。然后在自定义模型部署区域,单击自定义部署。
在配置页面,如下填写环境信息和资源信息区域的关键参数:
部署方式:选择镜像部署。
镜像配置:选择官方镜像
python-inference:3.9-ubuntu2004。存储挂载:将包含
app.py的OSS目录挂载到容器的/mnt/data/路径下。Uri:选择代码所在的OSS目录,本例中为
oss://examplebucket/code/。挂载路径:为该目录在容器内指定本地路径,本例中为
/mnt/data/。
运行命令:由于
app.py已被挂载到容器的/mnt/data/目录,因此启动命令为:python /mnt/data/app.py。三方库配置:本示例代码依赖的
flask库未包含在使用的官方镜像中。可以在三方库列表直接添加flask。EAS会在服务启动时自动安装。资源配置:为服务分配合适的计算资源。对于这个简单示例,一个小型CPU实例即可满足需求。
资源类型:公共资源。
资源规格:
ecs.c7.large。
完成配置后,单击部署。服务状态变为运行中时,即表示部署成功,可进行服务调用。
更多配置说明
管理环境与依赖
在环境信息区域,可以配置服务的允许环境与依赖项。
参数 | 描述 |
镜像配置 | 服务的运行环境基础。可以使用PAI提供的官方镜像,或通过自定义镜像或输入镜像地址使用自行构建的镜像,详情请参见自定义镜像。 说明 若镜像中包含WebUI,开启Web应用,EAS 会自动启动Web服务器,方便直接访问前端页面。 |
存储挂载 | 将存放在OSS、NAS等云存储上的模型、代码或数据挂载到容器的本地路径,实现代码/数据与环境的解耦,便于独立更新。详情请参见存储挂载。 |
数据集挂载 | 若希望对模型或数据进行版本化管理,可以使用数据集功能进行挂载。详见创建及管理数据集。 |
运行命令 | 设置镜像启动命令(例如 |
端口号 | 设置服务监听的端口。端口号在一些场景中为可选。 例如,在用户服务中不依赖由EAS网关导入的流量,而是用户在镜像中自行通过订阅消息队列的方式获取消息,则此场景中镜像端口号可选填。 重要 EAS引擎固定占用8080和9090端口,部署新服务时请避开这两个端口,以免冲突导致服务无法启动。 |
三方库配置 | 若仅需额外安装少数Python库,在此处直接添加库名或指定一个requirements.txt文件路径,避免重新构建镜像。 |
环境变量 | 以键值对形式为服务实例设置环境变量。 |
选择GPU实例部署服务时,还可以在服务功能的资源配置中指定GPU驱动版本,以满足特定模型或框架的运行要求。
配置计算资源
在资源信息区域,可以为服务配置计算资源。
参数 | 描述 |
资源类型 | 说明 开启GPU共享,可在同一张GPU卡上部署多个模型服务,通过共享算力来提升GPU资源利用率。适用于模型较小或推理负载不高的场景。仅使用EAS资源组或资源配额时支持开启。详见GPU切分。 |
副本数 | 建议配置多个实例,避免单点故障风险。 |
部署资源 | 使用公共资源时,对于支持的规格,可以开启竞价模式,并设置出价上限,以远低于常规实例的价格抢占空闲资源,适用于对中断不敏感的推理任务。 说明 |
配置系统盘 |
|
弹性资源池 | 使用EAS资源组或资源配额时,开启此功能后,当自有资源不足时,会自动使用公共资源(按量付费)进行扩容以应对突发流量;缩容时则优先释放公共资源实例,节约成本。详情请参见弹性资源池。 |
指定节点调度 | 仅适用于使用EAS资源组或资源配额。
|
高优资源重调度 | 开启后,系统会周期性地尝试将服务实例从低优先级资源(如公共资源、常规实例)迁移到高优先级资源(如专属资源组、竞价实例)上,以优化成本和资源分配。该功能可以解决以下问题:
|
服务接入与网络
EAS提供灵活的服务接入和网络配置选项,以满足不同的业务集成需求。详情请参见服务调用。
参数 | 描述 |
网关选择 | 默认使用免费的共享网关,可付费开通专属网关以获得自定义域名、访问控制等更多高级功能。详情请参见使用专属网关。 重要 通过网关调用时,请求体大小不得超过 1MB。 |
专有网络 | 通过配置VPC、交换机和安全组,可以实现服务在VPC内部的直接访问,或允许服务访问公网资源。详情请参见EAS访问公网或内网资源。 |
关联负载均衡NLB | 将服务关联到网络型负载均衡NLB实例,实现更自主可控的负载均衡。详情请参见通过关联负载均衡NLB调用。 |
关联服务发现Nacos | 将服务注册到微服务注册配置中心,便于在微服务架构中实现服务的自动发现与同步。详情请参见通过关联服务发现Nacos调用。 |
还可以在服务功能区域的高级网络下启用GRPC。开启后,服务网关将支持GRPC连接,适用于需要高性能RPC通信的场景。
服务安全
为了保障服务安全,可以在服务功能区域使用以下功能:
参数 | 描述 |
自定义鉴权 | 如果不想使用系统自动生成的Token,可在此处自定义服务访问的鉴权Token。 |
配置安全加密环境 | 通过与系统信任管理服务集成,保证服务在部署和调用过程中,数据、模型和代码等信息的安全加密,实现可信推理。该功能主要针对挂载的存储文件,请先完成存储挂载再开启。详情请参见安全加密推理服务。 |
实例RAM角色 | 为实例关联RAM角色后,服务内代码可基于STS临时凭证访问其他云资源,无需配置固定的AccessKey,从而降低密钥泄漏风险。详情请参见配置EAS RAM角色。 |
保障服务稳定与高可用
通过基本信息区域的所属群组功能,可将多个版本的服务或使用异构资源的服务划分到同一个群组,配合流量管理策略,实现灰度发布。详情参见灰度发布。
为确保生产环境服务的稳定可靠,可以在服务功能区域进行以下相关配置:
参数 | 描述 |
服务响应超时时长 | 合理配置每个请求的超时时间,默认为5秒,避免慢请求长时间占用服务资源。 |
健康检查 | 为服务配置健康检查,系统会定期探测实例的存活状态,并在实例异常时自动拉起新实例,实现故障自愈。详情请参见健康检查。 |
算力检测与容错 | 平台通过实时监测分布式推理服务的算力健康状态,实现故障自动检测与智能自愈,确保服务的高可用性与稳定性。详情请参见算力检测与容错。 |
优雅退出 | 配置优雅退出时间,确保在服务更新或缩容时,实例有足够的时间处理完已接收的请求再退出,避免请求处理中断。还可以选择是否发送SIGTERM信号,以便在应用层进行更精细的退出处理。详情请参见滚动更新与优雅退出。 |
滚动更新 | 通过配置超过期望的副本数和最大不可用副本数,可以精细化控制服务更新过程中的实例替换策略,在保证服务不中断的前提下完成版本升级。详情请参见滚动更新与优雅退出。 |
性能优化
以下配置对于提升服务性能至关重要,能有效加快启动速度、提高吞吐量并降低延迟,尤其适用于大模型等资源密集型应用。
参数 | 参数及描述 | |
存储加速 | 分布式缓存加速 | 将挂载的OSS等存储中的模型或数据文件高速缓存到实例本地,以提高读取速度,减少I/O延迟。详情请参见内存缓存本地目录。 |
模型权重服务(MoWS) | 通过模型权重的本地缓存和跨实例共享,显著提升大规模实例部署场景下的扩缩容效率和服务启动速度。详情请参见模型权重服务。 | |
资源配置 | 共享内存 | 为实例配置共享内存,允许容器内的多个进程直接读写同一内存区域,避免数据复制和传输带来的开销,适用于需要高效进程间通信的场景。 |
分布式推理 | 将单个推理实例部署在多台机器上,共同完成一次推理任务,解决超大模型无法在单机上部署的问题。详情见多机分布式推理。 | |
智能调度 | LLM智能路由 | 当LLM服务有多个后端实例时,LLM智能路由能够根据后端负载进行动态请求分发,保证各实例的算力和显存使用尽可能均衡,提升集群资源利用率。详情请参见LLM智能路由部署。 |
服务观测与诊断
为洞察服务状态和快速排查问题,可以在服务功能区域开启以下功能:
参数 | 描述 |
保存调用记录 | 将服务的所有请求和响应记录持久化保存到大数据MaxCompute或日志服务SLS中,用于审计、分析或问题排查。
|
链路追踪 | 部分官方镜像已内置采集组件,可一键开启链路追踪功能。对于其他镜像,可通过简单配置来集成ARMS探针,实现对服务调用链路的端到端监控。可参见EAS中开启LLM应用链路追踪(Tracing)。 配置方法如下:
|
异步与弹性服务
修改JSON文件配置参数
在服务配置区域查看当前界面配置对应的完整 JSON,并支持直接编辑。
对于自动化和精细化配置场景,还可以直接使用 JSON 文件来定义和部署服务。详情请参见JSON部署。