本文介绍如何使用堡垒机对 PAI-DSW 实例实施统一运维管理,实现 SSH 访问入口收敛、细粒度权限控制与全量操作审计,从而降低数据泄露、模型篡改及算力滥用等安全风险。
适用范围
堡垒机版本:请根据实际情况进行选择,详情参见版本功能对比。
若仅需要进行运维,无需凭据轮转,可使用基础版。
若需进行凭据轮转,请选择企业双擎版。
网络环境:堡垒机和DSW实例之间网络互通。
协议要求:DSW实例支持使用SSH进行连接。
方案背景
在AI大模型开发过程中,算法工程师和运维人员需要通过SSH协议访问PAI-DSW开发环境,进行代码调试、环境配置、数据管理等操作。传统的分散式访问方式存在以下安全痛点:
访问入口分散:直接暴露DSW实例的SSH端口到公网或办公网络,增加了攻击面。
权限管理粗放:多人共用
root等高权限账户,难以遵循最小权限原则,操作责任无法明确界定。操作行为不可知:无法对运维人员在DSW实例内部执行的具体命令和文件传输操作进行有效审计,一旦发生安全事件,难以追溯和定责。
数据泄露风险:无法有效管控通过
scp、wget等命令从DSW实例外传或下载敏感数据和模型文件的行为。
方案优势
收敛网络暴露面
将所有 PAI-DSW 实例的 SSH 访问入口收敛至堡垒机,运维流量仅在内网传输。无需为实例配置公网 IP 或暴露端口,有效隐藏资产真实地址,阻断外部扫描与网络攻击。
统一身份与资产纳管
支持对接 RAM、AD、LDAP 等企业身份源,将分散的 DSW 实例账号纳入统一管理。消除多人共用 Root 账号的安全隐患,确立实名制运维体系。
精细化权限管控与审计
支持基于“用户-资产-系统账号”维度的细粒度授权,并配置命令控制策略(如拦截文件传输或删除指令)。系统全程记录会话日志与操作录像,满足故障追溯与安全定责需求。
无侵入式快速接入
基于现有网络架构即可接入,无需在 DSW 实例中安装 Agent 或部署额外网关。通过资产纳管配置,即可快速将新增算力资源纳入安全运维体系,降低管理复杂度。
自动化运维安全增强
提供 SSH 密钥自动轮转、双因子认证(MFA)及脚本批量下发能力。在提升访问安全等级的同时,减少人工维护凭据的成本,降低因误操作导致的安全风险。
全链路合规支撑
通过集中认证、权限控制及会话记录,实现运维全流程可审计。帮助企业满足金融、政府等受监管行业对数据安全与运维审计的合规要求。
方案架构
本方案的核心是将堡垒机作为所有运维流量的统一代理和审计中心。所有运维人员不再直接连接PAI-DSW实例,而是首先登录堡垒机,经过严格的身份认证和权限检查后,再由堡垒机代理其访问目标DSW实例。
架构说明:
身份与认证层:运维人员通过访问控制(RAM)用户身份登录堡垒机运维门户,支持配置双因子认证以增强安全性。堡垒机支持与AD、LDAP、IDaaS等多种企业身份源集成,实现统一身份认证。
访问代理层:堡垒机作为唯一的访问入口,收敛所有SSH连接请求。它通过专有网络(VPC)内网连接到目标PAI-DSW实例,无需向公网暴露DSW实例的任何端口,极大降低了攻击风险。
资产与权限层:PAI-DSW实例作为主机资产被纳入堡垒机进行统一管理。管理员可以创建精细化的授权规则,将特定用户与特定DSW实例的主机账户进行绑定,并可限制访问时间、来源IP等。
控制与审计层:所有经由堡垒机的SSH会话都会被实时监控和录像。管理员可以配置命令控制策略,拦截或阻断高危操作(如删除模型文件),并对文件传输行为进行审计。所有操作记录均可查询和回放,并可归档至日志服务(SLS)进行长期存储和分析。
步骤一:创建堡垒机实例
购买堡垒机。
进入堡垒机购买页。
参考如下配置进行填写后,单击立即购买并完成支付。未提及配置请根据需求设置或保持默认值。更多信息可参见快速购买并登录堡垒机。
配置项
说明
示例值
地域
选择堡垒机所在地域,建议与资产所在地域保持一致。
华东1(杭州)
版本
选择堡垒机实例的版本。选型建议请参见选型指导。
企业双擎版
启用堡垒机实例。
登录堡垒机控制台,在顶部菜单栏,选择目标地域。
说明首次进入堡垒机控制台时,需创建服务关联角色,以便全面开启运维安全防护,请根据页面提示创建。
在堡垒机实例列表中,选择前面步骤创建的堡垒机实例,单击启用,在弹出的面板填写如下配置。更多信息请参见启用堡垒机。
配置项
说明
示例值
选择网络
选择堡垒机实例的专有网络和虚拟交换机。
专有网络在实例启用后无法修改。
为了确保内网连通,建议堡垒机实例与被运维的ECS使用同一个专有网络。
test_vpc
选择主可用区交换机
企业双擎版支持部署主备交换机可用区双活运行。此处选择堡垒机主可用区交换机。
vsw_1
ECS安全组
需至少加入一个普通安全组,堡垒机加入普通安全组后将自动生成访问规则,允许堡垒机访问该安全组内的相关资产。
堡垒机不支持加入企业安全组,需手动配置企业安全组访问规则实现网络互通。
堡垒机不支持加入云产品托管的安全组,如您只有云产品托管的安全组,您需要新建普通安全组。
test_sg
单击下一步,待启动检查通过后单击立即启动。
启动后,实例进入初始化状态,一般需10~15分钟,请耐心等待。
初始化结束后,实例将进入运行中状态,表明该堡垒机实例已成功启用。
为堡垒机实例开启公网访问。
在堡垒机实例列表,定位前面步骤创建的目标实例,打开后的开关
。
步骤二:创建DSW实例
登录PAI控制台,选择目标地域,在左侧导航栏单击工作空间列表,选择并进入目标工作空间。
在左侧导航栏单击 ,切换至开发机实例页签,单击新建实例,配置以下关键参数,其他参数保持默认值即可。控制台全量参数请参见控制台全参数列表。
配置项
说明
示例值
实例名称
自定义实例名称。
dsw_test
资源类型
指定资源类型。
公共资源
资源规格
指定资源规格。
说明若指定规格库存不足,请尝试选择列表中的其他规格。
ecs.gn7i-c8g1.2xlarge(配置为:1张A10 GPU、8 vCPU、30 GiB内存)
镜像配置
选择官方镜像。
说明ModelScope的镜像兼容性较好,且三方库较全,因此推荐使用ModelScope镜像。
modelscope:1.31.0-pytorch2.8.0-gpu-py311-cu124-ubuntu22.04(Python版本为3.11、CUDA版本为12.4)
专有网络配置
选择和堡垒机实例相同的VPC。如需创建请参见专有网络与交换机。
test_vpc
安全组
选择目标安全组。如需创建请参见管理安全组。
test_sg
启用SSH
打开此开关。
开启
SSH公钥
参考生成SSH公钥,将公钥内容粘贴到此处。
自定义服务
需将监听端口加入到目标安全组的中。
监听端口:22
单击确定创建实例,当实例状态为运行中时,代表创建成功。
步骤三:在堡垒机中纳管DSW实例
步骤四:配置授权与访问策略
创建用户。
在左侧菜单栏,单击,随后单击,填写如下信息后,单击创建。更新信息可参考管理用户。
配置项
说明
示例值
用户登录名称
设置登录堡垒机门户的用户名。
user1
认证方式
设置登录堡垒机门户的认证方式。
本地认证
密码
设置登录密码。
确认密码
设置确认密码。
显示名称
设置在控制台中显示的名称。
user1
手机号
设置用户的手机号码。当开启双因子认证方式后,通过手机短信进行二次认证。
159*******
邮箱
设置用户的邮箱。当开启双因子认证方式后,通过邮箱进行二次认证。
test***@aliyun.com
为用户授权主机。
在用户列表定位前一步骤创建的用户,在其操作列下单击授权主机,进入已授权主机页面。
单击授权主机,在弹出的面板中选择目标主机后,单击确定。更多信息请参考为用户授权资产。
为用户授权主机账户。
定位上一步授权的主机记录,单击已授权账户列下的“无已授权账户,点击授权账户”。
选择目标账户(例如:
[ssh] root),最后单击更新。更多信息请参考为用户授权资产账户。
(可选)配置控制策略。
在左侧菜单栏,单击控制策略,随后单击新建控制策略,进入新建控制策略页面。
填写如下信息后,单击新建控制策略。更多信息请参考配置控制策略。
配置项
说明
示例值
名称
设置策略名称。
block-dsw-dangerous-cmds
命令策略
单击命令策略,设置以下信息:
需要控制命令列表:(黑名单)不允许执行以下命令。
具体命令:
ifconfig(以ifconfig命令为例,请根据需求进行设置)。
在关联资产/用户页面,进行如下设置:
选择策略针对已选择的资产生效,单击,选择目标主机后,单击确定。
选择策略针对已选择的用户生效,单击,选择目标用户后,单击确定。
(可选)创建密钥轮转任务(仅企业双擎版支持)。
为进一步提升安全性,可配置SSH密钥的自动轮转。当创建的任务执行后,将自动生成新的密钥、更新DSW实例上的公钥,并替换堡垒机中存储的私钥。
在左侧菜单栏,单击,随后单击创建改密任务。
在弹出的面板中,设置如下信息后,单击创建。更多信息可参考创建改密任务。
配置项
说明
示例值
任务名称
自定义任务名称。
test_task
任务类型
指定任务类型。支持密码轮转和密钥轮转。
密钥轮转
执行方式
指定执行方式。支持周期执行和定时执行。
定时执行
执行时间
指定任务执行的时间。
2025-12-23 17:23:45
创建完成后,单击面板中的关联账户,在托管账户页签中单击添加主机账户,选择目标主机账户并单击添加。
步骤五:验证与审计
登录堡垒机门户。
进入堡垒机实例管理后台,在左侧菜单栏,单击概览,进入概览页面。
访问处的URL,使用前面步骤创建的用户(例如:user1)进行登录。
说明若出现双因子认证,请根据页面提示选择合适的验证方式进行验证。
登录成功后,将进入堡垒机门户的主机页面。
登录目标主机(DSW实例)。
在堡垒机门户的主机页面,定位目标主机(例如:dsw-model-dev),单击远程连接列下的
图标,即可登录至目标主机。验证控制策略。
若在前面步骤已配置控制策略,可在已登录主机的终端页面,执行被控制策略禁止的命令(例如:
ifconfig),如出现permission denied by rule,则表明控制策略已生效。
会话审计。
进入堡垒机实例管理后台,在左侧菜单栏,单击,即可查看会话信息以及播放会话操作。详情可参考搜索和查看会话。
风险说明
权限配置不当
授权范围过大或命令控制策略不严谨,可能导致安全目标无法达成。务必遵循最小权限原则进行配置。
网络策略变更
DSW实例或堡垒机所在VPC的安全组或网络ACL变更,可能导致连接中断。在进行网络策略调整时,需确保堡垒机与DSW实例之间的通信端口(默认为22)始终畅通。
DSW实例IP变更
PAI-DSW实例在停止再启动后,其内网IP可能发生变化。IP变更后,需在堡垒机中手动更新对应主机资产的IP地址,否则将导致连接失败。建议为关键DSW实例配置固定的私有IP或通过自动化脚本更新。
常见问题
堡垒机无法连接 DSW 实例
可能原因 | 解决方案 |
网络不通 | 在堡垒机控制台进行网络诊断,具体操作请参考网络诊断。 |
DSW 实例安全组未放行堡垒机 IP | 检查 DSW 实例安全组入方向规则,确保允许来自堡垒机安全组的 TCP 22 端口访问。 |
DSW 实例 IP 地址已变更 | 在 PAI 控制台核对 DSW 实例最新内网 IP,并在堡垒机中更新主机资产信息。 |
登录提示权限拒绝或密钥错误
可能原因 | 解决方案 |
SSH 公钥未正确配置到 DSW 实例 | 检查 DSW 实例中配置的公钥内容,确认公钥已正确添加。 |
堡垒机中托管的私钥与 DSW 的公钥不匹配 | 在堡垒机主机账户配置中,重新上传正确的私钥。 |
授权规则中未正确关联用户、资产和主机账户 | 检查堡垒机授权规则,确保用户、主机和主机账户已正确绑定。 |
命令控制策略不生效
可能原因 | 解决方案 |
策略未正确关联到用户或资产 | 在堡垒机策略管理中检查命令策略的关联范围,确保已关联目标用户和资产。 |
命令匹配规则有误(如通配符格式不正确) | 检查命令策略中的命令格式,确保可匹配实际执行的命令。 |