全部产品
Search
文档中心

运维安全中心(堡垒机):使用堡垒机实现 PAI-DSW 实例安全运维与审计

更新时间:Dec 24, 2025

本文介绍如何使用堡垒机对 PAI-DSW 实例实施统一运维管理,实现 SSH 访问入口收敛、细粒度权限控制与全量操作审计,从而降低数据泄露、模型篡改及算力滥用等安全风险。

适用范围

  • 堡垒机版本:请根据实际情况进行选择,详情参见版本功能对比

    • 若仅需要进行运维,无需凭据轮转,可使用基础版。

    • 若需进行凭据轮转,请选择企业双擎版。

  • 网络环境:堡垒机和DSW实例之间网络互通。

  • 协议要求:DSW实例支持使用SSH进行连接。

方案背景

在AI大模型开发过程中,算法工程师和运维人员需要通过SSH协议访问PAI-DSW开发环境,进行代码调试、环境配置、数据管理等操作。传统的分散式访问方式存在以下安全痛点:

  • 访问入口分散:直接暴露DSW实例的SSH端口到公网或办公网络,增加了攻击面。

  • 权限管理粗放:多人共用root 等高权限账户,难以遵循最小权限原则,操作责任无法明确界定。

  • 操作行为不可知:无法对运维人员在DSW实例内部执行的具体命令和文件传输操作进行有效审计,一旦发生安全事件,难以追溯和定责。

  • 数据泄露风险:无法有效管控通过scpwget等命令从DSW实例外传或下载敏感数据和模型文件的行为。

方案优势

  • 收敛网络暴露面

    将所有 PAI-DSW 实例的 SSH 访问入口收敛至堡垒机,运维流量仅在内网传输。无需为实例配置公网 IP 或暴露端口,有效隐藏资产真实地址,阻断外部扫描与网络攻击。

  • 统一身份与资产纳管

    支持对接 RAM、AD、LDAP 等企业身份源,将分散的 DSW 实例账号纳入统一管理。消除多人共用 Root 账号的安全隐患,确立实名制运维体系。

  • 精细化权限管控与审计

    支持基于“用户-资产-系统账号”维度的细粒度授权,并配置命令控制策略(如拦截文件传输或删除指令)。系统全程记录会话日志与操作录像,满足故障追溯与安全定责需求。

  • 无侵入式快速接入

    基于现有网络架构即可接入,无需在 DSW 实例中安装 Agent 或部署额外网关。通过资产纳管配置,即可快速将新增算力资源纳入安全运维体系,降低管理复杂度。

  • 自动化运维安全增强

    提供 SSH 密钥自动轮转、双因子认证(MFA)及脚本批量下发能力。在提升访问安全等级的同时,减少人工维护凭据的成本,降低因误操作导致的安全风险。

  • 全链路合规支撑

    通过集中认证、权限控制及会话记录,实现运维全流程可审计。帮助企业满足金融、政府等受监管行业对数据安全与运维审计的合规要求。

方案架构

本方案的核心是将堡垒机作为所有运维流量的统一代理和审计中心。所有运维人员不再直接连接PAI-DSW实例,而是首先登录堡垒机,经过严格的身份认证和权限检查后,再由堡垒机代理其访问目标DSW实例。

image

架构说明:

  1. 身份与认证层:运维人员通过访问控制(RAM)用户身份登录堡垒机运维门户,支持配置双因子认证以增强安全性。堡垒机支持与AD、LDAP、IDaaS等多种企业身份源集成,实现统一身份认证。

  2. 访问代理层:堡垒机作为唯一的访问入口,收敛所有SSH连接请求。它通过专有网络(VPC)内网连接到目标PAI-DSW实例,无需向公网暴露DSW实例的任何端口,极大降低了攻击风险。

  3. 资产与权限层:PAI-DSW实例作为主机资产被纳入堡垒机进行统一管理。管理员可以创建精细化的授权规则,将特定用户与特定DSW实例的主机账户进行绑定,并可限制访问时间、来源IP等。

  4. 控制与审计层:所有经由堡垒机的SSH会话都会被实时监控和录像。管理员可以配置命令控制策略,拦截或阻断高危操作(如删除模型文件),并对文件传输行为进行审计。所有操作记录均可查询和回放,并可归档至日志服务(SLS)进行长期存储和分析。

步骤一:创建堡垒机实例

  1. 购买堡垒机。

    1. 进入堡垒机购买页

    2. 参考如下配置进行填写后,单击立即购买并完成支付。未提及配置请根据需求设置或保持默认值。更多信息可参见快速购买并登录堡垒机

      配置项

      说明

      示例值

      地域

      选择堡垒机所在地域,建议与资产所在地域保持一致。

      华东1(杭州)

      版本

      选择堡垒机实例的版本。选型建议请参见选型指导

      企业双擎版

  2. 启用堡垒机实例。

    1. 登录堡垒机控制台,在顶部菜单栏,选择目标地域。

      说明

      首次进入堡垒机控制台时,需创建服务关联角色,以便全面开启运维安全防护,请根据页面提示创建。

    2. 在堡垒机实例列表中,选择前面步骤创建的堡垒机实例,单击启用,在弹出的面板填写如下配置。更多信息请参见启用堡垒机

      配置项

      说明

      示例值

      选择网络

      选择堡垒机实例的专有网络和虚拟交换机。

      • 专有网络在实例启用后无法修改

      • 为了确保内网连通,建议堡垒机实例与被运维的ECS使用同一个专有网络。

      test_vpc

      选择主可用区交换机

      企业双擎版支持部署主备交换机可用区双活运行。此处选择堡垒机主可用区交换机。

      vsw_1

      ECS安全组

      需至少加入一个普通安全组,堡垒机加入普通安全组后将自动生成访问规则,允许堡垒机访问该安全组内的相关资产。

      • 堡垒机不支持加入企业安全组,需手动配置企业安全组访问规则实现网络互通。

      • 堡垒机不支持加入云产品托管的安全组,如您只有云产品托管的安全组,您需要新建普通安全组。

      说明
      • 启用堡垒机后,支持修改堡垒机所属安全组,具体操作,请参加配置堡垒机

      • 启用堡垒机后,若堡垒机访问资产时被安全组阻断,可手动配置安全组访问规则。具体操作请参见添加安全组规则

      test_sg

    3. 单击下一步,待启动检查通过后单击立即启动

      • 启动后,实例进入初始化状态,一般需10~15分钟,请耐心等待。

      • 初始化结束后,实例将进入运行中状态,表明该堡垒机实例已成功启用。

  3. 为堡垒机实例开启公网访问。

    在堡垒机实例列表,定位前面步骤创建的目标实例,打开网络 > 公网后的开关image

步骤二:创建DSW实例

  1. 登录PAI控制台,选择目标地域,在左侧导航栏单击工作空间列表,选择并进入目标工作空间。

  2. 在左侧导航栏单击模型开发与训练 > 交互式建模(DSW) ,切换至开发机实例页签,单击新建实例,配置以下关键参数,其他参数保持默认值即可。控制台全量参数请参见控制台全参数列表

    配置项

    说明

    示例值

    实例名称

    自定义实例名称。

    dsw_test

    资源类型

    指定资源类型。

    公共资源

    资源规格

    指定资源规格。

    说明

    若指定规格库存不足,请尝试选择列表中的其他规格。

    ecs.gn7i-c8g1.2xlarge

    (配置为:1张A10 GPU、8 vCPU、30 GiB内存)

    镜像配置

    选择官方镜像

    说明

    ModelScope的镜像兼容性较好,且三方库较全,因此推荐使用ModelScope镜像。

    modelscope:1.31.0-pytorch2.8.0-gpu-py311-cu124-ubuntu22.04

    (Python版本为3.11、CUDA版本为12.4)

    专有网络配置

    选择和堡垒机实例相同的VPC。如需创建请参见专有网络与交换机

    test_vpc

    安全组

    选择目标安全组。如需创建请参见管理安全组

    test_sg

    启用SSH

    打开此开关。

    开启

    SSH公钥

    参考生成SSH公钥,将公钥内容粘贴到此处。

    自定义服务

    需将监听端口加入到目标安全组访问规则 > 入方向中。

    监听端口:22

    单击确定创建实例,当实例状态为运行中时,代表创建成功。

    说明

    堡垒机实例必须能通过网络访问PAI-DSW实例。若堡垒机和DSW实例位于不同的VPC中,可配置VPC对等连接或使用云企业网打通两个VPC之间的网络。如需测试连通性可参考网络诊断

步骤三:在堡垒机中纳管DSW实例

  1. 新建主机。

    1. 登录堡垒机控制台,定位目标实例,单击右侧的管理,进入堡垒机实例管理后台。

    2. 在左侧菜单栏,单击资产管理 > 主机,随后单击导入其他来源主机 > 新建主机,填写如下信息后,单击创建。更多信息可参考新建主机

      配置项

      说明

      示例值

      操作系统

      选择DSW实例的操作系统类型。

      Linux

      主机IP

      填写DSW实例的IP地址。其位于DSW实例详情页的实例配置 > 网络信息 > 内网访问IP > 用户网卡

      192.168.1.40

      主机名

      为DSW实例设置一个易于识别的名称。

      dsw-model-dev

  2. 新建主机账户。

    定位已创建的主机记录,单击其操作列下的新建主机账户。参考如下配置设置登录DSW主机的账户信息,填写完成后,单击创建。更多信息可参考管理主机账户

    配置项

    说明

    示例值

    协议

    选择协议。

    SSH

    登录名

    设置登录DSW实例的用户名。DSW实例默认仅提供root用户用于SSH登录。

    root

    是否为特权账户

    指定是否为特权账户。

    认证类型

    选择认证类型。

    私钥

    私钥

    设置为创建DSW实例步骤中SSH公钥所对应的私钥。

    加密口令

    若创建公钥时,设置了加密口令,则需将其填写在此处。

步骤四:配置授权与访问策略

  1. 创建用户。

    在左侧菜单栏,单击人员管理 > 用户,随后单击导入其他来源用户 > 新增用户,填写如下信息后,单击创建。更新信息可参考管理用户

    配置项

    说明

    示例值

    用户登录名称

    设置登录堡垒机门户的用户名。

    user1

    认证方式

    设置登录堡垒机门户的认证方式。

    本地认证

    密码

    设置登录密码。

    确认密码

    设置确认密码。

    显示名称

    设置在控制台中显示的名称。

    user1

    手机号

    设置用户的手机号码。当开启双因子认证方式后,通过手机短信进行二次认证。

    159*******

    邮箱

    设置用户的邮箱。当开启双因子认证方式后,通过邮箱进行二次认证。

    test***@aliyun.com

  2. 为用户授权主机。

    1. 在用户列表定位前一步骤创建的用户,在其操作列下单击授权主机,进入已授权主机页面。

    2. 单击授权主机,在弹出的面板中选择目标主机后,单击确定。更多信息请参考为用户授权资产

  3. 为用户授权主机账户。

    1. 定位上一步授权的主机记录,单击已授权账户列下的“无已授权账户,点击授权账户”。

    2. 选择目标账户(例如:[ssh] root),最后单击更新。更多信息请参考为用户授权资产账户

  4. (可选)配置控制策略。

    1. 在左侧菜单栏,单击控制策略,随后单击新建控制策略,进入新建控制策略页面。

    2. 填写如下信息后,单击新建控制策略。更多信息请参考配置控制策略

      配置项

      说明

      示例值

      名称

      设置策略名称。

      block-dsw-dangerous-cmds

      命令策略

      单击命令策略,设置以下信息:

      • 需要控制命令列表(黑名单)不允许执行以下命令

      • 具体命令:ifconfig(以 ifconfig 命令为例,请根据需求进行设置)。

    3. 关联资产/用户页面,进行如下设置:

      1. 选择策略针对已选择的资产生效,单击资产 > 主机 > 关联主机,选择目标主机后,单击确定

      2. 选择策略针对已选择的用户生效,单击用户 > 关联用户,选择目标用户后,单击确定

  5. (可选)创建密钥轮转任务(仅企业双擎版支持)。

    为进一步提升安全性,可配置SSH密钥的自动轮转。当创建的任务执行后,将自动生成新的密钥、更新DSW实例上的公钥,并替换堡垒机中存储的私钥。

    1. 在左侧菜单栏,单击资产管理 > 改密任务,随后单击创建改密任务

    2. 在弹出的面板中,设置如下信息后,单击创建。更多信息可参考创建改密任务

      配置项

      说明

      示例值

      任务名称

      自定义任务名称。

      test_task

      任务类型

      指定任务类型。支持密码轮转密钥轮转

      密钥轮转

      执行方式

      指定执行方式。支持周期执行定时执行

      定时执行

      执行时间

      指定任务执行的时间。

      2025-12-23 17:23:45

    3. 创建完成后,单击面板中的关联账户,在托管账户页签中单击添加主机账户,选择目标主机账户并单击添加

步骤五:验证与审计

  1. 登录堡垒机门户。

    1. 进入堡垒机实例管理后台,在左侧菜单栏,单击概览,进入概览页面。

    2. 访问堡垒机实例信息 > 公网运维门户地址处的URL,使用前面步骤创建的用户(例如:user1)进行登录。

      说明

      若出现双因子认证,请根据页面提示选择合适的验证方式进行验证。

    3. 登录成功后,将进入堡垒机门户的主机页面。

  2. 登录目标主机(DSW实例)。

    在堡垒机门户的主机页面,定位目标主机(例如:dsw-model-dev),单击远程连接列下的image图标,即可登录至目标主机。

  3. 验证控制策略。

    若在前面步骤已配置控制策略,可在已登录主机的终端页面,执行被控制策略禁止的命令(例如:ifconfig),如出现permission denied by rule,则表明控制策略已生效。

    image

  4. 会话审计。

    进入堡垒机实例管理后台,在左侧菜单栏,单击运维审计 > 会话审计,即可查看会话信息以及播放会话操作。详情可参考搜索和查看会话

风险说明

  • 权限配置不当

    授权范围过大或命令控制策略不严谨,可能导致安全目标无法达成。务必遵循最小权限原则进行配置。

  • 网络策略变更

    DSW实例或堡垒机所在VPC的安全组或网络ACL变更,可能导致连接中断。在进行网络策略调整时,需确保堡垒机与DSW实例之间的通信端口(默认为22)始终畅通。

  • DSW实例IP变更

    PAI-DSW实例在停止再启动后,其内网IP可能发生变化。IP变更后,需在堡垒机中手动更新对应主机资产的IP地址,否则将导致连接失败。建议为关键DSW实例配置固定的私有IP或通过自动化脚本更新。

常见问题

堡垒机无法连接 DSW 实例

可能原因

解决方案

网络不通

在堡垒机控制台进行网络诊断,具体操作请参考网络诊断

DSW 实例安全组未放行堡垒机 IP

检查 DSW 实例安全组入方向规则,确保允许来自堡垒机安全组的 TCP 22 端口访问。

DSW 实例 IP 地址已变更

在 PAI 控制台核对 DSW 实例最新内网 IP,并在堡垒机中更新主机资产信息。

登录提示权限拒绝或密钥错误

可能原因

解决方案

SSH 公钥未正确配置到 DSW 实例

检查 DSW 实例中配置的公钥内容,确认公钥已正确添加。

堡垒机中托管的私钥与 DSW 的公钥不匹配

在堡垒机主机账户配置中,重新上传正确的私钥。

授权规则中未正确关联用户、资产和主机账户

检查堡垒机授权规则,确保用户、主机和主机账户已正确绑定。

命令控制策略不生效

可能原因

解决方案

策略未正确关联到用户或资产

在堡垒机策略管理中检查命令策略的关联范围,确保已关联目标用户和资产。

命令匹配规则有误(如通配符格式不正确)

检查命令策略中的命令格式,确保可匹配实际执行的命令。