DataWorks目前支持动态脱敏和静态脱敏,本文为您介绍如何设置数据保护伞自定义脱敏,并在DataWorks中进行脱敏查询。

前提条件

您需要购买DataWorks专业版及以上版本,才可以使用数据脱敏管理功能。

背景信息

DataWorks目前支持动态脱敏和静态脱敏。
分类 概念 脱敏场景
动态脱敏 用户在查询敏感数据时在页面展示脱敏后的数据。 当前DataWorks为您内置了全局配置、展示脱敏、数据分析脱敏、底层脱敏等脱敏场景,子场景为动态脱敏的典型应用场景。
静态脱敏 将数据脱敏后存储到指定的数据库位置。 当前DataWorks为您内置了数据集成脱敏场景,子场景为静态脱敏的典型应用场景。

选择脱敏场景

  1. 进入数据开发页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
  2. 单击左上方的图标图标,选择全部产品 > 数据治理 > 数据保护伞
  3. 单击立即体验,进入数据保护伞。
  4. 在左侧导航栏,单击规则配置 > 数据脱敏管理
    数据脱敏管理页面根据需求选择脱敏场景。DataWorks为您提供了多种脱敏场景,还支持您自己创建脱敏场景。
    • 全局配置:全局配置的脱敏规则和白名单规则会在展示脱敏、数据分析脱敏、底层脱敏、数据集成脱敏等场景中使用。
    • DataWorks展示脱敏
      • 数据开发页面查询数据时,查询的敏感数据(已配置脱敏规则)会经过脱敏。数据开发
      • 数据地图的数据预览查询数据时,查询的敏感数据(已配置脱敏规则)会经过脱敏。数据地图
    • DataWorks数据分析脱敏:在数据分析进行SQL查询SQL Notes时,查询的敏感数据(配置了脱敏规则的)会经过脱敏。数据分析
    • Hologres展示脱敏:在数据开发holostudio查询holo的数据时按照配置进行脱敏。仅杭州、北京地域可以配置该脱敏规则。默认不开启该功能,如果您需要使用该功能,请提交工单进行开通。
      说明 Hologres暂不支持假名脱敏,您配置的全局假名脱敏规则,在Hologres场景下,将被脱敏为“***”。
    • MaxCompute底层脱敏:从MaxCompute各个访问入口查询数据时,均会被脱敏。仅上海地域可以配置该脱敏规则。
    • 新增自定义脱敏场景:在脱敏场景的下拉菜单底部单击脱敏场景,弹出新增脱敏场景,您可以自定义脱敏场景的场景名称(仅包含中文、英文、数字、下划线、中划线)和场景码(仅包含数字和英文)。
  5. 创建脱敏规则。
    选择场景后,可以在对应场景下新建脱敏规则,便于后续应用的使用。不同场景下创建脱敏规则请参见:

创建脱敏规则:全局配置场景

下面以全局配置(_default_scene_code)为例,介绍数据脱敏配置的流程,Hologres展示脱敏DataWorks展示脱敏DataWorks数据分析脱敏MaxCompute底层脱敏场景的操作步骤参考全局配置场景。

  1. 数据脱敏管理页面,选择脱敏场景全局配置(_default_scene_code)
  2. (可选)选择脱敏对象并授权。
    说明Hologres展示脱敏MaxCompute底层脱敏需要配置。
    单击选择脱敏project选择脱敏database,根据界面提示选择脱敏的project或database并选择同意授权。
  3. 新建数据脱敏规则。
    1. 数据脱敏配置页面,单击右上方的新建规则
    2. 新建规则对话框中,选择需要设置的脱敏规则脱敏方式

      脱敏规则可选择已有的数据识别规则,数据识别规则详情可参见数据识别规则

      DataWorks支持的脱敏方式包括假名HASH掩盖三种方式。不同脱敏规则支持的脱敏方式也不同,请根据界面展示实际结果进行配置。
      • 假名
        假名脱敏会将一个值替换成一个具有相同特征的脱敏信息。使用假名脱敏时,需要选择是否开启数据水印,并选择安全域
        • 数据水印:数据水印可提供数据溯源能力,发生数据泄漏后,可以帮您定位到可能的泄漏源。
        • 安全域:可选范围0~9,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏出来的结果信息不一致。例如,原始数据为a123,安全域设置为0时,脱敏成b124,安全域设置为1时,脱敏成c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。

      • HASH
        HASH脱敏需要是否开启数据水印,并选择安全域
        • 数据水印:数据水印可提供数据溯源能力,发生数据泄漏后,可以帮您定位到可能的泄漏源。
        • 安全域:可选范围0~9,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏出来的结果信息不一致。例如,原始数据为a123,安全域设置为0时,脱敏成b124,安全域设置为1时,脱敏成c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。

      • 掩盖
        掩盖脱敏是使用*对部分信息进行掩盖,达到脱敏的效果,是一种比较常用的脱敏方式。
        参数 描述
        推荐方式 为身份证、银行卡等常用的数据类型提供掩盖脱敏策略。
        自定义 自定义设置提供了更加灵活的设置方式,可以在前中后三段设置是否脱敏,以及需要脱敏(或者不脱敏)的字符长度。
    3. 单击保存
    4. 数据脱敏配置页面,设置脱敏策略的状态为生效失效
      设置成功后,单击相应脱敏规则后的设置图标,输入测试值进行脱敏验证。
  4. 新增白名单。
    1. 单击菜单栏中的白名单配置管理
    2. 白名单配置管理页面,单击右上方的新增白名单
    3. 新增白名单对话框中,选择规则用户组生效时间
      说明

      Hologres展示脱敏场景不需要配置白名单。

      设置白名单生效时间后,如果不在白名单脱敏时间的区间内,该用户在查询该敏感信息时将会继续脱敏。

创建脱敏规则:数据集成场景

  1. 数据脱敏管理页面,选择脱敏场景DataWorks数据集成脱敏(dataworks_data_integration_desense_code)
  2. 新建数据脱敏规则。
    1. 数据脱敏配置页面,单击右上方的新建规则
    2. 脱敏规则对话框中,选择需要设置的敏感数据类型脱敏规则名称脱敏方式安全域替换字符集
      脱敏规则
      1. 配置基础信息
        参数 描述
        敏感数据类型
        • 默认为选择已有,右侧下拉框选择已创建的敏感数据类型(包括内置和所有用户创建的敏感数据类型)。你可以根据需要选择已创建的敏感数据类型。
        • 可切换新增类型,右侧输入框可输入敏感数据类型名称(输入字符限制1~30字,包括:中文、英文、数字)。

          用户输入新增敏感数据类型,系统会判断文字与已有敏感数据类型名称是否相同(包括:内置和该租户下所有用户配置的敏感数据类型),如果名称相同则提示敏感字段类型重复

        说明 内置敏感数据类型:手机号、身份证号、银行卡号、邮箱_内置、IP、车牌号、 邮政编码、座机号、MAC地址、地址、姓名、公司名、民族、星座、性别、国籍。
        脱敏规则名称

        该文本框会自动代入用户填写的敏感数据类型(输入字符限制1~30字,包括:中文、英文、数字),您也可以在该敏感数据类型下新增脱敏规则名称,当与该租户下所有用户创建的脱敏规则出现重名时,提示规则名称重复

      2. 配置脱敏方式与规则:DataWorks支持的脱敏方式包括假名HASH掩盖三种方式。
        • 假名
          假名脱敏会将一个值替换成一个具有相同特征的脱敏信息。脱敏后数据和脱敏前数据的格式保持一致。
          • 当选择的敏感数据类型为内置敏感数据类型(手机号、身份证号、银行卡号、邮箱_内置、IP、车牌号、 邮政编码、座机号、MAC地址、地址、姓名、公司名)时,用户需要配置安全域

            安全域:可选范围0~9,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏出来的结果信息不一致。例如,原始数据为a123,安全域设置为0时,脱敏成b124,安全域设置为1时,脱敏成c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。

          • 当选择的敏感数据类型为非内置时,用户需要配置替换字符集

            替换字符集:遇到字符集中的字符,即会被替换为其他相同类型的字符,不支持中文,若需要脱敏的数据不符合字符集范围则不脱敏(可输入大写字母、小写字母、和数字,多个字符请用英文逗号隔开),例如,敏感数据脱敏前是0~3的数字和a~d的字母组成,那么脱敏后也会脱敏成在这个范围内的数字和字母。

        • 哈希

          可将原始数据加密成固定长度的数据。HASH脱敏方式需要选择安全域

          安全域:可选范围0~9,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏出来的结果信息不一致。例如,原始数据为a123,安全域设置为0时,脱敏成b124,安全域设置为1时,脱敏成c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。

        • 掩盖
          掩盖脱敏是对部分信息进行掩盖,将对应位置上的字符用“*”替换,达到脱敏的效果。
          • 推荐方式:下拉框可选择只展示前1位和最后1位(默认选中)、只展示前3位和最后2位只展示前3位和最后4位
          • 自定义:自定义设置提供了更加灵活的设置方式,可以在前中后三段设置是否脱敏,以及需要脱敏(或者不脱敏)的字符长度。最多可添加10个分段,至少要有1个分段是剩余位数掩盖
            图标 描述
            可选择位数剩余位数
            输入范围为【1,100】。
            可选择脱敏不脱敏
            例如,脱敏前3位,剩余位数不脱敏。掩盖1
            例如,脱敏后3位,剩余位数不脱敏。掩盖2
      3. 验证脱敏配置结果:您可以在样本数据文本框中输入脱敏前样本数据(输入字符限制0~100字符)单击脱敏验证,在脱敏效果中会返回脱敏后的数据。
    3. 单击确定
    4. 数据脱敏配置页面会新增一条脱敏规则,设置脱敏策略的状态为生效失效
      设置成功后,单击相应脱敏规则后的操作列的图标,可以执行删除脱敏规则、修改脱敏规则和查询详情的操作。
      说明
      • 生效的规则不允许执行删除修改的操作。您需要先将规则失效,失效时判断是否有相关任务使用到该规则,请联系安全管理员二次确认;
      • 失效状态下您可以修改脱敏方式,但是敏感数据类型脱敏规则名称不可修改。
      • 修改完成后开启生效,配置该脱敏规则的任务可继续脱敏。
  3. 后续步骤:创建数据集成脱敏规则后,您可以在创建实时同步单表数据任务的时候使用该脱敏规则。详情请参见配置数据脱敏

在DataWorks进行脱敏查询

成功新建脱敏规则并进行配置后,您可以在DataWorks中进行脱敏查询。
说明 您需要首先开启DataWorks项目空间的查询脱敏功能,详情请参见工作空间配置
DataWorks脱敏