全部产品
Search
文档中心

大数据开发治理平台 DataWorks:通过样本库识别

更新时间:Jul 11, 2024

DataWorks支持将您提供的样本文件生成样本库,后续可以将样本库配置为数据识别规则用来识别数据。当需要识别的目标数据包含样本库中的数据时,则会命中该识别规则。该功能通常用于识别可以使用枚举值罗列的数据,例如,员工姓名、用户地址等。本文为您介绍如何创建并管理样本库。

使用限制

DataWorks仅支持上传大小不超过500KB,UTF-8格式的.txt文本文件做为样本库文件,并且样本文件中的每个数据占用一行。

说明

一个数据识别规则仅支持识别一种类型的数据,因此,建议您的每个样本库中存放同类型的数据。如果您需要使用样本库方式识别多个类型的数据,则需要配置多个样本库。例如,您需要识别员工姓名、家庭住址,则需要配置姓名样本库及家庭住址样本库。

创建样本库

  1. 进入数据保护伞

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

    2. 单击左上方的图标图标,选择全部产品 > 数据治理 > 数据保护伞,单击立即体验,进入数据保护伞。

      说明
      • 若阿里云主账号已授权,则直接进入数据保护伞的首页。

      • 若阿里云主账号未授权,则进入数据保护伞的授权页面。授权后才可使用保护伞的相关功能。

  2. 在左侧导航栏单击规则配置 > 敏感数据识别,进入敏感数据识别页面。

  3. 新增样本库。

    1. 数据样本管理页签单击新建样本

    2. 新增样本对话框,配置样本库名称并上传样本文件。

      DataWorks仅支持上传大小不超过500KB,UTF-8格式的.txt文本文件做为样本库文件,并且样本文件中的每个数据占用一行。

      说明

      一个数据识别规则仅支持识别一种类型的数据,因此,建议您的每个样本库中存放同类型的数据。如果您需要使用样本库方式识别多个类型的数据,则需要配置多个样本库。例如,您需要识别员工姓名、家庭住址,则需要配置姓名样本库及家庭住址样本库。

  4. 单击保存,完成样本库创建。

成功创建样本库后,您可以将该样本库配置为数据识别规则,当需要识别的目标数据包含样本库中的数据时,则命中该识别规则。在数据识别规则中使用样本库,详情请参见配置数据识别规则并执行识别任务

管理样本库

数据样本管理页面,您还可以对已创建的样本库执行如下管理操作:样本库管理

  • 查看样本库列表:您可查看所有已创建样本库包含的样本个数及关联的数据识别规则。单击目标样本库操作列的查看图标,即可查看该样本库的数据详情。

  • 修改样本库文件:单击目标样本库操作列的修改图标,即可更换样本库已有的样本文件。

  • 删除样本库:单击目标样本库操作列的删除样本库图标,即可删除当前样本库。

    说明

    如果目标样本库已被数据识别规则引用,您可以在样本库列表查看该样本库关联的数据识别规则,并在数据识别规则的配置页面取消引用该样本库,取消引用后该样本库才能被删除。配置数据识别规则,详情请参见配置数据识别规则并执行识别任务