DataWorks支持将您提供的样本文件生成样本库,后续可以将样本库配置为数据识别规则用来识别数据。当需要识别的目标数据包含样本库中的数据时,则会命中该识别规则。该功能通常用于识别可以使用枚举值罗列的数据,例如,员工姓名、用户地址等。本文为您介绍如何创建并管理样本库。

使用限制

DataWorks仅支持上传大小不超过500KB, UTF-8格式的 TXT文本文件做为样本库文件,并且样本文件中的每个数据占用一行。
说明 一个 数据识别规则仅支持识别一种类型的数据,因此,建议您的每个样本库中存放同类型的数据。如果您需要使用样本库方式识别多个类型的数据,则需要配置多个样本库。例如,您需要识别员工姓名、家庭住址,则需要配置姓名样本库及家庭住址样本库。

创建样本库

  1. 进入数据保护伞
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
    4. 单击左上方的图标图标,选择全部产品 > 数据治理 > 数据保护伞
    5. 单击立即体验,进入数据保护伞。
  2. 在左侧导航栏,单击规则配置 > 数据识别规则,进入数据识别规则页面。
  3. 单击数据样本管理,进入数据样本管理页面。
  4. 单击新建样本,配置样本库名称并上传样本文件。
    说明
    • DataWorks仅支持上传大小不超过500KB, UTF-8格式的 TXT文本文件做为样本库文件,并且样本文件中的每个数据占用一行。
      说明 一个 数据识别规则仅支持识别一种类型的数据,因此,建议您的每个样本库中存放同类型的数据。如果您需要使用样本库方式识别多个类型的数据,则需要配置多个样本库。例如,您需要识别员工姓名、家庭住址,则需要配置姓名样本库及家庭住址样本库。
    • DataWorks支持在一个样本库中上传多个样本文件。
    新增样本
  5. 单击保存,完成样本库创建。

成功创建样本库后,您可以将该样本库配置为数据识别规则,当需要识别的目标数据包含样本库中的数据时,则命中该识别规则。在数据识别规则中使用样本库,详情请参见数据识别规则

管理样本库

数据样本管理页面,您还可以对已创建的样本库执行如下管理操作: 样本库管理
  • 查看样本库列表。

    您可以在数据样本管理页面查看所有已创建样本库包含的样本个数及关联的数据识别规则。单击目标样本库操作列的查看图标,即可查看该样本库的数据详情。

  • 修改样本库文件。

    单击目标样本库操作列的修改图标,您可以为样本库上传新的样本文件,或更换已有的样本文件。

  • 删除样本库。
    单击目标样本库 操作列的 删除样本库图标,即可删除当前样本库。
    说明 如果目标样本库已被数据识别规则引用,您可以在样本库列表查看该样本库关联的数据识别规则,并在数据识别规则的配置页面取消引用该样本库,取消引用后该样本库才能被删除。配置 数据识别规则,详情请参见 数据识别规则