全部产品
Search
文档中心

大数据开发治理平台 DataWorks:通过自定义模型识别

更新时间:Aug 17, 2023

DataWorks支持通过您提供的样本字段,进行模型训练,帮助您寻找目标字段的内容特征,生成相应的规则模型。该功能通常用于发现您的数据资产中与该特征内容相似的数据。本文为您介绍如何生成自定义的数据识别模型。

使用限制

  • DataWorks不支持对数据量小于10条,并且数据长度小于4大于40的样本字段进行模型训练。

  • DataWorks不支持对包含中文字符(包括中文标点符号)的样本字段进行模型训练。

创建模型

  1. 进入数据保护伞

    1. 登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

    2. 单击左上方的图标图标,选择全部产品 > 数据治理 > 数据保护伞

    3. 单击立即体验,进入数据保护伞。

  2. 在左侧导航栏,单击规则配置 > 敏感数据识别,进入敏感数据识别页面。

  3. 单击自生成数据识别模型,进入自生成数据识别模型页面。

  4. 新建模型并进行模型训练。

    1. 单击新建模型

    2. 配置模型名称,并选择训练样本。

      选择样本
      • 选择样本:您可以从当前工作空间下,选择需要训练的样本字段,DataWorks将帮助您找到这些字段的内容特征,生成相应的规则模型。后续您可以使用该规则模型发现您数据资产中与该模型的特征内容类似的数据。

        说明
        • DataWorks不支持对数据量小于10条,并且数据长度小于4大于40的样本字段进行模型训练。

        • DataWorks不支持对包含中文字符(包括中文标点符号)的样本字段进行模型训练。

      • 过滤字段:如果某些字段容易与样本字段混淆,则您也可以在该规则模型中将其排除,排除后,使用该规则模型识别数据时,排除的字段将不会命中。同时,排除的字段将作为负向样本加入模型训练,以达到不命中混淆数据,提高识别准确率的效果。

    3. 单击下一步

    4. 单击开始训练,启动模型训练。

      本次模型训练将从您选的样本字段中各随机抽取不超过100条数据进行训练,并根据您的样本字段数量估算耗时。

      说明

      模型训练时间较长,请您等待。等待过程中,您也可以关闭训练弹窗,操作其他功能,模型将在后台自动运行训练。

  5. 查看模型训练结果。

    自生成数据识别模型页面,您可以查看目标模型的训练状态及训练结果,并根据训练结果判断该模型是否符合上线使用标准,用于识别数据。查看模型训练结果

    • 查看训练状态。

      • 剩余hh:mm:ss:表示当前模型正在训练中。

      • 训练完成:表示当前模型已完成训练,您可以根据训练结果,判断该模型后续是否可用于识别数据。

      • 草稿:表示该模型已创建,但未进行训练,不能投入识别数据。

    • 查看训练结果。

      单击完成训练的模型操作列的编辑模型图标,即可查看通过该模型提取的样本特征对样例数据识别的准确率。建议当准确率为100%时,再投入上线使用该模型。

      说明

      如果模型训练的评估结果准确率达不到100%,则投入上线使用识别的数据可能会有较大误差。建议您增加样本数据,重新训练模型,直至准确率达到100%后再投入上线使用。

      查看模型识别结果
  6. 单击确定创建,完成当前规则模型的创建。

后续步骤

成功创建规则模型后,您可以进入数据识别规则页面,上线使用当前模型来识别数据。在数据识别规则中使用自定义的模型识别数据,详情请参见通过内置规则识别