すべてのプロダクト
Search
ドキュメントセンター

DataWorks:カスタムデータ識別モデルの生成

最終更新日:Jan 11, 2025

DataWorks では、サンプルフィールドを使用してモデルをトレーニングできます。DataWorks はこれらのフィールドの特徴を抽出し、ルールモデルを生成します。このルールモデルを使用して、データアセット内の類似の特徴を持つデータを識別できます。このトピックでは、カスタムデータ識別モデルを生成する方法について説明します。

制限事項

  • DataWorks でモデルトレーニングに使用するサンプルフィールドには、少なくとも 10 個のデータエントリが含まれており、長さは 4 ~ 40 文字である必要があります。

  • DataWorks でモデルトレーニングに使用するサンプルフィールドには、中国語の句読点を含む中国語の文字を含めることはできません。

モデルの作成

  1. [データセキュリティガード] ページに移動します。

    1. DataWorksコンソール にログオンします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションペインで、[データ開発とガバナンス] > [データ開発] を選択します。表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。

    2. 左上隅にある 图标 アイコンをクリックし、[すべての製品] > [データガバナンス] > [データセキュリティガード] を選択し、[今すぐ試す] をクリックします。

      説明
      • Alibaba Cloud アカウントに必要な権限が付与されている場合、データセキュリティガードのホームページに直接アクセスできます。

      • Alibaba Cloud アカウントに必要な権限が付与されていない場合は、データセキュリティガードの承認ページにリダイレクトされます。Alibaba Cloud アカウントに必要な権限が付与された後にのみ、データセキュリティガードの機能を使用できます。

  2. 左側のナビゲーションペインで、[ルール設定] > [機密データ識別] を選択します。[機密データ識別] ページが表示されます。

  3. モデルを作成してトレーニングします。

    1. [自己生成データ識別モデル] タブで、[モデルの作成] をクリックします。

    2. [モデルの作成] ダイアログボックスで、[モデル名] パラメーターを設定し、モデルトレーニングに使用するサンプルフィールドを選択します。

      • サンプルフィールド: 特定のワークスペースからモデルトレーニングに使用するサンプルフィールドを選択できます。DataWorks はこれらのフィールドの特徴を抽出し、ルールモデルを生成します。次に、このルールモデルを使用して、データアセット内の類似の特徴を持つデータを識別できます。

        説明
        • DataWorks でモデルトレーニングに使用するサンプルフィールドには、少なくとも 10 個のデータエントリが含まれており、長さは 4 ~ 40 文字である必要があります。

        • DataWorks でモデルトレーニングに使用するサンプルフィールドには、中国語の句読点を含む中国語の文字を含めることはできません。

      • 除外フィールド: 特定のフィールドがサンプルフィールドとして誤って識別されるリスクがある場合は、これらのフィールドをルールモデルから除外できます。このように、除外されたフィールドは、ルールモデルを使用してデータを識別するときにヒットしません。除外されたフィールドは、識別精度を向上させるために、モデルのトレーニングに負のサンプルとして使用されます。

    3. [次へ] をクリックします。

    4. [モデルトレーニングのためにデータセキュリティガードにデータをサンプリングすることを承認することに同意します] を選択し、[トレーニング開始] をクリックしてモデルのトレーニングを開始します。

      指定した各サンプルフィールドから 100 個未満のデータエントリがランダムに選択され、モデルのトレーニングに使用されます。トレーニング時間は、指定したサンプルフィールドの数によって異なります。

      説明

      トレーニングが完了するまで待ちます。モデルのトレーニング中に他の機能を使用する場合は、[モデルの作成] ダイアログボックスを閉じることができます。DataWorks はバックグラウンドでモデルをトレーニングします。

  4. トレーニング結果を表示します。

    [自己生成データ識別モデル] タブで、モデルのトレーニングステータスと結果を表示できます。トレーニング結果に基づいて、モデルがオンライン環境でのデータ識別に適格かどうかを判断できます。查看模型训练结果

    • トレーニングステータスを表示します。

      • [残り Hh:mm:ss]: モデルはトレーニング中です。

      • [トレーニング完了]: モデルのトレーニングは完了です。トレーニング結果に基づいて、モデルをデータ識別に使用できるかどうかを判断できます。

      • [ドラフト]: モデルは作成されていますが、トレーニングされていません。モデルはデータ識別に使用できません。

    • トレーニング結果を表示します。

      抽出されたサンプル機能を使用してサンプルデータを識別する精度を表示するには、トレーニング済みモデルの 编辑模型[アクション] 列にある アイコンをクリックします。精確度が 100% に達した場合にのみ、このモデルをオンライン環境にデプロイすることをお勧めします。

      説明

      サンプルデータの識別精度が 100% 未満のモデルをオンライン環境にデプロイすると、識別された結果と実際の結果に大きな食い違いが生じる可能性があります。この場合は、サンプルデータの量を増やして、サンプルデータの識別精度が 100% に達するまでモデルを再トレーニングすることをお勧めします。次に、このモデルをオンライン環境にデプロイします。

      查看模型识别结果

  5. [作成] をクリックして、ルールモデルを作成します。

次のステップ

ルールモデルを作成した後、[データ識別ルール] タブでこのルールモデルを使用してデータ識別を実行できます。詳細については、「機密データ識別ルールを設定し、機密データ識別タスクを実行する」をご参照ください。