すべてのプロダクト
Search
ドキュメントセンター

DataWorks:カスタムモデルを使用したデータ検出

最終更新日:Dec 17, 2025

DataWorks では、サンプルフィールドを使用してモデルをトレーニングし、コンテンツの特徴を識別してルールモデルを生成できます。この機能を使用して、データ資産内で同様のコンテンツの特徴を持つデータを見つけることができます。このトピックでは、カスタムデータ検出モデルの作成方法について説明します。

制限事項

  • DataWorks は、10 エントリ未満のサンプルフィールドのモデルトレーニングをサポートしていません。各エントリのデータ長は 4~40 文字である必要があります。サンプルサイズは 10~10,000 エントリである必要があります。選択したフィールドの合計サンプルサイズが 10,000 エントリを超える場合、システムはランダムに 10,000 エントリを選択してトレーニングします。サンプルサイズが 10,000 エントリ未満の場合、システムは利用可能なすべてのエントリを使用します。

  • DataWorks は、数字、英字、特殊文字を含むデータのみのモデルトレーニングをサポートしています。漢字や中国語の句読点を含むサンプルフィールドのモデルトレーニングはサポートされていません。

モデルの作成

  1. データセキュリティガード に移動します。

    1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、データガバナンス > セキュリティセンターを選択します。表示されたページで、[セキュリティセンターへ] をクリックします。

    2. 左側のナビゲーションウィンドウで、データ使用セキュリティ > 機密データ管理 をクリックして、データセキュリティガード ページに移動します。

      説明
      • ご利用の Alibaba Cloud アカウントに必要な権限が付与されている場合は、データセキュリティガードページに直接アクセスできます。

      • ご利用の Alibaba Cloud アカウントに必要な権限が付与されていない場合は、データセキュリティガードの権限付与ページにリダイレクトされます。ご利用の Alibaba Cloud アカウントに権限が付与された後にのみ、データセキュリティガードの機能を使用できます。

  2. 左側のナビゲーションウィンドウで、ルール設定 > 機密データ検出 を選択して、機密データ検出 ページに移動します。

  3. モデルを作成してトレーニングします。

    1. 自己生成データ検出モデル タブで、[モデルの作成] をクリックします。

    2. モデルの作成 ダイアログボックスで、[モデル名] を設定し、トレーニングサンプルを選択します。

      • 正のサンプルフィールド:指定したワークスペースからトレーニング用のサンプルフィールドを選択します。DataWorks はこれらのフィールドのコンテンツの特徴を識別し、ルールモデルを生成します。その後、このルールモデルを使用して、データ資産内で同様のコンテンツの特徴を持つデータを見つけることができます。

        説明

        DataWorks は、10 エントリ未満のサンプルフィールドのモデルトレーニングをサポートしていません。各エントリのデータ長は 4~40 文字である必要があります。サンプルサイズは 10~10,000 エントリである必要があります。選択したフィールドの合計サンプルサイズが 10,000 エントリを超える場合、システムはランダムに 10,000 エントリを選択してトレーニングします。サンプルサイズが 10,000 エントリ未満の場合、システムは利用可能なすべてのエントリを使用します。

        DataWorks は、数字、英字、特殊文字を含むデータのみのモデルトレーニングをサポートしています。漢字や中国語の句読点を含むサンプルフィールドのモデルトレーニングはサポートされていません。

      • 負のサンプルフィールド:モデルの精度を向上させるために、負のサンプルフィールドを選択できます。システムはこれらのフィールドのデータをトレーニングの負のサンプルとして使用します。負のサンプルを選択しない場合、システムは正のサンプルの特徴と数に基づいて自動的に生成します。

    3. [次へ] をクリックします。

    4. [データセキュリティガードがモデルトレーニングにサンプルを使用することに同意します] を選択し、[トレーニングの開始] をクリックします。

      このトレーニングでは、システムは選択された各サンプルフィールドから最大 100 件のデータエントリをランダムに抽出します。トレーニングに必要な推定時間は、サンプルフィールドの数によって異なります。

      説明

      モデルのトレーニングには時間がかかる場合があります。トレーニングダイアログボックスを閉じて、モデルがバックグラウンドでトレーニングされている間に他の操作を実行できます。

  4. モデルのトレーニング結果を表示します。

    自己生成データ検出モデル ページで、モデルのトレーニングステータスと結果を表示できます。結果に基づいて、モデルを公開してデータ検出に使用する準備ができているかどうかを判断できます。查看模型训练结果

    • トレーニングステータスの表示

      • 残り hh:mm:ss:モデルはトレーニング中です。

      • トレーニング完了:モデルのトレーニングは完了です。トレーニング結果を評価して、モデルをデータ検出に使用できるかどうかを判断できます。

      • ドラフト:モデルは作成されましたが、まだトレーニングされていません。データ検出には使用できません。

    • トレーニング結果の表示

      トレーニング済みモデルの [アクション] 列の Edit model アイコンをクリックして、モデルがサンプルデータを識別する精度を確認します。 精度が 100% に達した場合にのみ、このモデルをオンライン環境にデプロイすることをお勧めします。

      説明

      モデルの精度が 100% 未満の場合、検出結果に重大なエラーが含まれる可能性があります。この場合、サンプルデータを追加してモデルを再トレーニングしてください。モデルの精度が 100% に達した後にのみ、モデルを公開してください。

      image

  5. [作成] をクリックしてルールモデルを作成します。

次のステップ

ルールモデルを作成した後、データ検出ルール ページに移動してモデルを公開し、データ検出に使用します。データ検出ルール ページでのカスタムモデルの使用方法の詳細については、「データ検出ルールの設定と検出タスクの実行」をご参照ください。