機密データ検出用のカスタムデータ識別モデルを構築 - DataWorks - Alibaba Cloud - DataWorks

DataWorks では、提供されたサンプルフィールドを使用してモデルトレーニングを実行できます。このプロセスは、ターゲットフィールドのコンテンツパターンを識別し、ルールモデルを生成するのに役立ちます。このモデルを使用して、データ資産内で同様のパターンを持つデータを発見できます。このトピックでは、カスタムデータ識別モデルの作成方法について説明します。

制限事項

DataWorks は、データが 10 行未満、または文字数が 4 文字未満、40 文字を超えるサンプルフィールドでのモデルトレーニングをサポートしていません。最小サンプルサイズは 10 行、最大は 10,000 行です。選択したフィールドの合計行数が 10,000 を超える場合、システムはランダムに 10,000 行を選択してモデルトレーニングを行います。合計数が 10,000 未満の場合、利用可能なすべての行がモデルトレーニングに使用されます。
現在、DataWorks は、数字、英字、特殊文字を含むデータのみのモデルトレーニングをサポートしています。中国語の句読点を含む中国語文字を含むサンプルフィールドでは、モデルトレーニングはサポートされていません。

モデルの作成

Data Security Guardに移動します。
1. DataWorks コンソールにログインします。対象のリージョンの左側のナビゲーションウィンドウで、データガバナンス > セキュリティセンター をクリックします。表示されたページで、入力 セキュリティセンター をクリックします。
2. 左側のナビゲーションウィンドウで [データセキュリティ] > [センシティブデータ管理] をクリックし、[今すぐ試す] をクリックしてデータセキュリティガードにアクセスします。
  説明
  - Alibaba Cloud アカウントがすでに権限付与されている場合、データセキュリティガードのホームページにリダイレクトされます。
  - Alibaba Cloud アカウントに権限が付与されていない場合、データセキュリティガードの権限付与ページにリダイレクトされます。初めてデータセキュリティガードの機能を使用するには、[データセキュリティ] > [センシティブデータ管理] に移動し、ポップアップダイアログでデータセキュリティガードを選択して、権限付与を完了します。
左側のナビゲーションウィンドウで、Rule Setting > [センシティブデータ識別] をクリックして、[センシティブデータ識別] ページに移動します。
モデルを作成し、モデルトレーニングを開始します。
1. [自己生成データ識別モデル] タブで、[モデルの作成] をクリックします。
2. [モデルの作成] ダイアログボックスで、Model Name を設定し、トレーニングサンプルを選択します。
  - [正例フィールド]：特定のワークスペースから 1 つ以上のサンプルフィールドを選択して、モデルトレーニングを行うことができます。DataWorks はこれらのフィールドを使用してコンテンツパターンを識別し、対応するルールモデルを生成します。その後、このモデルを使用して、データ資産内で同様のコンテンツパターンを持つデータを発見できます。
    
    説明
    DataWorks は、データが 10 行未満、または文字数が 4 文字未満、40 文字を超えるサンプルフィールドでのモデルトレーニングをサポートしていません。最小サンプルサイズは 10 行、最大は 10,000 行です。選択したフィールドの合計行数が 10,000 を超える場合、システムはランダムに 10,000 行を選択してモデルトレーニングを行います。合計数が 10,000 未満の場合、利用可能なすべての行がモデルトレーニングに使用されます。
    
    現在、DataWorks は、数字、英字、特殊文字を含むデータのみのモデルトレーニングをサポートしています。中国語の句読点を含む中国語文字を含むサンプルフィールドでは、モデルトレーニングはサポートされていません。
  - [負例フィールド]：モデルの精度を向上させるために、負例フィールドを選択できます。システムは、選択された負例フィールドのデータコンテンツをトレーニングの負のサンプルとして使用します。負例フィールドを選択しない場合、システムは正例のパターンとボリュームに基づいて負のサンプルを生成し、モデルトレーニングを完了します。
3. Next Step をクリックします。
4. [データセキュリティガードがモデルトレーニングにサンプルを使用することに同意します] を選択し、[トレーニングの開始] をクリックします。
  
  システムは、選択した各サンプルフィールドから最大 100 行のデータをランダムに抽出します。必要な推定時間は、サンプルフィールドの数に基づいて計算されます。
  
  説明
  モデルトレーニングには時間がかかる場合があります。トレーニングがバックグラウンドで実行されている間、トレーニングダイアログボックスを閉じて他の操作を実行できます。
モデルトレーニングの結果を表示します。
[自己生成データ識別モデル] ページでは、対象モデルのトレーニングステータスと結果を表示できます。この結果は、モデルがデプロイメントとデータ識別の準備ができているかどうかを判断するのに役立ちます。
- トレーニングステータスの表示
  - 残り hh:mm:ss：モデルはトレーニング中です。
  - [トレーニング完了]：モデルのトレーニングが完了しました。
  - Draft：モデルは作成されましたが、まだトレーニングされておらず、データ識別には使用できません。
- トレーニング結果の表示
  
  「トレーニング完了」ステータスのモデルの場合、操作列のアイコンをクリックすると、モデルで抽出された特徴がサンプルデータをどの程度の精度で識別するかを確認できます。精度が 100% に達した場合にのみモデルをデプロイすることを推奨します。
  
  説明
  最良の結果を得るには、デプロイメント前に精度が 100% になるまで、サンプルデータを追加してモデルを再トレーニングすることを推奨します。
  
  評価ページは [正例] と [負のサンプル] セクションに分かれており、ヒット率、総サンプル数、ヒット数、ミス数が表示されます。[識別詳細] セクションには、ランダムに選ばれた 10 サンプル行の識別結果 (一致または不一致) が表示されます。[更新] をクリックすると、他のランダムなサンプルを表示できます。
[作成] をクリックして、ルールモデルの作成を完了します。

次のステップ

ルールモデルが作成されたら、[データ識別ルール] ページに移動して、データ識別のためにモデルをデプロイメントします。[データ識別ルール] ページでのカスタムモデルの使用に関する詳細については、「データ識別ルールの設定と識別タスクの実行」をご参照ください。