識別ルールと方法 - Dataphin - Alibaba Cloud ドキュメントセンター

識別ルールを作成すると、ビジネス要件に応じてデータのスキャン方法をカスタマイズできます。定期、手動、またはリアルタイムのスキャンを実行できます。また、データリネージに基づいてアップストリームソースからデータカテゴリと感度レベルを自動的に継承し、継承タスクを通じて識別結果を生成することもできます。このトピックでは、識別ルールの設定方法と識別結果の生成方法について説明します。

前提条件

識別ルールが作成されていること。手順については、「識別ルールの作成と管理」をご参照ください。

制限事項

デフォルトでは、識別ルールを使用する自動スキャンはビューをスキャンしません。ルール実行設定でビュースキャンを有効にできます。また、ビューの識別結果を手動で追加またはインポートすることもできます。

権限

セキュリティ管理者は、識別ルールの作成と管理、ルール実行設定の変更、および自動継承設定の有効化ができます。

ルール実行設定

Dataphin のホームページで、上部のナビゲーションバーから [ガバナンス] > [データセキュリティ] を選択します。
左側のナビゲーションウィンドウで、[データ検出] > [識別ルール] を選択します。[識別ルール] ページで、[識別ルールを作成] の横にあるドロップダウン矢印をクリックし、[ルール実行設定] を選択します。

[ルール実行設定] ダイアログボックスで、パラメーターを設定します。

パラメーター		説明
スキャン設定	スケジュール周期	デフォルトでは、識別ルールは 1 日 1 回実行されるようにスケジュールされます。ビジネスニーズに応じてスケジュール周期を調整できます。周期を長くするとリソースの消費を削減できますが、機密データの検出が遅れる可能性があります。[日]、[週]、または [月] を選択できます。システムのタイムゾーン (ユーザーセンターのタイムゾーン) がスケジューリングタイムゾーン ([管理センター] > [システム設定] > [基本設定] で設定) と異なる場合、ルールはシステムのタイムゾーンに基づいて実行されます。
	[計算ソーステーブルのリアルタイムスキャン]	この機能は、デフォルトで [無効] になっています。[有効] にすると、テーブルが新規作成された場合、その構造が変更された場合 (フィールドの追加、フィールド名やテーブル名の変更)、または Dataphin 内で `insert`、`delete`、`update` 操作によってデータが変更された場合に、システムは自動的にテーブルのスキャンをトリガーします。スキャンによって機密フィールドが識別され、タグ付けされます。説明リアルタイムスキャンを有効にすると、機密データの検出と保護が迅速化されますが、計算リソースの消費が増加する可能性があります。ニーズに基づいてこの設定を評価してください。リアルタイムスキャンは、データソーステーブルではサポートされていません。
	[スキャン範囲]	識別ルールのスキャン範囲を選択します。デフォルトでは、[ビューを除外] が選択されています。[ビューを含める] に切り替えることができます。説明この設定は、手動で追加またはバッチでインポートされた識別結果には影響しません。ビューの結果は直接追加できます。 [ビューを含める] を選択すると、ルールベースの自動スキャンとデータリネージベースの自動継承の両方で、ビューにデータ分類が適用されます。ビューには、物理ビュー、論理ビュー、データソースビュー、データソースマテリアライズドビュー、マテリアライズドビューが含まれます。
	同時実行	同時に実行できる識別タスクの最大数を制御します。これには、データ標準モジュールからのインテリジェントなマッピングとタグ付けのためのタスク、およびデータセキュリティモジュールからのデータリネージに基づく定期、手動、リアルタイム、継承スキャンが含まれます。デフォルト値は 16 です。有効な値は 1 から 100 までの整数です。説明この設定は、自動的にトリガーされるサンプリングクエリが無効になっている場合にのみ有効です。同時実行数を増やすとスキャンプロセスが高速化されますが、クラスターの計算リソースの消費量が増加します。システムの安定性を確保するために、ビジネス要件に基づいてこの値を慎重に設定してください。
サンプリング設定説明これらの設定は、自動サンプリングと、自動サンプリングが無効な場合にコンテンツベースの識別のためにトリガーされる一時的なサンプリングクエリの両方に適用されます。	[自動サンプリング]	このオプションは、[ガバナンス] > [メタデータ] > [サンプリング設定] でデータサンプリングが設定され、トリガーシナリオが識別ルールの実行または標準タグ付けルールの実行に設定されている場合に有効になります。それ以外の場合は無効です。有効にすると、システムは [メタデータ] - [サンプリング設定] の設定に従って自動データサンプリングを実行します。識別ルールが実行されると、システムはまず既存のサンプルデータを確認します。サンプルデータがない場合は、設定された自動サンプリング更新ポリシーに基づいてデータサンプリングを実行します。説明識別ルールにコンテンツベースの認識が含まれる場合、またはデータ標準モジュールが認識された特徴に基づいてインテリジェントなマッピングを行うように設定されている場合は、このオプションを有効にすることを推奨します。これにより、データの陳腐化を防ぎ、一時的なデータクエリによる余分なリソース消費を回避できます。自動サンプリングが有効になっている場合、データソーステーブルに対してデータサンプリングタスクが自動的にトリガーされます。
	コンピュートソーステーブルのクエリスペース	コンテンツベースの識別でサンプリングされたデータが利用できない場合、一時的なデータクエリが必要です。このクエリを実行するための計算リソースを選択する必要があります。この設定は、[ガバナンス] > [メタデータ] > [サンプリング設定] > [計算ソース] で変更できます。説明一時的なデータクエリタスクは計算リソースを消費します。通常、データテーブルが配置されているプロジェクトを選択できます。プライマリプロジェクトのリソース負荷やクエリコストを削減するために、一時的なデータクエリ専用のプロジェクトまたはリソースキューを割り当てることができます。これにより、通常のビジネスタスクへの干渉を回避できます。選択したプロジェクトの計算ソースに設定されているアカウントに、関連するデータテーブルに対する読み取り権限があることを確認してください。データソーステーブルの一時的なクエリタスクは、それぞれのデータソース内でのみ実行できます。 E-MapReduce 3.x、E-MapReduce 5.x、CDH 5.x、CDH 6.x、FusionInsight 8.x、Asiainfo-Data DP 5.3、Cloudera Data Platform 7.x、Lindorm (コンピュートエンジン)、Amazon EMR、または Transwarp TDH のいずれかのコンピュートエンジンでレイクハウスのテーブルをスキャンする場合、プロジェクトに関連付けられた計算ソースで Spark タスクが有効になっている必要があります。Kudu ストレージフォーマットのテーブルの場合、データをスキャンするには、プロジェクトに関連付けられた計算ソースで Impala タスクが有効になっている必要があります。
	スキャン停止期間	この期間中、システムは新しく自動的にトリガーされるデータサンプリングクエリをブロックし、即座に失敗させます。これにより、これらのタスクが過剰な計算リソースを消費して本番タスクに影響を与えるのを防ぎ、オンラインデータサービスの安定性を確保します。この設定は、[ガバナンス] > [メタデータ] > [サンプリング設定] > [計算ソース] で変更できます。

説明

ここで定義されている [同時実行数]、[スキャンブラックアウト期間]、[サンプリング設定]、およびリソース設定は、データ標準モジュールの特徴スキャン設定と共有されます。これらの設定を一方のモジュールで変更すると、もう一方にも適用されます。
グローバル特徴認識タスクには、データ標準モジュールとデータセキュリティモジュールの両方からのタスクが含まれます。
- データ標準：認識された特徴に基づいてインテリジェントに照合し、タグを適用するマッピングルール (手動および定期ルール) のタスクが含まれます。
- データセキュリティ：定期、手動、リアルタイムのスキャン、およびデータリネージの継承に基づく識別タスクが含まれます。

[OK] をクリックして設定を保存します。

自動継承設定

[識別ルール] ページで、[自動継承設定] をクリックします。

[データリネージに基づく自動継承設定] ダイアログボックスで、パラメーターを設定します。

パラメーター	説明
[自動継承]	デフォルトでは無効です。有効にすると、データリネージに基づいて自動継承のシナリオとルールを設定できます。説明自動継承が有効な場合、直接のデータリネージにのみ適用されます。ダウンストリームのフィールドは、直接のアップストリームフィールドの感度レベルを自動的に継承します。この機能は、デフォルトのデータマスキングポリシーと連携して新しいデータを自動的に保護し、手動での設定作業を削減し、関連するデータ資産間の一貫性を確保します。
[継承ルール]	継承結果が 1 つしかない場合は、[カテゴリと感度レベルを継承] または [感度レベルのみを継承し、カテゴリは継承しない] を選択できます。 [カテゴリとレベルを継承]：フィールドにデータマスキングポリシーをより正確に適用できます。 [レベルのみを継承し、カテゴリは継承しない]：直接のアップストリームフィールドからデータレベルを継承します。後で識別レコードでデータカテゴリを手動で指定できます。複数の継承結果がある場合は、[最高感度レベルのみを継承し、カテゴリは継承しない] または [最高感度レベルと、そのソースフィールドのカテゴリを継承] を選択できます。 [最高レベルのみを継承し、カテゴリは継承しない]：すべての直接のアップストリームフィールドから最高のデータレベルを継承します。後で識別レコードでデータカテゴリを手動で指定できます。 [最高レベル + 最高レベルのフィールドのカテゴリを継承]：複数のフィールドが同じ最高感度レベルを持つがカテゴリが異なる場合、最終的なカテゴリは次の優先度に基づいて決定されます：カテゴリ優先度 > 識別レコードの更新時間 > カテゴリの変更時間。
トリガーシナリオ	[識別ルールの実行] または [データリネージの更新] を選択できます。 [識別ルールの実行]：スキャンされたオブジェクトの直接のダウンストリームターゲットに対して、システムはそのオブジェクトのスキャン結果に基づいて継承結果を計算します。説明識別ルールが実行されるたびに、ルール範囲内のオブジェクトのダウンストリームフィールドをクエリし、設定された継承ルールに従って自動継承結果を生成します。アップストリームフィールドが異なっていても、結果のカテゴリとレベルが同じである場合、継承結果のソースフィールドが更新されます。新しいカテゴリとレベルが継承された場合は、新しいレコードが作成されます。 [データリネージの更新]：データリネージが更新された各出力フィールドに対して、システムはその入力フィールドに基づいて継承結果を計算します。説明タスクが開発環境に送信されるか、本番環境にデプロイされるたびに、システムは出力テーブルの入力テーブルをクエリして入力フィールドのデータリネージを取得し、自動継承結果を生成します。アップストリームフィールドが異なっていても、結果のカテゴリとレベルが同じである場合、継承結果のソースフィールドが更新されます。新しいカテゴリとレベルが継承された場合は、新しいレコードが作成されます。少なくとも 1 つのトリガーシナリオを選択する必要があります。

説明

カテゴリが指定されていない識別結果については、継承元に基づいて適切なカテゴリを手動で割り当てることができます。継承された感度レベルを持つデータが適切にマスキングされ、データセキュリティが強化されるように、デフォルトのデータマスキングポリシーを設定することを推奨します。
最終的な識別結果の優先度は、高いものから順に、手動上書き > 自動識別 > データリネージの自動継承となります。

[OK] をクリックして設定を保存します。