機密データ識別ルール定義 - Dataphin - Alibaba Cloud - Dataphin

Dataphin では、識別ルールを設定することで、高いセキュリティレベルを必要とするビジネスデータを迅速に識別できます。

制限事項

デフォルトでは、識別ルールはビューを自動的にスキャンしません。ビューをスキャンするには、ルール実行設定でビュースキャンを有効にする必要があります。または、ビューの識別結果を手動で追加するか、一括インポートすることもできます。

権限

セキュリティ管理者、および[識別ルール]-[管理] 権限を持つカスタムグローバルロールは、識別ルールを作成および管理できます。
管理できるのは、自分が所有するルールのみです。管理タスクには、ルールの編集、削除、リセット、テスト、移管、手動実行、有効化、無効化が含まれます。

識別ルールの作成

Dataphin ホームページで、上部のナビゲーションバーから [ガバナンス] > [データセキュリティ] を選択します。
左側のナビゲーションペインで、[データ識別] > [識別ルール] を選択します。[識別ルール] ページで、[識別ルールを作成] をクリックします。

[識別ルールの作成] ダイアログボックスで、パラメーターを設定します。

パラメータ	説明
基本設定
[ルール名]	識別ルールの名前。命名要件：中国語、英字、数字、アンダースコア (_) を含めることができます。 12 文字以内である必要があります。
[説明]	ルールの説明です。最大 128 文字まで入力できます。
データ分類と秘密度レベル
[データカテゴリ]	データカテゴリを選択します。すべてのカテゴリ、指定されたディレクトリ配下のすべてのカテゴリ、または特定のデータカテゴリを選択できます。 [すべてのカテゴリ]: 現在のテナントでアクティブなすべてのデータカテゴリ。 [指定されたディレクトリ配下のすべてのカテゴリ]: 指定されたディレクトリとそのサブディレクトリにある、すべてのアクティブなデータカテゴリ。 [指定データカテゴリ]：親ディレクトリに基づいて、現在のディレクトリとそのサブディレクトリ配下のアクティブなデータカテゴリをフィルタリングします。データカテゴリをさらに追加するには、[カテゴリグループの追加] をクリックして複数のディレクトリを追加します。説明コンピューティングエンジンが StarRocks、Aliyun EMR Serverless Spark、または OushuDB (シングルテナント、マルチエンジンデプロイメントモードでサポート) で、フィールドタイプが HyperLogLog (HLL) の場合、コンテンツベースの識別はサポートされません。
スキャン範囲
[データソース]	スキャンするアセットの範囲を指定します。アセットは、[コンピューティングソース] または [データソース] から選択できます。 [コンピューティングソース]: 特定のデータドメインまたはプロジェクト内の Dataphin テーブルを選択できます。 [データソース]: メタデータ収集タスクが設定されているデータソースのみ選択できます。サポートされているデータソースのリストについては、「Dataphin でサポートされているデータソース」をご参照ください。
[ソーステーブルのスキャン範囲の算出]	このオプションは、コンピューティングソースを選択した場合にのみ表示されます。条件間の論理関係は、[AND] または [OR] にすることができます。スコープは[データドメイン]、[プロジェクト]、または[データテーブル]で定義できます。マッチング条件には、[すべて]、[属する]、[属さない]、[含む]、[含まない]、[正規表現 (大文字と小文字を区別しない)]、および[正規表現]が含まれます。 [すべて]：現在の Dataphin インスタンス内のすべてのアセットを選択します。 [属する/属さない]: 1 つ以上の特定のリソースを選択します。 [含む/含まない]: キーワードで照合します。たとえば、ユーザー情報テーブルを照合するには、`user_info` と入力します。 [正規表現 (大文字と小文字を区別しない)]: 正規表現を入力します。たとえば、名前に `test` を含むすべてのアイテムに一致させるには、式 `.test.` を使用します。照合では大文字と小文字は区別されません。 [正規表現]：正規表現を入力します。たとえば、名前に `test` を含むすべての項目に一致させるには、式 `.test.` を使用します。説明最大 5 つのスコープルールを追加でき、最大 2 レベルのネストが可能です。最大 100 個のデータドメインまたはプロジェクトを選択できます。
[データソーステーブルのスキャン範囲]	このオプションは、データソースを選択した場合にのみ表示されます。 [データソース]：スキャンする 1 つ以上のデータソースを選択します。データ範囲: スキャン対象として [すべてのテーブル] または [指定されたテーブル] を選択できます。[指定されたテーブル] を選択した場合、完全なテーブル名、資産インベントリタグ、テーブルの説明、または db/スキーマに基づいてフィルター条件を追加することで、資産の範囲を絞り込めます。フィルター条件は、AND または OR の論理関係で最大 10 個まで追加できます。 [完全なテーブル名]/[テーブルの説明]/[db/schema]：使用できるフィルター条件は、前方一致、後方一致、部分一致 (テーブルの説明のみ)、および所属 (db/schema のみ) です。 [前方一致]、[後方一致]、[部分一致]：最大 256 文字まで入力できます。 [所属]: 現在のソースから、対応するタイプのアセットを最大 500 個選択できます。 [アセットインベントリタグ]：使用できるフィルター条件は[いずれかを含む]と[すべてを含む]です。 [いずれかを含む]: 選択されたインベントリタグのいずれかを持つアセットに一致します。 [すべてを含む]: 選択されたすべてのインベントリタグがある場合にのみ、アセットに一致します。

[OK] をクリックして、識別ルールを作成します。
ルールを作成すると、識別ルールリストに表示され、デフォルトで有効になります。ルールは、実行スケジュールに従って翌日から自動的に実行されます。

識別ルールリスト

識別ルールリストには、各ルールの名前、データカテゴリ、所有者、最終更新日時、ステータスが表示されます。[説明] ボタンをクリックすると、識別ルール、データサンプリング、識別結果、および結果管理に関する情報を表示できます。
ルールを名前で検索したり、データカテゴリ、所有者、または [自分が所有] でフィルタリングしたりできます。

対象の識別ルールに対して、以下の操作を実行できます。

操作	説明
[有効]	[有効] 列のスイッチをオンまたはオフにします。有効にすると、ルールはスケジュールされたスキャンおよびリアルタイムスキャン設定に従って実行され、実行記録が生成されます。無効にすると、必要に応じて特定の範囲に対してルールを手動でトリガーできます。説明ルールを無効にしても、以前に生成された識別結果には影響しません。
[リセット]	[操作] 列またはページ下部の [リセット] をクリックします。ルールをリセットすると、まずスキャン範囲内のデータから既存のすべてのタグ付け結果がクリアされ、その後、識別プロセスが再度実行されて最新の結果が生成されます。
[詳細の表示]	[操作] 列の [詳細の表示] をクリックして、ルールの設定詳細を確認します。
[編集]	[操作] 列の [編集] をクリックして、ルールの情報を変更します。
[手動実行]	[操作] 列の [詳細] アイコンをクリックして [手動実行] を選択するか、ページ下部の [手動実行] をクリックして、選択したルールを実行します。データリネージに基づく自動継承が有効になっている場合、識別結果を自動的に継承できます。詳細については、「データリネージベースの継承」をご参照ください。一括手動スキャンを実行するときは、有効なルールと無効なルールの両方を実行できます。使用できる実行範囲は[すべてのルール (無効なルールを含む)]と[有効なルールのみ]です。
[コピー]	[操作] 列の [コピー] をクリックして、ルールの複製をすばやく作成します。
[移管]	[操作] 列で、[その他] アイコンをクリックして [転送] を選択するか、ページ下部の [転送] をクリックします。ルールの新しい所有者を選択し、[OK] をクリックします。識別ルールは、セキュリティ管理者のみに転送できます。
[削除]	[操作] 列の [詳細] アイコンをクリックして [削除] を選択するか、ページ下部の [削除] をクリックします。ルールを削除すると、そのルールによって適用されたすべてのデータ分類および秘密度レベルのタグが削除されます。この削除は翌日に有効になります。以前に生成された実行記録には影響しません。
[テスト]	指定されたプロジェクト、データソース、またはテーブルでルールをテストすると、その範囲内の資産に対するデータ分類、秘密度レベル、およびルールベースのタグ付けの結果がプレビューされます。それ以外の場合、これらの操作は無視されます。デフォルトのテストでは、ルールのスキャン範囲からサンプルデータを抽出し、これらの操作をサンプルに対して実行します。ページ下部の [テスト] をクリックし、テストするプロジェクト、データソース、またはデータテーブルを選択します。最大 10 個のプロジェクトまたは 10 個のテーブルを選択できます。テスト完了後、[テスト結果を表示] をクリックすると詳細を確認できます。説明テスト実行では、サンプルデータの結果のみが表示され、実際のタグは適用されません。テスト実行では、データスキャンと計算を実行するため、コンピューティングリソースを消費します。リソース使用量と実行時間を最小限に抑えるために、正確なテスト範囲を定義することを推奨します。実行時間は、選択した範囲内のルールの数と複雑さによって異なりますので、しばらくお待ちください。テストでは、単一の識別ルールが機密データを識別できるかどうかのみを判定します。実際のスキャンでは、複数のマッチングルールが評価され、優先度に基づいて 1 つが選択されます。そのため、テストタグ付け結果は、実際のルールタグ付け結果と異なる場合があります。

識別ルールの手動トリガー

[識別ルール] ページで、[手動ルールスキャン] をクリックすると、[手動ルールスキャン] ダイアログボックスが開きます。

[手動ルールスキャン] ダイアログボックスで、パラメーターを設定します。

パラメータ

説明

[スキャン範囲]

スキャン範囲は、[全データベーススキャン]、[プロジェクト別のスキャン]、[データソース別のスキャン]、または[テーブル別のスキャン]のいずれかを選択して定義します。

[フルデータベーススキャン]: Dataphin インスタンス内のすべてのデータをスキャンします。
[プロジェクト単位でスキャン]: 選択したプロジェクト内のすべてのデータをスキャンします。
[データソース別にスキャン]：選択したデータソース内のすべてのデータをスキャンします。
[テーブル単位でスキャン]: 選択したデータテーブル内のすべてのデータをスキャンします。プロジェクトまたはデータソースから最大 10 個のテーブルを選択できます。

[ルール実行範囲]

[有効なルールのみ] または [すべてのルール (無効なルールを含む)] のいずれかを選択して、実行するルールを定義します。

[有効なルールのみ]：Dataphin で現在有効になっているすべての識別ルールが含まれます。
[すべてのルール (無効化されたルールを含む)]: ステータスに関係なく、Dataphin のすべての識別ルールを含みます。

説明

まず、自動継承を有効にし、自動継承設定で [ルール実行によってトリガー] シナリオを選択する必要があります。詳細については、自動継承設定をご参照ください。
有効にすると、手動スキャンでも自動継承プロセスがトリガーされます。下流フィールドは、データリネージに基づいて直接の上流フィールドの秘密度レベルを継承し、スキャンカバレッジが拡大され、関連データ全体で結果の一貫性が向上します。
自動継承を有効にすると、スキャン範囲が拡大され、追加のコンピューティングリソースが消費されます。ビジネスニーズに基づいてこの機能を設定してください。

選択したアセットのスキャンを開始するには、[OK] をクリックします。
[実行記録] ページで進捗を監視できます。スキャン時間は、スキャン対象のデータ量によって異なりますので、しばらくお待ちください。

次のステップ

識別ルールを作成した後、ビジネスニーズに基づいてスキャン方法を調整できます。詳細については、識別ルールのスケジュールサイクルの設定および識別ルールの手動トリガーをご参照ください。また、自動継承を有効にすることもできます。詳細については、自動継承設定をご参照ください。
実行記録リストには、ルールスキャンによって検出された機密データが表示されます。詳細については、識別結果の管理をご参照ください。