すべてのプロダクト
Search
ドキュメントセンター

Dataphin:識別ルールと識別方法

最終更新日:Jan 14, 2026

識別ルールを確立した後、ビジネスニーズに合わせてスキャン方法をカスタマイズできます。システムは、スケジュールされたスキャン、手動スキャン、およびリアルタイム スキャンをサポートしています。また、データ系列に基づいてアップストリームの分類と等級付けの自動継承を可能にし、継承タスクを通じて識別結果を生成できるようにします。このトピックでは、識別ルールを設定する方法と識別結果を生成するプロセスについて説明します。

前提条件

識別ルールが確立されていること。作成方法については、「識別ルールを作成および管理する」をご参照ください。

制限事項

デフォルトでは、識別ルールはビューオブジェクトを自動的にスキャンしません。ただし、ルールのランタイム構成でビュースキャンを有効にすることができます。さらに、ビューの識別結果を手動で追加またはバッチインポートすることもできます。

権限の説明

セキュリティ管理者は、識別ルールを作成および管理し、ルール ランタイム構成を変更し、自動継承構成をアクティブ化する権限を持っています。

識別ルール ランタイム構成

  1. Dataphin ホームページの上部メニューバーから、[管理] > [データセキュリティ] を選択します。

  2. 左側のナビゲーションウィンドウで、[データ識別] > [分類ルール] を選択します。[分類ルール] ページで、[新しい識別ルール] の横にあるドロップダウン矢印をクリックし、[ルールランタイム構成] を選択します。

  3. [ルール ランタイム構成] ダイアログボックスで、パラメーターを構成します。

    パラメーター

    説明

    スキャン構成

    スケジュール期間

    デフォルトでは、識別ルールは 1 日 1 回スケジュールされます。ビジネス要件に応じてスケジューリング期間を調整できます。期間を長くするとリソース消費を削減できますが、機密データの識別が遅れる可能性があります。スケジューリング期間として [日][週][月] を選択できます。

    システム タイムゾーン(ユーザーセンターのタイムゾーン)がスケジュール タイムゾーン(管理ハブ > システム設定 > 基本設定 で構成されたタイムゾーン)と異なる場合、ルールはシステム タイムゾーンに従って実行されます。

    リアルタイムスキャン

    デフォルトは [無効] です。[有効] の場合、新しいテーブルが作成されたとき、テーブル構造が変更されたとき (フィールドが追加された、フィールドの名前が変更された、またはテーブルの名前が変更された)、またはテーブルデータが変更されたとき (Dataphin を介して実行された挿入、削除、更新)、テーブルが 1 回スキャンされ、機密フィールドにタグが付けられます。

    説明

    リアルタイムスキャンを有効にすると、機密データをより迅速に検出して保護できますが、計算リソースの消費量が増加する可能性があります。合理的に評価してください。

    スキャン範囲

    識別ルールのスキャン範囲を選択します。デフォルトは [フィルタービュー] で、[ビューを含める] に切り替えることができます。

    説明
    • 識別結果のバッチインポートと手動追加は、この構成の影響を受けません。ビューオブジェクトの識別結果を直接追加できます。

    • スキャン範囲にビューが含まれる場合、ルールベースの自動スキャンとリネージベースの自動継承の両方で、ビューオブジェクトが分類および等級付けされます。

    • ビューオブジェクトには、物理ビュー、論理ビュー、データソースビュー、データソース マテリアライズドビュー、およびマテリアライズドビューが含まれます。

    同時実行数

    識別機能のインテリジェントマッピングの標準モジュールタスク、スケジュールされたスキャン、手動スキャン、リアルタイムスキャン、およびリネージ更新によってトリガーされる自動継承スキャンタスクを含む、グローバルに同時に実行される識別タスクの数を制御するために使用されます。デフォルトは 16 で、1 から 100 までの正の整数を構成できます。

    説明
    • このパラメーターは、自動トリガーサンプリングクエリが無効になっている場合にのみ有効になります。

    • 並列処理の次数を増やすとスキャンが高速化されますが、より多くのクラスター計算リソースが使用されます。システムの安定性を確保するために、ビジネスニーズに基づいてこのパラメーターを構成してください。

    サンプリング構成

    説明

    これは、自動サンプリングと、自動サンプリングが無効になっている場合にコンテンツベースの検出のためにトリガーされる一時的なサンプリングクエリに適用されます。

    自動サンプリング

    これは、[管理] > [メタデータ] > [サンプリング構成] でデータサンプリングがオンになっており、トリガーシナリオが `セキュリティ識別ルールの実行` または `標準マッピングルールの実行` に設定されている場合に有効になります。それ以外の場合は無効になります。

    有効にすると、[メタデータ] > [サンプリング構成] の設定に基づいて自動データサンプリングが実行されます。識別ルールが実行されると、システムはまずデータ範囲内にサンプル値が存在するかどうかをチェックして、データサンプリングが必要かどうかを判断します。次に、自動サンプリング更新ポリシーに基づいて自動サンプリングを実行します。

    説明

    セキュリティ識別ルールにコンテンツベースの検出が含まれる場合、または識別機能に基づいてインテリジェントなマッピングを行うために標準マッピングルールが構成されている場合は、この機能を有効にしてください。これにより、データが古くなるのを防ぎ、一時的なデータクエリによる余分なリソース消費を回避できます。

    実行スペース

    サンプルデータがなく、コンテンツベースの検出のために一時的なデータクエリが必要な場合、一時的なデータクエリノードのコンピューティングリソースを選択します。[管理] > [メタデータ] > [サンプリング構成] > [コンピュートソース] で構成を変更できます。

    説明
    • 一時的なデータクエリノードは、いくつかの計算リソースを使用します。ほとんどの場合、データが存在するプロジェクトを選択します。

    • データのソースプロジェクトのリソース負荷とクエリコストを削減したい場合 (たとえば、別のサブスクリプションプロジェクトを選択するなど)、および通常のビジネスプロジェクトとの干渉を避けたい場合は、一時的なデータクエリ専用のプロジェクトリソースまたはキューを割り当てることもできます。

    • 選択したプロジェクトのコンピュートエンジン用に構成されたアカウントに、関連するデータテーブルに対する読み取り権限があることを確認してください。

    • コンピュートエンジンが E-MapReduce 3.x、E-MapReduce 5.x、CDH 5.x、CDH 6.x、FusionInsight 8.x、Asiainfo DP 5.3、Cloudera Data Platform 7.x、Lindorm (コンピュートエンジン)、Amazon EMR、または Transwarp TDH で、データテーブルがレイクテーブルである場合、データをスキャンするにはプロジェクトのコンピュートエンジン用の Spark ノードを有効にする必要があります。データテーブルのストレージフォーマットが Kudu の場合、データをスキャンするにはプロジェクトのコンピュートエンジン用の Impala ノードを有効にする必要があります。

    スキャン無効期間

    指定された期間中、自動的にトリガーされるデータサンプリングクエリタスクは開始されず、直接失敗します。これにより、本番環境タスクの通常の運用に影響を与える可能性のある過剰なコンピューティングリソースの使用を回避し、オンラインデータタスクの安定性を確保します。[管理] > [メタデータ] > [サンプリング構成] > [コンピュートソース] で構成を変更できます。

    説明
    • このルール ランタイム構成のデータ標準モジュールの同時実行数、スキャン無効期間、サンプリング構成、リソース構成、および機能スキャン構成は共有されます。1 つを変更すると、他のものにも同期的に影響します。

    • グローバル機能識別タスクには、標準モジュールとセキュリティモジュールの両方の機能識別タスクが含まれます。

      • データ標準: 手動実行ルールとスケジュール実行ルールの両方を含む、マッピングルールに基づく識別機能のインテリジェントマッピングのタスク。

      • アセットセキュリティ: スケジュールされたスキャン、手動スキャン、リアルタイムスキャン、およびリネージ継承に基づく識別タスクが含まれます。

  4. [OK] をクリックして、識別ルールのスケジューリング期間の構成を完了します。

自動継承構成

  1. [分類ルール] ページで、[自動継承構成] ボタンをクリックします。

  2. [リネージベースの自動継承構成] ダイアログボックスで、パラメーターを設定します。

    パラメーター

    説明

    継承

    この機能はデフォルトで無効になっています。有効にすると、フィールドリネージに基づいて自動継承のシナリオとルールを構成できます。

    説明

    この機能を有効にすると、自動継承は直接のリネージのみに基づきます。下流フィールドは、親テーブルフィールドから感度レベルを自動的に継承します。システムはまた、デフォルトの脱感作ルールを適用して新しいデータを保護します。このプロセスにより、手動での構成コストが削減され、関連データの検出結果の一貫性と関連性が向上します。

    継承ルール

    • 継承結果が 1 つだけの場合は、[分類 + 等級付けを継承] または [等級付けのみを継承、分類を継承しない] を選択できます。

      • [分類 + 等級付けを継承]: 脱感作ルールをフィールドにより正確に適用できます。

      • [等級付けのみを継承、分類を継承しない]: 直接の祖先テーブルフィールドのデータ等級付けを継承します。後で識別レコードでデータ分類を手動で指定できます。

    • 継承結果が複数ある場合は、[最高の等級付けのみを継承、分類を継承しない] または [最高の等級付け + 最高等級付けソースフィールドに対応する分類を継承] を選択できます。

      • [最高の等級付けのみを継承、分類を継承しない]: 直接の祖先テーブルフィールドの最高のデータ等級付けを継承します。後で識別レコードでデータ分類を手動で指定できます。

      • [最高の等級付け + 最高等級付けソースフィールドに対応する分類を継承]: 複数のフィールドの感度レベルが同じであるが分類が異なる場合、分類結果は、分類の優先度 > 識別レコードの更新時刻 > 分類の変更時刻によって決定されます。

    トリガーシナリオ

    [識別ルールの実行] または [リネージの更新] を選択できます。

    • [識別ルールの実行]: スキャンされたオブジェクトの直接の下流について、このスキャンされたオブジェクトの識別結果に基づいて継承結果を計算します。

      説明
      • 識別ルールが実行されるたびに、ルールによって選択されたオブジェクトについて、フィールドリネージに従って下流フィールドをクエリし、ルール構成に基づいて自動継承結果を生成します。

      • 祖先テーブルフィールドが異なるが、継承結果に対応する分類と等級付けが同じ場合、継承結果のソースフィールドが更新されます。新しい分類と等級付けの継承結果が生成された場合は、対応するレコードが追加されます。

    • [リネージ更新]: 更新された各リネージ出力フィールド について、入力フィールドに基づいて継承結果を計算します。

      説明
      • タスクが開発環境に送信されるか、運用環境に公開されるたびに、出力テーブルに基づいて入力テーブルをクエリし、入力フィールドのリネージを取得し、ルール構成に従って自動継承結果を生成します。

      • 祖先テーブルフィールドが異なるが、継承結果に対応する分類と等級付けが同じ場合、継承結果のソースフィールドが更新されます。新しい分類と等級付けの継承結果が生成された場合は、対応するレコードが追加されます。

    少なくとも 1 つの継承シナリオを選択する必要があります。

    説明
    • 指定された分類がない識別結果については、継承元に基づいて適切な分類を手動で割り当てることができます。デフォルトの脱感作ポリシー を設定して、自動的に継承された等級付け結果データと脱感作アルゴリズム間の互換性を確保し、データセキュリティを強化することをお勧めします。

    • 最終的に有効な識別結果の優先度は、高いものから順に、手動実行、自動識別、自動リネージ継承です。

  3. [OK] をクリックして、リネージベースの自動継承の構成を完了します。