すべてのプロダクト
Search
ドキュメントセンター

DataWorks:センシティブデータ検出タスクの作成

最終更新日:Dec 13, 2025

このトピックでは、センシティブデータ検出タスクを作成し、不正確な検出結果を手動で修正する方法について説明します。

説明

手動で修正された結果は翌日に表示されます。

検出タスクの作成

  1. センシティブデータ検出ルールページに移動します。詳細については、「センシティブデータ検出ルールページへの移動」をご参照ください。

  2. [検出タスク] タブをクリックして、検出タスクページに移動します。

  3. センシティブデータ検出タスクを開始します。

    1. センシティブデータ検出タスクを設定します。

      [センシティブデータ検出タスクを有効にする] ダイアログボックスで、タスクタイプ、スキャンメソッド、および範囲を設定します。リアルタイムタスク、スケジュールされたタスク、またはワンタイムタスクを設定できます。

      1. リアルタイムタスクの設定

        次の表にパラメーターを説明します。

        パラメーター

        説明

        検出用アカウント

        Alibaba Cloud アカウントまたは RAM ユーザーを使用して、データサンプリングとスキャンを設定します。選択したアカウントは、データのサンプリングとスキャンに使用されます。サンプリングできるデータ範囲は、アカウントの権限によって異なります。

        説明

        RAM ユーザーを使用して検出を実行するには、まず RAM ユーザーに MaxCompute プロジェクトに対する権限を付与する必要があります。

        リアルタイム検出

        リアルタイム検出をサポートしているのは ODPS のみです。テーブルやフィールドの追加、フィールドの変更など、ODPS のメタデータが変更されると、データセキュリティガードは変更されたメタデータに対して自動的にセンシティブデータ検出を開始します。

        データセキュリティガードは、メタデータの変更情報をリアルタイムで取得します。メタデータの変更が新しいテーブルまたはフィールドの追加によって引き起こされた場合、新しいテーブルまたはフィールドにはまだコンテンツがない可能性があります。この場合、センシティブデータ検出にはメタデータのみが使用されます。

      1. スケジュールされたタスクの設定次の表にパラメーターを説明します。

        パラメーター

        説明

        タスク実行

        タスクの実行を手動で有効にします。

        後続の検出タスクのスキャンと更新ポリシー

        2 つのオプションがあります:

        • 変更されたルール、変更されたルールの影響を受けるデータ、および結果のないデータのみを再スキャンして結果を更新します。

        • すべてのデータを再スキャンし、すべての結果を上書きします。

        [手動で修正された結果を上書きしない] を選択できます。

        検出用アカウント

        Alibaba Cloud アカウントまたは RAM ユーザーを使用して、データサンプリングとスキャンを設定します。選択したアカウントは、データのサンプリングとスキャンに使用されます。サンプリングおよびスキャンできるデータ範囲は、アカウントの権限によって異なります。

        説明

        RAM ユーザーを使用してデータをサンプリングおよびスキャンするには、まず RAM ユーザーに MaxCompute プロジェクトに対する権限を付与する必要があります。

        コンテンツ検出

        センシティブデータ検出ルール内の [コンテンツ検出] および [メタデータ検出] ルールを有効にするかどうかを設定します。対応するルールは、選択した後にのみ有効になります。

        説明

        [コンテンツ検出] を選択しない場合、データセキュリティガードはデータをサンプリングまたはスキャンしません。コンテンツ検出ルールは有効になりませんが、フィールド名とフィールドコメントのルールは引き続き有効です。

        サンプルサイズ

        コンテンツ検出のサンプルサイズを設定します。100 より大きい値を推奨します。

        このパラメーターは、[コンテンツ検出] を選択した場合に必須です。

        スキャン頻度スキャン時間

        スケジュールされたタスクのスキャン期間を定義します。

        このパラメーターは、[タスクタイプ][スケジュールされたタスク] に設定した場合にのみ必須です。

        [スキャン頻度] では、[週に1回] または [1日に1回] を選択できます。[週に1回] を選択した場合は、[月曜日から金曜日] までの曜日を指定できます。時間範囲は 00:00 から 23:59 です。

        スキャン範囲

        センシティブデータ検出タスクのデータ範囲を設定します。

        1. すべて:現在のテナントの権限が付与されたアカウント配下のすべてのデータをスキャンします。

        2. 部分的なデータ:指定したプロジェクトのテーブルデータをスキャンすることを選択できます。

          説明
          1. デフォルトでは、プロジェクト範囲にはすべてのデータエンジンのすべてのプロジェクトが含まれます。

          2. ODPS、EMR、および HOLO プロジェクトの指定されたテーブルのデータをスキャンできます。

            1. テーブル名の合計長は 0~100 文字です。すべての文字タイプがサポートされています。空白のままにすると、すべてのテーブルがスキャンされます。

            2. ワイルドカード文字 .* がサポートされています。たとえば、.*namename で終わる名前に一致し、private.*private で始まる名前に一致します。

            3. 複数のテーブル名またはフィールド名をコンマ (,) で区切ります。

          3. [部分的なデータ] を選択した場合、複数のプロジェクトまたはデータベースのスキャン範囲を追加できます。最終的なスキャン範囲は、指定されたすべての範囲の和集合になります。

            1. 左側のペインでプロジェクトを手動で選択します。

            2. プロジェクトを選択すると、プロジェクトまたはデータベース内のデータテーブルが右側に表示されます。テーブルを手動で選択するか、一度にすべてのテーブルを選択できます。デフォルトでは、データベース内のすべてのデータテーブルが選択されます。

            3. プロジェクトまたはデータベースの範囲、およびデータテーブルに対してキーワード検索がサポートされています。キーワードでデータテーブルを検索するには、まず検索対象のプロジェクトを選択します。

      2. ワンタイムタスクの設定次の表にパラメーターを説明します。

        パラメーター

        説明

        検出タスクのスキャンと更新ポリシー

        2 つのオプションがあります:

        • 変更されたルール、変更されたルールの影響を受けるデータ、および結果のないデータのみを再スキャンして結果を更新します。

        • すべてのデータを再スキャンし、すべての結果を上書きします。

        [手動で修正された結果を上書きしない] を選択できます。

        検出用アカウント

        Alibaba Cloud アカウントまたは RAM ユーザーを使用して、データサンプリングとスキャンを設定します。選択したアカウントは、データのサンプリングとスキャンに使用されます。サンプリングおよびスキャンできるデータ範囲は、アカウントの権限によって異なります。

        説明

        RAM ユーザーを使用してデータをサンプリングおよびスキャンするには、まず RAM ユーザーに MaxCompute プロジェクトに対する権限を付与する必要があります。

        コンテンツ検出

        センシティブデータ検出ルール内の [コンテンツ検出] および [メタデータ検出] ルールを有効にするかどうかを設定します。対応するルールは、選択した後にのみ有効になります。

        説明

        [コンテンツ検出] を選択しない場合、データセキュリティガードはデータをサンプリングまたはスキャンしません。コンテンツ検出ルールは有効になりませんが、フィールド名とフィールドコメントのルールは引き続き有効です。

        サンプルサイズ

        コンテンツ検出のサンプルサイズを設定します。100 より大きい値を推奨します。

        このパラメーターは、[コンテンツ検出] を選択した場合に必須です。

        スキャン範囲

        センシティブデータ検出タスクのデータ範囲を設定します。

        1. すべて:現在のテナントの権限が付与されたアカウント配下のすべてのデータをスキャンします。

        2. 部分的なデータ:指定したプロジェクトのテーブルデータをスキャンすることを選択できます。

          説明
          1. デフォルトでは、プロジェクト範囲にはすべてのデータエンジンのすべてのプロジェクトが含まれます。

          2. ODPS、EMR、および HOLO プロジェクトの指定されたテーブルのデータをスキャンできます。

            1. テーブル名の合計長は 0~100 文字です。すべての文字タイプがサポートされています。空白のままにすると、すべてのテーブルがスキャンされます。

            2. ワイルドカード文字 .* がサポートされています。たとえば、.*namename で終わる名前に一致し、private.*private で始まる名前に一致します。

            3. 複数のテーブル名またはフィールド名をコンマ (,) で区切ります。

          3. [部分的なデータ] を選択した場合、複数のプロジェクトまたはデータベースのスキャン範囲を追加できます。最終的なスキャン範囲は、指定されたすべての範囲の和集合になります。

            1. 左側のペインでプロジェクトを手動で選択します。

            2. プロジェクトを選択すると、プロジェクトまたはデータベース内のデータテーブルが右側に表示されます。テーブルを手動で選択するか、一度にすべてのテーブルを選択できます。デフォルトでは、データベース内のすべてのデータテーブルが選択されます。

            3. プロジェクトまたはデータベースの範囲、およびデータテーブルに対してキーワード検索がサポートされています。キーワードでデータテーブルを検索するには、まず検索対象のプロジェクトを選択します。

    2. [有効にする] をクリックしてスキャンタスクを開始します。

      タスクが開始されると、[タスクステータス] は次のように変更されます:

      1. リアルタイムタスク:ステータスが [有効化中] に変わります。

      2. スケジュールされたタスク:ステータスが [有効化中] に変わります。設定されたスキャン時間に達すると、プラットフォームは設定に基づいてセンシティブデータ検出を実行します。

      3. ワンタイムタスク:ステータスがプログレスバーに変わります。進捗が 100% に達するとタスクは完了です。進捗は次の数式で計算されます:(現在のタスクでスキャンされたテーブル数 / 現在のタスクでスキャンされるべき合計テーブル数) × 100%。

      説明
      1. 検出ルールが変更された後、新しいルールは次のスケジュールされたタスクで有効になります。すぐに新しいタスクをトリガーするには、ワンタイム検出タスクを作成できます。

      2. スキャンタスクが完了すると、[タスクステータス][タスクなし] に更新されます。

検出結果の手動修正

  1. センシティブデータ検出ルールページに移動します。詳細については、「センシティブデータ検出ルールページへの移動」をご参照ください。

  2. [検出結果] タブをクリックすると、検出結果ページに移動します。

  3. 不正確な検出結果を手動で修正します。

    操作

    説明

    エンジンタイプでフィルター

    前の図の ① でマークされたセクションで、ドロップダウンリストからデータエンジンを選択できます。

    説明

    ODPS、EMR、CDH_HIVE、および HOLO エンジンのセンシティブフィールドの検出結果を修正できます。

    フィルター

    前の図の ② でマークされたセクションで、フィルター条件を指定して、クエリしたい検出結果を見つけることができます。

    [プロジェクト][テーブル名][フィールド名] などの条件でフィルターできます。また、[展開] をクリックして、[カテゴリ][レベル][センシティブフィールドタイプ] などの詳細なフィルター条件を表示することもできます。

    • カテゴリ:現在のテナントのデフォルトの分類・分級テンプレートの分類情報。詳細については、「センシティブデータの分類・分級の設定」をご参照ください。

    • レベル:現在のテナントのデフォルトの分類・分級テンプレートの分級情報。

    単一結果の修正

    前の図の ③ でマークされたセクションには、検出結果のリストが表示されます。[表示フィールド設定] をクリックして、表示したいフィールド情報を選択し、リストの詳細を更新できます。デフォルトでは、リストには [プロジェクト][テーブル名][フィールド名][カテゴリ、レベル、センシティブフィールドタイプ、手動修正済み、最終更新日時] が表示されます。また、[アクション] 列の [リネージ分析] をクリックして、データリネージ (パブリックプレビュー) モジュールに移動し、フィールドレベルのデータリネージを表示することもできます。

    [センシティブフィールドタイプ] の結果が不正確なフィールドについては、[センシティブフィールドタイプ] 列のドロップダウンリストをクリックします。リストには、現在のテナントのデフォルトの分類・分級テンプレートから 公開済みのすべてのセンシティブフィールドタイプが表示されます。既存のセンシティブフィールドタイプが要件を満たしているかどうかを確認します:

    • 要件を満たしている場合:別の既存のセンシティブフィールドタイプを選択します。次に、查看 アイコンをクリックして [センシティブデータ検出ルール] ページに移動します。元のセンシティブフィールドタイプと新しいセンシティブフィールドタイプの両方の検出ルールを変更して、将来の検出精度を確保します。

    • 要件を満たしていない場合:查看 アイコンをクリックして [センシティブデータ検出ルール] ページに移動します。または、ドロップダウンリストの一番下までスクロールし、[センシティブフィールドタイプを管理] をクリックします。[センシティブデータ検出ルール] ページにリダイレクトされ、[センシティブフィールドタイプを作成] ダイアログボックスが表示されます。新しいセンシティブフィールドタイプを追加し、その検出ルールを設定します。詳細については、「センシティブデータ検出ルールを設定し、検出タスクを実行する」をご参照ください。

    複数結果のバッチ修正

    バッチで修正したいフィールドを選択し、前の図の ④ でマークされたセクションの [バッチ修正] をクリックします。[検出結果のバッチ修正] ダイアログボックスで、[センシティブフィールドタイプ] ドロップダウンリストには、現在のテナントのデフォルトの分類・分級テンプレートから 公開済みのすべてのセンシティブフィールドタイプが表示されます。正しいセンシティブフィールドタイプを選択し、[保存] をクリックしてバッチ修正を完了します。

検出結果のエクスポート

[検出結果のエクスポート] をクリックして、指定したフィルター条件に一致する結果をローカルコンピューターにエクスポートできます。

  • 検出結果のエクスポートimage アイコンをクリックすると、現在のフィルター条件に一致する検出結果が自動的にエクスポートされます。

    説明

    最大 100,000 レコードまでエクスポートできます。