すべてのプロダクト
Search
ドキュメントセンター

DataWorks:データ分類とグレーディング

最終更新日:Nov 26, 2025

データ分類とグレーディングは、データセキュリティの重要な前提条件です。この機能は、機密データの種類とそれに対応するセキュリティレベルを識別し、分類するのに役立ちます。組織のデータ資産内に含まれる機密情報を検出し、データの秘密度に基づいてセキュリティレベルを割り当てます。このプロセスにより、データ資産内の機密コンテンツを把握し、データ管理と保護の基盤を提供します。保有する機密データを把握することで、アクセス権限の管理、データマスキングの適用、データアクセスの監査が可能になり、全体的なデータセキュリティを向上させることができます。

機能紹介

データ分類とグレーディングは、DataWorks のセキュリティセンターにおけるすべてのデータ保護機能の基盤であり、出発点です。その中心的な目標は、さまざまなデータソースに散在する機密データを自動的に検出し、タグ付けするのを支援することです。このプロセスは、「どのような機密データがあるか?」と「それはどこにあるか?」という 2 つの重要な問いに答えます。

  1. ステップ 1:データ分類とグレーディングのルール設定

    まず、機密データの識別基準のセットを定義する必要があります。これらの基準には以下が含まれます:

    • データグレーディングS1 (パブリック) や S2 (内部) など、データの秘密度をラベル付けします。

    • データ分類個人情報金融データ など、業務カテゴリ別にデータをグループ化します。

    • データの型電話番号ID カード番号 など、特定の機密データの型を定義します。データの型を作成する際には、それをデータ分類に割り当て、データグレードを指定する必要があります。

    • 識別ルール:これは自動検出のコアです。各データの型に対して強力な識別ルールを設定できます。以下の識別メソッドがサポートされています:

      • 内容による識別:正規表現や ID カード検証などの組み込みアルゴリズムを使用してデータ内容を照合します。

      • フィールド名/コメントによる識別:正規表現を使用してフィールド名やコメントを照合します。

  2. ステップ 2:識別タスクの作成

    定義したルールを適用し、MaxCompute や Hologres などの指定されたデータソースをスキャンするために、識別タスクを作成します。タスクは、1 回限りのスキャンとして即時実行するか、継続的な監視のために定期的 (日次、週次、または月次) なスキャンとしてスケジュールすることができます。

  3. ステップ 3:識別結果の生成

    タスクが実行されると、システムは詳細な識別結果のチェックリストを生成します。定期的なタスクの場合、結果は T+1 で有効になります。このチェックリストは、機密データ資産カタログです。どのテーブルのどのフィールドが特定の機密データの型として識別されたかを明確にリストアップします。識別に偏りがある場合は、手動で修正を行い、カタログの最終的な正確性を確保できます。

最終的に、この識別・確認された機密データ資産カタログは、データマスキング、脅威監視、アクセス監査など、すべての下流の高度なセキュリティポリシーに対する正確な入力として機能します。

制限事項

  • 対象ユーザー:この機能は、DataWorks の Standard Edition、Professional Edition、または Enterprise Edition を利用し、セキュリティセンターで新しいデータセキュリティ機能を有効にしているユーザーが利用できます。

  • サポート対象リージョン:中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)。

  • サポート対象コンピュートエンジン:MaxCompute および Hologres。

前提条件

  • 使用する Alibaba Cloud アカウントまたは RAM ユーザーは、次のいずれかの条件を満たす必要があります:

    • Alibaba Cloud アカウントまたは RAM ユーザーに AliyunDataWorksFullAccess ポリシーがアタッチされている。

    • Alibaba Cloud アカウントまたは RAM ユーザーに DataWorks のテナントセキュリティ管理者ロールが割り当てられている。

    • Alibaba Cloud アカウントまたは RAM ユーザーに DataWorks のテナント管理者ロールが割り当てられている。

  • 新規ユーザーガイド」の手順を完了している。

機能へのエントリーポイント

  1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データガバナンス] > [セキュリティセンター] を選択します。表示されたページで、[セキュリティセンターへ移動] をクリックします。

  2. 左側のナビゲーションウィンドウで、[機密データ保護] > [データ分類グレーディング] を選択します。

データ分類の設定

  1. 1. データ分類ページへの移動

    1. データ分類グレーディングページで、[データ分類] タブをクリックします。

    2. 左側に [データ分類] ツリー、右側に [データ分類] に属する [データの型] が表示されます。分類ツリーのブランチをクリックすると、選択したカテゴリの [データの型] を表示できます。その後、[操作] 列でデータの型に対して [表示][編集][削除] の操作を実行できます。

  2. 2. データの型の追加

    重要

    システムには [データ分類][データの型] の組み込みテンプレートが含まれています。必要に応じてこれらのテンプレートを編集できます。

    1. [データ分類] ページで、左上隅にある [新しいデータの型] をクリックします。

      次のパラメーターを設定します:

      パラメーター

      説明

      データの型

      データの型の名前を入力します。名前はグローバルに一意である必要があります。DataWorks は、識別ルールに一致するデータ (列) にこのデータの型でマークを付けます。

      データ分類

      データの型が属するデータ分類を指定します。

      データレベル

      このデータの型のセキュリティレベルを指定します。DataWorks は、識別ルールに一致するデータ (列) にこのデータレベルでマークを付けます。

      識別ルール

      識別ルールが満たされると、DataWorks はデータ (列) に識別結果をマークします。

      サポートされている識別ルールは [データ内容の識別][フィールド名の識別][フィールド注釈の識別] の 3 種類です。各ルールは個別に設定および検証する必要があります。

      • いずれかのルールを満たす:いずれかのルールにヒットした場合、識別ルールが満たされます。

      • すべてのルールを満たす:すべてのルールにヒットした場合にのみ、識別ルールが満たされます。

      データの型の説明

      ビジネスシナリオに基づいて、データの型のカスタム説明を入力します。

    2. パラメーターを設定した後、ルールをすぐに適用するか、保存することができます。

      1. [すぐに有効化]:構成を保存し、識別ルールをすぐに適用します。データ識別タスクが実行されると、ルールに一致するデータ列にこのデータの型でマークが付けられます。

      2. [保存のみ]:構成を保存しますが、識別ルールは有効になりません。データ識別タスクが実行されても、このデータの型でデータにマークは付けられません。

  3. 3. データの型の削除:カスタムのデータの型のみ削除できます。組み込みのデータの型は削除できません。

    重要

    データの型を削除すると、次の影響があります:

    • 過去の識別結果が削除されます。新しい識別タスクでは、このデータの型は識別されなくなります。

    • 非識別化ポリシー内のこのデータの型に関するルールが削除されます。

    • このデータの型のデータアクセスレコードが削除されます。

    • セキュリティリスク識別ルール内のこのデータの型に関連するルールが削除されます。

データグレーディングの設定

DataWorks は最大 10 のセキュリティレベルをサポートします。必要に応じて各レベルの説明を変更できます。数字が大きいほど、セキュリティレベルが高くなります。

  1. 1. データグレーディングページへの移動[データ分類グレーディング] ページで、[データグレーディング] タブをクリックします。

  2. 2. データグレーディングの編集:ページ左上隅の [編集] ボタンをクリックして、各レベルの [詳細な説明] を変更します。

  3. 3. データグレーディングの保存:詳細な説明を変更した後、ページ左上隅の [保存] ボタンをクリックして、データグレーディングの設定を保存します。

識別タスク

  1. 1. [識別タスク] ページへの移動[データ分類グレーディング] ページで、[識別タスク] タブをクリックします。

  2. 2. 識別タスクの作成

    1. [識別タスク] タブで、左上隅にある [新しいタスク] をクリックします。

      次のパラメーターを設定します:

      パラメーター

      説明

      タスク名

      データ分類とグレーディングの識別タスクのカスタム名。

      データソースタイプ

      データソースタイプを選択します。MaxComputeHologres がサポートされています。

      タスクタイプ

      • [1 回限りのタスク]:1 回だけ実行されます。

      • [定期的なタスク]:固定された時間に繰り返し実行されます。

      重要
      • 定期的なタスクは新しいデータ (列) のみを識別します。1 回限りのタスクを使用して、過去の識別結果を再評価できます。

      • DataWorks は定期的なタスクを 1 つだけサポートします。

      識別範囲

      識別タスクがカバーするデータの範囲を指定します。最小範囲はデータテーブルです。

      [データソースタイプ]MaxCompute に設定した場合、プロジェクトまたはデータテーブルを選択できます。

      [データソースタイプ]Hologres に設定した場合、データベースまたはデータテーブルを選択できます。特定の [ワークスペース] にアタッチされているインスタンスから [データソース] を選択する必要があります。その後、[リソースグループ] を選択してネットワーク接続を認証します。

      サンプリング量

      タスク実行時に各列からサンプリングするデータの量。

      サンプルサイズが大きいほど識別精度は向上しますが、タスクの所要時間も長くなります。最大値は 200 です。

      データサンプリングの使用

      識別タスクの実行時、DataWorks は指定されたアカウントのみを使用してデータにアクセスできます。指定されたアカウントに必要な権限がない場合、サンプリングと識別は失敗します。

      重要

      指定されたアカウントが、指定された識別範囲内のテーブル名、列名、列の説明、および列データにアクセスする権限を持っていることを確認してください。

    2. パラメーターを設定した後、[確認] をクリックしてタスクを保存します。

  3. 3. データ識別タスクの編集

    定期的な識別タスクを再設定するには、[識別タスク] タブで、対象タスクの [操作] 列にある [編集] をクリックします。

    重要

    1 回限りのタスクは編集できません。1 回限りのタスクを変更するには、それを削除して新しいタスクを作成する必要があります。

  4. 4. データ識別タスクの表示

    1. [識別タスク] タブで、目的のタスクを見つけ、[操作] 列の [表示] をクリックしてタスク詳細ページを開きます。

    2. タスク詳細ページで、[実行レコード] の横にある数字をクリックして、各実行の [開始実行時間][終了実行時間] を表示します。

  5. 5. データ識別タスクの削除

    [識別タスク] タブでは、単一のタスクまたは複数のタスクをバッチで削除できます。

    • 単一タスクの削除:

      削除したいタスクを見つけ、[操作] 列の [削除] をクリックします。

    • タスクのバッチ削除:

      削除したいタスクを選択し、左下隅の [バッチ削除] をクリックします。

    重要
    • データ識別タスクを削除しても、現在実行中のタスクは停止しません。

    • 定期的なタスクが削除されると、それ以降は実行されなくなります。

    • データ識別タスクが削除されても、その過去の実行による識別結果は保持されます。

データ分類とグレーディング結果の表示

重要

データ識別は、毎朝早くに最新のテーブルスキーマ情報を取得します。そのため、新しいフィールド、テーブル、またはデータベースは、翌朝に分類およびグレーディングされます。

  1. [データ分類グレーディング] ページで、[識別結果] タブをクリックします。このタブでは、識別タスクが実行された後のテーブルフィールドの結果を表示できます。

  2. 2. データ分類とグレーディング結果の表示

    [識別結果] ページでは、データ資産のデータ分類とグレーディングの結果を表示できます。次の情報が表示されます:

    ID 情報

    説明

    データソースタイプ

    データ資産が属するデータエンジン。

    インスタンス/プロジェクト/データベース

    データ資産が属するインスタンス、プロジェクト、またはデータベースの名前。

    データ資産が属するデータテーブルの名前。

    フィールド

    データ資産の列の名前。

    データ分類

    タスクによって特定されたデータの型、またはユーザーによって修正されたデータの型。

    データの型

    データの型の分類ディレクトリ、またはユーザーが修正したディレクトリです。パスは Level-1 directory/Level-2 directory/... のフォーマットで表示されます。

    データグレーディング

    データの型に対応するセキュリティレベル、またはユーザーによって修正されたレベル。

    判断モード

    [システム識別]:データ識別タスクによって結果が決定されます。

    [修正]:ユーザーによって結果が修正されます。

    更新時間

    システムによって最後に識別された、またはユーザーによって修正された時間。

  3. 3. データ分類とグレーディング結果の修正

    [識別結果] ページでは、[操作] 列で分類とグレーディングの結果を削除または修正できます。データ資産の識別結果は、次の 2 つの方法のいずれかで修正できます:

    • 新しいスキャンで上書き:新しい 1 回限りの識別タスクを作成して、特定の範囲内の資産の結果を再評価します。

    • 手動修正:データ資産の識別結果を手動で修正します。これを行うには、次の手順を実行します:

      1. [識別結果] タブで、検索バーを使用して結果を変更したいデータ資産をフィルタリングします。次に、[操作] 列の [修正] をクリックします。

      2. [修正] ダイアログボックスで、新しいデータの型を手動で選択します。