データ分類とグレーディングは、データセキュリティの重要な前提条件です。この機能は、機密データの種類とそれに対応するセキュリティレベルを識別し、分類するのに役立ちます。組織のデータ資産内に含まれる機密情報を検出し、データの秘密度に基づいてセキュリティレベルを割り当てます。このプロセスにより、データ資産内の機密コンテンツを把握し、データ管理と保護の基盤を提供します。保有する機密データを把握することで、アクセス権限の管理、データマスキングの適用、データアクセスの監査が可能になり、全体的なデータセキュリティを向上させることができます。
機能紹介
データ分類とグレーディングは、DataWorks のセキュリティセンターにおけるすべてのデータ保護機能の基盤であり、出発点です。その中心的な目標は、さまざまなデータソースに散在する機密データを自動的に検出し、タグ付けするのを支援することです。このプロセスは、「どのような機密データがあるか?」と「それはどこにあるか?」という 2 つの重要な問いに答えます。
ステップ 1:データ分類とグレーディングのルール設定
まず、機密データの識別基準のセットを定義する必要があります。これらの基準には以下が含まれます:
データグレーディング:
S1(パブリック) やS2(内部) など、データの秘密度をラベル付けします。データ分類:
個人情報や金融データなど、業務カテゴリ別にデータをグループ化します。データの型:
電話番号やID カード番号など、特定の機密データの型を定義します。データの型を作成する際には、それをデータ分類に割り当て、データグレードを指定する必要があります。識別ルール:これは自動検出のコアです。各データの型に対して強力な識別ルールを設定できます。以下の識別メソッドがサポートされています:
内容による識別:正規表現や ID カード検証などの組み込みアルゴリズムを使用してデータ内容を照合します。
フィールド名/コメントによる識別:正規表現を使用してフィールド名やコメントを照合します。
ステップ 2:識別タスクの作成
定義したルールを適用し、MaxCompute や Hologres などの指定されたデータソースをスキャンするために、識別タスクを作成します。タスクは、1 回限りのスキャンとして即時実行するか、継続的な監視のために定期的 (日次、週次、または月次) なスキャンとしてスケジュールすることができます。
ステップ 3:識別結果の生成
タスクが実行されると、システムは詳細な識別結果のチェックリストを生成します。定期的なタスクの場合、結果は T+1 で有効になります。このチェックリストは、機密データ資産カタログです。どのテーブルのどのフィールドが特定の機密データの型として識別されたかを明確にリストアップします。識別に偏りがある場合は、手動で修正を行い、カタログの最終的な正確性を確保できます。
最終的に、この識別・確認された機密データ資産カタログは、データマスキング、脅威監視、アクセス監査など、すべての下流の高度なセキュリティポリシーに対する正確な入力として機能します。
制限事項
対象ユーザー:この機能は、DataWorks の Standard Edition、Professional Edition、または Enterprise Edition を利用し、セキュリティセンターで新しいデータセキュリティ機能を有効にしているユーザーが利用できます。
サポート対象リージョン:中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港)、日本 (東京)。
サポート対象コンピュートエンジン:MaxCompute および Hologres。
前提条件
使用する Alibaba Cloud アカウントまたは RAM ユーザーは、次のいずれかの条件を満たす必要があります:
Alibaba Cloud アカウントまたは RAM ユーザーに AliyunDataWorksFullAccess ポリシーがアタッチされている。
Alibaba Cloud アカウントまたは RAM ユーザーに DataWorks のテナントセキュリティ管理者ロールが割り当てられている。
Alibaba Cloud アカウントまたは RAM ユーザーに DataWorks のテナント管理者ロールが割り当てられている。
「新規ユーザーガイド」の手順を完了している。
機能へのエントリーポイント
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、[セキュリティセンターへ移動] をクリックします。
左側のナビゲーションウィンドウで、 を選択します。
データ分類の設定
1. データ分類ページへの移動
データ分類グレーディングページで、[データ分類] タブをクリックします。
左側に [データ分類] ツリー、右側に [データ分類] に属する [データの型] が表示されます。分類ツリーのブランチをクリックすると、選択したカテゴリの [データの型] を表示できます。その後、[操作] 列でデータの型に対して [表示]、[編集]、[削除] の操作を実行できます。
2. データの型の追加
重要システムには [データ分類] と [データの型] の組み込みテンプレートが含まれています。必要に応じてこれらのテンプレートを編集できます。
[データ分類] ページで、左上隅にある [新しいデータの型] をクリックします。
次のパラメーターを設定します:
パラメーター
説明
データの型
データの型の名前を入力します。名前はグローバルに一意である必要があります。DataWorks は、識別ルールに一致するデータ (列) にこのデータの型でマークを付けます。
データ分類
データの型が属するデータ分類を指定します。
データレベル
このデータの型のセキュリティレベルを指定します。DataWorks は、識別ルールに一致するデータ (列) にこのデータレベルでマークを付けます。
識別ルール
識別ルールが満たされると、DataWorks はデータ (列) に識別結果をマークします。
サポートされている識別ルールは [データ内容の識別]、[フィールド名の識別]、[フィールド注釈の識別] の 3 種類です。各ルールは個別に設定および検証する必要があります。
いずれかのルールを満たす:いずれかのルールにヒットした場合、識別ルールが満たされます。
すべてのルールを満たす:すべてのルールにヒットした場合にのみ、識別ルールが満たされます。
データの型の説明
ビジネスシナリオに基づいて、データの型のカスタム説明を入力します。
パラメーターを設定した後、ルールをすぐに適用するか、保存することができます。
[すぐに有効化]:構成を保存し、識別ルールをすぐに適用します。データ識別タスクが実行されると、ルールに一致するデータ列にこのデータの型でマークが付けられます。
[保存のみ]:構成を保存しますが、識別ルールは有効になりません。データ識別タスクが実行されても、このデータの型でデータにマークは付けられません。
3. データの型の削除:カスタムのデータの型のみ削除できます。組み込みのデータの型は削除できません。
重要データの型を削除すると、次の影響があります:
過去の識別結果が削除されます。新しい識別タスクでは、このデータの型は識別されなくなります。
非識別化ポリシー内のこのデータの型に関するルールが削除されます。
このデータの型のデータアクセスレコードが削除されます。
セキュリティリスク識別ルール内のこのデータの型に関連するルールが削除されます。
データグレーディングの設定
DataWorks は最大 10 のセキュリティレベルをサポートします。必要に応じて各レベルの説明を変更できます。数字が大きいほど、セキュリティレベルが高くなります。
1. データグレーディングページへの移動:[データ分類グレーディング] ページで、[データグレーディング] タブをクリックします。
2. データグレーディングの編集:ページ左上隅の [編集] ボタンをクリックして、各レベルの [詳細な説明] を変更します。
3. データグレーディングの保存:詳細な説明を変更した後、ページ左上隅の [保存] ボタンをクリックして、データグレーディングの設定を保存します。
識別タスク
1. [識別タスク] ページへの移動:[データ分類グレーディング] ページで、[識別タスク] タブをクリックします。
2. 識別タスクの作成
[識別タスク] タブで、左上隅にある [新しいタスク] をクリックします。
次のパラメーターを設定します:
パラメーター
説明
タスク名
データ分類とグレーディングの識別タスクのカスタム名。
データソースタイプ
データソースタイプを選択します。MaxCompute と Hologres がサポートされています。
タスクタイプ
[1 回限りのタスク]:1 回だけ実行されます。
[定期的なタスク]:固定された時間に繰り返し実行されます。
重要定期的なタスクは新しいデータ (列) のみを識別します。1 回限りのタスクを使用して、過去の識別結果を再評価できます。
DataWorks は定期的なタスクを 1 つだけサポートします。
識別範囲
識別タスクがカバーするデータの範囲を指定します。最小範囲はデータテーブルです。
[データソースタイプ] を MaxCompute に設定した場合、プロジェクトまたはデータテーブルを選択できます。
[データソースタイプ] を Hologres に設定した場合、データベースまたはデータテーブルを選択できます。特定の [ワークスペース] にアタッチされているインスタンスから [データソース] を選択する必要があります。その後、[リソースグループ] を選択してネットワーク接続を認証します。
サンプリング量
タスク実行時に各列からサンプリングするデータの量。
サンプルサイズが大きいほど識別精度は向上しますが、タスクの所要時間も長くなります。最大値は 200 です。
データサンプリングの使用
識別タスクの実行時、DataWorks は指定されたアカウントのみを使用してデータにアクセスできます。指定されたアカウントに必要な権限がない場合、サンプリングと識別は失敗します。
重要指定されたアカウントが、指定された識別範囲内のテーブル名、列名、列の説明、および列データにアクセスする権限を持っていることを確認してください。
パラメーターを設定した後、[確認] をクリックしてタスクを保存します。
3. データ識別タスクの編集
定期的な識別タスクを再設定するには、[識別タスク] タブで、対象タスクの [操作] 列にある [編集] をクリックします。
重要1 回限りのタスクは編集できません。1 回限りのタスクを変更するには、それを削除して新しいタスクを作成する必要があります。
4. データ識別タスクの表示
[識別タスク] タブで、目的のタスクを見つけ、[操作] 列の [表示] をクリックしてタスク詳細ページを開きます。
タスク詳細ページで、[実行レコード] の横にある数字をクリックして、各実行の [開始実行時間] と [終了実行時間] を表示します。
5. データ識別タスクの削除
[識別タスク] タブでは、単一のタスクまたは複数のタスクをバッチで削除できます。
単一タスクの削除:
削除したいタスクを見つけ、[操作] 列の [削除] をクリックします。
タスクのバッチ削除:
削除したいタスクを選択し、左下隅の [バッチ削除] をクリックします。
重要データ識別タスクを削除しても、現在実行中のタスクは停止しません。
定期的なタスクが削除されると、それ以降は実行されなくなります。
データ識別タスクが削除されても、その過去の実行による識別結果は保持されます。
データ分類とグレーディング結果の表示
データ識別は、毎朝早くに最新のテーブルスキーマ情報を取得します。そのため、新しいフィールド、テーブル、またはデータベースは、翌朝に分類およびグレーディングされます。
[データ分類グレーディング] ページで、[識別結果] タブをクリックします。このタブでは、識別タスクが実行された後のテーブルフィールドの結果を表示できます。
2. データ分類とグレーディング結果の表示
[識別結果] ページでは、データ資産のデータ分類とグレーディングの結果を表示できます。次の情報が表示されます:
ID 情報
説明
データソースタイプ
データ資産が属するデータエンジン。
インスタンス/プロジェクト/データベース
データ資産が属するインスタンス、プロジェクト、またはデータベースの名前。
表
データ資産が属するデータテーブルの名前。
フィールド
データ資産の列の名前。
データ分類
タスクによって特定されたデータの型、またはユーザーによって修正されたデータの型。
データの型
データの型の分類ディレクトリ、またはユーザーが修正したディレクトリです。パスは
Level-1 directory/Level-2 directory/...のフォーマットで表示されます。データグレーディング
データの型に対応するセキュリティレベル、またはユーザーによって修正されたレベル。
判断モード
[システム識別]:データ識別タスクによって結果が決定されます。
[修正]:ユーザーによって結果が修正されます。
更新時間
システムによって最後に識別された、またはユーザーによって修正された時間。
3. データ分類とグレーディング結果の修正
[識別結果] ページでは、[操作] 列で分類とグレーディングの結果を削除または修正できます。データ資産の識別結果は、次の 2 つの方法のいずれかで修正できます:
新しいスキャンで上書き:新しい 1 回限りの識別タスクを作成して、特定の範囲内の資産の結果を再評価します。
手動修正:データ資産の識別結果を手動で修正します。これを行うには、次の手順を実行します:
[識別結果] タブで、検索バーを使用して結果を変更したいデータ資産をフィルタリングします。次に、[操作] 列の [修正] をクリックします。
[修正] ダイアログボックスで、新しいデータの型を手動で選択します。