Data Security Center (DSC) は、承認された資産内の機密データ識別タスクを管理し、機密データを識別および分類できるデータインサイト機能を提供します。識別結果には、機密データの場所、機密データの種類、および感度レベルが含まれます。これにより、資産へのアクセス許可を管理してデータセキュリティを向上させることができます。このトピックでは、識別タスクを使用して機密データを識別する方法について説明します。
識別タスクの説明
識別タスクは、識別テンプレート内の識別モデルを使用して、接続されたデータ資産をスキャンし、機密データを識別および分類します。識別テンプレートの使用方法の詳細については、「識別テンプレートを表示および構成する」をご参照ください。
識別タスクの種類
DSC は、デフォルトの識別タスクとカスタム識別タスクを提供します。
デフォルトの識別タスク
承認が完了すると、DSC はメイン識別テンプレートを使用して、各資産インスタンスの識別タスクを作成します。このタスクは、デフォルトの識別タスクと呼ばれます。メイン識別テンプレートの詳細については、「識別テンプレートを構成する」をご参照ください。
DSC にデータ資産へのアクセスを承認する方法の詳細については、「資産の承認」をご参照ください。次の表に、デフォルトの識別タスクに関する情報を示します。
構成項目 | 説明 |
識別テンプレート | デフォルトの識別タスクは、メイン識別テンプレートを使用します。設定を変更することはできません。メイン識別テンプレートが組み込み識別テンプレートの場合、共通識別テンプレートも使用されます。
|
スキャンサイクル(デフォルト) |
2 回のスキャンの間隔は少なくとも 24 時間です。 |
スキャン範囲 | 承認されたすべての資産について、次の項目に注意してください。
メイン識別テンプレートを変更しても、システムはすぐにデータをスキャンしません。新しい識別テンプレートは、後続のデフォルトの識別タスクの実行で使用されます。 |
カスタム識別タスク
有効な識別テンプレートを使用して、特定のデータ資産をスキャンするカスタム識別タスクを作成できます。無効な識別テンプレートを使用するには、テンプレートを有効にする必要があります。テンプレートの作成方法の詳細については、「識別テンプレートを表示および構成する」をご参照ください。
概要
スキャン制限
データベース内の過度に大きなファイルまたはテーブルが全体的なスキャン進行状況を損なうのを防ぐため、DSC はスキャンできるファイルまたはフィールドのサイズに次の制限を課しています。
構造化データとビッグデータシステムに保存されているデータ:テーブル内の最初の 200 行のデータがサンプリングされます。サンプリングされたデータの各フィールドの各行の最初の 10 KB のデータのみがスキャンされます。
OSS または Simple Log Service に保存されている非構造化データ:
ファイルサイズが 200 MB を超える場合、ファイルはスキャンされません。それ以外の場合は、ファイルがスキャンされます。
OSS に保存されているデータ:
OSS 内の圧縮ファイルまたはアーカイブファイルの場合、最初の 1,000 個の子ファイルのみがスキャンされます。
単一の OSS バケット内のオブジェクトをスキャンする場合、OSS バケット内の最大 4 つのオブジェクトを同時にスキャンできます。
クエリ/秒(QPS)の制限:単一のスキャンタスクが実行されている場合、タスクが OSS バケットを照会するために呼び出すことができる API 操作の数は 1 秒あたり最大 100 です。
帯域幅の制限:単一のスキャンタスクが実行されている場合、タスクが OSS バケットから使用できる内部アウトバウンド帯域幅は、1 秒あたり最大 200 MB です。
800 種類以上の OSS ファイルをスキャンできます。テキスト、オフィスファイル、画像、デザインファイル、コードファイル、データファイル、バイナリファイル、署名検証用ファイル、アーカイブファイル、アプリケーションファイル、オーディオファイル、ビデオファイル、化学構造ファイルなどです。詳細については、「サポートされている OSS ファイル」をご参照ください。
制限の詳細については、「制限」をご参照ください。
スキャン済みデータオブジェクト
データベース資産:<インスタンス>/<データベース>/<テーブル名>。各データテーブルはデータオブジェクトとして使用されます。
ビッグデータ:<インスタンス>/<テーブル名>。各データテーブルはデータオブジェクトとして使用されます。
OSS:<OSS バケット>/<オブジェクト名>。各オブジェクトはデータオブジェクトとして使用されます。
Simple Log Service:<Simple Log Service プロジェクト>/<ログストア>/<時間間隔>。各5 分間は時間間隔と見なされます。各時間間隔に保存されているデータは、データオブジェクトとして使用されます。
スキャン速度
次のコンテンツでは、データ資産のスキャン速度について説明します。スキャン速度は参考値です。
ApsaraDB RDS for MySQL、ApsaraDB RDS for PostgreSQL、または PolarDB に保存されている構造化データ、または Tablestore や MaxCompute などのビッグデータシステムに保存されているデータ:1,000 を超えるテーブルを含む大規模データベースは、1 分あたり 1,000 列の速度でスキャンされます。
OSS または Simple Log Service に保存されている非構造化データ:スキャン処理では、1 TB のデータをスキャンするのに 6 時間から 48 時間かかり、平均で 24 時間かかります。スキャン時間は、1 TB のデータ内のさまざまなファイルタイプの分布によって異なります。
スキャンメカニズム
識別タスクの種類 | 初回スキャン | 再スキャン |
デフォルトタスク | 管理する資産の既存のすべてのデータをスキャンします。 | 新規または変更されたデータオブジェクトをスキャンします。 スキャンタスクを手動で実行するか、デフォルトのスキャンタスクのスキャンサイクルを構成できます。 |
カスタム識別タスク | 指定したスキャン範囲に基づいてデータをスキャンします。 | 指定したスキャンサイクルに基づいて、スキャン範囲内の新規または変更されたデータオブジェクトをスキャンします。 |
最新のスキャン後にデータオブジェクトに変更がない場合、DSC は再スキャン処理中にデータオブジェクトをスキャンしません。
スキャン結果
識別タスクのスキャン結果における感度レベルは、タスクで使用される識別テンプレートでヒットした識別モデルに基づいて決定されます。到達した最高の感度レベルが優先されます。 DSC は、機密データを S1 から S10 に分類します。数値が高いほど、感度レベルが高いことを示します。 N/A は、機密データが識別されていないことを示します。
識別モデルで使用可能な感度レベルの範囲は、関連付けられている識別テンプレートに基づいています。詳細については、「識別テンプレートを設定する」をご参照ください。
提案
項目 | 説明 |
スキャン範囲と優先順位を確認する | 大量のデータを分類する必要があるものの、すべてのデータをすぐにスキャンできない場合は、最初にどのデータ資産のスキャン優先順位が高いかを評価することをお勧めします。頻繁にアクセス、更新、または不明な操作の対象となるデータなど、潜在的なリスクの高いデータ資産は、最初にスキャンする必要があります。 |
最初のスキャンの範囲を指定する | 最適なスキャンパフォーマンスを実現するために、スキャン範囲を指定できます。たとえば、最初のスキャンの範囲をデータベース、OSS バケット、または複数のファイルに指定できます。このようにして、使用する識別機能と機能ルールを決定し、重要な機密データを識別できます。 特定の識別機能のみを使用する場合は、すべての識別機能を有効にしないことをお勧めします。誤検知または無効な識別結果は、リスク評価プロセスを複雑にする可能性があります。たとえば、特定のケースで日付、時刻、URL などの特定のデータ型のすべての識別機能を有効にすると、大量のデータが一致することになります。これは、大規模なデータスキャンには適していない可能性があります。 構造化データをスキャンするには、十分なデータがサンプリングされていることを確認してください。そうでない場合、スキャン結果は検出されません。 |
タスクの開始時刻を指定する | データ資産の更新頻度に基づいて、毎日、毎週、または毎月タスクを自動的に実行するために、識別タスクの開始時刻を指定することをお勧めします。このようにして、以前のスキャンからのデータ資産の変更を検出し、できるだけ早く機密データを識別できます。定期的なスキャンを実行して、スキャン結果の傾向や異常値を特定できます。 |
前提条件
DSC は、必要なデータ資産にアクセスして識別する権限を持っています。詳細については、「資産の承認」をご参照ください。
デフォルトの識別タスクの管理
デフォルトの識別タスクの表示
DSC コンソール にログインします。
左側のナビゲーションウィンドウで、 を選択します。
[タスク] ページの [識別タスク] タブで、[デフォルトタスク] をクリックします。
[識別タスクの監視] ページで、デフォルトの識別タスクリストを表示します。
デフォルトの識別タスクに対して、次の操作を実行できます。
[再スキャン]:識別モデルがスペックアップされた場合、メインの識別テンプレートを変更した場合、またはデータベースが更新された場合は、再スキャンを開始して、できるだけ早くスキャン結果を取得します。
[一時停止]:データベースで例外が発生した場合は、必要なデータ資産を見つけて、[アクション] 列の [一時停止] をクリックして、実行中のデフォルトの識別タスクを一時停止します。
[終了]:デフォルトの識別タスクを終了すると、システムは実行中のタスクを完了しますが、後続の操作ではタスクを実行しなくなります。
[有効化]:終了したデフォルトの識別タスクを有効にすると、タスクが再開されます。
説明デフォルトの識別タスクは削除できません。
デフォルトの識別タスクのスキャン設定の変更
デフォルトの識別タスクの定期スキャンを設定できます。 スキャンサイクルは、データベースのデータ更新の頻度とほぼ同じ値に設定することをお勧めします。 これにより、変更されたデータ内の機密情報を検出できます。 最小スキャンサイクルは 1 日です。
DSC コンソール にログインします。
左側のナビゲーションウィンドウで、 を選択します。
[タスク] ページの [識別タスク] タブで、[デフォルトタスク] をクリックします。
[識別タスクの監視] ページで、スキャンサイクルを指定するデータ資産を見つけて、[スキャン設定] をクリックします。

[スキャン設定] ダイアログボックスで、スキャンサイクルとスキャンの開始時刻を指定し、[OK] をクリックします。
重要スキャン操作がデータベースに与える影響を最小限に抑えるために、スキャンの開始時刻はオフピーク時に設定することをお勧めします。
識別タスクの実行中は、データベースまたはサービスのステータスを監視して、CPU 使用率とメモリ使用量の異常な急上昇を確認することをお勧めします。タスクに関連する例外が発生した場合は、タスクを一時停止または終了することをお勧めします。スキャンタスクを停止するには、[タスク] ページに移動し、必要なデータ資産を見つけ、[アクション] 列の [一時停止] または [終了] をクリックします。
カスタム識別タスクの管理
カスタム識別タスクを作成すると、システムは有効な識別テンプレートを自動的に使用して、指定された資産をスキャンします。 メインの識別テンプレートではなく、有効な識別テンプレートを使用して特定のデータベースをスキャンするには、カスタム識別タスクを作成します。
カスタム識別タスクの作成
DSC コンソール にログオンします。
左側のナビゲーションウィンドウで、 を選択します。
[識別タスク] タブの [タスク] ページで、[作成] をクリックします。
[作成] パネルで、パラメーターを構成し、[次へ] をクリックします。構成が完了したら、[OK] をクリックします。
カテゴリ
パラメーター
説明
[基本情報]
[タスク名]
タスク名を入力します。
[スキャンタイプ]
タスクの開始時刻を選択します。有効値:
[即時スキャン]:識別タスクの作成後、すぐにデータをスキャンします。
[定期スキャン]:識別タスクの作成後、定期的にデータをスキャンします。[スキャン頻度] と [スキャン時間] ドロップダウンリストから、スキャン頻度とスキャン期間を選択できます。すぐにデータをスキャンする場合は、[今すぐ1回スキャン] を選択します。
説明[スキャン時間] は構造化データに対してのみ有効です。
[範囲]
識別タスクのスキャン範囲を選択します。有効値:
[グローバルスキャン]:現在の Alibaba Cloud アカウント内で接続できるすべての承認済み資産をスキャンします。複数アカウント管理機能を有効にしている場合、資産にはメンバー内で接続できるすべての承認済み資産が含まれます。
[データドメイン]:特定のデータドメイン内の資産をスキャンします。データドメインの詳細については、「データドメインを使用して資産を管理する」をご参照ください。
[資産タイプ]:1つ以上の資産タイプの資産をスキャンします。
[識別テンプレート]
スキャンに使用する識別テンプレートを選択します。有効な識別テンプレートのみがサポートされています。最大2つの有効な識別テンプレートを選択できます。テンプレートの作成方法の詳細については、「識別テンプレートの表示と構成」をご参照ください。
[構成]
[構造化データの識別範囲]
ApsaraDB RDS や PolarDB に保存されているデータなど、構造化データのスキャン範囲を選択します。有効値:
[グローバルスキャン]:[範囲] パラメーターで指定されたすべての構造化データをスキャンします。
[スキャン範囲の指定]:スキャンするインスタンスとデータベースを選択できます。スキャンする複数のインスタンスを追加するには、[識別範囲の追加] をクリックします。
[非構造化データの識別範囲]
OSS 内の非構造化データの [スキャン範囲] と [スキャン深度] パラメーターを構成します。
[スキャン範囲]:
[グローバルスキャン]:[範囲] パラメーターで指定されたすべての非構造化データ資産をスキャンします。
[スキャン範囲の指定]:スキャンする OSS バケットを選択できます。[範囲] パラメーターで指定された資産のみを選択できます。複数のバケットを選択できます。
スキャンするオブジェクトを指定した後、フィルター条件を構成して詳細スキャンを実行できます。たとえば、[プレフィックス]、[ディレクトリ]、または [サフィックス] に対して、包含または除外する値を指定できます。
[スキャン深度]:
[グローバルスキャン]:すべてのバケットパスをスキャンします。
[スキャン深度の指定]:指定されたバケットパスのみをスキャンします。パスの深さはスラッシュ (/) で区切られます。有効値:1~10。スキャン深度は 10 以下の整数に設定することをお勧めします。たとえば、スキャン深度を 5 に設定すると、5 レイヤー以内の OSS バケットパスがスキャンされます。
[Simple Log Service のデータ識別構成]
[範囲] パラメーターで指定されたデータ資産に Simple Log Service が含まれている場合のみ、[Simple Log Service のデータ識別構成] で [資産範囲] と [時間範囲] パラメーターを表示および構成できます。
[資産範囲]:
[グローバルスキャン]:[範囲] パラメーターで指定されたすべての非構造化データ資産をスキャンします。
[スキャン範囲の指定]:スキャンするプロジェクトとログストアを選択できます。[範囲] パラメーターで指定された資産のみを選択できます。1 つのプロジェクトと複数のログストアを選択できます。
[時間範囲]:
[過去 15 分]、[過去 1 時間]、[昨日]、[過去 1 日]、[過去 7 日]、[過去 30 日]
[カスタム]:5分単位でカスタムの時間範囲を指定できます。時間範囲の単位は分です。
[その他の設定]
[タグ付け結果の上書き]
期限切れの修正済み機密データを処理するために使用するメソッドを指定します。有効値:
[手動タグ付け結果をスキップ]:元の修正結果を保持します。このメソッドを選択することをお勧めします。
[手動タグ付け結果の上書き]:元の修正結果を新しい識別結果で上書きします。
[タスクメモ]
タスクの説明を入力します。
カスタム識別タスクの変更または削除

[編集]:カスタム識別タスクのすべてのパラメーターを変更できます。
[>] [削除]:不要になったカスタム識別タスクを削除できます。
識別タスクステータスの管理
再スキャン操作の実行
識別モデルをスペックアップしたり、データベースを更新したりする場合は、再スキャン操作を実行して、できるだけ早くスキャン結果を取得できます。再スキャン操作では、指定された資産のフルスキャンが実行されます。再スキャン操作を実行すると、フルスキャンがすぐに実行されます。スキャンの開始時刻は、オフピーク時に設定することをお勧めします。
再スキャン操作を実行する前に、関連する識別テンプレートが有効になっていることを確認してください。
カスタム識別タスクの [スキャンタイプ] パラメーターを [即時スキャン] に設定した場合、再スキャン操作はサポートされません。
[識別タスク] タブで、再スキャン操作を実行します。
カスタム識別タスクで再スキャン操作を実行する:タスクリストで、管理するカスタム識別タスクを見つけ、[アクション] 列の [再スキャン] をクリックします。
デフォルトの識別タスクで再スキャン操作を実行する:[デフォルトタスク] タブをクリックします。次に、必要なデータ資産を見つけ、[アクション] 列の [再スキャン] をクリックします。
タスクの [スキャンステータス] 列でスキャンの進捗状況を表示します。
識別タスクを一時停止または終了する

一時停止:データベースで例外が発生した場合は、必要なカスタム識別タスクを見つけ、[アクション] 列の [一時停止] をクリックします。
終了:この操作は、現在および後続の識別タスクを終了します。デフォルトおよびカスタムの識別タスクを終了できます。
ヒット識別モデルの修正
誤ってタグ付けされた、またはタグのない機密データを修正するための修正タスクを作成できます。 これにより、企業はより正確な方法でデータを管理および保護できます。 DSC では、機密データ識別モデルを修正および復元できます。 修正タスクを作成するには、次の手順を実行します。
DSC コンソール にログインします。
左側のナビゲーションウィンドウで、 を選択します。
[タスク] ページで、[修正タスク] タブをクリックします。
左側のナビゲーションウィンドウで、管理するアセットタイプをクリックします。
管理するデータを見つけ、「操作」列で [修正] または [再開] をクリックします。 次に、指示に従って操作を実行します。 最後に、[OK] をクリックします。

復元操作を実行すると、以前の識別モデルが復元されます。
機密データ識別結果を表示する
分類と等級分け[アセットインサイト]メモ:機密データ識別結果を表示する詳細については、「プラグインの更新」をご参照ください。
メインの識別テンプレートまたはアクティブな識別テンプレートを使用して取得した機密データ識別結果をエクスポートするために、エクスポート タスクを作成できます。識別テンプレートとデータ資産を指定してエクスポート タスクを作成し、エクスポートされた機密データ識別結果をダウンロードできます。
エクスポート タスクで指定した識別テンプレートとデータ資産は、完了した識別タスクに関連付けられている必要があります。そうでない場合、ダウンロードされた機密データ識別結果は Empty です。
エクスポートタスクを作成する
エクスポートタスクを作成し、エクスポート結果をダウンロードするには、次の手順を実行します。
DSC コンソール にログオンします。
左側のナビゲーションウィンドウで、 を選択します。
[タスク] ページで、[タスクのエクスポート] タブをクリックします。
[タスクのエクスポート] タブで、[作成] をクリックします。
エクスポートタスクを設定し、[OK] をクリックします。
作成ページの [基本情報] セクションで、タスク名を入力し、識別テンプレートを選択します。
有効な識別テンプレートのみを選択できます。
作成ページの [エクスポートディメンション] セクションで、[アセットタイプ] または [アセットインスタンス] を選択します。
[アセットタイプ]: エクスポートするアセットタイプを選択します。
[アセットインスタンス]: エクスポートするデータを含むインスタンスを選択します。
エクスポートタスクを作成した後、エクスポートタスクリストでタスクのステータスを確認できます。 データ量が多いほど、エクスポート期間が長くなります。
機密データ識別結果のダウンロード
タスクの [エクスポートステータス] が [完了] に変わったら、タスクの [アクション] 列の [ダウンロード] をクリックします。

エクスポートが完了したら、3 日以内にエクスポートされたデータをダウンロードしてください。タスクは 3 日後に有効期限切れになります。この場合、エクスポートされた機密データをダウンロードすることはできません。
参考文献
識別タスクで使用される識別テンプレートと、サポートされている機密データ型については、「識別テンプレートの表示と設定」をご参照ください。
DSC が機密データ識別でサポートするデータ資産タイプについては、「サポートされているデータ資産タイプ」をご参照ください。
識別タスク中に発生する可能性のある一般的な問題については、「機密データのスキャンと識別」をご参照ください。