Data Security Center (DSC)提供資料洞察能力,通過管理敏感性資料識別任務,可協助您識別已授權資產中存在的敏感資訊,並進行分類分級管理,包括敏感性資料的位置、敏感類型和層級等。掌握資料資產中敏感性資料有助於正確管理對應資產的存取權限,從而提升資料安全性。本文介紹如何使用識別任務掃描敏感性資料。
前提條件
已在DSC完成目標資產授權,允許DSC訪問資產資料。
識別任務說明
識別任務是根據識別模板內的識別模型對接入資產的資料進行掃描並發現敏感性資料,產生掃描結果並對發現的敏感性資料進行分類分級。識別模板的詳細使用說明,請參見查看和配置識別模板。
任務類型
資料資訊安全中心針對敏感性資料掃描提供兩種識別任務:系統預設任務和自訂識別任務。
系統預設任務
完成資產授權後,DSC會使用主用識別模板為每一個資產執行個體建立一個掃描任務,此類任務統稱為系統預設任務。主用識別模板的詳細說明,請參見如何使用識別模板。
下表是關於系統預設任務您需要瞭解的資訊。
任務配置項 | 說明 |
識別模板 | 系統預設任務使用主用識別模板,不可修改。如果主用識別模板是內建識別模板,會同時使用通用識別模板。
|
掃描周期(預設) |
兩次掃描至少間隔24小時。 |
掃描範圍 | 對於已完成資產授權的所有資產:
如果您切換了主用識別模板,不會立即觸發掃描。在下次系統預設任務執行時,才會啟用新的識別模板進行掃描。 |
自訂識別任務
您可以添加自訂識別任務,使用已啟用識別模板掃描指定資料資產。如果需要使用的識別模板未啟用,您需要先啟用該識別模板。具體操作,請參見啟用識別模板。
掃描說明
掃描限制
為了避免資料來源中檔案或表過大影響整體掃描進度,資料資訊安全中心對可以掃描的檔案大小或表的欄位大小做了限制,請您在進行敏感性資料掃描前瞭解以下規則:
結構化資料(RDS MySQL、RDS PostgreSQL、PolarDB等)、巨量資料(TableStore、MaxCompute等):採樣時預設取表中的前200行資料,您也可以手動修改(最大1000行),僅掃描採樣資料中每個欄位每行的前10 KB資料。
非結構化資料(OSS、SLS):
預設情況下,系統不掃描超過200 MB的單個檔案。
對於OSS資料:
可手動調整單個檔案大小掃描閾值,最大支援1000 MB。
壓縮或歸檔檔案,只掃描其下前1000個子檔案。
掃描單個OSS Bucket時,支援並發掃描檔案的最大數量為4個。
QPS佔用限制:單個任務掃描時,佔用對應OSS Bucket的OpenAPI調用次數最大為100次/秒。
頻寬佔用限制:單任務掃描時,佔用對應OSS Bucket內網的下行流量頻寬最大為200 MB/秒。
目前支援掃描的OSS檔案類目有文字檔、辦公檔案、影像檔、設計文檔、代碼檔案、資料檔案、二進位檔案、驗簽檔案、歸檔檔案、應用程式、音視頻檔案、化學結構檔案和其他類別,包含800+檔案類型。具體內容,請參見支援識別的OSS檔案類型。
識別任務的更多使用限制,請參見使用限制。
掃描的資料對象
資料庫資產:<執行個體>/<資料庫>/<表名稱>。每個資料表作為識別任務掃描的一個資料對象。
巨量資料:<執行個體>/<表名稱>。每個資料表作為識別任務掃描的一個資料對象。
OSS資產:<OSS Bucket>/<檔案名稱>。每個檔案作為識別任務掃描的一個資料對象。
SLS資產:<SLS Project>/<logstore>/<時間周期>。每5分鐘作為一個時間周期,每個時間周期記憶體儲的資料作為識別任務掃描的一個資料對象。
掃描速度
不同類型資料資產的掃描速度說明如下,該掃描速度僅供參考:
結構化資料(RDS MySQL、RDS PostgreSQL、PolarDB等)、巨量資料(TableStore、MaxCompute等):對於較大的資料庫(即表數量大於1000個),掃描速度為每分鐘1000列(以每列200行計算)。
非結構化資料(OSS、SLS):掃描1 TB資料需要6小時~48小時(因1 TB資料中不同檔案類型分布會導致掃描時間長度區間跨度大),平均時間長度為24小時。
掃描機制
任務類型 | 首次掃描 | 後續自動掃描 |
系統預設任務 | 全量掃描目標資產中現有的全部資料。 | 對新增或存在修改的資料對象進行掃描。 您可以手動執行重掃操作,也可以配置系統預設任務的掃描周期。 |
自訂識別任務 | 按照您自訂的掃描範圍進行掃描。 | 按照您自訂的掃描周期,對掃描範圍內新增或存在修改的資料對象進行掃描。 |
後續自動掃描時,對於已掃描過的資料對象,如果沒有任何變更,DSC不會對其進行重複掃描。
掃描結果
識別任務掃描結果的敏感等級,由該識別任務使用的識別模板中命中的識別模型的敏感等級決定,以命中的最高敏感等級為準。DSC的敏感性資料識別以S1、S2、S3、S4...S10定義敏感等級,數字越大敏感等級越高。N/A表示未識別到敏感性資料。
識別模型可選的敏感等級範圍由關聯的識別模板包含的敏感層級決定。具體設定,請參見設定識別模板的敏感層級。
使用建議
建議項 | 說明 |
確認掃描範圍和優先順序 | 開始進行敏感性資料掃描時,會存在較多積壓的資料需要分類分級,而無法立即掃描所有資料。建議您先評估您資料資產中哪些資產的掃描優先順序較高,選擇潛在風險較高的資料,例如經常被訪問、更新或未知操作的資料,優先進行掃描。 |
限制首次掃描範圍 | 為達到最佳掃描效果,您可以指定掃描範圍不進行全量掃描。例如從一個資料庫、一個OSS Bucket或幾個檔案開始,通過限制首次掃描範圍,可以更好地確定要啟用哪些識別特性以及可能使用哪些特徵規則,更有利於發現有意義的敏感性資料。 如果您不需要使用所有識別特徵,建議不要啟用所有識別特徵,因為誤判或無效的識別結果可能會讓評估風險變得更加困難。雖然在某些情況下,例如日期、時間、URL等類型資料,啟用所有識別特徵,可以匹配廣泛的結果,但這也可能不適用於大型資料掃描。 對結構化資料的掃描,需要確保樣本大小足夠,否則無法檢出掃描結果。 |
設定任務啟動時間 | 建議您根據資料資產的更新頻率,將識別任務的啟動時間設定為每天、每周或每月的某段時間自動運行掃描並產生掃描結果,以便檢查自上次掃描後發生變化的資料,從而及時發現變化資料中存在的敏感資訊,且定期運行掃描可協助您識別掃描結果中的趨勢或異常值。 |
管理系統預設任務
查看系統預設任務
登入資料資訊安全中心控制台。
在左側導覽列,選擇。
在任務管理頁面識別任務頁簽,單擊系統默認任務。
在識別任務監控頁面,查看預設工作清單。
您可在系統預設任務的操作列執行以下操作。
重掃:如果識別模型進行了升級、您更換了主用模板或資料庫內容有變更,需要儘快擷取掃描結果時,可以執行重掃操作。
暫停:如果您探索資料庫業務存在異常,可以單擊預設識別任務操作列的暫停,暫時停止正在掃描的系統預設任務。
終止:終止當前和後續系統預設任務的執行。
啟用:該功能會重新開啟已被終止的系統預設任務。
說明系統預設任務不支援刪除。
調整系統預設任務掃描設定
系統預設任務支援設定周期性掃描。建議您將掃描周期設定為與資料庫內容更新的頻率大致一致,以便及時探索資料庫中的變化資料存在的敏感資訊。可設定的最小的掃描周期為每天。
在識別任務監控頁面,選中需要設定掃描周期的任務前的複選框,單擊工作清單上方的自動全量掃描設置。

在自動全量掃描設置對話方塊,設定掃描周期和自動掃描開始時間,然後單擊確定。
重要為了將掃描對資料庫的影響降到最低,建議您將掃描開始時間設定為資料資產調用低峰期的時段。
在掃描任務執行期間,建議您觀察資料庫或業務狀態,例如CPU使用率、記憶體使用量率是否存在異常突增。如果發現業務異常且異常現象和掃描任務相關,建議您及時暫停或終止識別任務。您可以在任務管理頁面,單擊目標識別任務操作列的暫停或終止,停止識別任務的掃描。
添加自訂識別任務
自訂識別任務功能支援對指定資產使用已啟用識別模板進行掃描。如果需要使用已啟用模板(非主用)掃描指定資料庫,您可以建立識別任務。
系統最多支援5個活躍識別任務,其中每個周期性掃描任務將佔用一個活躍任務名額,因此當您配置了5個週期性任務後,將無法再建立新的識別任務。
建立自訂識別任務
在左側導覽列,選擇。
在識別任務頁簽,選擇需要建立識別任務的資產類型,單擊新建識別任務。

在新增識別任務面板,配置識別任務配置項,完成配置後單擊確認。
配置項分類
配置項
描述
基本信息
選擇資產類型
展示您選擇的資產類型且不可變更。
任務名稱
輸入任務名稱。
任務備註
輸入任務備忘資訊。
任务计划
選擇任務啟動時間。可選項:
立即掃描:建立識別任務後立即執行掃描。
周期掃描:在間隔時間和掃描時間(僅對結構化數據生效)下拉式清單中,選擇掃描頻率和執行掃描的時間段。如需立即執行掃描,您可以選中立即掃描一次。
說明掃描時間僅對結構化資料生效,對非結構化資料不生效。
選擇模板
選擇掃描使用的識別模板。僅支援選擇已啟用識別模板,且最多隻能選擇兩個識別模板。啟用模板的具體操作,請參見使用識別模板。
識別範圍
結構化數據識別範圍
選擇結構化資料(例如RDS、PolarDB)的掃描範圍。可選項:
全局掃描:掃描您的結構化資料資產。
指定掃描:配置實例名、資料庫名和扫描限制。
配置執行個體名和資料庫名。如需添加多個執行個體,可單擊添加識別範圍。
配置扫描限制。預設掃描前200行,最大支援1000行。
非結構化資料OSS識別範圍
選擇非結構化資料(OSS)的识别对象、抽样比例、扫描路径深度和扫描限制。
识别对象可選項:
全局掃描:掃描您的非結構化資料資產(OSS)。
指定掃描範圍:選擇需要掃描的Bucket。可選擇多個Bucket。
指定需要掃描的Bucket檔案後,支援添加過濾條件以設定更精確的掃描範圍。支援設定前缀、目錄、后缀的包含或不包含指定值來過濾掃描範圍。
抽样比例: 通過ListObjects API擷取非結構化資料資產(OSS)的資料。並按照配置方式對資料進行掃描。
全局掃描:對所有資料進行掃描。
指定深度:选择抽样比例,按照抽樣比例對資料進行掃描。
說明例如您选择抽样比例為1/10,那麼每掃描一個檔案後會跳過9個檔案,再掃描第11個檔案。
扫描路径深度可選項:
全局掃描:對資產全路徑下的資料進行掃描。
指定掃描範圍:指定Bucket路徑深度。路徑深度以正斜線(/)分隔。取值範圍:1~10。例如設定為5時,表示掃描 5 層及以內的 Bucket 路徑。
扫描限制:預設200 MB,最大支援1000 MB。對於超過掃描限制的資料,僅掃描配置大小。例如設定為200 MB,檔案大小為300 MB,超過限制的資料不掃描。
全量識別結果同步到SLS:勾選是否將全量識別結果同步到SLS。
非結構化資料SLS識別範圍
設定SLS的资产范围和時間範圍。
资产范围可選項:
全局掃描:掃描您的非結構化資料資產(SLS)。
指定掃描範圍:選擇需要掃描的Project及其下Logstore。可選擇一個Project,多個Logstore。
時間範圍可選項:
最近15分钟、最近1小時、昨天、最近1天、最近7天、最近30天。
自定義:可選時間範圍的單位為分鐘,步長為5分鐘。
其他配置
識別覆蓋
設定檢測到的敏感性資料曾經被訂正過時的處理方式。可選項:
跳過手工打標結果:保持原有的手工訂正結果。推薦選擇該方式。
覆蓋手工打標結果:使用新的識別結果覆蓋手工訂正的結果。
編輯或刪除自訂識別任務

編輯:重新設定自訂識別任務,支援修改所有參數。
> 刪除:刪除多餘的自訂識別任務。
管理識別任務狀態
重掃識別任務
如果識別模型進行了升級,或資料庫內容發生了變化並且您希望儘快看到掃描結果,您可以執行重掃操作。重掃會對目標資產進行全量掃描。執行重掃操作後,掃描任務會立即被執行。建議您將掃描開始時間設定為資料資產調用低峰期的時段。
在執行重掃操作前,您需要確保相關識別模板為已啟用狀態。
自訂識別任務的啟動時間為立即掃描,不支援執行重掃操作。
在識別任務頁簽,執行重掃操作:
重掃自訂識別任務:在工作清單中,單擊目標自訂識別任務操作列的重掃。
重掃系統預設任務:單擊系統默認任務,找到目標資產,單擊操作列的重掃。
您可以在識別任務的掃描狀態列,查看掃描進度。
暫停或終止識別任務

暫停:如果您探索資料庫業務存在異常,可以單擊自訂識別任務操作列的暫停,暫時停止正在掃描的識別任務。
終止:終止當前和後續識別任務(支援自訂識別任務和系統預設任務)的執行。
訂正敏感性資料命中的識別模型
訂正功能可以對誤標或漏標的敏感性資料進行訂正,以便企業對資料進行更加精準的管理和保護。資料資訊安全中心提供了訂正和恢複敏感性資料識別模型的能力,您可以參考以下步驟操作。
在任務管理頁面,單擊訂正任務頁簽。
在左側資料類型導覽列,單擊需要訂正的資產類型。
單擊目標敏感性資料操作列的訂正或恢復,根據頁面提示,修改訂正後模型,然後單擊確定。

執行恢複操作後,會恢複未訂正前的識別模型。
查看和匯出敏感性資料識別結果
DSC控制台中頁面,展示使用主用識別模板檢測的最新敏感性資料結果。具體內容,請參見查看敏感性資料識別結果。
通過匯出任務功能可以匯出使用已啟用識別模板(主用識別模板或活躍識別模板)檢測出的敏感性資料識別結果。您可以建立匯出任務,DSC會擷取任務中指定的識別模板檢測的指定資產中的敏感性資料識別結果供您下載。
匯出任務中選擇的識別模板和資產類型,必須已有對應的識別任務且已成功執行完成。否則,通過匯出任務下載的敏感性資料識別結果為空白。
建立匯出任務
您可以參考以下內容建立匯出任務並下載匯出結果。
在任務管理頁面,單擊導出任務頁簽。
在導出任務頁簽,單擊新建導出任務。
設定匯出任務,然後單擊確定。
在基本信息地區,輸入任務名稱並選擇識別任務使用的模板。
僅支援選擇已啟用模板。
在导出维度地區,選擇資產類型或资产实例。
資產類型:選中需要匯出的資產類型。
资产实例:選中需要匯出的資產執行個體。
建立匯出任務後,您可以在匯出工作清單查看匯出任務的狀態。需要匯出的資料量越大,匯出需要的時間越長,請您耐心等待。
下載匯出的敏感性資料識別結果
等待导出状态為已完成時,單擊目標匯出任務操作列的下載。

完成匯出後,您需要在三天內下載匯出的資料。超過三天匯出任務會到期,您將無法下載匯出的敏感性資料。