當前功能處於邀測階段,請使用者通過提交工單方式開通。
功能簡介
MaxCompute能夠快速發現並納管湖上儲存的結構化、半結構化資料檔案,協助識別資料的檔案格式、表格式並自動註冊為外部表格。滿足使用SQL、MaxFrame快速分析湖上資料的需求,同時提供企業級存取控制、脫敏及行級許可權能力保障用湖安全。
功能規格
功能項 | 說明 |
支援資料來源 | OSS |
支援資料檔案格式 | 支援以下的資料檔案格式:
|
發現頻率 | 5分鐘/15分鐘/60分鐘/1天/7天 |
發現結果 | 根據資料檔案分布,依據識別規則 |
發現任務數 | 阿里雲主帳號下發現任務數上限是100個。 |
應用情境
湖上日誌與事件數目據自動化分析
海量應用日誌按日期分區持續寫入OSS。MaxCompute資料發現任務識別分區與資料檔案結構,如JSON、CSV,產生可供SQL查詢的外部表格,從而實現日誌資料的自動化接入,讓分析師能立即使用SQL進行新分區資料分析和數倉生產。
適用範圍
地區限制:目前僅華北2(北京)、華南1(深圳)地區支援資料發現(DataScan)。
許可權限制:阿里雲帳號或者具備租戶級Datascan_Admin角色的使用者可以管理和建立資料發現任務。
角色
許可權
Datascan_Admin
列出、查看、建立、更新、刪除資料發現任務。
角色授權
如果以RAM使用者身份建立和管理資料發現任務,請先獲得租戶級
Datascan_Admin角色。授權方式參考:租戶層級角色授權。阿里雲帳號或者具備租戶級Super_Administrator和Admin角色的使用者可執行
Datascan_Admin角色授權。登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇 。
在租户管理頁面,單擊角色管理頁簽。
在角色管理頁簽,選擇
Datascan_Admin,單擊對應的操作列的新增授权。在彈出的新增授权對話方塊,添加需要授權的使用者,單擊確定完成授權。
建立資料發現任務
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇。
在数据发现頁面,單擊创建数据发现任务。
在彈出的创建任务對話方塊,填寫如下參數,然後單擊创建。
基本配置
參數名稱
說明
任务名称
任務名稱,在租戶內命名唯一。
任务描述
任務描述。
任务周期
5分鐘/15分鐘/60分鐘/1天/7天。
湖数据配置
參數名稱
說明
数据湖连接
選擇資料湖串連(CONNECTION)作為外部儲存訪問憑證。
LOCATION
填寫資料檔案所在OSS路徑。
格式:
oss://<Bucket名稱>/<OSS 路徑>/OSS Bucket必須和MaxCompute資料發現任務歸屬於同一阿里雲主帳號的相同Region下。
資料發現規則
oss://<LOCATION路徑>/<外部表格>/<分區(可選)>/<檔案>樣本
OSS中資料分布是
oss://maxlake/ods_vehicle_gps_raw/dt=2025-09-16/hh=01/vin1_2025-09-16_01.parquetLOCATION填寫
oss://maxlake/探索資料結果:
外部表格:
ods_vehicle_gps_raw分區:
dt、hh表結構根據
vin1_2025-09-16_01.parquet中的資料格式定義。
发现格式
支援Parquet、ORC、JSON、CSV。
CSV 格式說明
中繼資料發現預設將CSV原始檔案第一行作為外部表格列名,並自動為外部表格設定
skip.header.line.count=1;在資料讀取時跳過首行;CSV檔案的預設引用符號為雙引號("),當CSV某個欄位中包含換行、雙引號(需要在
"前再加"轉義)或英文逗號時,整個欄位必須用雙引號("")括起來作為資料行分隔符號。
Catalog配置
參數名稱
說明
项目
選擇開啟Schema級文法開關的專案。
Schema
選擇Schema。
建議選擇和將要發現的外部表格表名不衝突的Schema ,如果新發現的外部表格和Schema中使用者建立的表同名,發現任務將不會繼續建立同名的外部表格。
瀏覽資料發現結果
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇。
在数据发现頁面,單擊目標資料發現任務對應操作列的浏览结果,進入詳情頁。
在詳情頁可以查看以下資訊:
基本資料
查看任務发现名称、发现配置、最近发现时间等。
最近发现结果
查看發現的表名、表分区等資訊。
使用者可以用 SQL 查詢對應表的結構和資料。
历史发现记录
查看發現任務周期性啟動並執行記錄,保留髮現時間、發現表數等。
任務日誌會保留最新的2000條或最近180天內的記錄,超出上述條件的任務日誌將被刪除。
管理資料發現任務
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇。
在数据发现頁面,查看資料發現任務資訊。
單擊目標資料發現任務對應状态列的调度開關,暫停/啟動發現任務。
單擊目標資料發現任務對應操作列的立即触发一次,立即觸發一次資料發現任務。
單擊目標資料發現任務對應操作列的修改,修改任務名稱、描述、任務周期。
單擊目標資料發現任務對應操作列的删除,刪除任務。
資料發現任務刪除後,已經註冊的外部表格不會被同步刪除,也將不再繼續根據湖上資料結構更新表結構。