全部產品
Search
文件中心

MaxCompute:資料發現(DataScan)

更新時間:Dec 16, 2025
重要

當前功能處於邀測階段,請使用者通過提交工單方式開通。

功能簡介

MaxCompute能夠快速發現並納管湖上儲存的結構化、半結構化資料檔案,協助識別資料的檔案格式、表格式並自動註冊為外部表格。滿足使用SQL、MaxFrame快速分析湖上資料的需求,同時提供企業級存取控制、脫敏及行級許可權能力保障用湖安全。

功能規格

功能項

說明

支援資料來源

OSS

支援資料檔案格式

支援以下的資料檔案格式:

  • Parquet(無壓縮、SNAPPY、ZSTD、GZIP)

  • ORC(無壓縮、SNAPPY、ZLIB)

  • JSON(無壓縮、BZIP2、GZIP、LZ4、DEFLATE)

  • CSV(無壓縮、SNAPPY、GZIP)

發現頻率

5分鐘/15分鐘/60分鐘/1天/7天

發現結果

根據資料檔案分布,依據識別規則oss://<LOCATION路徑>/<外部表格>/<分區(可選)>/<檔案>,自動將匹配的表、分區、資料結構註冊為外部表格。

發現任務數

阿里雲主帳號下發現任務數上限是100個。

應用情境

湖上日誌與事件數目據自動化分析

海量應用日誌按日期分區持續寫入OSS。MaxCompute資料發現任務識別分區與資料檔案結構,如JSON、CSV,產生可供SQL查詢的外部表格,從而實現日誌資料的自動化接入,讓分析師能立即使用SQL進行新分區資料分析和數倉生產。

適用範圍

  • 地區限制:目前僅華北2(北京)、華南1(深圳)地區支援資料發現(DataScan)。

  • 許可權限制:阿里雲帳號或者具備租戶級Datascan_Admin角色的使用者可以管理和建立資料發現任務。

    角色

    許可權

    Datascan_Admin

    列出、查看、建立、更新、刪除資料發現任務。

角色授權

  1. 如果以RAM使用者身份建立和管理資料發現任務,請先獲得租戶級Datascan_Admin角色。授權方式參考:租戶層級角色授權

  2. 阿里雲帳號或者具備租戶級Super_Administrator和Admin角色的使用者可執行Datascan_Admin角色授權。

    1. 登入MaxCompute控制台,在左上方選擇地區。

    2. 在左側導覽列,選擇管理配置 > 租户管理 。

    3. 租户管理頁面,單擊角色管理頁簽。

    4. 角色管理頁簽,選擇Datascan_Admin,單擊對應的操作列的新增授权

    5. 在彈出的新增授权對話方塊,添加需要授權的使用者,單擊確定完成授權。

建立資料發現任務

  1. 登入MaxCompute控制台,在左上方選擇地區。

  2. 在左側導覽列,選擇MaxLake > 数据发现

  3. 数据发现頁面,單擊创建数据发现任务

  4. 在彈出的创建任务對話方塊,填寫如下參數,然後單擊创建

    • 基本配置

      參數名稱

      說明

      任务名称

      任務名稱,在租戶內命名唯一。

      任务描述

      任務描述。

      任务周期

      5分鐘/15分鐘/60分鐘/1天/7天。

    • 湖数据配置

      參數名稱

      說明

      数据湖连接

      選擇資料湖串連(CONNECTION)作為外部儲存訪問憑證。

      LOCATION

      填寫資料檔案所在OSS路徑。

      • 格式oss://<Bucket名稱>/<OSS 路徑>/

        OSS Bucket必須和MaxCompute資料發現任務歸屬於同一阿里雲主帳號的相同Region下。

      • 資料發現規則

        oss://<LOCATION路徑>/<外部表格>/<分區(可選)>/<檔案>

      • 樣本

        • OSS中資料分布是oss://maxlake/ods_vehicle_gps_raw/dt=2025-09-16/hh=01/vin1_2025-09-16_01.parquet

        • LOCATION填寫oss://maxlake/

        • 探索資料結果:

          • 外部表格:ods_vehicle_gps_raw

          • 分區:dthh

          • 表結構根據vin1_2025-09-16_01.parquet中的資料格式定義。

      发现格式

      支援Parquet、ORC、JSON、CSV。

      CSV 格式說明

      • 中繼資料發現預設將CSV原始檔案第一行作為外部表格列名,並自動為外部表格設定skip.header.line.count=1;在資料讀取時跳過首行;

      • CSV檔案的預設引用符號為雙引號("),當CSV某個欄位中包含換行、雙引號(需要在"前再加"轉義)或英文逗號時,整個欄位必須用雙引號("")括起來作為資料行分隔符號。

    • Catalog配置

      參數名稱

      說明

      项目

      選擇開啟Schema級文法開關的專案。

      Schema

      選擇Schema。

      建議選擇和將要發現的外部表格表名不衝突的Schema ,如果新發現的外部表格和Schema中使用者建立的表同名,發現任務將不會繼續建立同名的外部表格。

瀏覽資料發現結果

  1. 登入MaxCompute控制台,在左上方選擇地區。

  2. 在左側導覽列,選擇MaxLake > 数据发现

  3. 数据发现頁面,單擊目標資料發現任務對應操作列的浏览结果,進入詳情頁。

  4. 在詳情頁可以查看以下資訊:

    • 基本資料

      • 查看任務发现名称发现配置最近发现时间等。

    • 最近发现结果

      • 查看發現的表名表分区等資訊。

      • 使用者可以用 SQL 查詢對應表的結構和資料。

    • 历史发现记录

      • 查看發現任務周期性啟動並執行記錄,保留髮現時間、發現表數等。

      • 任務日誌會保留最新的2000條或最近180天內的記錄,超出上述條件的任務日誌將被刪除。

管理資料發現任務

  1. 登入MaxCompute控制台,在左上方選擇地區。

  2. 在左側導覽列,選擇MaxLake > 数据发现

  3. 数据发现頁面,查看資料發現任務資訊。

  4. 單擊目標資料發現任務對應状态列的调度開關,暫停/啟動發現任務。

  5. 單擊目標資料發現任務對應操作列的立即触发一次,立即觸發一次資料發現任務。

  6. 單擊目標資料發現任務對應操作列的修改,修改任務名稱、描述、任務周期。

  7. 單擊目標資料發現任務對應操作列的删除,刪除任務。

    資料發現任務刪除後,已經註冊的外部表格不會被同步刪除,也將不再繼續根據湖上資料結構更新表結構。