DataWorks開放資料為您提供各維度表或視圖,便於您採集中繼資料。本文為您介紹當前DataWorks開放資料提供的表和視圖列表,及其結構明細。
MetaData中繼資料
本套中繼資料表及樣本指標統計表由DataWorks基於當前租戶的表、任務、執行個體、工作空間、成員及專案等中繼資料產生。實際表結構將根據業務發展動態調整,最終以系統介面展示內容為準。
資料資產中繼資料
資產表問題明細(asset_table_issues)
分區欄位:dt
描述:表的資料治理問題明細
欄位 | 類型 | 描述 |
tenant_id | string | dw租戶 |
meta_entity_id | string | 對應中繼資料實體id |
uuid | string | 表唯一鍵 |
meta_entity_type | string | 對應中繼資料類型,如:maxcompute-table |
entity_type | string | 實體類型,如:table、view、materialized_view |
account_id | string | 資產所屬主帳號 |
datasource_type | string | 資料來源類型,如:EMR,MC |
datasource_id | string | 引擎名稱(MC:projectName,EMR:clusterId,holo:databaseName) |
catalog_name | string | meta data 為DLF時 為DLF 目錄 |
database_name | string | 資料庫名稱 (EMR dbName) |
schema_name | string | schema名稱 |
rule_id | string | 治理項標識 |
rule_name_zh | string | 治理項中文名稱 |
rule_name_en | string | 治理項英文名稱 |
category | string | 所屬維度 |
deduct_score_tenant | string | 全域扣減分數,保留小數點後4位 |
deduct_score_owner | string | 個人扣減分數,保留小數點後4位 |
cost | string | 浪費的資源 |
project_id | string | dw專案空間 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD |
資產表指標明細(asset_table_profiles)
分區欄位:dt
描述:表的指標明細
欄位 | 類型 | 描述 |
tenant_id | bigint | 源租戶id |
meta_entity_id | string | 對應中繼資料實體id |
meta_entity_type | string | 對應中繼資料類型,如:maxcompute-table |
entity_type | string | 實體類型,如:table、view、materialized_view |
account_id | string | 資產所屬主帳號 |
datasource_type | string | 資料來源類型,如:EMR,MC |
datasource_id | string | 引擎名稱(MC:projectName,EMR:clusterId,holo:databaseName) |
catalog_name | string | meta data 為DLF時為DLF 目錄 |
database_name | string | 資料庫名稱 (EMR dbName) |
schema_name | string | schema名稱 |
uuid | string | 表唯一鍵 |
name | string | 表名稱 |
owner | string | 資產負責人 |
last_access_timestamp | bigint | 表最近訪問時間 |
meta_modified_timestamp | bigint | 表中繼資料修改時間戳記13位 |
data_modified_timestamp | bigint | 表資料修改時間戳記13位 |
create_timestamp | bigint | 表建立時間 |
comment | string | 表注釋 |
partition_keys | string | 分區鍵 |
tags | string | 資產標籤 |
governance_rule_finding_count | bigint | 治理項問題個數 |
governance_rule_finding_history_count | string | 資產治理項個數歷史 |
governance_health_score | string | 資產治理評分 |
governance_health_level | string | 資產治理評分等級 |
is_partitioned | bigint | 是否是分區表 |
content_size | bigint | 邏輯大小 |
record_num | bigint | 記錄行數 |
life_cycle | string | 生命週期 |
partition_count | bigint | 分區個數 |
view_count_monthly | bigint | 近一個月瀏覽次數 |
access_count | bigint | 訪問次數 |
upstream_table_count | bigint | 上遊表個數 |
upstream_table_detail | string | 上遊表詳情 |
downstream_table_count | bigint | 下遊表個數 |
downstream_table_detail | string | 下遊表詳情 |
producing_project_ids | string | 表產出涉及的工作空間列表 |
producing_tasks_count | bigint | 表產出涉及的節點個數 |
producing_tasks_detail | string | 表產出涉及的節點詳情 |
using_tasks_count | bigint | 使用表節點個數 |
using_tasks_detail | string | 使用表節點詳情 |
quality_rule_count | bigint | 品質規則個數 |
quality_monitor_count | bigint | 品質監控指標個數 |
quality_rule_7_days_failed_count | bigint | 品質規則不通過個數 |
quality_monitor_7_days_failed_count | bigint | 品質監控指標不通過個數 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD |
資產任務問題明細(asset_task_issues)
分區欄位:dt
描述:任務的資料治理問題明細
欄位 | 類型 | 描述 |
tenant_id | string | DataWorks租戶id |
node_id | string | 調度節點id |
node_name | string | 節點名稱 |
node_type | string | 任務類型,SQL/SQLCost/LOT/CUPID |
node_owner | string | 負責人baseId |
priority | string | 優先順序 |
rule_id | string | 治理項標識 |
rule_name_zh | string | 治理項中文名稱 |
rule_name_en | string | 治理項英文名稱 |
category | string | 所屬治理領域 |
deduct_score_tenant | string | 全域扣減分數,保留小數點後4位 |
deduct_score_owner | string | 個人扣減分數,保留小數點後4位 |
cost | string | 治理收益 |
project_id | string | DataWorks專案id |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD |
資產任務指標明細(asset_task_profiles)
分區欄位:dt
描述:任務的指標明細
欄位 | 類型 | 描述 |
tenant_id | bigint | 源租戶id |
data_asset_id | string | 資產在模組下id,對應task.id |
name | string | 資產名稱,對應task.name |
project_id | bigint | 所在工作空間 |
project_env | string | 環境,PROD:生產 DEV:開發 |
owner | string | 資產負責人 |
create_user | string | 建立人 |
create_time | bigint | 建立時間 |
modify_user | string | 修改人 |
modify_time | bigint | 修改時間 |
trigger_type | string | 觸發方式類型 Scheduler:調度周期觸發 Manual:手動觸發 |
trigger_recurrence_type | string | Normal 正常運行,Manual 手動任務,Pause 暫停,Skip 空跑 |
trigger_cron | string | cron運算式 |
type | bigint | 執行代碼類型,請參考 https://www.alibabacloud.com/help/zh/dataworks/user-guide/node-development-of-data-studio 中節點編碼值 |
script_parameters | string | 參數資訊 |
priority | bigint | 任務優先順序,最小值 1,最大值 8。取值越大,優先順序越高。預設優先順序為 1 |
trigger_start_time | bigint | 允許調度的起始日期 |
trigger_end_time | bigint | 允許調度的終止日期 |
runtime_resource_group_id | bigint | 節點所屬資源群組編號 |
runtime_cu | string | 計算cu |
baseline_id | bigint | 節點所屬基準編號 |
rerun_times | bigint | 任務可重跑次數 |
rerun_interval | bigint | 重跑間隔,單位毫秒 |
rerun_mode_type | string | AllAllowed 失敗或成功均可重跑,FailureAllowed 只有失敗可重跑,AllDenied 失敗或成功都不可重跑 |
tags | string | 資產標籤 |
tags_count | bigint | 資產標籤個數 |
input_table_count | bigint | 輸入表個數 |
output_table_count | bigint | 輸出表個數 |
input_table_detail | string | 輸入表詳情 |
output_table_detail | string | 輸出表詳情 |
upstream_node_count | bigint | 上遊節點個數 |
downstream_node_count | bigint | 下遊節點個數 |
governance_rule_finding_count | bigint | 治理項問題個數 |
governance_rule_finding_history_count | string | 資產治理項個數歷史 |
governance_health_score | string | 資產評分 |
governance_health_level | string | 資產評分等級 |
engine_datasource_id | string | 計算引擎id |
engine_instance_count | bigint | 計算引擎作業個數 |
engine_instance_run_time | bigint | 計算引擎作業已耗用時間 |
engine_instance_comput_volume_cost | string | 計算量 |
engine_instance_cu_cost | string | 計算cu |
engine_instance_cpu_cost | string | cpu消耗 |
engine_instance_mem_cost | string | 記憶體消耗 |
engine_instance_exist_data_skew | bigint | 資料扭曲 |
engine_instance_suggestions | string | 傾斜建議 |
engine_instance_data_skew_ids | string | 資料扭曲 作業ids |
engine_instance_ids | string | 作業ids |
task_instance_wait_time_cost_sum | bigint | 等待時間消耗總和 |
task_instance_wait_time_cost_max | bigint | 執行個體等待時間消耗最大值 |
task_instance_run_time_cost_sum | bigint | 已耗用時間消耗總和 |
task_instance_run_time_cost_max | bigint | 已耗用時間消耗最大值 |
task_instance_7_days_wait_time_cost_max | bigint | 7天執行個體等待時間消耗最大值 |
task_instance_7_days_run_time_cost_max | bigint | 7天執行個體已耗用時間消耗最大值 |
task_instance_count | bigint | 執行個體個數 |
task_instance_7_days_failed_count | bigint | 失敗執行個體個數 |
task_instance_7_days_failed_day_count | bigint | 失敗天個數 |
task_instance_7_days_frezeed_day_count | bigint | 凍結天個數 |
task_instance_7_days_dry_run_day_count | bigint | 空跑天個數 |
quality_monitor_count | bigint | 資料品質監控指標個數 |
quality_monitor_7_days_failed_count | bigint | 資料品質監控指標失敗個數 |
di_task_resource_group_id | string | 節點所屬Data Integration資源群組編號 |
di_task_is_public_network | bigint | Data Integration任務是否公網流量 |
di_task_concurrency | bigint | 並發數 |
di_task_total_records | bigint | 同步數 |
di_task_total_bytes | bigint | 同步資料量 |
di_task_source_type | string | 源端類型 |
di_task_target_type | string | 目標端類型 |
di_task_run_time_cost | bigint | Data Integration任務執行耗時 |
di_task_wait_time_cost | bigint | Data Integration任務等待耗時 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD |
數據質量
資料品質規則執行個體(quality_rule_results)
分區欄位:dt
描述:資料品質規則執行個體
欄位 | 類型 | 描述 |
id | bigint | 主鍵ID |
scan_run_id | bigint | 品質監控執行個體ID |
rule_id | bigint | 規則ID |
rule_name | string | 規則名稱 |
status | string | 規則校正結果,Pass/Error/Warn/Fail/Running |
severity | string | 規則強弱,High/Normal |
create_time | bigint | 建立時間 |
modify_time | bigint | 最近一次修改時間 |
spec | string | 規則執行個體Spec |
tags | array<string> | 規則執行個體標籤 |
tenant_id | bigint | Dataworks租戶ID |
project_id | bigint | Dataworks專案空間ID |
meta_entity_id | string | 地圖表實體唯一標識 |
dt | string | 日期分區,格式YYYYMMDD,取值範圍:[TODAY-D, TODAY-1D] |
資料品質規則指標明細(quality_rules)
分區欄位:dt
描述:資料品質規則指標明細
欄位 | 類型 | 描述 |
id | bigint | 主鍵ID |
scan_id | bigint | 品質監控ID |
rule_name | string | 規則名稱 |
enabled | boolean | 規則是否啟用 |
severity | string | 規則業務嚴重等級,枚舉值:High/Normal |
create_time | bigint | 建立時間 |
modify_time | bigint | 最近一次修改時間 |
spec | string | 規則Spec |
tags | array<string> | 規則標籤 |
tenant_id | bigint | Dataworks租戶ID |
project_id | bigint | Dataworks專案空間ID |
meta_entity_id | string | 地圖實體唯一標識 |
pass_count | int | 規則校正通過次數 |
warn_count | int | 規則校正觸發橙色閾值次數 |
error_count | int | 規則校正觸發紅色閾值次數 |
fail_count | int | 規則校正失敗次數 |
dt | string | 日期分區,格式YYYYMMDD,取值範圍:[TODAY-D, TODAY-1D] |
資料品質監控任務執行個體(quality_scan_runs)
分區欄位:dt
描述:資料品質監控任務執行個體
欄位 | 類型 | 描述 |
id | bigint | 主鍵ID |
scan_id | bigint | 品質監控ID |
name | string | 監控名稱 |
status | string | 監控執行個體狀態,Pass/Warn/Error/Fail/Running |
post_action_type | string | 監控校正後處置動作,枚舉值:Alert/BlockTaskInstance |
data_filter | string | 採樣時實際使用的資料範圍 |
trigger_time | bigint | 任務使用的調度定時時間 |
trigger_type | string | 資料品質監控觸發方式, ByManual/BySchedule/ByQualityNode |
create_time | bigint | 建立時間 |
modify_time | bigint | 最近一次更新時間 |
datasource_id | bigint | 表所屬資料來源ID |
datasource_type | string | 資料來源類型 |
computing_resource_id | bigint | 計算引擎ID |
compute_resource_option | string | 資料品質監控運行所用計算資源 |
spec | string | 品質監控Spec |
tenant_id | bigint | Dataworks租戶ID |
project_id | bigint | Dataworks專案空間ID |
owner | string | 品質監控責任人 |
task_id | bigint | 調度任務ID |
task_instance_id | bigint | 調度任務執行個體ID |
meta_entity_id | string | 地圖實體唯一標識 |
table_name | string | 表名稱 |
catalog_name | string | 表所屬資料目錄名稱 |
schema_name | string | 表所屬模式名稱 |
database_name | string | 表所屬資料庫名稱 |
cluster_id | string | 表所屬叢集ID |
dt | string | 日期分區,格式YYYYMMDD,取值範圍:[TODAY-D, TODAY-1D] |
資料品質監控任務指標明細(quality_scans)
分區欄位:dt
描述:資料品質監控任務指標明細
欄位 | 類型 | 描述 |
id | bigint | 主鍵ID |
name | string | 監控名稱 |
data_filter_type | string | 資料範圍類型, ByPartition/ByWhere |
data_filter | string | 資料範圍運算式 |
trigger_type | string | 資料品質監控觸發方式, ByManual/BySchedule/ByQualityNode |
create_time | bigint | 建立時間 |
modify_time | bigint | 最近一次更新時間 |
computing_resource_id | bigint | 計算引擎ID |
compute_resource_option | string | 資料品質監控運行所用計算資源 |
spec | string | 資料品質監控Spec |
related_tasks | array<bigint> | 監控關聯的調度任務 |
tenant_id | bigint | Dataworks租戶ID |
project_id | bigint | Dataworks專案空間ID |
owner | string | 品質監控責任人 |
datasource_id | string | 表所屬資料來源ID |
datasource_type | string | 資料來源類型 |
meta_entity_id | string | 地圖實體唯一標識 |
table_name | string | 表名稱 |
catalog_name | string | 表所屬資料目錄名稱 |
schema_name | string | 表所屬模式名稱 |
database_name | string | 表所屬資料庫名稱 |
cluster_id | string | 表所屬叢集ID |
related_scheduler_task_count | int | 關聯調度任務數 |
rule_count | int | 關聯規則數 |
high_severity_rule_count | int | 關聯強規則數 |
normal_severity_rule_count | int | 關聯弱規則數 |
enabled_rule_count | int | 開啟規則數 |
enabled_high_severity_rule_count | int | 開啟強規則數 |
enabled_normal_severity_rule_count | int | 開啟弱規則數 |
rule_instance_count | int | 今日規則執行個體數 |
high_severity_rule_instance_count | int | 今日強規則執行個體數 |
normal_severity_rule_instance_count | int | 今日弱規則執行個體數 |
high_severity_rule_instance_pass_count | int | 今日校正通過強規則執行個體數 |
high_severity_rule_instance_warn_count | int | 今日橙色異常強規則執行個體數 |
high_severity_rule_instance_error_count | int | 今日紅色異常強規則執行個體數 |
high_severity_rule_instance_fail_count | int | 今日校正失敗強規則執行個體數 |
normal_severity_rule_instance_pass_count | int | 今日校正通過弱規則執行個體數 |
normal_severity_rule_instance_warn_count | int | 今日橙色異常弱規則執行個體數 |
normal_severity_rule_instance_error_count | int | 今日紅色異常弱規則執行個體數 |
normal_severity_rule_instance_fail_count | int | 今日校正失敗弱規則執行個體數 |
block_task_instance_count | int | 今日阻塞調度任務數 |
alert_rule_count | int | 配置警示訂閱數 |
sms_alert_rule_count | int | 配置簡訊警示訂閱數 |
mail_alert_rule_count | int | 配置郵件警示訂閱數 |
phone_alert_rule_count | int | 配置電話警示訂閱數 |
ding_alert_rule_count | int | 配置DingTalk警示訂閱數 |
feishu_alert_rule_count | int | 配置飛書警示訂閱數 |
weixin_alert_rule_count | int | 配置微信警示訂閱數 |
webhook_alert_rule_count | int | 配置自訂webhook警示訂閱數 |
alert_times | int | 今日觸發警示次數 |
sms_alert_times | int | 今日觸發簡訊警示次數 |
mail_alert_times | int | 今日觸發郵件警示次數 |
phone_alert_times | int | 今日觸發電話警示次數 |
ding_alert_times | int | 今日觸發DingTalk警示次數 |
feishu_alert_times | int | 今日觸發飛書警示次數 |
weixin_alert_times | int | 今日觸發微信警示次數 |
webhook_alert_times | int | 今日觸發自訂webhook警示次數 |
dt | string | 日期分區,格式YYYYMMDD,取值範圍:[TODAY-D, TODAY-1D] |
資料品質表指標明細(table_quality_summary)
分區欄位:dt
描述:資料品質表指標明細
欄位 | 類型 | 描述 |
meta_entity_id | string | 地圖表實體唯一標識 |
project_id | bigint | Dataworks專案空間ID |
table_name | string | 表名稱 |
schema_name | string | 表所屬模式名稱 |
database_name | string | 表所屬資料庫名稱 |
catalog_name | string | 表所屬資料目錄名稱 |
datasource_id | bigint | 表所屬資料來源ID,未配置資料品質時為NULL |
tenant_id | bigint | Dataworks租戶ID |
owner | string | 表負責人 |
scan_count | int | 已配置品質監控數 |
scheduler_related_scan_count | int | 關聯調度的品質監控數 |
scan_run_count | int | 今日品質監控任務執行個體數 |
alert_scan_run_count | int | 今日觸發警示的品質監控任務執行個體數 |
block_task_instance_scan_run_count | int | 今日觸發阻塞調度任務的品質監控任務執行個體數 |
rule_count | int | 配置規則數 |
enabled_rule_count | int | 啟用規則數 |
high_severity_rule_count | int | 配置強規則數 |
normal_severity_rule_count | int | 配置弱規則數 |
rule_instance_count | int | 今日規則執行個體數 |
high_severity_rule_instance_count | int | 今日強規則執行個體數 |
normal_severity_rule_instance_count | int | 今日弱規則執行個體數 |
high_severity_rule_instance_pass_count | int | 今日強規則校正通過次數 |
high_severity_rule_instance_warn_count | int | 今日強規則校正橙色異常次數 |
high_severity_rule_instance_error_count | int | 今日強規則校正紅色異常次數 |
high_severity_rule_instance_fail_count | int | 今日強規則校正失敗次數 |
normal_severity_rule_instance_pass_count | int | 今日弱規則校正通過次數 |
normal_severity_rule_instance_warn_count | int | 今日弱規則校正橙色異常次數 |
normal_severity_rule_instance_error_count | int | 今日弱規則校正紅色異常次數 |
normal_severity_rule_instance_fail_count | int | 今日弱規則校正失敗次數 |
dt | string | 日期分區,格式YYYYMMDD,取值範圍:[TODAY-31D, TODAY-1D] |
資料目錄(catalogs)
欄位 | 類型 | 描述 |
datasource_type | string | 資料來源類型,如dlf,starrocks等。 |
datasource_id | string | 資料來源標識,如StarRocks叢集ID,DLF所屬主帳號ID。 |
name | string | 資料目錄名稱。 |
type | string | 資料目錄類型,如Hive,Jdbc等。 |
comment | string | 資料目錄注釋。 |
location | string | 目錄路徑。 |
properties | string | 屬性及參數(JSON String)。 |
owner | string | 資料目錄所有者,根據資料來源類型不同,其值可能是阿里雲帳號UID或者資料庫系統帳號。 |
create_timestamp | bigint | 建立時間戳記13位。 |
update_timestamp | bigint | 修改時間戳記13位。 |
meta_entity_id | string | 資料目錄唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
資料庫(databases)
欄位 | 類型 | 描述 |
datasource_type | string | 資料來源類型,如 |
datasource_id | string | 資料來源標識,如StarRocks叢集ID,DLF、MaxCompute所屬主帳號ID,RDS執行個體ID等。 |
catalog_name | string | 資料目錄名稱,資料來源類型支援資料目錄時有值。 |
name | string | 資料庫名稱。 |
type | string | 資料庫類型。 |
comment | string | 資料庫注釋。 |
location | string | 資料庫路徑。 |
properties | string | 屬性及參數(JSON String)。 |
owner | string | 資料庫擁有者,根據資料來源類型不同,其值可能是阿里雲帳號UID或者資料庫系統帳號。 |
is_external | boolean | 是否為外部資料庫。 |
create_timestamp | bigint | 建立時間戳記13位。 |
update_timestamp | bigint | 修改時間戳記13位。 |
meta_entity_id | string | 資料庫唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
資料模式(schemas)
欄位 | 類型 | 描述 |
datasource_type | string | 資料來源類型,如holodb,maxcompute,postgresql等。 |
datasource_id | string | 資料來源標識,如RDS執行個體ID,MaxCompute所屬主帳號ID等。 |
catalog_name | string | 資料目錄名稱,資料來源類型支援資料目錄時有值。 |
database_name | string | 資料庫名稱。 |
name | string | 模式名稱。 |
type | string | 模式類型。 |
comment | string | 注釋。 |
properties | string | 屬性及參數(JSON String)。 |
owner | string | 模式所有者,根據資料來源類型不同,其值可能是阿里雲帳號UID或者資料庫系統帳號。 |
create_timestamp | bigint | 建立時間戳記13位。 |
update_timestamp | bigint | 修改時間戳記13位。 |
meta_entity_id | string | 模式唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
表(tables)
欄位 | 類型 | 描述 |
datasource_type | string | 資料來源類型,如dlf,starrocks,maxcompute,holodb,mysql等。 |
datasource_id | string | 資料來源標識,如StarRocks叢集ID,DLF、MaxCompute所屬主帳號ID,RDS執行個體ID等。 |
catalog_name | string | 資料目錄名稱,資料來源類型支援資料目錄時有值。 |
database_name | string | 資料庫名稱。 |
schema_name | string | 模式名稱,資料來源類型支援Schema時有值。 |
name | string | 表名稱。 |
type | string | 表類型。 |
comment | string | 注釋。 |
partition_keys | string | 分區鍵,多級分區時,欄位採用英文逗號分隔。 |
location | string | 表格儲存體路徑。 |
properties | string | 屬性及參數(JSON String)視圖時為視圖定義DDL。 |
owner | string | 表所有者,根據資料來源類型不同,其值可能是阿里雲帳號UID或者資料庫系統帳號。 |
content_size | bigint | 儲存大小,以位元組計。 |
data_retention | map<string,string> | 資料保留期/生命週期。不同類型的表其值有差異:對於MaxCompute表,key是lifecycle,value是表的生命週期,如365;對於DLF表,key是renention,value是表的生命週期,如91;對於其他類型,暫未支援。後續若支援,會補充文檔說明。 |
is_compressed | boolean | 是否壓縮。 |
is_temporary | boolean | 是否暫存資料表。 |
entity_type | string | 實體類型,如:table、view、materialized_view等。 |
input_format | string | 輸入格式。 |
output_format | string | 輸出格式。 |
serde_parameters | string | SerDe參數。 |
serialization_lib | string | 序列化library。 |
create_timestamp | bigint | 表建立時間戳記13位。 |
meta_modified_timestamp | bigint | 表中繼資料修改時間戳記13位。 |
data_modified_timestamp | bigint | 表資料修改時間戳記13位。 |
last_access_timestamp | bigint | 表最後訪問時間戳記13位。 |
business_description | string | 業務描述/中文名。 |
meta_entity_id | string | 表唯一標識(API訪問友好,符合中繼資料實體ID規範)。 例如:
|
uuid | string | 表UUID,用於關聯DataWorks資料地圖表詳情頁面。 |
business_tags | array<string> | 業務用標籤,地圖版面設定的標籤會採用此欄位記錄。 |
wikis | array<struct<`version`:bigint,`operator`:string,`update_timestamp`:bigint,`content`:string>> | 表使用說明(version:版本號碼;operator:提交者;update_timestamp:更新時間戳記(13位);content:內容)。 |
producing_tasks | array<bigint> | 生產表資料的調度任務ID列表,參考tasks表。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
欄位(columns)
欄位 | 類型 | 描述 |
datasource_type | string | 資料來源類型,如dlf、starrocks等。 |
datasource_id | string | 資料來源標識,如StarRocks叢集ID,DLF、MaxCompute所屬主帳號ID,RDS執行個體ID等。 |
catalog_name | string | 資料目錄名稱,資料來源類型支援資料目錄時有值。 |
database_name | string | 資料庫名稱。 |
schema_name | string | 模式名稱,資料來源類型支援Schema時有值。 |
table_name | string | 表名稱。 |
name | string | 欄位名稱。 |
type | string | 欄位類型。 |
comment | string | 注釋。 |
ordinal_position | bigint | 欄位序號(從1開始)。 |
is_primary_key | boolean | 是否為主鍵。 |
is_nullable | boolean | 是否允許為NULL。 |
is_partition_key | boolean | 是否為分區鍵。 |
properties | string | 屬性及參數(JSON String)。 |
business_description | string | 業務描述。 |
meta_entity_id | string | 欄位唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
分區(partitions)
欄位 | 類型 | 描述 |
datasource_type | string | 資料來源類型,如maxcompute,dlf,starrocks等。 |
datasource_id | string | 資料來源標識,如StarRocks叢集ID,DLF、MaxCompute所屬主帳號ID,RDS執行個體ID等。 |
catalog_name | string | 資料目錄名稱,資料來源類型支援資料目錄時有值。 |
database_name | string | 資料庫名稱。 |
schema_name | string | 模式名稱,資料來源類型支援Schema時有值。 |
table_name | string | 表名稱。 |
name | string | 分區名稱(Partition Specification)。 |
create_timestamp | bigint | 建立時間戳記13位。 |
update_timestamp | bigint | 修改時間戳記13位。 |
content_size | bigint | 分區大小,以位元組計。 |
properties | string | 屬性及參數(JSON String)。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
Table和Column層級血緣(lineages)
欄位 | 類型 | 描述 |
source_meta_entity_id | string | 源端唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
source_raw_entity_type | string | 源端實體類型,所標識的中繼資料未被納管時,source_meta_entity_type為空白,採用source_raw_entity_type標識。 |
source_uuid | string | 源端唯一標識(頁面訪問友好)。 |
target_meta_entity_id | string | 目標端唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
target_raw_entity_type | string | 目標實體類型,所標識的中繼資料未被納管時,target_meta_entity_type為空白,採用target_raw_entity_type標識。 |
target_uuid | string | 目標端唯一標識(頁面訪問友好)。 |
compute_engine | string | 計算引擎,如:maxcompute,datax,hologres等。 |
transform_type | string | 引擎中的轉換任務類型,如:SQL,DATAX,DATAX_STREAM,EXTERNAL_TABLE_MAPPING,STORAGE_MAPPING,API_MAPPING。 |
task_id | bigint | DataWorks調度任務ID,參考tasks表,未經DataWorks調度觸發的血緣資料,此欄位為空白。 |
task_instance_id | bigint | DataWorks調度任務執行個體ID,參考tasks_instances表,未經DataWorks調度觸發的血緣資料,此欄位為空白。 |
lineage_time | bigint | 血緣發生時間(毫秒級)。 |
granularity | string | 血緣層級,如:TABLE、COLUMN。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
任務/工作流程定義(tasks)
欄位 | 類型 | 描述 |
id | bigint | 任務ID。 |
name | string | 任務名稱。 |
description | string | 任務描述資訊。 |
type | bigint | 任務類型,請參考節點開發中的節點編碼值。 |
workflow_id | bigint | 工作流程ID。 |
instance_mode | string | 執行個體產生模式。
|
baseline_id | bigint | 基準ID。 |
priority | bigint | 任務優先順序,最小值1,最大值8。取值越大,優先順序越高。預設優先順序為1。 |
timeout | bigint | 任務執行逾時時間,單位時數。 |
rerun_mode | bigint | 任務是否允許重跑配置(0:只有失敗可重跑;1:失敗或成功均可重跑;2:失敗或成功都不可重跑)。 |
rerun_times | bigint | 重試次數,當任務設定為可重跑時生效。 |
rerun_interval | bigint | 重試時間間隔,單位秒。 |
script_parameters | string | 運行指令碼參數列表。 |
trigger_type | string | 觸發方式類型(Scheduler:調度周期觸發;Manual:手動觸發)。 |
trigger_recurrence | bigint | 觸發時的運行模式(0:正常運行;1:手動任務;2:暫停;3:空跑;4:被引用任務)。 |
trigger_cron | string | Cron運算式,type=Scheduler時生效。 |
trigger_start_time | string | 周期觸發生效時間,type=Scheduler時生效。 |
trigger_end_time | string | 周期觸發失效時間,type=Scheduler時生效。 |
runtime_resource_group_id | bigint | 任務啟動並執行資源群組ID。 |
runtime_image | string | 任務回合組態的鏡像ID。 |
runtime_cu | string | 任務回合組態CU消耗。 |
datasource_name | string | 資料來源名稱。 |
inputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 輸入變數列表。 |
outputs | array<struct<`output`:string,`type`:string>> | 任務輸出標識符列表。 |
outputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 輸出變數列表。 |
dependencies | array<struct<`type`:string,`upstream_output`:string,`upstream_node_id`:bigint>> | 依賴資訊列表。 |
related_workflow_id | bigint | 關聯工作流程ID。 |
tags | array<struct<`key`:string,`value`:string>> | 任務標籤列表。 |
project_id | bigint | 專案ID,參考workspaces表workspace_id欄位。 |
project_env | string | 環境類型(PROD:生產;DEV:開發)。 |
owner | string | 任務的責任人的帳號ID,參考users表。 |
create_time | string | 建立時間。 |
modify_time | string | 修改時間。 |
create_user | string | 建立使用者的帳號ID,參考users表。 |
modify_user | string | 修改使用者的帳號ID,參考users表。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
任務/工作流程啟動並執行執行個體(task_instances)
欄位 | 類型 | 描述 |
id | bigint | 任務執行個體ID。 |
node_id | bigint | 任務ID,參考tasks表。 |
node_type | bigint | 任務類型,請參考節點開發中節點編碼值。 |
node_name | string | 任務名稱。 |
description | string | 任務描述。 |
workflow_id | bigint | 工作流程ID,參考tasks表。 |
workflow_name | string | 工作流程名稱。 |
workflow_instance_id | bigint | 工作流程執行個體ID。 |
workflow_instance_type | bigint | 工作流程執行個體類型:(0-日常調度;1-手動任務;2-煙霧測試 (Smoke Test);3-補資料;4-一次性流程;5-手動流程)。 |
trigger_type | string | 觸發方式類型(Scheduler/Manual)。 |
trigger_recurrence | string | 運行模式(0-正常;1-手動;2-暫停;3-空跑;4-被引用)。 |
timeout | bigint | 任務執行逾時時間(小時)。 |
rerun_mode | string | 重跑配置(0-失敗可重跑;1-失敗或成功均可重跑;2-不可重跑)。 |
run_number | bigint | 運行次數。 |
period_number | bigint | 周期序號。 |
baseline_id | bigint | 基準ID。 |
priority | bigint | 任務優先順序(1-8)。 |
script_parameters | string | 運行指令碼參數列表。 |
runtime_resource_group_id | bigint | 任務啟動並執行資源群組ID。 |
runtime_resource_group_identifier | string | 任務啟動並執行資源群組標識名稱。 |
runtime_image | string | 運行鏡像ID。 |
runtime_cu | string | 運行時CU消耗。 |
runtime_process_id | string | 運行時進程ID。 |
runtime_gateway | string | 運行時網關。 |
datasource_name | string | 資料來源名稱。 |
inputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 輸入變數列表。 |
outputs | array<struct<`output`:string,`type`:string>> | 輸出標識符列表。 |
outputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 輸出變數列表。 |
tags | array<struct<`key`:string,`value`:string>> | 任務標籤列表。 |
status | bigint | 任務狀態(1-未運行;2-等待時間;3-等待資源;4-運行中;5-失敗;6-成功;7-校正中;8-條件校正;9-等待觸發)。 |
trigger_time | string | 觸發時間。 |
bizdate | string | 業務日期。 |
started_time | string | 開始時間。 |
finished_time | string | 結束時間。 |
project_id | bigint | 專案ID,參考workspaces表workspace_id欄位。 |
project_env | string | 環境類型(PROD/DEV)。 |
owner | string | 責任人帳號ID,參考users表。 |
create_time | string | 建立時間。 |
modify_time | string | 修改時間。 |
create_user | string | 建立人帳號ID,參考users表。 |
modify_user | string | 修改人帳號ID,參考users表。 |
waiting_resource_time | string | 等待資源時間。 |
waiting_trigger_time | string | 等待觸發時間。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
使用者(users)
欄位 | 類型 | 描述 |
user_id | string | 使用者標識。 |
user_nick | string | 帳號別名(顯示名稱)。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
工作空間(workspaces)
欄位 | 類型 | 描述 |
workspace_id | bigint | 工作空間ID。 |
workspace_name | string | 工作空間名稱。 |
workspace_identifier | string | 工作空間標識符。 |
workspace_description | string | 工作空間描述。 |
workspace_owner | string | 工作空間Owner標識,參考users表。 |
workspace_status | bigint | 工作空間狀態(0:正常;1:已刪除;2:初始化;3:初始化失敗;4:手動禁用;5:刪除中;6:刪除失敗;7:欠費凍結)。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
工作空間成員(workspace members)
欄位 | 類型 | 描述 |
workspace_id | bigint | 工作空間ID,參考workspaces表。 |
user_id | string | 使用者標識,參考users表。 |
user_status | bigint | 使用者狀態(0:正常;1:禁用;2:刪除)。 |
gmt_create_ts | bigint | 建立時間(13位元字時間戳記)。 |
gmt_modified_ts | bigint | 修改時間(13位元字時間戳記)。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
資源群組(resource groups)
欄位 | 類型 | 描述 |
resource_group_id | bigint | 資源群組ID。 |
resource_group_identifier | string | 資源群組標識。 |
resource_group_type | bigint | 資源群組類型(1:調度資源群組;2:MaxCompute資源群組;4:Data Integration資源群組)。 |
resource_group_mode | bigint | 資源群組模式(1:預付費;2:後付費;3:開發人員版本(僅MaxCompute))。 |
resource_group_status | bigint | 資源群組狀態(0:正常;1:凍結;2:刪除;3:建立中;4:建立失敗;5:更新中;6:更新失敗;7:刪除中;8:刪除失敗)。 |
is_exclusive_resource_group | boolean | 是否為獨享資源群組。 |
dt | string | 日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
Examples中繼資料
Table指標明細(table_metrics_detail)
欄位 | 類型 | 描述 |
datasource_type | string | 資料來源類型。 |
datasource_id | string | 資料來源標識。 |
catalog_name | string | 資料目錄名稱。 |
database_name | string | 資料庫名稱。 |
schema_name | string | 資料模式名稱。 |
table_name | string | 表名稱。 |
table_uuid | string | 表標識,用於跳轉到詳情。 |
meta_entity_id | string | 表標識,可讀性好。 |
content_size | bigint | 採集到的儲存量。不支援採集儲存量時,欄位值為NULL。 |
daily_rate_cs | decimal(16,6) | 儲存量日環比變動率。 |
avg_content_size_7d | bigint | 儲存量的7天平均值。 |
daily_rate_acs_7d | decimal(16,6) | 七天平均儲存量日環比變動率。 |
latest_data_update_time_31d | bigint | 31天資料範圍內作為血緣下遊對應執行個體的結束時間;資料更新時間最大值data_modified_timestamp。31天資料範圍內無更新時,對應欄位值為NULL。 |
latest_data_update_task_id | bigint | 31天內,最新動向表的調度任務ID。 |
latest_data_update_instance_id | bigint | 31天內,最新動向表的調度任務執行個體ID。 |
latest_data_update_time_by_task | bigint | 31天內,最新動向表的**調度任務**執行個體的結束時間。 |
writing_task_ids | array<bigint> | 當前業務日期,寫入表的調度任務ID(無重複ID)。 |
writing_task_ids_31d | array<bigint> | 31天資料範圍內,寫入表的調度任務ID(無重複ID)。 |
latest_data_access_time_31d | bigint | 31天資料範圍內作為血緣上遊對應執行個體的結束時間;最後訪問時間最大值last_access_timestamp。31天資料範圍內無訪問時,對應欄位值為NULL。 |
latest_data_access_task_id | bigint | 31天內,最近讀取表的調度任務ID。 |
latest_data_access_instance_id | bigint | 31天內,最近讀取表的調度任務執行個體ID。 |
latest_data_access_time_by_task | bigint | 31天資料範圍內作為血緣上遊對應執行個體的結束時間。 |
reading_task_ids | array<string> | 讀取表的調度任務ID。 |
reading_task_ids_31d | array<string> | 31天資料範圍內,讀取表的調度任務ID(無重複ID)。 |
direct_downstream_tables | array<string> | 直接下遊表ID(uuid)。 |
direct_upstream_tables | array<string> | 直接上遊表ID(uuid)。 |
dt | string | 日期分區,格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
Table指標匯總(table_metrics_summary)
欄位 | 類型 | 描述 |
table_count | bigint | 表數量。 |
daily_rate_tc | decimal(16,6) | 表數量日環比變動率。 |
avg_table_count_7d | bigint | 表數量的7日平均值。 |
daily_rate_atc_7d | decimal(16,6) | 表數量7日平均值日環比變動率。 |
content_size | bigint | 採集到的儲存量。不支援採集儲存量時,欄位值為NULL。 |
daily_rate_cs | decimal(16,6) | 儲存量日環比變動率。 |
avg_content_size_7d | bigint | 儲存量的7天平均值。 |
daily_rate_acs_7d | decimal(16,6) | 七天平均儲存量日環比變動率。 |
updated_table_count | bigint | 31天內更新的表數量。 |
daily_rate_utc | decimal(16,6) | 31天內更新的表數量日環比變動率。 |
avg_updated_table_count_7d | bigint | 31天內更新的表數量的7日平均值。 |
daily_rate_autc_7d | decimal(16,6) | 31天內更新的表數量7日平均值日環比變動率。 |
accessed_table_count | bigint | 31天內讀取的表數量。 |
daily_rate_atc | decimal(16,6) | 31天內讀取的表數量日環比變動率。 |
avg_accessed_table_count_7d | bigint | 31天內讀取的表數量的7日平均值。 |
daily_rate_aatc_7d | decimal(16,6) | 31天內讀取的表數量7日平均值日環比變動率。 |
dt | string | 日期分區,格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
Task指標明細(task_metrics_detail)
欄位 | 類型 | 描述 |
task_id | bigint | 任務標識。 |
workflow_id | bigint | 工作流程標識。 |
node_type | bigint | 任務類型。 |
project_id | bigint | 工作空間標識。 |
week_number | bigint | 業務日期所在年的第幾周。 |
task_owner | string | 負責人ID。 |
compute_resource_type | string | 計算資源類型。 |
compute_resource_id | string | 計算資源標識:MC專案名稱,EMR叢集ID,Hologres執行個體ID等。 |
datasource_name | string | 資料來源名稱。 |
inst_success_count | bigint | 運行成功的執行個體數量。 |
inst_failed_count | bigint | 運行失敗的執行個體數量。 |
inst_running_count | bigint | 運行中的執行個體數量。 |
inst_abnormal_count | bigint | 運行異常的執行個體數量。 |
inst_not_started_count | bigint | 未啟動並執行執行個體數量。 |
inst_runtime_cu | double | 執行個體運行時CU消耗。 |
task_avg_cu_31d | double | 任務日均CU消耗(31日內)。 |
dt | string | 日期分區,格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
Task指標匯總(task_metrics_summary)
欄位 | 類型 | 描述 |
node_type | bigint | 節點類型。 |
inst_status | string | 執行個體狀態。 |
inst_count | bigint | 執行個體數量。 |
avg_inst_count_7d | double | 7日執行個體平均數量。 |
granularity | string | 統計粒度,日DAILY,周WEEKLY。 |
dt | string | 日期分區,格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |