DataWorks開放資料為您提供各維度表或視圖,便於您採集中繼資料。本文為您介紹當前DataWorks開放資料提供的表和視圖列表,及其結構明細。
MetaData中繼資料
本套中繼資料表及樣本指標統計表由DataWorks基於當前租戶的表、任務、執行個體、工作空間、成員及專案等中繼資料產生。實際表結構將根據業務發展動態調整,最終以系統介面展示內容為準。
資產表問題明細(asset_table_issues)
分區欄位:dt
描述:表的資料治理問題明細
|
欄位 |
類型 |
描述 |
|
tenant_id |
string |
dw租戶 |
|
meta_entity_id |
string |
對應中繼資料實體id |
|
uuid |
string |
表唯一鍵 |
|
meta_entity_type |
string |
對應中繼資料類型,如:maxcompute-table |
|
entity_type |
string |
實體類型,如:table、view、materialized_view |
|
account_id |
string |
資產所屬主帳號 |
|
datasource_type |
string |
資料來源類型,如:EMR,MC |
|
datasource_id |
string |
引擎名稱(MC:projectName,EMR:clusterId,holo:databaseName) |
|
catalog_name |
string |
meta data 為DLF時 為DLF 目錄 |
|
database_name |
string |
資料庫名稱 (EMR dbName) |
|
schema_name |
string |
schema名稱 |
|
rule_id |
string |
治理項標識 |
|
rule_name_zh |
string |
治理項中文名稱 |
|
rule_name_en |
string |
治理項英文名稱 |
|
category |
string |
所屬維度 |
|
deduct_score_tenant |
string |
全域扣減分數,保留小數點後4位 |
|
deduct_score_owner |
string |
個人扣減分數,保留小數點後4位 |
|
cost |
string |
浪費的資源 |
|
project_id |
string |
dw專案空間 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD |
資產表指標明細(asset_table_profiles)
分區欄位:dt
描述:表的指標明細
|
欄位 |
類型 |
描述 |
|
tenant_id |
bigint |
源租戶id |
|
meta_entity_id |
string |
對應中繼資料實體id |
|
meta_entity_type |
string |
對應中繼資料類型,如:maxcompute-table |
|
entity_type |
string |
實體類型,如:table、view、materialized_view |
|
account_id |
string |
資產所屬主帳號 |
|
datasource_type |
string |
資料來源類型,如:EMR,MC |
|
datasource_id |
string |
引擎名稱(MC:projectName,EMR:clusterId,holo:databaseName) |
|
catalog_name |
string |
meta data 為DLF時為DLF 目錄 |
|
database_name |
string |
資料庫名稱 (EMR dbName) |
|
schema_name |
string |
schema名稱 |
|
uuid |
string |
表唯一鍵 |
|
name |
string |
表名稱 |
|
owner |
string |
資產負責人 |
|
last_access_timestamp |
bigint |
表最近訪問時間 |
|
meta_modified_timestamp |
bigint |
表中繼資料修改時間戳記13位 |
|
data_modified_timestamp |
bigint |
表資料修改時間戳記13位 |
|
create_timestamp |
bigint |
表建立時間 |
|
comment |
string |
表注釋 |
|
partition_keys |
string |
分區鍵 |
|
tags |
string |
資產標籤 |
|
governance_rule_finding_count |
bigint |
治理項問題個數 |
|
governance_rule_finding_history_count |
string |
資產治理項個數歷史 |
|
governance_health_score |
string |
資產治理評分 |
|
governance_health_level |
string |
資產治理評分等級 |
|
is_partitioned |
bigint |
是否是分區表 |
|
content_size |
bigint |
邏輯大小 |
|
record_num |
bigint |
記錄行數 |
|
life_cycle |
string |
生命週期 |
|
partition_count |
bigint |
分區個數 |
|
view_count_monthly |
bigint |
近一個月瀏覽次數 |
|
access_count |
bigint |
訪問次數 |
|
upstream_table_count |
bigint |
上遊表個數 |
|
upstream_table_detail |
string |
上遊表詳情 |
|
downstream_table_count |
bigint |
下遊表個數 |
|
downstream_table_detail |
string |
下遊表詳情 |
|
producing_project_ids |
string |
表產出涉及的工作空間列表 |
|
producing_tasks_count |
bigint |
表產出涉及的節點個數 |
|
producing_tasks_detail |
string |
表產出涉及的節點詳情 |
|
using_tasks_count |
bigint |
使用表節點個數 |
|
using_tasks_detail |
string |
使用表節點詳情 |
|
quality_rule_count |
bigint |
品質規則個數 |
|
quality_monitor_count |
bigint |
品質監控指標個數 |
|
quality_rule_7_days_failed_count |
bigint |
品質規則不通過個數 |
|
quality_monitor_7_days_failed_count |
bigint |
品質監控指標不通過個數 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD |
資產任務問題明細(asset_task_issues)
分區欄位:dt
描述:任務的資料治理問題明細
|
欄位 |
類型 |
描述 |
|
tenant_id |
string |
DataWorks租戶id |
|
node_id |
string |
調度節點id |
|
node_name |
string |
節點名稱 |
|
node_type |
string |
任務類型,SQL/SQLCost/LOT/CUPID |
|
node_owner |
string |
負責人baseId |
|
priority |
string |
優先順序 |
|
rule_id |
string |
治理項標識 |
|
rule_name_zh |
string |
治理項中文名稱 |
|
rule_name_en |
string |
治理項英文名稱 |
|
category |
string |
所屬治理領域 |
|
deduct_score_tenant |
string |
全域扣減分數,保留小數點後4位 |
|
deduct_score_owner |
string |
個人扣減分數,保留小數點後4位 |
|
cost |
string |
治理收益 |
|
project_id |
string |
DataWorks專案id |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD |
資產任務指標明細(asset_task_profiles)
分區欄位:dt
描述:任務的指標明細
|
欄位 |
類型 |
描述 |
|
tenant_id |
bigint |
源租戶id |
|
data_asset_id |
string |
資產在模組下id,對應task.id |
|
name |
string |
資產名稱,對應task.name |
|
project_id |
bigint |
所在工作空間 |
|
project_env |
string |
環境,PROD:生產 DEV:開發 |
|
owner |
string |
資產負責人 |
|
create_user |
string |
建立人 |
|
create_time |
bigint |
建立時間 |
|
modify_user |
string |
修改人 |
|
modify_time |
bigint |
修改時間 |
|
trigger_type |
string |
觸發方式類型 Scheduler:調度周期觸發 Manual:手動觸發 |
|
trigger_recurrence_type |
string |
Normal 正常運行,Manual 手動任務,Pause 暫停,Skip 空跑 |
|
trigger_cron |
string |
cron運算式 |
|
type |
bigint |
執行代碼類型,請參考 https://www.alibabacloud.com/help/zh/dataworks/user-guide/node-development-of-data-studio 中節點編碼值 |
|
script_parameters |
string |
參數資訊 |
|
priority |
bigint |
任務優先順序,最小值 1,最大值 8。取值越大,優先順序越高。預設優先順序為 1 |
|
trigger_start_time |
bigint |
允許調度的起始日期 |
|
trigger_end_time |
bigint |
允許調度的終止日期 |
|
runtime_resource_group_id |
bigint |
節點所屬資源群組編號 |
|
runtime_cu |
string |
計算cu |
|
baseline_id |
bigint |
節點所屬基準編號 |
|
rerun_times |
bigint |
任務可重跑次數 |
|
rerun_interval |
bigint |
重跑間隔,單位毫秒 |
|
rerun_mode_type |
string |
AllAllowed 失敗或成功均可重跑,FailureAllowed 只有失敗可重跑,AllDenied 失敗或成功都不可重跑 |
|
tags |
string |
資產標籤 |
|
tags_count |
bigint |
資產標籤個數 |
|
input_table_count |
bigint |
輸入表個數 |
|
output_table_count |
bigint |
輸出表個數 |
|
input_table_detail |
string |
輸入表詳情 |
|
output_table_detail |
string |
輸出表詳情 |
|
upstream_node_count |
bigint |
上遊節點個數 |
|
downstream_node_count |
bigint |
下遊節點個數 |
|
governance_rule_finding_count |
bigint |
治理項問題個數 |
|
governance_rule_finding_history_count |
string |
資產治理項個數歷史 |
|
governance_health_score |
string |
資產評分 |
|
governance_health_level |
string |
資產評分等級 |
|
engine_datasource_id |
string |
計算引擎id |
|
engine_instance_count |
bigint |
計算引擎作業個數 |
|
engine_instance_run_time |
bigint |
計算引擎作業已耗用時間 |
|
engine_instance_comput_volume_cost |
string |
計算量 |
|
engine_instance_cu_cost |
string |
計算cu |
|
engine_instance_cpu_cost |
string |
cpu消耗 |
|
engine_instance_mem_cost |
string |
記憶體消耗 |
|
engine_instance_exist_data_skew |
bigint |
資料扭曲 |
|
engine_instance_suggestions |
string |
傾斜建議 |
|
engine_instance_data_skew_ids |
string |
資料扭曲 作業ids |
|
engine_instance_ids |
string |
作業ids |
|
task_instance_wait_time_cost_sum |
bigint |
等待時間消耗總和 |
|
task_instance_wait_time_cost_max |
bigint |
執行個體等待時間消耗最大值 |
|
task_instance_run_time_cost_sum |
bigint |
已耗用時間消耗總和 |
|
task_instance_run_time_cost_max |
bigint |
已耗用時間消耗最大值 |
|
task_instance_7_days_wait_time_cost_max |
bigint |
7天執行個體等待時間消耗最大值 |
|
task_instance_7_days_run_time_cost_max |
bigint |
7天執行個體已耗用時間消耗最大值 |
|
task_instance_count |
bigint |
執行個體個數 |
|
task_instance_7_days_failed_count |
bigint |
失敗執行個體個數 |
|
task_instance_7_days_failed_day_count |
bigint |
失敗天個數 |
|
task_instance_7_days_frezeed_day_count |
bigint |
凍結天個數 |
|
task_instance_7_days_dry_run_day_count |
bigint |
空跑天個數 |
|
quality_monitor_count |
bigint |
資料品質監控指標個數 |
|
quality_monitor_7_days_failed_count |
bigint |
資料品質監控指標失敗個數 |
|
di_task_resource_group_id |
string |
節點所屬Data Integration資源群組編號 |
|
di_task_is_public_network |
bigint |
Data Integration任務是否公網流量 |
|
di_task_concurrency |
bigint |
並發數 |
|
di_task_total_records |
bigint |
同步數 |
|
di_task_total_bytes |
bigint |
同步資料量 |
|
di_task_source_type |
string |
源端類型 |
|
di_task_target_type |
string |
目標端類型 |
|
di_task_run_time_cost |
bigint |
Data Integration任務執行耗時 |
|
di_task_wait_time_cost |
bigint |
Data Integration任務等待耗時 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD |
資料目錄(catalogs)
|
欄位 |
類型 |
描述 |
|
datasource_type |
string |
資料來源類型,如dlf,starrocks等。 |
|
datasource_id |
string |
資料來源標識,如StarRocks叢集ID,DLF所屬主帳號ID。 |
|
name |
string |
資料目錄名稱。 |
|
type |
string |
資料目錄類型,如Hive,Jdbc等。 |
|
comment |
string |
資料目錄注釋。 |
|
location |
string |
目錄路徑。 |
|
properties |
string |
屬性及參數(JSON String)。 |
|
owner |
string |
資料目錄所有者,根據資料來源類型不同,其值可能是阿里雲帳號UID或者資料庫系統帳號。 |
|
create_timestamp |
bigint |
建立時間戳記13位。 |
|
update_timestamp |
bigint |
修改時間戳記13位。 |
|
meta_entity_id |
string |
資料目錄唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
欄位(columns)
|
欄位 |
類型 |
描述 |
|
datasource_type |
string |
資料來源類型,如dlf、starrocks等。 |
|
datasource_id |
string |
資料來源標識,如StarRocks叢集ID,DLF、MaxCompute所屬主帳號ID,RDS執行個體ID等。 |
|
catalog_name |
string |
資料目錄名稱,資料來源類型支援資料目錄時有值。 |
|
database_name |
string |
資料庫名稱。 |
|
schema_name |
string |
模式名稱,資料來源類型支援Schema時有值。 |
|
table_name |
string |
表名稱。 |
|
name |
string |
欄位名稱。 |
|
type |
string |
欄位類型。 |
|
comment |
string |
注釋。 |
|
ordinal_position |
bigint |
欄位序號(從1開始)。 |
|
is_primary_key |
boolean |
是否為主鍵。 |
|
is_nullable |
boolean |
是否允許為NULL。 |
|
is_partition_key |
boolean |
是否為分區鍵。 |
|
properties |
string |
屬性及參數(JSON String)。 |
|
business_description |
string |
業務描述。 |
|
meta_entity_id |
string |
欄位唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
資料庫(databases)
|
欄位 |
類型 |
描述 |
|
datasource_type |
string |
資料來源類型,如 |
|
datasource_id |
string |
資料來源標識,如StarRocks叢集ID,DLF、MaxCompute所屬主帳號ID,RDS執行個體ID等。 |
|
catalog_name |
string |
資料目錄名稱,資料來源類型支援資料目錄時有值。 |
|
name |
string |
資料庫名稱。 |
|
type |
string |
資料庫類型。 |
|
comment |
string |
資料庫注釋。 |
|
location |
string |
資料庫路徑。 |
|
properties |
string |
屬性及參數(JSON String)。 |
|
owner |
string |
資料庫擁有者,根據資料來源類型不同,其值可能是阿里雲帳號UID或者資料庫系統帳號。 |
|
is_external |
boolean |
是否為外部資料庫。 |
|
create_timestamp |
bigint |
建立時間戳記13位。 |
|
update_timestamp |
bigint |
修改時間戳記13位。 |
|
meta_entity_id |
string |
資料庫唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
Table和Column層級血緣(lineages)
|
欄位 |
類型 |
描述 |
|
source_meta_entity_id |
string |
源端唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
|
source_raw_entity_type |
string |
源端實體類型,所標識的中繼資料未被納管時,source_meta_entity_type為空白,採用source_raw_entity_type標識。 |
|
source_uuid |
string |
源端唯一標識(頁面訪問友好)。 |
|
target_meta_entity_id |
string |
目標端唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
|
target_raw_entity_type |
string |
目標實體類型,所標識的中繼資料未被納管時,target_meta_entity_type為空白,採用target_raw_entity_type標識。 |
|
target_uuid |
string |
目標端唯一標識(頁面訪問友好)。 |
|
compute_engine |
string |
計算引擎,如:maxcompute,datax,hologres等。 |
|
transform_type |
string |
引擎中的轉換任務類型,如:SQL,DATAX,DATAX_STREAM,EXTERNAL_TABLE_MAPPING,STORAGE_MAPPING,API_MAPPING。 |
|
task_id |
bigint |
DataWorks調度任務ID,參考tasks表,未經DataWorks調度觸發的血緣資料,此欄位為空白。 |
|
task_instance_id |
bigint |
DataWorks調度任務執行個體ID,參考tasks_instances表,未經DataWorks調度觸發的血緣資料,此欄位為空白。 |
|
lineage_time |
bigint |
血緣發生時間(毫秒級)。 |
|
granularity |
string |
血緣層級,如:TABLE、COLUMN。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
分區(partitions)
|
欄位 |
類型 |
描述 |
|
datasource_type |
string |
資料來源類型,如maxcompute,dlf,starrocks等。 |
|
datasource_id |
string |
資料來源標識,如StarRocks叢集ID,DLF、MaxCompute所屬主帳號ID,RDS執行個體ID等。 |
|
catalog_name |
string |
資料目錄名稱,資料來源類型支援資料目錄時有值。 |
|
database_name |
string |
資料庫名稱。 |
|
schema_name |
string |
模式名稱,資料來源類型支援Schema時有值。 |
|
table_name |
string |
表名稱。 |
|
name |
string |
分區名稱(Partition Specification)。 |
|
create_timestamp |
bigint |
建立時間戳記13位。 |
|
update_timestamp |
bigint |
修改時間戳記13位。 |
|
content_size |
bigint |
分區大小,以位元組計。 |
|
properties |
string |
屬性及參數(JSON String)。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
資源群組(resource groups)
|
欄位 |
類型 |
描述 |
|
resource_group_id |
bigint |
資源群組ID。 |
|
resource_group_identifier |
string |
資源群組標識。 |
|
resource_group_type |
bigint |
資源群組類型(1:調度資源群組;2:MaxCompute資源群組;4:Data Integration資源群組)。 |
|
resource_group_mode |
bigint |
資源群組模式(1:預付費;2:後付費;3:開發人員版本(僅MaxCompute))。 |
|
resource_group_status |
bigint |
資源群組狀態(0:正常;1:凍結;2:刪除;3:建立中;4:建立失敗;5:更新中;6:更新失敗;7:刪除中;8:刪除失敗)。 |
|
is_exclusive_resource_group |
boolean |
是否為獨享資源群組。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
資料模式(schemas)
|
欄位 |
類型 |
描述 |
|
datasource_type |
string |
資料來源類型,如holodb,maxcompute,postgresql等。 |
|
datasource_id |
string |
資料來源標識,如RDS執行個體ID,MaxCompute所屬主帳號ID等。 |
|
catalog_name |
string |
資料目錄名稱,資料來源類型支援資料目錄時有值。 |
|
database_name |
string |
資料庫名稱。 |
|
name |
string |
模式名稱。 |
|
type |
string |
模式類型。 |
|
comment |
string |
注釋。 |
|
properties |
string |
屬性及參數(JSON String)。 |
|
owner |
string |
模式所有者,根據資料來源類型不同,其值可能是阿里雲帳號UID或者資料庫系統帳號。 |
|
create_timestamp |
bigint |
建立時間戳記13位。 |
|
update_timestamp |
bigint |
修改時間戳記13位。 |
|
meta_entity_id |
string |
模式唯一標識(API訪問友好,符合中繼資料實體ID規範)。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
表(tables)
|
欄位 |
類型 |
描述 |
|
datasource_type |
string |
資料來源類型,如dlf,starrocks,maxcompute,holodb,mysql等。 |
|
datasource_id |
string |
資料來源標識,如StarRocks叢集ID,DLF、MaxCompute所屬主帳號ID,RDS執行個體ID等。 |
|
catalog_name |
string |
資料目錄名稱,資料來源類型支援資料目錄時有值。 |
|
database_name |
string |
資料庫名稱。 |
|
schema_name |
string |
模式名稱,資料來源類型支援Schema時有值。 |
|
name |
string |
表名稱。 |
|
type |
string |
表類型。 |
|
comment |
string |
注釋。 |
|
partition_keys |
string |
分區鍵,多級分區時,欄位採用英文逗號分隔。 |
|
location |
string |
表格儲存體路徑。 |
|
properties |
string |
屬性及參數(JSON String)視圖時為視圖定義DDL。 |
|
owner |
string |
表所有者,根據資料來源類型不同,其值可能是阿里雲帳號UID或者資料庫系統帳號。 |
|
content_size |
bigint |
儲存大小,以位元組計。 |
|
data_retention |
map<string,string> |
資料保留期/生命週期。不同類型的表其值有差異:對於MaxCompute表,key是lifecycle,value是表的生命週期,如365;對於DLF表,key是renention,value是表的生命週期,如91;對於其他類型,暫未支援。後續若支援,會補充文檔說明。 |
|
is_compressed |
boolean |
是否壓縮。 |
|
is_temporary |
boolean |
是否暫存資料表。 |
|
entity_type |
string |
實體類型,如:table、view、materialized_view等。 |
|
input_format |
string |
輸入格式。 |
|
output_format |
string |
輸出格式。 |
|
serde_parameters |
string |
SerDe參數。 |
|
serialization_lib |
string |
序列化library。 |
|
create_timestamp |
bigint |
表建立時間戳記13位。 |
|
meta_modified_timestamp |
bigint |
表中繼資料修改時間戳記13位。 |
|
data_modified_timestamp |
bigint |
表資料修改時間戳記13位。 |
|
last_access_timestamp |
bigint |
表最後訪問時間戳記13位。 |
|
business_description |
string |
業務描述/中文名。 |
|
meta_entity_id |
string |
表唯一標識(API訪問友好,符合中繼資料實體ID規範)。 例如:
|
|
uuid |
string |
表UUID,用於關聯DataWorks資料地圖表詳情頁面。 |
|
business_tags |
array<string> |
業務用標籤,地圖版面設定的標籤會採用此欄位記錄。 |
|
wikis |
array<struct<`version`:bigint,`operator`:string,`update_timestamp`:bigint,`content`:string>> |
表使用說明(version:版本號碼;operator:提交者;update_timestamp:更新時間戳記(13位);content:內容)。 |
|
producing_tasks |
array<bigint> |
生產表資料的調度任務ID列表,參考tasks表。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
任務/工作流程啟動並執行執行個體(task_instances)
|
欄位 |
類型 |
描述 |
|
id |
bigint |
任務執行個體ID。 |
|
node_id |
bigint |
任務ID,參考tasks表。 |
|
node_type |
bigint |
任務類型,請參考節點開發中節點編碼值。 |
|
node_name |
string |
任務名稱。 |
|
description |
string |
任務描述。 |
|
workflow_id |
bigint |
工作流程ID,參考tasks表。 |
|
workflow_name |
string |
工作流程名稱。 |
|
workflow_instance_id |
bigint |
工作流程執行個體ID。 |
|
workflow_instance_type |
bigint |
工作流程執行個體類型:(0-日常調度;1-手動任務;2-煙霧測試 (Smoke Test);3-補資料;4-一次性流程;5-手動流程)。 |
|
trigger_type |
string |
觸發方式類型(Scheduler/Manual)。 |
|
trigger_recurrence |
string |
運行模式(0-正常;1-手動;2-暫停;3-空跑;4-被引用)。 |
|
timeout |
bigint |
任務執行逾時時間(小時)。 |
|
rerun_mode |
string |
重跑配置(0-失敗可重跑;1-失敗或成功均可重跑;2-不可重跑)。 |
|
run_number |
bigint |
運行次數。 |
|
period_number |
bigint |
周期序號。 |
|
baseline_id |
bigint |
基準ID。 |
|
priority |
bigint |
任務優先順序(1-8)。 |
|
script_parameters |
string |
運行指令碼參數列表。 |
|
runtime_resource_group_id |
bigint |
任務啟動並執行資源群組ID。 |
|
runtime_resource_group_identifier |
string |
任務啟動並執行資源群組標識名稱。 |
|
runtime_image |
string |
運行鏡像ID。 |
|
runtime_cu |
string |
運行時CU消耗。 |
|
runtime_process_id |
string |
運行時進程ID。 |
|
runtime_gateway |
string |
運行時網關。 |
|
datasource_name |
string |
資料來源名稱。 |
|
inputs_variables |
array<struct<`name`:string,`type`:string,`value`:string>> |
輸入變數列表。 |
|
outputs |
array<struct<`output`:string,`type`:string>> |
輸出標識符列表。 |
|
outputs_variables |
array<struct<`name`:string,`type`:string,`value`:string>> |
輸出變數列表。 |
|
tags |
array<struct<`key`:string,`value`:string>> |
任務標籤列表。 |
|
status |
bigint |
任務狀態(1-未運行;2-等待時間;3-等待資源;4-運行中;5-失敗;6-成功;7-校正中;8-條件校正;9-等待觸發)。 |
|
trigger_time |
string |
觸發時間。 |
|
bizdate |
string |
業務日期。 |
|
started_time |
string |
開始時間。 |
|
finished_time |
string |
結束時間。 |
|
project_id |
bigint |
專案ID,參考workspaces表workspace_id欄位。 |
|
project_env |
string |
環境類型(PROD/DEV)。 |
|
owner |
string |
責任人帳號ID,參考users表。 |
|
create_time |
string |
建立時間。 |
|
modify_time |
string |
修改時間。 |
|
create_user |
string |
建立人帳號ID,參考users表。 |
|
modify_user |
string |
修改人帳號ID,參考users表。 |
|
waiting_resource_time |
string |
等待資源時間。 |
|
waiting_trigger_time |
string |
等待觸發時間。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
任務/工作流程定義(tasks)
|
欄位 |
類型 |
描述 |
|
id |
bigint |
任務ID。 |
|
name |
string |
任務名稱。 |
|
description |
string |
任務描述資訊。 |
|
type |
bigint |
任務類型,請參考節點開發中的節點編碼值。 |
|
workflow_id |
bigint |
工作流程ID。 |
|
instance_mode |
string |
執行個體產生模式。
|
|
baseline_id |
bigint |
基準ID。 |
|
priority |
bigint |
任務優先順序,最小值1,最大值8。取值越大,優先順序越高。預設優先順序為1。 |
|
timeout |
bigint |
任務執行逾時時間,單位時數。 |
|
rerun_mode |
bigint |
任務是否允許重跑配置(0:只有失敗可重跑;1:失敗或成功均可重跑;2:失敗或成功都不可重跑)。 |
|
rerun_times |
bigint |
重試次數,當任務設定為可重跑時生效。 |
|
rerun_interval |
bigint |
重試時間間隔,單位秒。 |
|
script_parameters |
string |
運行指令碼參數列表。 |
|
trigger_type |
string |
觸發方式類型(Scheduler:調度周期觸發;Manual:手動觸發)。 |
|
trigger_recurrence |
bigint |
觸發時的運行模式(0:正常運行;1:手動任務;2:暫停;3:空跑;4:被引用任務)。 |
|
trigger_cron |
string |
Cron運算式,type=Scheduler時生效。 |
|
trigger_start_time |
string |
周期觸發生效時間,type=Scheduler時生效。 |
|
trigger_end_time |
string |
周期觸發失效時間,type=Scheduler時生效。 |
|
runtime_resource_group_id |
bigint |
任務啟動並執行資源群組ID。 |
|
runtime_image |
string |
任務回合組態的鏡像ID。 |
|
runtime_cu |
string |
任務回合組態CU消耗。 |
|
datasource_name |
string |
資料來源名稱。 |
|
inputs_variables |
array<struct<`name`:string,`type`:string,`value`:string>> |
輸入變數列表。 |
|
outputs |
array<struct<`output`:string,`type`:string>> |
任務輸出標識符列表。 |
|
outputs_variables |
array<struct<`name`:string,`type`:string,`value`:string>> |
輸出變數列表。 |
|
dependencies |
array<struct<`type`:string,`upstream_output`:string,`upstream_node_id`:bigint>> |
依賴資訊列表。 |
|
related_workflow_id |
bigint |
關聯工作流程ID。 |
|
tags |
array<struct<`key`:string,`value`:string>> |
任務標籤列表。 |
|
project_id |
bigint |
專案ID,參考workspaces表workspace_id欄位。 |
|
project_env |
string |
環境類型(PROD:生產;DEV:開發)。 |
|
owner |
string |
任務的責任人的帳號ID,參考users表。 |
|
create_time |
string |
建立時間。 |
|
modify_time |
string |
修改時間。 |
|
create_user |
string |
建立使用者的帳號ID,參考users表。 |
|
modify_user |
string |
修改使用者的帳號ID,參考users表。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
使用者(users)
|
欄位 |
類型 |
描述 |
|
user_id |
string |
使用者標識。 |
|
user_nick |
string |
帳號別名(顯示名稱)。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
工作空間成員(workspace members)
|
欄位 |
類型 |
描述 |
|
workspace_id |
bigint |
工作空間ID,參考workspaces表。 |
|
user_id |
string |
使用者標識,參考users表。 |
|
user_status |
bigint |
使用者狀態(0:正常;1:禁用;2:刪除)。 |
|
gmt_create_ts |
bigint |
建立時間(13位元字時間戳記)。 |
|
gmt_modified_ts |
bigint |
修改時間(13位元字時間戳記)。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
工作空間(workspaces)
|
欄位 |
類型 |
描述 |
|
workspace_id |
bigint |
工作空間ID。 |
|
workspace_name |
string |
工作空間名稱。 |
|
workspace_identifier |
string |
工作空間標識符。 |
|
workspace_description |
string |
工作空間描述。 |
|
workspace_owner |
string |
工作空間Owner標識,參考users表。 |
|
workspace_status |
bigint |
工作空間狀態(0:正常;1:已刪除;2:初始化;3:初始化失敗;4:手動禁用;5:刪除中;6:刪除失敗;7:欠費凍結)。 |
|
dt |
string |
日期分區(邏輯分區欄位),格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
資料品質規則執行個體(quality_rule_results)
分區欄位:dt
描述:資料品質規則執行個體
|
欄位 |
類型 |
描述 |
|
id |
bigint |
主鍵ID |
|
scan_run_id |
bigint |
品質監控執行個體ID |
|
rule_id |
bigint |
規則ID |
|
rule_name |
string |
規則名稱 |
|
status |
string |
規則校正結果,Pass/Error/Warn/Fail/Running |
|
severity |
string |
規則強弱,High/Normal |
|
create_time |
bigint |
建立時間 |
|
modify_time |
bigint |
最近一次修改時間 |
|
spec |
string |
規則執行個體Spec |
|
tags |
array<string> |
規則執行個體標籤 |
|
tenant_id |
bigint |
Dataworks租戶ID |
|
project_id |
bigint |
Dataworks專案空間ID |
|
meta_entity_id |
string |
地圖表實體唯一標識 |
|
dt |
string |
日期分區,格式YYYYMMDD,取值範圍:[TODAY-D, TODAY-1D] |
資料品質規則指標明細(quality_rules)
分區欄位:dt
描述:資料品質規則指標明細
|
欄位 |
類型 |
描述 |
|
id |
bigint |
主鍵ID |
|
scan_id |
bigint |
品質監控ID |
|
rule_name |
string |
規則名稱 |
|
enabled |
boolean |
規則是否啟用 |
|
severity |
string |
規則業務嚴重等級,枚舉值:High/Normal |
|
create_time |
bigint |
建立時間 |
|
modify_time |
bigint |
最近一次修改時間 |
|
spec |
string |
規則Spec |
|
tags |
array<string> |
規則標籤 |
|
tenant_id |
bigint |
Dataworks租戶ID |
|
project_id |
bigint |
Dataworks專案空間ID |
|
meta_entity_id |
string |
地圖實體唯一標識 |
|
pass_count |
int |
規則校正通過次數 |
|
warn_count |
int |
規則校正觸發橙色閾值次數 |
|
error_count |
int |
規則校正觸發紅色閾值次數 |
|
fail_count |
int |
規則校正失敗次數 |
|
dt |
string |
日期分區,格式YYYYMMDD,取值範圍:[TODAY-D, TODAY-1D] |
資料品質監控任務執行個體(quality_scan_runs)
分區欄位:dt
描述:資料品質監控任務執行個體
|
欄位 |
類型 |
描述 |
|
id |
bigint |
主鍵ID |
|
scan_id |
bigint |
品質監控ID |
|
name |
string |
監控名稱 |
|
status |
string |
監控執行個體狀態,Pass/Warn/Error/Fail/Running |
|
post_action_type |
string |
監控校正後處置動作,枚舉值:Alert/BlockTaskInstance |
|
data_filter |
string |
採樣時實際使用的資料範圍 |
|
trigger_time |
bigint |
任務使用的調度定時時間 |
|
trigger_type |
string |
資料品質監控觸發方式, ByManual/BySchedule/ByQualityNode |
|
create_time |
bigint |
建立時間 |
|
modify_time |
bigint |
最近一次更新時間 |
|
datasource_id |
bigint |
表所屬資料來源ID |
|
datasource_type |
string |
資料來源類型 |
|
computing_resource_id |
bigint |
計算引擎ID |
|
compute_resource_option |
string |
資料品質監控運行所用計算資源 |
|
spec |
string |
品質監控Spec |
|
tenant_id |
bigint |
Dataworks租戶ID |
|
project_id |
bigint |
Dataworks專案空間ID |
|
owner |
string |
品質監控責任人 |
|
task_id |
bigint |
調度任務ID |
|
task_instance_id |
bigint |
調度任務執行個體ID |
|
meta_entity_id |
string |
地圖實體唯一標識 |
|
table_name |
string |
表名稱 |
|
catalog_name |
string |
表所屬資料目錄名稱 |
|
schema_name |
string |
表所屬模式名稱 |
|
database_name |
string |
表所屬資料庫名稱 |
|
cluster_id |
string |
表所屬叢集ID |
|
dt |
string |
日期分區,格式YYYYMMDD,取值範圍:[TODAY-D, TODAY-1D] |
資料品質監控任務指標明細(quality_scans)
分區欄位:dt
描述:資料品質監控任務指標明細
|
欄位 |
類型 |
描述 |
|
id |
bigint |
主鍵ID |
|
name |
string |
監控名稱 |
|
data_filter_type |
string |
資料範圍類型, ByPartition/ByWhere |
|
data_filter |
string |
資料範圍運算式 |
|
trigger_type |
string |
資料品質監控觸發方式, ByManual/BySchedule/ByQualityNode |
|
create_time |
bigint |
建立時間 |
|
modify_time |
bigint |
最近一次更新時間 |
|
computing_resource_id |
bigint |
計算引擎ID |
|
compute_resource_option |
string |
資料品質監控運行所用計算資源 |
|
spec |
string |
資料品質監控Spec |
|
related_tasks |
array<bigint> |
監控關聯的調度任務 |
|
tenant_id |
bigint |
Dataworks租戶ID |
|
project_id |
bigint |
Dataworks專案空間ID |
|
owner |
string |
品質監控責任人 |
|
datasource_id |
string |
表所屬資料來源ID |
|
datasource_type |
string |
資料來源類型 |
|
meta_entity_id |
string |
地圖實體唯一標識 |
|
table_name |
string |
表名稱 |
|
catalog_name |
string |
表所屬資料目錄名稱 |
|
schema_name |
string |
表所屬模式名稱 |
|
database_name |
string |
表所屬資料庫名稱 |
|
cluster_id |
string |
表所屬叢集ID |
|
related_scheduler_task_count |
int |
關聯調度任務數 |
|
rule_count |
int |
關聯規則數 |
|
high_severity_rule_count |
int |
關聯強規則數 |
|
normal_severity_rule_count |
int |
關聯弱規則數 |
|
enabled_rule_count |
int |
開啟規則數 |
|
enabled_high_severity_rule_count |
int |
開啟強規則數 |
|
enabled_normal_severity_rule_count |
int |
開啟弱規則數 |
|
rule_instance_count |
int |
今日規則執行個體數 |
|
high_severity_rule_instance_count |
int |
今日強規則執行個體數 |
|
normal_severity_rule_instance_count |
int |
今日弱規則執行個體數 |
|
high_severity_rule_instance_pass_count |
int |
今日校正通過強規則執行個體數 |
|
high_severity_rule_instance_warn_count |
int |
今日橙色異常強規則執行個體數 |
|
high_severity_rule_instance_error_count |
int |
今日紅色異常強規則執行個體數 |
|
high_severity_rule_instance_fail_count |
int |
今日校正失敗強規則執行個體數 |
|
normal_severity_rule_instance_pass_count |
int |
今日校正通過弱規則執行個體數 |
|
normal_severity_rule_instance_warn_count |
int |
今日橙色異常弱規則執行個體數 |
|
normal_severity_rule_instance_error_count |
int |
今日紅色異常弱規則執行個體數 |
|
normal_severity_rule_instance_fail_count |
int |
今日校正失敗弱規則執行個體數 |
|
block_task_instance_count |
int |
今日阻塞調度任務數 |
|
alert_rule_count |
int |
配置警示訂閱數 |
|
sms_alert_rule_count |
int |
配置簡訊警示訂閱數 |
|
mail_alert_rule_count |
int |
配置郵件警示訂閱數 |
|
phone_alert_rule_count |
int |
配置電話警示訂閱數 |
|
ding_alert_rule_count |
int |
配置DingTalk警示訂閱數 |
|
feishu_alert_rule_count |
int |
配置飛書警示訂閱數 |
|
weixin_alert_rule_count |
int |
配置微信警示訂閱數 |
|
webhook_alert_rule_count |
int |
配置自訂webhook警示訂閱數 |
|
alert_times |
int |
今日觸發警示次數 |
|
sms_alert_times |
int |
今日觸發簡訊警示次數 |
|
mail_alert_times |
int |
今日觸發郵件警示次數 |
|
phone_alert_times |
int |
今日觸發電話警示次數 |
|
ding_alert_times |
int |
今日觸發DingTalk警示次數 |
|
feishu_alert_times |
int |
今日觸發飛書警示次數 |
|
weixin_alert_times |
int |
今日觸發微信警示次數 |
|
webhook_alert_times |
int |
今日觸發自訂webhook警示次數 |
|
dt |
string |
日期分區,格式YYYYMMDD,取值範圍:[TODAY-D, TODAY-1D] |
資料品質表指標明細(table_quality_summary)
分區欄位:dt
描述:資料品質表指標明細
|
欄位 |
類型 |
描述 |
|
meta_entity_id |
string |
地圖表實體唯一標識 |
|
project_id |
bigint |
Dataworks專案空間ID |
|
table_name |
string |
表名稱 |
|
schema_name |
string |
表所屬模式名稱 |
|
database_name |
string |
表所屬資料庫名稱 |
|
catalog_name |
string |
表所屬資料目錄名稱 |
|
datasource_id |
bigint |
表所屬資料來源ID,未配置資料品質時為NULL |
|
tenant_id |
bigint |
Dataworks租戶ID |
|
owner |
string |
表負責人 |
|
scan_count |
int |
已配置品質監控數 |
|
scheduler_related_scan_count |
int |
關聯調度的品質監控數 |
|
scan_run_count |
int |
今日品質監控任務執行個體數 |
|
alert_scan_run_count |
int |
今日觸發警示的品質監控任務執行個體數 |
|
block_task_instance_scan_run_count |
int |
今日觸發阻塞調度任務的品質監控任務執行個體數 |
|
rule_count |
int |
配置規則數 |
|
enabled_rule_count |
int |
啟用規則數 |
|
high_severity_rule_count |
int |
配置強規則數 |
|
normal_severity_rule_count |
int |
配置弱規則數 |
|
rule_instance_count |
int |
今日規則執行個體數 |
|
high_severity_rule_instance_count |
int |
今日強規則執行個體數 |
|
normal_severity_rule_instance_count |
int |
今日弱規則執行個體數 |
|
high_severity_rule_instance_pass_count |
int |
今日強規則校正通過次數 |
|
high_severity_rule_instance_warn_count |
int |
今日強規則校正橙色異常次數 |
|
high_severity_rule_instance_error_count |
int |
今日強規則校正紅色異常次數 |
|
high_severity_rule_instance_fail_count |
int |
今日強規則校正失敗次數 |
|
normal_severity_rule_instance_pass_count |
int |
今日弱規則校正通過次數 |
|
normal_severity_rule_instance_warn_count |
int |
今日弱規則校正橙色異常次數 |
|
normal_severity_rule_instance_error_count |
int |
今日弱規則校正紅色異常次數 |
|
normal_severity_rule_instance_fail_count |
int |
今日弱規則校正失敗次數 |
|
dt |
string |
日期分區,格式YYYYMMDD,取值範圍:[TODAY-31D, TODAY-1D] |
Examples中繼資料
Table指標明細(table_metrics_detail)
|
欄位 |
類型 |
描述 |
|
datasource_type |
string |
資料來源類型。 |
|
datasource_id |
string |
資料來源標識。 |
|
catalog_name |
string |
資料目錄名稱。 |
|
database_name |
string |
資料庫名稱。 |
|
schema_name |
string |
資料模式名稱。 |
|
table_name |
string |
表名稱。 |
|
table_uuid |
string |
表標識,用於跳轉到詳情。 |
|
meta_entity_id |
string |
表標識,可讀性好。 |
|
content_size |
bigint |
採集到的儲存量。不支援採集儲存量時,欄位值為NULL。 |
|
daily_rate_cs |
decimal(16,6) |
儲存量日環比變動率。 |
|
avg_content_size_7d |
bigint |
儲存量的7天平均值。 |
|
daily_rate_acs_7d |
decimal(16,6) |
七天平均儲存量日環比變動率。 |
|
latest_data_update_time_31d |
bigint |
31天資料範圍內作為血緣下遊對應執行個體的結束時間;資料更新時間最大值data_modified_timestamp。31天資料範圍內無更新時,對應欄位值為NULL。 |
|
latest_data_update_task_id |
bigint |
31天內,最新動向表的調度任務ID。 |
|
latest_data_update_instance_id |
bigint |
31天內,最新動向表的調度任務執行個體ID。 |
|
latest_data_update_time_by_task |
bigint |
31天內,最新動向表的**調度任務**執行個體的結束時間。 |
|
writing_task_ids |
array<bigint> |
當前業務日期,寫入表的調度任務ID(無重複ID)。 |
|
writing_task_ids_31d |
array<bigint> |
31天資料範圍內,寫入表的調度任務ID(無重複ID)。 |
|
latest_data_access_time_31d |
bigint |
31天資料範圍內作為血緣上遊對應執行個體的結束時間;最後訪問時間最大值last_access_timestamp。31天資料範圍內無訪問時,對應欄位值為NULL。 |
|
latest_data_access_task_id |
bigint |
31天內,最近讀取表的調度任務ID。 |
|
latest_data_access_instance_id |
bigint |
31天內,最近讀取表的調度任務執行個體ID。 |
|
latest_data_access_time_by_task |
bigint |
31天資料範圍內作為血緣上遊對應執行個體的結束時間。 |
|
reading_task_ids |
array<string> |
讀取表的調度任務ID。 |
|
reading_task_ids_31d |
array<string> |
31天資料範圍內,讀取表的調度任務ID(無重複ID)。 |
|
direct_downstream_tables |
array<string> |
直接下遊表ID(uuid)。 |
|
direct_upstream_tables |
array<string> |
直接上遊表ID(uuid)。 |
|
dt |
string |
日期分區,格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
Table指標匯總(table_metrics_summary)
|
欄位 |
類型 |
描述 |
|
table_count |
bigint |
表數量。 |
|
daily_rate_tc |
decimal(16,6) |
表數量日環比變動率。 |
|
avg_table_count_7d |
bigint |
表數量的7日平均值。 |
|
daily_rate_atc_7d |
decimal(16,6) |
表數量7日平均值日環比變動率。 |
|
content_size |
bigint |
採集到的儲存量。不支援採集儲存量時,欄位值為NULL。 |
|
daily_rate_cs |
decimal(16,6) |
儲存量日環比變動率。 |
|
avg_content_size_7d |
bigint |
儲存量的7天平均值。 |
|
daily_rate_acs_7d |
decimal(16,6) |
七天平均儲存量日環比變動率。 |
|
updated_table_count |
bigint |
31天內更新的表數量。 |
|
daily_rate_utc |
decimal(16,6) |
31天內更新的表數量日環比變動率。 |
|
avg_updated_table_count_7d |
bigint |
31天內更新的表數量的7日平均值。 |
|
daily_rate_autc_7d |
decimal(16,6) |
31天內更新的表數量7日平均值日環比變動率。 |
|
accessed_table_count |
bigint |
31天內讀取的表數量。 |
|
daily_rate_atc |
decimal(16,6) |
31天內讀取的表數量日環比變動率。 |
|
avg_accessed_table_count_7d |
bigint |
31天內讀取的表數量的7日平均值。 |
|
daily_rate_aatc_7d |
decimal(16,6) |
31天內讀取的表數量7日平均值日環比變動率。 |
|
dt |
string |
日期分區,格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
Task指標明細(task_metrics_detail)
|
欄位 |
類型 |
描述 |
|
task_id |
bigint |
任務標識。 |
|
workflow_id |
bigint |
工作流程標識。 |
|
node_type |
bigint |
任務類型。 |
|
project_id |
bigint |
工作空間標識。 |
|
week_number |
bigint |
業務日期所在年的第幾周。 |
|
task_owner |
string |
負責人ID。 |
|
compute_resource_type |
string |
計算資源類型。 |
|
compute_resource_id |
string |
計算資源標識:MC專案名稱,EMR叢集ID,Hologres執行個體ID等。 |
|
datasource_name |
string |
資料來源名稱。 |
|
inst_success_count |
bigint |
運行成功的執行個體數量。 |
|
inst_failed_count |
bigint |
運行失敗的執行個體數量。 |
|
inst_running_count |
bigint |
運行中的執行個體數量。 |
|
inst_abnormal_count |
bigint |
運行異常的執行個體數量。 |
|
inst_not_started_count |
bigint |
未啟動並執行執行個體數量。 |
|
inst_runtime_cu |
double |
執行個體運行時CU消耗。 |
|
task_avg_cu_31d |
double |
任務日均CU消耗(31日內)。 |
|
dt |
string |
日期分區,格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |
Task指標匯總(task_metrics_summary)
|
欄位 |
類型 |
描述 |
|
node_type |
bigint |
節點類型。 |
|
inst_status |
string |
執行個體狀態。 |
|
inst_count |
bigint |
執行個體數量。 |
|
avg_inst_count_7d |
double |
7日執行個體平均數量。 |
|
granularity |
string |
統計粒度,日DAILY,周WEEKLY。 |
|
dt |
string |
日期分區,格式YYYYMMDD,取值範圍:[TODAY-31D,TODAY-1D]。 |