全部产品
Search
文档中心

大数据开发治理平台 DataWorks:开放数据表结构详情

更新时间:Dec 12, 2025

DataWorks开放数据为您提供各维度的表或视图,便于您采集元数据。本文为您介绍当前DataWorks开放数据提供的表和视图列表,及其结构明细。

MetaData元数据

本套元数据表及示例指标统计表由DataWorks基于当前租户的表、任务、实例、工作空间、成员及项目等元数据生成。实际表结构将根据业务发展动态调整,最终以系统界面展示内容为准。

数据资产元数据

资产表问题明细(asset_table_issues)

分区字段:dt

描述:表的数据治理问题明细

字段

类型

描述

tenant_id

string

dw租户

meta_entity_id

string

对应元数据实体id

uuid

string

表唯一键

meta_entity_type

string

对应元数据类型,如:maxcompute-table

entity_type

string

实体类型,如:table、view、materialized_view

account_id

string

资产所属主账号

datasource_type

string

数据源类型,如:EMR,MC

datasource_id

string

引擎名称(MC:projectName,EMR:clusterId,holo:databaseName)

catalog_name

string

meta data 为DLF时 为DLF 目录

database_name

string

数据库名称 (EMR dbName)

schema_name

string

schema名称

rule_id

string

治理项标识

rule_name_zh

string

治理项中文名称

rule_name_en

string

治理项英文名称

category

string

所属维度

deduct_score_tenant

string

全局扣减分数,保留小数点后4位

deduct_score_owner

string

个人扣减分数,保留小数点后4位

cost

string

浪费的资源

project_id

string

dw项目空间

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD

资产表指标明细(asset_table_profiles)

分区字段:dt

描述:表的指标明细

字段

类型

描述

tenant_id

bigint

源租户id

meta_entity_id

string

对应元数据实体id

meta_entity_type

string

对应元数据类型,如:maxcompute-table

entity_type

string

实体类型,如:table、view、materialized_view

account_id

string

资产所属主账号

datasource_type

string

数据源类型,如:EMR,MC

datasource_id

string

引擎名称(MC:projectName,EMR:clusterId,holo:databaseName)

catalog_name

string

meta data 为DLF时为DLF 目录

database_name

string

数据库名称 (EMR dbName)

schema_name

string

schema名称

uuid

string

表唯一键

name

string

表名称

owner

string

资产负责人

last_access_timestamp

bigint

表最近访问时间

meta_modified_timestamp

bigint

表元数据修改时间戳13位

data_modified_timestamp

bigint

表数据修改时间戳13位

create_timestamp

bigint

表创建时间

comment

string

表注释

partition_keys

string

分区键

tags

string

资产标签

governance_rule_finding_count

bigint

治理项问题个数

governance_rule_finding_history_count

string

资产治理项个数历史

governance_health_score

string

资产治理评分

governance_health_level

string

资产治理评分等级

is_partitioned

bigint

是否是分区表

content_size

bigint

逻辑大小

record_num

bigint

记录行数

life_cycle

string

生命周期

partition_count

bigint

分区个数

view_count_monthly

bigint

近一个月浏览次数

access_count

bigint

访问次数

upstream_table_count

bigint

上游表个数

upstream_table_detail

string

上游表详情

downstream_table_count

bigint

下游表个数

downstream_table_detail

string

下游表详情

producing_project_ids

string

表产出涉及的工作空间列表

producing_tasks_count

bigint

表产出涉及的节点个数

producing_tasks_detail

string

表产出涉及的节点详情

using_tasks_count

bigint

使用表节点个数

using_tasks_detail

string

使用表节点详情

quality_rule_count

bigint

质量规则个数

quality_monitor_count

bigint

质量监控指标个数

quality_rule_7_days_failed_count

bigint

质量规则不通过个数

quality_monitor_7_days_failed_count

bigint

质量监控指标不通过个数

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD

资产任务问题明细(asset_task_issues)

分区字段:dt

描述:任务的数据治理问题明细

字段

类型

描述

tenant_id

string

DataWorks租户id

node_id

string

调度节点id

node_name

string

节点名称

node_type

string

任务类型,SQL/SQLCost/LOT/CUPID

node_owner

string

负责人baseId

priority

string

优先级

rule_id

string

治理项标识

rule_name_zh

string

治理项中文名称

rule_name_en

string

治理项英文名称

category

string

所属治理领域

deduct_score_tenant

string

全局扣减分数,保留小数点后4位

deduct_score_owner

string

个人扣减分数,保留小数点后4位

cost

string

治理收益

project_id

string

DataWorks项目id

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD

资产任务指标明细(asset_task_profiles)

分区字段:dt

描述:任务的指标明细

字段

类型

描述

tenant_id

bigint

源租户id

data_asset_id

string

资产在模块下id,对应task.id

name

string

资产名称,对应task.name

project_id

bigint

所在工作空间

project_env

string

环境,PROD:生产 DEV:开发

owner

string

资产负责人

create_user

string

创建人

create_time

bigint

创建时间

modify_user

string

修改人

modify_time

bigint

修改时间

trigger_type

string

触发方式类型 Scheduler:调度周期触发 Manual:手动触发

trigger_recurrence_type

string

Normal 正常运行,Manual 手动任务,Pause 暂停,Skip 空跑

trigger_cron

string

cron表达式

type

bigint

执行代码类型,请参考 https://www.alibabacloud.com/help/zh/dataworks/user-guide/node-development-of-data-studio 中节点编码值

script_parameters

string

参数信息

priority

bigint

任务优先级,最小值 1,最大值 8。取值越大,优先级越高。默认优先级为 1

trigger_start_time

bigint

允许调度的起始日期

trigger_end_time

bigint

允许调度的终止日期

runtime_resource_group_id

bigint

节点所属资源组编号

runtime_cu

string

计算cu

baseline_id

bigint

节点所属基线编号

rerun_times

bigint

任务可重跑次数

rerun_interval

bigint

重跑间隔,单位毫秒

rerun_mode_type

string

AllAllowed 失败或成功均可重跑,FailureAllowed 只有失败可重跑,AllDenied 失败或成功都不可重跑

tags

string

资产标签

tags_count

bigint

资产标签个数

input_table_count

bigint

输入表个数

output_table_count

bigint

输出表个数

input_table_detail

string

输入表详情

output_table_detail

string

输出表详情

upstream_node_count

bigint

上游节点个数

downstream_node_count

bigint

下游节点个数

governance_rule_finding_count

bigint

治理项问题个数

governance_rule_finding_history_count

string

资产治理项个数历史

governance_health_score

string

资产评分

governance_health_level

string

资产评分等级

engine_datasource_id

string

计算引擎id

engine_instance_count

bigint

计算引擎作业个数

engine_instance_run_time

bigint

计算引擎作业运行时间

engine_instance_comput_volume_cost

string

计算量

engine_instance_cu_cost

string

计算cu

engine_instance_cpu_cost

string

cpu消耗

engine_instance_mem_cost

string

内存消耗

engine_instance_exist_data_skew

bigint

数据倾斜

engine_instance_suggestions

string

倾斜建议

engine_instance_data_skew_ids

string

数据倾斜 作业ids

engine_instance_ids

string

作业ids

task_instance_wait_time_cost_sum

bigint

等待时间消耗总和

task_instance_wait_time_cost_max

bigint

实例等待时间消耗最大值

task_instance_run_time_cost_sum

bigint

运行时间消耗总和

task_instance_run_time_cost_max

bigint

运行时间消耗最大值

task_instance_7_days_wait_time_cost_max

bigint

7天实例等待时间消耗最大值

task_instance_7_days_run_time_cost_max

bigint

7天实例运行时间消耗最大值

task_instance_count

bigint

实例个数

task_instance_7_days_failed_count

bigint

失败实例个数

task_instance_7_days_failed_day_count

bigint

失败天个数

task_instance_7_days_frezeed_day_count

bigint

冻结天个数

task_instance_7_days_dry_run_day_count

bigint

空跑天个数

quality_monitor_count

bigint

数据质量监控指标个数

quality_monitor_7_days_failed_count

bigint

数据质量监控指标失败个数

di_task_resource_group_id

string

节点所属数据集成资源组编号

di_task_is_public_network

bigint

数据集成任务是否公网流量

di_task_concurrency

bigint

并发数

di_task_total_records

bigint

同步数

di_task_total_bytes

bigint

同步数据量

di_task_source_type

string

源端类型

di_task_target_type

string

目标端类型

di_task_run_time_cost

bigint

数据集成任务执行耗时

di_task_wait_time_cost

bigint

数据集成任务等待耗时

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD

数据质量

数据质量规则实例(quality_rule_results)

分区字段:dt

描述:数据质量规则实例

字段

类型

描述

id

bigint

主键ID

scan_run_id

bigint

质量监控实例ID

rule_id

bigint

规则ID

rule_name

string

规则名称

status

string

规则校验结果,Pass/Error/Warn/Fail/Running

severity

string

规则强弱,High/Normal

create_time

bigint

创建时间

modify_time

bigint

最近一次修改时间

spec

string

规则实例Spec

tags

array<string>

规则实例标签

tenant_id

bigint

Dataworks租户ID

project_id

bigint

Dataworks项目空间ID

meta_entity_id

string

地图表实体唯一标识

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D]

数据质量规则指标明细(quality_rules)

分区字段:dt

描述:数据质量规则指标明细

字段

类型

描述

id

bigint

主键ID

scan_id

bigint

质量监控ID

rule_name

string

规则名称

enabled

boolean

规则是否启用

severity

string

规则业务严重等级,枚举值:High/Normal

create_time

bigint

创建时间

modify_time

bigint

最近一次修改时间

spec

string

规则Spec

tags

array<string>

规则标签

tenant_id

bigint

Dataworks租户ID

project_id

bigint

Dataworks项目空间ID

meta_entity_id

string

地图实体唯一标识

pass_count

int

规则校验通过次数

warn_count

int

规则校验触发橙色阈值次数

error_count

int

规则校验触发红色阈值次数

fail_count

int

规则校验失败次数

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D]

数据质量监控任务实例(quality_scan_runs)

分区字段:dt

描述:数据质量监控任务实例

字段

类型

描述

id

bigint

主键ID

scan_id

bigint

质量监控ID

name

string

监控名称

status

string

监控实例状态,Pass/Warn/Error/Fail/Running

post_action_type

string

监控校验后处置动作,枚举值:Alert/BlockTaskInstance

data_filter

string

采样时实际使用的数据范围

trigger_time

bigint

任务使用的调度定时时间

trigger_type

string

数据质量监控触发方式, ByManual/BySchedule/ByQualityNode

create_time

bigint

创建时间

modify_time

bigint

最近一次更新时间

datasource_id

bigint

表所属数据源ID

datasource_type

string

数据源类型

computing_resource_id

bigint

计算引擎ID

compute_resource_option

string

数据质量监控运行所用计算资源

spec

string

质量监控Spec

tenant_id

bigint

Dataworks租户ID

project_id

bigint

Dataworks项目空间ID

owner

string

质量监控责任人

task_id

bigint

调度任务ID

task_instance_id

bigint

调度任务实例ID

meta_entity_id

string

地图实体唯一标识

table_name

string

表名称

catalog_name

string

表所属数据目录名称

schema_name

string

表所属模式名称

database_name

string

表所属数据库名称

cluster_id

string

表所属集群ID

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D]

数据质量监控任务指标明细(quality_scans)

分区字段:dt

描述:数据质量监控任务指标明细

字段

类型

描述

id

bigint

主键ID

name

string

监控名称

data_filter_type

string

数据范围类型, ByPartition/ByWhere

data_filter

string

数据范围表达式

trigger_type

string

数据质量监控触发方式, ByManual/BySchedule/ByQualityNode

create_time

bigint

创建时间

modify_time

bigint

最近一次更新时间

computing_resource_id

bigint

计算引擎ID

compute_resource_option

string

数据质量监控运行所用计算资源

spec

string

数据质量监控Spec

related_tasks

array<bigint>

监控关联的调度任务

tenant_id

bigint

Dataworks租户ID

project_id

bigint

Dataworks项目空间ID

owner

string

质量监控责任人

datasource_id

string

表所属数据源ID

datasource_type

string

数据源类型

meta_entity_id

string

地图实体唯一标识

table_name

string

表名称

catalog_name

string

表所属数据目录名称

schema_name

string

表所属模式名称

database_name

string

表所属数据库名称

cluster_id

string

表所属集群ID

related_scheduler_task_count

int

关联调度任务数

rule_count

int

关联规则数

high_severity_rule_count

int

关联强规则数

normal_severity_rule_count

int

关联弱规则数

enabled_rule_count

int

开启规则数

enabled_high_severity_rule_count

int

开启强规则数

enabled_normal_severity_rule_count

int

开启弱规则数

rule_instance_count

int

今日规则实例数

high_severity_rule_instance_count

int

今日强规则实例数

normal_severity_rule_instance_count

int

今日弱规则实例数

high_severity_rule_instance_pass_count

int

今日校验通过强规则实例数

high_severity_rule_instance_warn_count

int

今日橙色异常强规则实例数

high_severity_rule_instance_error_count

int

今日红色异常强规则实例数

high_severity_rule_instance_fail_count

int

今日校验失败强规则实例数

normal_severity_rule_instance_pass_count

int

今日校验通过弱规则实例数

normal_severity_rule_instance_warn_count

int

今日橙色异常弱规则实例数

normal_severity_rule_instance_error_count

int

今日红色异常弱规则实例数

normal_severity_rule_instance_fail_count

int

今日校验失败弱规则实例数

block_task_instance_count

int

今日阻塞调度任务数

alert_rule_count

int

配置告警订阅数

sms_alert_rule_count

int

配置短信告警订阅数

mail_alert_rule_count

int

配置邮件告警订阅数

phone_alert_rule_count

int

配置电话告警订阅数

ding_alert_rule_count

int

配置钉钉告警订阅数

feishu_alert_rule_count

int

配置飞书告警订阅数

weixin_alert_rule_count

int

配置微信告警订阅数

webhook_alert_rule_count

int

配置自定义webhook告警订阅数

alert_times

int

今日触发告警次数

sms_alert_times

int

今日触发短信告警次数

mail_alert_times

int

今日触发邮件告警次数

phone_alert_times

int

今日触发电话告警次数

ding_alert_times

int

今日触发钉钉告警次数

feishu_alert_times

int

今日触发飞书告警次数

weixin_alert_times

int

今日触发微信告警次数

webhook_alert_times

int

今日触发自定义webhook告警次数

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D]

数据质量表指标明细(table_quality_summary)

分区字段:dt

描述:数据质量表指标明细

字段

类型

描述

meta_entity_id

string

地图表实体唯一标识

project_id

bigint

Dataworks项目空间ID

table_name

string

表名称

schema_name

string

表所属模式名称

database_name

string

表所属数据库名称

catalog_name

string

表所属数据目录名称

datasource_id

bigint

表所属数据源ID,未配置数据质量时为NULL

tenant_id

bigint

Dataworks租户ID

owner

string

表负责人

scan_count

int

已配置质量监控数

scheduler_related_scan_count

int

关联调度的质量监控数

scan_run_count

int

今日质量监控任务实例数

alert_scan_run_count

int

今日触发告警的质量监控任务实例数

block_task_instance_scan_run_count

int

今日触发阻塞调度任务的质量监控任务实例数

rule_count

int

配置规则数

enabled_rule_count

int

启用规则数

high_severity_rule_count

int

配置强规则数

normal_severity_rule_count

int

配置弱规则数

rule_instance_count

int

今日规则实例数

high_severity_rule_instance_count

int

今日强规则实例数

normal_severity_rule_instance_count

int

今日弱规则实例数

high_severity_rule_instance_pass_count

int

今日强规则校验通过次数

high_severity_rule_instance_warn_count

int

今日强规则校验橙色异常次数

high_severity_rule_instance_error_count

int

今日强规则校验红色异常次数

high_severity_rule_instance_fail_count

int

今日强规则校验失败次数

normal_severity_rule_instance_pass_count

int

今日弱规则校验通过次数

normal_severity_rule_instance_warn_count

int

今日弱规则校验橙色异常次数

normal_severity_rule_instance_error_count

int

今日弱规则校验红色异常次数

normal_severity_rule_instance_fail_count

int

今日弱规则校验失败次数

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-31D, TODAY-1D]

数据目录(catalogs)

字段

类型

描述

datasource_type

string

数据源类型,如dlf,starrocks等。

datasource_id

string

数据源标识,如StarRocks集群ID,DLF所属主账号ID。

name

string

数据目录名称。

type

string

数据目录类型,如Hive,Jdbc等。

comment

string

数据目录注释。

location

string

目录路径。

properties

string

属性及参数(JSON String)。

owner

string

数据目录所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。

create_timestamp

bigint

创建时间戳13位。

update_timestamp

bigint

修改时间戳13位。

meta_entity_id

string

数据目录唯一标识(API访问友好,符合元数据实体ID规范)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

数据库(databases)

字段

类型

描述

datasource_type

string

数据源类型,如dlfstarrocksmaxcomputeholodbmysql等。

datasource_id

string

数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。

catalog_name

string

数据目录名称,数据源类型支持数据目录时有值。

name

string

数据库名称。

type

string

数据库类型。

comment

string

数据库注释。

location

string

数据库路径。

properties

string

属性及参数(JSON String)。

owner

string

数据库所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。

is_external

boolean

是否为外部数据库。

create_timestamp

bigint

创建时间戳13位。

update_timestamp

bigint

修改时间戳13位。

meta_entity_id

string

数据库唯一标识(API访问友好,符合元数据实体ID规范)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

数据模式(schemas)

字段

类型

描述

datasource_type

string

数据源类型,如holodb,maxcompute,postgresql等。

datasource_id

string

数据源标识,如RDS实例ID,MaxCompute所属主账号ID等。

catalog_name

string

数据目录名称,数据源类型支持数据目录时有值。

database_name

string

数据库名称。

name

string

模式名称。

type

string

模式类型。

comment

string

注释。

properties

string

属性及参数(JSON String)。

owner

string

模式所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。

create_timestamp

bigint

创建时间戳13位。

update_timestamp

bigint

修改时间戳13位。

meta_entity_id

string

模式唯一标识(API访问友好,符合元数据实体ID规范)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

表(tables)

字段

类型

描述

datasource_type

string

数据源类型,如dlf,starrocks,maxcompute,holodb,mysql等。

datasource_id

string

数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。

catalog_name

string

数据目录名称,数据源类型支持数据目录时有值。

database_name

string

数据库名称。

schema_name

string

模式名称,数据源类型支持Schema时有值。

name

string

表名称。

type

string

表类型。

comment

string

注释。

partition_keys

string

分区键,多级分区时,字段采用英文逗号分隔。

location

string

表存储路径。

properties

string

属性及参数(JSON String)视图时为视图定义DDL。

owner

string

表所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。

content_size

bigint

存储大小,以字节计。

data_retention

map<string,string>

数据保留期/生命周期。不同类型的表其值有差异:对于MaxCompute表,key是lifecycle,value是表的生命周期,如365;对于DLF表,key是renention,value是表的生命周期,如91;对于其他类型,暂未支持。后续若支持,会补充文档说明。

is_compressed

boolean

是否压缩。

is_temporary

boolean

是否临时表。

entity_type

string

实体类型,如:table、view、materialized_view等。

input_format

string

输入格式。

output_format

string

输出格式。

serde_parameters

string

SerDe参数。

serialization_lib

string

序列化library。

create_timestamp

bigint

表创建时间戳13位。

meta_modified_timestamp

bigint

表元数据修改时间戳13位。

data_modified_timestamp

bigint

表数据修改时间戳13位。

last_access_timestamp

bigint

表最后访问时间戳13位。

business_description

string

业务描述/中文名。

meta_entity_id

string

表唯一标识(API访问友好,符合元数据实体ID规范)。

例如:

  • maxcompute-table:主账号ID::project_name:schema_name:table_name。

  • holo-table:Hologres实例ID::sample_database:public_schema:table_name。

  • starrocks-table:集群实例ID:default_catalog:sample_database::sample_table。

uuid

string

表UUID,用于关联DataWorks数据地图表详情页面。

business_tags

array<string>

业务用标签,地图页面设置的标签会采用此字段记录。

wikis

array<struct<`version`:bigint,`operator`:string,`update_timestamp`:bigint,`content`:string>>

表使用说明(version:版本号;operator:提交者;update_timestamp:更新时间戳(13位);content:内容)。

producing_tasks

array<bigint>

生产表数据的调度任务ID列表,参考tasks表。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

字段(columns)

字段

类型

描述

datasource_type

string

数据源类型,如dlf、starrocks等。

datasource_id

string

数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。

catalog_name

string

数据目录名称,数据源类型支持数据目录时有值。

database_name

string

数据库名称。

schema_name

string

模式名称,数据源类型支持Schema时有值。

table_name

string

表名称。

name

string

字段名称。

type

string

字段类型。

comment

string

注释。

ordinal_position

bigint

字段序号(从1开始)。

is_primary_key

boolean

是否为主键。

is_nullable

boolean

是否允许为NULL。

is_partition_key

boolean

是否为分区键。

properties

string

属性及参数(JSON String)。

business_description

string

业务描述。

meta_entity_id

string

字段唯一标识(API访问友好,符合元数据实体ID规范)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

分区(partitions)

字段

类型

描述

datasource_type

string

数据源类型,如maxcompute,dlf,starrocks等。

datasource_id

string

数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。

catalog_name

string

数据目录名称,数据源类型支持数据目录时有值。

database_name

string

数据库名称。

schema_name

string

模式名称,数据源类型支持Schema时有值。

table_name

string

表名称。

name

string

分区名称(Partition Specification)。

create_timestamp

bigint

创建时间戳13位。

update_timestamp

bigint

修改时间戳13位。

content_size

bigint

分区大小,以字节计。

properties

string

属性及参数(JSON String)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

Table和Column级别血缘(lineages

字段

类型

描述

source_meta_entity_id

string

源端唯一标识(API访问友好,符合元数据实体ID规范)。

source_raw_entity_type

string

源端实体类型,所标识的元数据未被纳管时,source_meta_entity_type为空,采用source_raw_entity_type标识。

source_uuid

string

源端唯一标识(页面访问友好)。

target_meta_entity_id

string

目标端唯一标识(API访问友好,符合元数据实体ID规范)。

target_raw_entity_type

string

目标实体类型,所标识的元数据未被纳管时,target_meta_entity_type为空,采用target_raw_entity_type标识。

target_uuid

string

目标端唯一标识(页面访问友好)。

compute_engine

string

计算引擎,如:maxcompute,datax,hologres等。

transform_type

string

引擎中的转换任务类型,如:SQL,DATAX,DATAX_STREAM,EXTERNAL_TABLE_MAPPING,STORAGE_MAPPING,API_MAPPING。

task_id

bigint

DataWorks调度任务ID,参考tasks表,未经DataWorks调度触发的血缘数据,此字段为空。

task_instance_id

bigint

DataWorks调度任务实例ID,参考tasks_instances表,未经DataWorks调度触发的血缘数据,此字段为空。

lineage_time

bigint

血缘发生时间(毫秒级)。

granularity

string

血缘层级,如:TABLE、COLUMN。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

任务/工作流定义(tasks

字段

类型

描述

id

bigint

任务ID。

name

string

任务名称。

description

string

任务描述信息。

type

bigint

任务类型,请参考节点开发中的节点编码值。

workflow_id

bigint

工作流ID。

instance_mode

string

实例生成模式。

  • T+1(第二天生成)

  • Immediately(立即生成)

baseline_id

bigint

基线ID。

priority

bigint

任务优先级,最小值1,最大值8。取值越大,优先级越高。默认优先级为1。

timeout

bigint

任务执行超时时间,单位小时。

rerun_mode

bigint

任务是否允许重跑配置(0:只有失败可重跑;1:失败或成功均可重跑;2:失败或成功都不可重跑)。

rerun_times

bigint

重试次数,当任务设置为可重跑时生效。

rerun_interval

bigint

重试时间间隔,单位秒。

script_parameters

string

运行脚本参数列表。

trigger_type

string

触发方式类型(Scheduler:调度周期触发;Manual:手动触发)。

trigger_recurrence

bigint

触发时的运行模式(0:正常运行;1:手动任务;2:暂停;3:空跑;4:被引用任务)。

trigger_cron

string

Cron表达式,type=Scheduler时生效。

trigger_start_time

string

周期触发生效时间,type=Scheduler时生效。

trigger_end_time

string

周期触发失效时间,type=Scheduler时生效。

runtime_resource_group_id

bigint

任务运行的资源组ID。

runtime_image

string

任务运行配置的镜像ID。

runtime_cu

string

任务运行配置CU消耗。

datasource_name

string

数据源名称。

inputs_variables

array<struct<`name`:string,`type`:string,`value`:string>>

输入变量列表。

outputs

array<struct<`output`:string,`type`:string>>

任务输出标识符列表。

outputs_variables

array<struct<`name`:string,`type`:string,`value`:string>>

输出变量列表。

dependencies

array<struct<`type`:string,`upstream_output`:string,`upstream_node_id`:bigint>>

依赖信息列表。

related_workflow_id

bigint

关联工作流ID。

tags

array<struct<`key`:string,`value`:string>>

任务标签列表。

project_id

bigint

项目ID,参考workspaces表workspace_id字段。

project_env

string

环境类型(PROD:生产;DEV:开发)。

owner

string

任务的责任人的账号ID,参考users表。

create_time

string

创建时间。

modify_time

string

修改时间。

create_user

string

创建用户的账号ID,参考users表。

modify_user

string

修改用户的账号ID,参考users表。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

任务/工作流运行的实例(task_instances

字段

类型

描述

id

bigint

任务实例ID。

node_id

bigint

任务ID,参考tasks表。

node_type

bigint

任务类型,请参考节点开发中节点编码值。

node_name

string

任务名称。

description

string

任务描述。

workflow_id

bigint

工作流ID,参考tasks表。

workflow_name

string

工作流名称。

workflow_instance_id

bigint

工作流实例ID。

workflow_instance_type

bigint

工作流实例类型:(0-日常调度;1-手动任务;2-冒烟测试;3-补数据;4-一次性流程;5-手动流程)。

trigger_type

string

触发方式类型(Scheduler/Manual)。

trigger_recurrence

string

运行模式(0-正常;1-手动;2-暂停;3-空跑;4-被引用)。

timeout

bigint

任务执行超时时间(小时)。

rerun_mode

string

重跑配置(0-失败可重跑;1-失败或成功均可重跑;2-不可重跑)。

run_number

bigint

运行次数。

period_number

bigint

周期序号。

baseline_id

bigint

基线ID。

priority

bigint

任务优先级(1-8)。

script_parameters

string

运行脚本参数列表。

runtime_resource_group_id

bigint

任务运行的资源组ID。

runtime_resource_group_identifier

string

任务运行的资源组标识名称。

runtime_image

string

运行镜像ID。

runtime_cu

string

运行时CU消耗。

runtime_process_id

string

运行时进程ID。

runtime_gateway

string

运行时网关。

datasource_name

string

数据源名称。

inputs_variables

array<struct<`name`:string,`type`:string,`value`:string>>

输入变量列表。

outputs

array<struct<`output`:string,`type`:string>>

输出标识符列表。

outputs_variables

array<struct<`name`:string,`type`:string,`value`:string>>

输出变量列表。

tags

array<struct<`key`:string,`value`:string>>

任务标签列表。

status

bigint

任务状态(1-未运行;2-等待时间;3-等待资源;4-运行中;5-失败;6-成功;7-校验中;8-条件校验;9-等待触发)。

trigger_time

string

触发时间。

bizdate

string

业务日期。

started_time

string

开始时间。

finished_time

string

结束时间。

project_id

bigint

项目ID,参考workspaces表workspace_id字段。

project_env

string

环境类型(PROD/DEV)。

owner

string

责任人账号ID,参考users表。

create_time

string

创建时间。

modify_time

string

修改时间。

create_user

string

创建人账号ID,参考users表。

modify_user

string

修改人账号ID,参考users表。

waiting_resource_time

string

等待资源时间。

waiting_trigger_time

string

等待触发时间。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

用户(users)

字段

类型

描述

user_id

string

用户标识。

user_nick

string

账号别名(显示名称)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

工作空间(workspaces)

字段

类型

描述

workspace_id

bigint

工作空间ID。

workspace_name

string

工作空间名称。

workspace_identifier

string

工作空间标识符。

workspace_description

string

工作空间描述。

workspace_owner

string

工作空间Owner标识,参考users表。

workspace_status

bigint

工作空间状态(0:正常;1:已删除;2:初始化;3:初始化失败;4:手动禁用;5:删除中;6:删除失败;7:欠费冻结)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

工作空间成员(workspace members)

字段

类型

描述

workspace_id

bigint

工作空间ID,参考workspaces表。

user_id

string

用户标识,参考users表。

user_status

bigint

用户状态(0:正常;1:禁用;2:删除)。

gmt_create_ts

bigint

创建时间(13位数字时间戳)。

gmt_modified_ts

bigint

修改时间(13位数字时间戳)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

资源组(resource groups)

字段

类型

描述

resource_group_id

bigint

资源组ID。

resource_group_identifier

string

资源组标识。

resource_group_type

bigint

资源组类型(1:调度资源组;2:MaxCompute资源组;4:数据集成资源组)。

resource_group_mode

bigint

资源组模式(1:预付费;2:后付费;3:开发者版本(仅MaxCompute))。

resource_group_status

bigint

资源组状态(0:正常;1:冻结;2:删除;3:创建中;4:创建失败;5:更新中;6:更新失败;7:删除中;8:删除失败)。

is_exclusive_resource_group

boolean

是否为独享资源组。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

Examples元数据

Table指标明细(table_metrics_detail)

字段

类型

描述

datasource_type

string

数据源类型。

datasource_id

string

数据源标识。

catalog_name

string

数据目录名称。

database_name

string

数据库名称。

schema_name

string

数据模式名称。

table_name

string

表名称。

table_uuid

string

表标识,用于跳转到详情。

meta_entity_id

string

表标识,可读性好。

content_size

bigint

采集到的存储量。不支持采集存储量时,字段值为NULL。

daily_rate_cs

decimal(16,6)

存储量日环比变化率。

avg_content_size_7d

bigint

存储量的7天平均值。

daily_rate_acs_7d

decimal(16,6)

七天平均存储量日环比变化率。

latest_data_update_time_31d

bigint

31天数据范围内作为血缘下游对应实例的结束时间;数据更新时间最大值data_modified_timestamp。31天数据范围内无更新时,对应字段值为NULL。

latest_data_update_task_id

bigint

31天内,最近更新表的调度任务ID。

latest_data_update_instance_id

bigint

31天内,最近更新表的调度任务实例ID。

latest_data_update_time_by_task

bigint

31天内,最近更新表的**调度任务**实例的结束时间。

writing_task_ids

array<bigint>

当前业务日期,写入表的调度任务ID(无重复ID)。

writing_task_ids_31d

array<bigint>

31天数据范围内,写入表的调度任务ID(无重复ID)。

latest_data_access_time_31d

bigint

31天数据范围内作为血缘上游对应实例的结束时间;最后访问时间最大值last_access_timestamp。31天数据范围内无访问时,对应字段值为NULL。

latest_data_access_task_id

bigint

31天内,最近读取表的调度任务ID。

latest_data_access_instance_id

bigint

31天内,最近读取表的调度任务实例ID。

latest_data_access_time_by_task

bigint

31天数据范围内作为血缘上游对应实例的结束时间。

reading_task_ids

array<string>

读取表的调度任务ID。

reading_task_ids_31d

array<string>

31天数据范围内,读取表的调度任务ID(无重复ID)。

direct_downstream_tables

array<string>

直接下游表ID(uuid)。

direct_upstream_tables

array<string>

直接上游表ID(uuid)。

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

Table指标汇总(table_metrics_summary)

字段

类型

描述

table_count

bigint

表数量。

daily_rate_tc

decimal(16,6)

表数量日环比变化率。

avg_table_count_7d

bigint

表数量的7日平均值。

daily_rate_atc_7d

decimal(16,6)

表数量7日平均值日环比变化率。

content_size

bigint

采集到的存储量。不支持采集存储量时,字段值为NULL。

daily_rate_cs

decimal(16,6)

存储量日环比变化率。

avg_content_size_7d

bigint

存储量的7天平均值。

daily_rate_acs_7d

decimal(16,6)

七天平均存储量日环比变化率。

updated_table_count

bigint

31天内更新的表数量。

daily_rate_utc

decimal(16,6)

31天内更新的表数量日环比变化率。

avg_updated_table_count_7d

bigint

31天内更新的表数量的7日平均值。

daily_rate_autc_7d

decimal(16,6)

31天内更新的表数量7日平均值日环比变化率。

accessed_table_count

bigint

31天内读取的表数量。

daily_rate_atc

decimal(16,6)

31天内读取的表数量日环比变化率。

avg_accessed_table_count_7d

bigint

31天内读取的表数量的7日平均值。

daily_rate_aatc_7d

decimal(16,6)

31天内读取的表数量7日平均值日环比变化率。

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

Task指标明细(task_metrics_detail)

字段

类型

描述

task_id

bigint

任务标识。

workflow_id

bigint

工作流标识。

node_type

bigint

任务类型。

project_id

bigint

工作空间标识。

week_number

bigint

业务日期所在年的第几周。

task_owner

string

负责人ID。

compute_resource_type

string

计算资源类型。

compute_resource_id

string

计算资源标识:MC项目名称,EMR集群ID,Hologres实例ID等。

datasource_name

string

数据源名称。

inst_success_count

bigint

运行成功的实例数量。

inst_failed_count

bigint

运行失败的实例数量。

inst_running_count

bigint

运行中的实例数量。

inst_abnormal_count

bigint

运行异常的实例数量。

inst_not_started_count

bigint

未运行的实例数量。

inst_runtime_cu

double

实例运行时CU消耗。

task_avg_cu_31d

double

任务日均CU消耗(31日内)。

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

Task指标汇总(task_metrics_summary)

字段

类型

描述

node_type

bigint

节点类型。

inst_status

string

实例状态。

inst_count

bigint

实例数量。

avg_inst_count_7d

double

7日实例平均数量。

granularity

string

统计粒度,日DAILY,周WEEKLY。

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。