DataWorks开放数据为您提供各维度的表或视图,便于您采集元数据。本文为您介绍当前DataWorks开放数据提供的表和视图列表,及其结构明细。
MetaData元数据
本套元数据表及示例指标统计表由DataWorks基于当前租户的表、任务、实例、工作空间、成员及项目等元数据生成。实际表结构将根据业务发展动态调整,最终以系统界面展示内容为准。
数据资产元数据
资产表问题明细(asset_table_issues)
分区字段:dt
描述:表的数据治理问题明细
字段 | 类型 | 描述 |
tenant_id | string | dw租户 |
meta_entity_id | string | 对应元数据实体id |
uuid | string | 表唯一键 |
meta_entity_type | string | 对应元数据类型,如:maxcompute-table |
entity_type | string | 实体类型,如:table、view、materialized_view |
account_id | string | 资产所属主账号 |
datasource_type | string | 数据源类型,如:EMR,MC |
datasource_id | string | 引擎名称(MC:projectName,EMR:clusterId,holo:databaseName) |
catalog_name | string | meta data 为DLF时 为DLF 目录 |
database_name | string | 数据库名称 (EMR dbName) |
schema_name | string | schema名称 |
rule_id | string | 治理项标识 |
rule_name_zh | string | 治理项中文名称 |
rule_name_en | string | 治理项英文名称 |
category | string | 所属维度 |
deduct_score_tenant | string | 全局扣减分数,保留小数点后4位 |
deduct_score_owner | string | 个人扣减分数,保留小数点后4位 |
cost | string | 浪费的资源 |
project_id | string | dw项目空间 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD |
资产表指标明细(asset_table_profiles)
分区字段:dt
描述:表的指标明细
字段 | 类型 | 描述 |
tenant_id | bigint | 源租户id |
meta_entity_id | string | 对应元数据实体id |
meta_entity_type | string | 对应元数据类型,如:maxcompute-table |
entity_type | string | 实体类型,如:table、view、materialized_view |
account_id | string | 资产所属主账号 |
datasource_type | string | 数据源类型,如:EMR,MC |
datasource_id | string | 引擎名称(MC:projectName,EMR:clusterId,holo:databaseName) |
catalog_name | string | meta data 为DLF时为DLF 目录 |
database_name | string | 数据库名称 (EMR dbName) |
schema_name | string | schema名称 |
uuid | string | 表唯一键 |
name | string | 表名称 |
owner | string | 资产负责人 |
last_access_timestamp | bigint | 表最近访问时间 |
meta_modified_timestamp | bigint | 表元数据修改时间戳13位 |
data_modified_timestamp | bigint | 表数据修改时间戳13位 |
create_timestamp | bigint | 表创建时间 |
comment | string | 表注释 |
partition_keys | string | 分区键 |
tags | string | 资产标签 |
governance_rule_finding_count | bigint | 治理项问题个数 |
governance_rule_finding_history_count | string | 资产治理项个数历史 |
governance_health_score | string | 资产治理评分 |
governance_health_level | string | 资产治理评分等级 |
is_partitioned | bigint | 是否是分区表 |
content_size | bigint | 逻辑大小 |
record_num | bigint | 记录行数 |
life_cycle | string | 生命周期 |
partition_count | bigint | 分区个数 |
view_count_monthly | bigint | 近一个月浏览次数 |
access_count | bigint | 访问次数 |
upstream_table_count | bigint | 上游表个数 |
upstream_table_detail | string | 上游表详情 |
downstream_table_count | bigint | 下游表个数 |
downstream_table_detail | string | 下游表详情 |
producing_project_ids | string | 表产出涉及的工作空间列表 |
producing_tasks_count | bigint | 表产出涉及的节点个数 |
producing_tasks_detail | string | 表产出涉及的节点详情 |
using_tasks_count | bigint | 使用表节点个数 |
using_tasks_detail | string | 使用表节点详情 |
quality_rule_count | bigint | 质量规则个数 |
quality_monitor_count | bigint | 质量监控指标个数 |
quality_rule_7_days_failed_count | bigint | 质量规则不通过个数 |
quality_monitor_7_days_failed_count | bigint | 质量监控指标不通过个数 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD |
资产任务问题明细(asset_task_issues)
分区字段:dt
描述:任务的数据治理问题明细
字段 | 类型 | 描述 |
tenant_id | string | DataWorks租户id |
node_id | string | 调度节点id |
node_name | string | 节点名称 |
node_type | string | 任务类型,SQL/SQLCost/LOT/CUPID |
node_owner | string | 负责人baseId |
priority | string | 优先级 |
rule_id | string | 治理项标识 |
rule_name_zh | string | 治理项中文名称 |
rule_name_en | string | 治理项英文名称 |
category | string | 所属治理领域 |
deduct_score_tenant | string | 全局扣减分数,保留小数点后4位 |
deduct_score_owner | string | 个人扣减分数,保留小数点后4位 |
cost | string | 治理收益 |
project_id | string | DataWorks项目id |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD |
资产任务指标明细(asset_task_profiles)
分区字段:dt
描述:任务的指标明细
字段 | 类型 | 描述 |
tenant_id | bigint | 源租户id |
data_asset_id | string | 资产在模块下id,对应task.id |
name | string | 资产名称,对应task.name |
project_id | bigint | 所在工作空间 |
project_env | string | 环境,PROD:生产 DEV:开发 |
owner | string | 资产负责人 |
create_user | string | 创建人 |
create_time | bigint | 创建时间 |
modify_user | string | 修改人 |
modify_time | bigint | 修改时间 |
trigger_type | string | 触发方式类型 Scheduler:调度周期触发 Manual:手动触发 |
trigger_recurrence_type | string | Normal 正常运行,Manual 手动任务,Pause 暂停,Skip 空跑 |
trigger_cron | string | cron表达式 |
type | bigint | 执行代码类型,请参考 https://www.alibabacloud.com/help/zh/dataworks/user-guide/node-development-of-data-studio 中节点编码值 |
script_parameters | string | 参数信息 |
priority | bigint | 任务优先级,最小值 1,最大值 8。取值越大,优先级越高。默认优先级为 1 |
trigger_start_time | bigint | 允许调度的起始日期 |
trigger_end_time | bigint | 允许调度的终止日期 |
runtime_resource_group_id | bigint | 节点所属资源组编号 |
runtime_cu | string | 计算cu |
baseline_id | bigint | 节点所属基线编号 |
rerun_times | bigint | 任务可重跑次数 |
rerun_interval | bigint | 重跑间隔,单位毫秒 |
rerun_mode_type | string | AllAllowed 失败或成功均可重跑,FailureAllowed 只有失败可重跑,AllDenied 失败或成功都不可重跑 |
tags | string | 资产标签 |
tags_count | bigint | 资产标签个数 |
input_table_count | bigint | 输入表个数 |
output_table_count | bigint | 输出表个数 |
input_table_detail | string | 输入表详情 |
output_table_detail | string | 输出表详情 |
upstream_node_count | bigint | 上游节点个数 |
downstream_node_count | bigint | 下游节点个数 |
governance_rule_finding_count | bigint | 治理项问题个数 |
governance_rule_finding_history_count | string | 资产治理项个数历史 |
governance_health_score | string | 资产评分 |
governance_health_level | string | 资产评分等级 |
engine_datasource_id | string | 计算引擎id |
engine_instance_count | bigint | 计算引擎作业个数 |
engine_instance_run_time | bigint | 计算引擎作业运行时间 |
engine_instance_comput_volume_cost | string | 计算量 |
engine_instance_cu_cost | string | 计算cu |
engine_instance_cpu_cost | string | cpu消耗 |
engine_instance_mem_cost | string | 内存消耗 |
engine_instance_exist_data_skew | bigint | 数据倾斜 |
engine_instance_suggestions | string | 倾斜建议 |
engine_instance_data_skew_ids | string | 数据倾斜 作业ids |
engine_instance_ids | string | 作业ids |
task_instance_wait_time_cost_sum | bigint | 等待时间消耗总和 |
task_instance_wait_time_cost_max | bigint | 实例等待时间消耗最大值 |
task_instance_run_time_cost_sum | bigint | 运行时间消耗总和 |
task_instance_run_time_cost_max | bigint | 运行时间消耗最大值 |
task_instance_7_days_wait_time_cost_max | bigint | 7天实例等待时间消耗最大值 |
task_instance_7_days_run_time_cost_max | bigint | 7天实例运行时间消耗最大值 |
task_instance_count | bigint | 实例个数 |
task_instance_7_days_failed_count | bigint | 失败实例个数 |
task_instance_7_days_failed_day_count | bigint | 失败天个数 |
task_instance_7_days_frezeed_day_count | bigint | 冻结天个数 |
task_instance_7_days_dry_run_day_count | bigint | 空跑天个数 |
quality_monitor_count | bigint | 数据质量监控指标个数 |
quality_monitor_7_days_failed_count | bigint | 数据质量监控指标失败个数 |
di_task_resource_group_id | string | 节点所属数据集成资源组编号 |
di_task_is_public_network | bigint | 数据集成任务是否公网流量 |
di_task_concurrency | bigint | 并发数 |
di_task_total_records | bigint | 同步数 |
di_task_total_bytes | bigint | 同步数据量 |
di_task_source_type | string | 源端类型 |
di_task_target_type | string | 目标端类型 |
di_task_run_time_cost | bigint | 数据集成任务执行耗时 |
di_task_wait_time_cost | bigint | 数据集成任务等待耗时 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD |
数据质量
数据质量规则实例(quality_rule_results)
分区字段:dt
描述:数据质量规则实例
字段 | 类型 | 描述 |
id | bigint | 主键ID |
scan_run_id | bigint | 质量监控实例ID |
rule_id | bigint | 规则ID |
rule_name | string | 规则名称 |
status | string | 规则校验结果,Pass/Error/Warn/Fail/Running |
severity | string | 规则强弱,High/Normal |
create_time | bigint | 创建时间 |
modify_time | bigint | 最近一次修改时间 |
spec | string | 规则实例Spec |
tags | array<string> | 规则实例标签 |
tenant_id | bigint | Dataworks租户ID |
project_id | bigint | Dataworks项目空间ID |
meta_entity_id | string | 地图表实体唯一标识 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D] |
数据质量规则指标明细(quality_rules)
分区字段:dt
描述:数据质量规则指标明细
字段 | 类型 | 描述 |
id | bigint | 主键ID |
scan_id | bigint | 质量监控ID |
rule_name | string | 规则名称 |
enabled | boolean | 规则是否启用 |
severity | string | 规则业务严重等级,枚举值:High/Normal |
create_time | bigint | 创建时间 |
modify_time | bigint | 最近一次修改时间 |
spec | string | 规则Spec |
tags | array<string> | 规则标签 |
tenant_id | bigint | Dataworks租户ID |
project_id | bigint | Dataworks项目空间ID |
meta_entity_id | string | 地图实体唯一标识 |
pass_count | int | 规则校验通过次数 |
warn_count | int | 规则校验触发橙色阈值次数 |
error_count | int | 规则校验触发红色阈值次数 |
fail_count | int | 规则校验失败次数 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D] |
数据质量监控任务实例(quality_scan_runs)
分区字段:dt
描述:数据质量监控任务实例
字段 | 类型 | 描述 |
id | bigint | 主键ID |
scan_id | bigint | 质量监控ID |
name | string | 监控名称 |
status | string | 监控实例状态,Pass/Warn/Error/Fail/Running |
post_action_type | string | 监控校验后处置动作,枚举值:Alert/BlockTaskInstance |
data_filter | string | 采样时实际使用的数据范围 |
trigger_time | bigint | 任务使用的调度定时时间 |
trigger_type | string | 数据质量监控触发方式, ByManual/BySchedule/ByQualityNode |
create_time | bigint | 创建时间 |
modify_time | bigint | 最近一次更新时间 |
datasource_id | bigint | 表所属数据源ID |
datasource_type | string | 数据源类型 |
computing_resource_id | bigint | 计算引擎ID |
compute_resource_option | string | 数据质量监控运行所用计算资源 |
spec | string | 质量监控Spec |
tenant_id | bigint | Dataworks租户ID |
project_id | bigint | Dataworks项目空间ID |
owner | string | 质量监控责任人 |
task_id | bigint | 调度任务ID |
task_instance_id | bigint | 调度任务实例ID |
meta_entity_id | string | 地图实体唯一标识 |
table_name | string | 表名称 |
catalog_name | string | 表所属数据目录名称 |
schema_name | string | 表所属模式名称 |
database_name | string | 表所属数据库名称 |
cluster_id | string | 表所属集群ID |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D] |
数据质量监控任务指标明细(quality_scans)
分区字段:dt
描述:数据质量监控任务指标明细
字段 | 类型 | 描述 |
id | bigint | 主键ID |
name | string | 监控名称 |
data_filter_type | string | 数据范围类型, ByPartition/ByWhere |
data_filter | string | 数据范围表达式 |
trigger_type | string | 数据质量监控触发方式, ByManual/BySchedule/ByQualityNode |
create_time | bigint | 创建时间 |
modify_time | bigint | 最近一次更新时间 |
computing_resource_id | bigint | 计算引擎ID |
compute_resource_option | string | 数据质量监控运行所用计算资源 |
spec | string | 数据质量监控Spec |
related_tasks | array<bigint> | 监控关联的调度任务 |
tenant_id | bigint | Dataworks租户ID |
project_id | bigint | Dataworks项目空间ID |
owner | string | 质量监控责任人 |
datasource_id | string | 表所属数据源ID |
datasource_type | string | 数据源类型 |
meta_entity_id | string | 地图实体唯一标识 |
table_name | string | 表名称 |
catalog_name | string | 表所属数据目录名称 |
schema_name | string | 表所属模式名称 |
database_name | string | 表所属数据库名称 |
cluster_id | string | 表所属集群ID |
related_scheduler_task_count | int | 关联调度任务数 |
rule_count | int | 关联规则数 |
high_severity_rule_count | int | 关联强规则数 |
normal_severity_rule_count | int | 关联弱规则数 |
enabled_rule_count | int | 开启规则数 |
enabled_high_severity_rule_count | int | 开启强规则数 |
enabled_normal_severity_rule_count | int | 开启弱规则数 |
rule_instance_count | int | 今日规则实例数 |
high_severity_rule_instance_count | int | 今日强规则实例数 |
normal_severity_rule_instance_count | int | 今日弱规则实例数 |
high_severity_rule_instance_pass_count | int | 今日校验通过强规则实例数 |
high_severity_rule_instance_warn_count | int | 今日橙色异常强规则实例数 |
high_severity_rule_instance_error_count | int | 今日红色异常强规则实例数 |
high_severity_rule_instance_fail_count | int | 今日校验失败强规则实例数 |
normal_severity_rule_instance_pass_count | int | 今日校验通过弱规则实例数 |
normal_severity_rule_instance_warn_count | int | 今日橙色异常弱规则实例数 |
normal_severity_rule_instance_error_count | int | 今日红色异常弱规则实例数 |
normal_severity_rule_instance_fail_count | int | 今日校验失败弱规则实例数 |
block_task_instance_count | int | 今日阻塞调度任务数 |
alert_rule_count | int | 配置告警订阅数 |
sms_alert_rule_count | int | 配置短信告警订阅数 |
mail_alert_rule_count | int | 配置邮件告警订阅数 |
phone_alert_rule_count | int | 配置电话告警订阅数 |
ding_alert_rule_count | int | 配置钉钉告警订阅数 |
feishu_alert_rule_count | int | 配置飞书告警订阅数 |
weixin_alert_rule_count | int | 配置微信告警订阅数 |
webhook_alert_rule_count | int | 配置自定义webhook告警订阅数 |
alert_times | int | 今日触发告警次数 |
sms_alert_times | int | 今日触发短信告警次数 |
mail_alert_times | int | 今日触发邮件告警次数 |
phone_alert_times | int | 今日触发电话告警次数 |
ding_alert_times | int | 今日触发钉钉告警次数 |
feishu_alert_times | int | 今日触发飞书告警次数 |
weixin_alert_times | int | 今日触发微信告警次数 |
webhook_alert_times | int | 今日触发自定义webhook告警次数 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D] |
数据质量表指标明细(table_quality_summary)
分区字段:dt
描述:数据质量表指标明细
字段 | 类型 | 描述 |
meta_entity_id | string | 地图表实体唯一标识 |
project_id | bigint | Dataworks项目空间ID |
table_name | string | 表名称 |
schema_name | string | 表所属模式名称 |
database_name | string | 表所属数据库名称 |
catalog_name | string | 表所属数据目录名称 |
datasource_id | bigint | 表所属数据源ID,未配置数据质量时为NULL |
tenant_id | bigint | Dataworks租户ID |
owner | string | 表负责人 |
scan_count | int | 已配置质量监控数 |
scheduler_related_scan_count | int | 关联调度的质量监控数 |
scan_run_count | int | 今日质量监控任务实例数 |
alert_scan_run_count | int | 今日触发告警的质量监控任务实例数 |
block_task_instance_scan_run_count | int | 今日触发阻塞调度任务的质量监控任务实例数 |
rule_count | int | 配置规则数 |
enabled_rule_count | int | 启用规则数 |
high_severity_rule_count | int | 配置强规则数 |
normal_severity_rule_count | int | 配置弱规则数 |
rule_instance_count | int | 今日规则实例数 |
high_severity_rule_instance_count | int | 今日强规则实例数 |
normal_severity_rule_instance_count | int | 今日弱规则实例数 |
high_severity_rule_instance_pass_count | int | 今日强规则校验通过次数 |
high_severity_rule_instance_warn_count | int | 今日强规则校验橙色异常次数 |
high_severity_rule_instance_error_count | int | 今日强规则校验红色异常次数 |
high_severity_rule_instance_fail_count | int | 今日强规则校验失败次数 |
normal_severity_rule_instance_pass_count | int | 今日弱规则校验通过次数 |
normal_severity_rule_instance_warn_count | int | 今日弱规则校验橙色异常次数 |
normal_severity_rule_instance_error_count | int | 今日弱规则校验红色异常次数 |
normal_severity_rule_instance_fail_count | int | 今日弱规则校验失败次数 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-31D, TODAY-1D] |
数据目录(catalogs)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如dlf,starrocks等。 |
datasource_id | string | 数据源标识,如StarRocks集群ID,DLF所属主账号ID。 |
name | string | 数据目录名称。 |
type | string | 数据目录类型,如Hive,Jdbc等。 |
comment | string | 数据目录注释。 |
location | string | 目录路径。 |
properties | string | 属性及参数(JSON String)。 |
owner | string | 数据目录所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
create_timestamp | bigint | 创建时间戳13位。 |
update_timestamp | bigint | 修改时间戳13位。 |
meta_entity_id | string | 数据目录唯一标识(API访问友好,符合元数据实体ID规范)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
数据库(databases)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如 |
datasource_id | string | 数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
catalog_name | string | 数据目录名称,数据源类型支持数据目录时有值。 |
name | string | 数据库名称。 |
type | string | 数据库类型。 |
comment | string | 数据库注释。 |
location | string | 数据库路径。 |
properties | string | 属性及参数(JSON String)。 |
owner | string | 数据库所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
is_external | boolean | 是否为外部数据库。 |
create_timestamp | bigint | 创建时间戳13位。 |
update_timestamp | bigint | 修改时间戳13位。 |
meta_entity_id | string | 数据库唯一标识(API访问友好,符合元数据实体ID规范)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
数据模式(schemas)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如holodb,maxcompute,postgresql等。 |
datasource_id | string | 数据源标识,如RDS实例ID,MaxCompute所属主账号ID等。 |
catalog_name | string | 数据目录名称,数据源类型支持数据目录时有值。 |
database_name | string | 数据库名称。 |
name | string | 模式名称。 |
type | string | 模式类型。 |
comment | string | 注释。 |
properties | string | 属性及参数(JSON String)。 |
owner | string | 模式所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
create_timestamp | bigint | 创建时间戳13位。 |
update_timestamp | bigint | 修改时间戳13位。 |
meta_entity_id | string | 模式唯一标识(API访问友好,符合元数据实体ID规范)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
表(tables)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如dlf,starrocks,maxcompute,holodb,mysql等。 |
datasource_id | string | 数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
catalog_name | string | 数据目录名称,数据源类型支持数据目录时有值。 |
database_name | string | 数据库名称。 |
schema_name | string | 模式名称,数据源类型支持Schema时有值。 |
name | string | 表名称。 |
type | string | 表类型。 |
comment | string | 注释。 |
partition_keys | string | 分区键,多级分区时,字段采用英文逗号分隔。 |
location | string | 表存储路径。 |
properties | string | 属性及参数(JSON String)视图时为视图定义DDL。 |
owner | string | 表所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
content_size | bigint | 存储大小,以字节计。 |
data_retention | map<string,string> | 数据保留期/生命周期。不同类型的表其值有差异:对于MaxCompute表,key是lifecycle,value是表的生命周期,如365;对于DLF表,key是renention,value是表的生命周期,如91;对于其他类型,暂未支持。后续若支持,会补充文档说明。 |
is_compressed | boolean | 是否压缩。 |
is_temporary | boolean | 是否临时表。 |
entity_type | string | 实体类型,如:table、view、materialized_view等。 |
input_format | string | 输入格式。 |
output_format | string | 输出格式。 |
serde_parameters | string | SerDe参数。 |
serialization_lib | string | 序列化library。 |
create_timestamp | bigint | 表创建时间戳13位。 |
meta_modified_timestamp | bigint | 表元数据修改时间戳13位。 |
data_modified_timestamp | bigint | 表数据修改时间戳13位。 |
last_access_timestamp | bigint | 表最后访问时间戳13位。 |
business_description | string | 业务描述/中文名。 |
meta_entity_id | string | 表唯一标识(API访问友好,符合元数据实体ID规范)。 例如:
|
uuid | string | 表UUID,用于关联DataWorks数据地图表详情页面。 |
business_tags | array<string> | 业务用标签,地图页面设置的标签会采用此字段记录。 |
wikis | array<struct<`version`:bigint,`operator`:string,`update_timestamp`:bigint,`content`:string>> | 表使用说明(version:版本号;operator:提交者;update_timestamp:更新时间戳(13位);content:内容)。 |
producing_tasks | array<bigint> | 生产表数据的调度任务ID列表,参考tasks表。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
字段(columns)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如dlf、starrocks等。 |
datasource_id | string | 数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
catalog_name | string | 数据目录名称,数据源类型支持数据目录时有值。 |
database_name | string | 数据库名称。 |
schema_name | string | 模式名称,数据源类型支持Schema时有值。 |
table_name | string | 表名称。 |
name | string | 字段名称。 |
type | string | 字段类型。 |
comment | string | 注释。 |
ordinal_position | bigint | 字段序号(从1开始)。 |
is_primary_key | boolean | 是否为主键。 |
is_nullable | boolean | 是否允许为NULL。 |
is_partition_key | boolean | 是否为分区键。 |
properties | string | 属性及参数(JSON String)。 |
business_description | string | 业务描述。 |
meta_entity_id | string | 字段唯一标识(API访问友好,符合元数据实体ID规范)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
分区(partitions)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如maxcompute,dlf,starrocks等。 |
datasource_id | string | 数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
catalog_name | string | 数据目录名称,数据源类型支持数据目录时有值。 |
database_name | string | 数据库名称。 |
schema_name | string | 模式名称,数据源类型支持Schema时有值。 |
table_name | string | 表名称。 |
name | string | 分区名称(Partition Specification)。 |
create_timestamp | bigint | 创建时间戳13位。 |
update_timestamp | bigint | 修改时间戳13位。 |
content_size | bigint | 分区大小,以字节计。 |
properties | string | 属性及参数(JSON String)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Table和Column级别血缘(lineages)
字段 | 类型 | 描述 |
source_meta_entity_id | string | 源端唯一标识(API访问友好,符合元数据实体ID规范)。 |
source_raw_entity_type | string | 源端实体类型,所标识的元数据未被纳管时,source_meta_entity_type为空,采用source_raw_entity_type标识。 |
source_uuid | string | 源端唯一标识(页面访问友好)。 |
target_meta_entity_id | string | 目标端唯一标识(API访问友好,符合元数据实体ID规范)。 |
target_raw_entity_type | string | 目标实体类型,所标识的元数据未被纳管时,target_meta_entity_type为空,采用target_raw_entity_type标识。 |
target_uuid | string | 目标端唯一标识(页面访问友好)。 |
compute_engine | string | 计算引擎,如:maxcompute,datax,hologres等。 |
transform_type | string | 引擎中的转换任务类型,如:SQL,DATAX,DATAX_STREAM,EXTERNAL_TABLE_MAPPING,STORAGE_MAPPING,API_MAPPING。 |
task_id | bigint | DataWorks调度任务ID,参考tasks表,未经DataWorks调度触发的血缘数据,此字段为空。 |
task_instance_id | bigint | DataWorks调度任务实例ID,参考tasks_instances表,未经DataWorks调度触发的血缘数据,此字段为空。 |
lineage_time | bigint | 血缘发生时间(毫秒级)。 |
granularity | string | 血缘层级,如:TABLE、COLUMN。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
任务/工作流定义(tasks)
字段 | 类型 | 描述 |
id | bigint | 任务ID。 |
name | string | 任务名称。 |
description | string | 任务描述信息。 |
type | bigint | 任务类型,请参考节点开发中的节点编码值。 |
workflow_id | bigint | 工作流ID。 |
instance_mode | string | 实例生成模式。
|
baseline_id | bigint | 基线ID。 |
priority | bigint | 任务优先级,最小值1,最大值8。取值越大,优先级越高。默认优先级为1。 |
timeout | bigint | 任务执行超时时间,单位小时。 |
rerun_mode | bigint | 任务是否允许重跑配置(0:只有失败可重跑;1:失败或成功均可重跑;2:失败或成功都不可重跑)。 |
rerun_times | bigint | 重试次数,当任务设置为可重跑时生效。 |
rerun_interval | bigint | 重试时间间隔,单位秒。 |
script_parameters | string | 运行脚本参数列表。 |
trigger_type | string | 触发方式类型(Scheduler:调度周期触发;Manual:手动触发)。 |
trigger_recurrence | bigint | 触发时的运行模式(0:正常运行;1:手动任务;2:暂停;3:空跑;4:被引用任务)。 |
trigger_cron | string | Cron表达式,type=Scheduler时生效。 |
trigger_start_time | string | 周期触发生效时间,type=Scheduler时生效。 |
trigger_end_time | string | 周期触发失效时间,type=Scheduler时生效。 |
runtime_resource_group_id | bigint | 任务运行的资源组ID。 |
runtime_image | string | 任务运行配置的镜像ID。 |
runtime_cu | string | 任务运行配置CU消耗。 |
datasource_name | string | 数据源名称。 |
inputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 输入变量列表。 |
outputs | array<struct<`output`:string,`type`:string>> | 任务输出标识符列表。 |
outputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 输出变量列表。 |
dependencies | array<struct<`type`:string,`upstream_output`:string,`upstream_node_id`:bigint>> | 依赖信息列表。 |
related_workflow_id | bigint | 关联工作流ID。 |
tags | array<struct<`key`:string,`value`:string>> | 任务标签列表。 |
project_id | bigint | 项目ID,参考workspaces表workspace_id字段。 |
project_env | string | 环境类型(PROD:生产;DEV:开发)。 |
owner | string | 任务的责任人的账号ID,参考users表。 |
create_time | string | 创建时间。 |
modify_time | string | 修改时间。 |
create_user | string | 创建用户的账号ID,参考users表。 |
modify_user | string | 修改用户的账号ID,参考users表。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
任务/工作流运行的实例(task_instances)
字段 | 类型 | 描述 |
id | bigint | 任务实例ID。 |
node_id | bigint | 任务ID,参考tasks表。 |
node_type | bigint | 任务类型,请参考节点开发中节点编码值。 |
node_name | string | 任务名称。 |
description | string | 任务描述。 |
workflow_id | bigint | 工作流ID,参考tasks表。 |
workflow_name | string | 工作流名称。 |
workflow_instance_id | bigint | 工作流实例ID。 |
workflow_instance_type | bigint | 工作流实例类型:(0-日常调度;1-手动任务;2-冒烟测试;3-补数据;4-一次性流程;5-手动流程)。 |
trigger_type | string | 触发方式类型(Scheduler/Manual)。 |
trigger_recurrence | string | 运行模式(0-正常;1-手动;2-暂停;3-空跑;4-被引用)。 |
timeout | bigint | 任务执行超时时间(小时)。 |
rerun_mode | string | 重跑配置(0-失败可重跑;1-失败或成功均可重跑;2-不可重跑)。 |
run_number | bigint | 运行次数。 |
period_number | bigint | 周期序号。 |
baseline_id | bigint | 基线ID。 |
priority | bigint | 任务优先级(1-8)。 |
script_parameters | string | 运行脚本参数列表。 |
runtime_resource_group_id | bigint | 任务运行的资源组ID。 |
runtime_resource_group_identifier | string | 任务运行的资源组标识名称。 |
runtime_image | string | 运行镜像ID。 |
runtime_cu | string | 运行时CU消耗。 |
runtime_process_id | string | 运行时进程ID。 |
runtime_gateway | string | 运行时网关。 |
datasource_name | string | 数据源名称。 |
inputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 输入变量列表。 |
outputs | array<struct<`output`:string,`type`:string>> | 输出标识符列表。 |
outputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 输出变量列表。 |
tags | array<struct<`key`:string,`value`:string>> | 任务标签列表。 |
status | bigint | 任务状态(1-未运行;2-等待时间;3-等待资源;4-运行中;5-失败;6-成功;7-校验中;8-条件校验;9-等待触发)。 |
trigger_time | string | 触发时间。 |
bizdate | string | 业务日期。 |
started_time | string | 开始时间。 |
finished_time | string | 结束时间。 |
project_id | bigint | 项目ID,参考workspaces表workspace_id字段。 |
project_env | string | 环境类型(PROD/DEV)。 |
owner | string | 责任人账号ID,参考users表。 |
create_time | string | 创建时间。 |
modify_time | string | 修改时间。 |
create_user | string | 创建人账号ID,参考users表。 |
modify_user | string | 修改人账号ID,参考users表。 |
waiting_resource_time | string | 等待资源时间。 |
waiting_trigger_time | string | 等待触发时间。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
用户(users)
字段 | 类型 | 描述 |
user_id | string | 用户标识。 |
user_nick | string | 账号别名(显示名称)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
工作空间(workspaces)
字段 | 类型 | 描述 |
workspace_id | bigint | 工作空间ID。 |
workspace_name | string | 工作空间名称。 |
workspace_identifier | string | 工作空间标识符。 |
workspace_description | string | 工作空间描述。 |
workspace_owner | string | 工作空间Owner标识,参考users表。 |
workspace_status | bigint | 工作空间状态(0:正常;1:已删除;2:初始化;3:初始化失败;4:手动禁用;5:删除中;6:删除失败;7:欠费冻结)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
工作空间成员(workspace members)
字段 | 类型 | 描述 |
workspace_id | bigint | 工作空间ID,参考workspaces表。 |
user_id | string | 用户标识,参考users表。 |
user_status | bigint | 用户状态(0:正常;1:禁用;2:删除)。 |
gmt_create_ts | bigint | 创建时间(13位数字时间戳)。 |
gmt_modified_ts | bigint | 修改时间(13位数字时间戳)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
资源组(resource groups)
字段 | 类型 | 描述 |
resource_group_id | bigint | 资源组ID。 |
resource_group_identifier | string | 资源组标识。 |
resource_group_type | bigint | 资源组类型(1:调度资源组;2:MaxCompute资源组;4:数据集成资源组)。 |
resource_group_mode | bigint | 资源组模式(1:预付费;2:后付费;3:开发者版本(仅MaxCompute))。 |
resource_group_status | bigint | 资源组状态(0:正常;1:冻结;2:删除;3:创建中;4:创建失败;5:更新中;6:更新失败;7:删除中;8:删除失败)。 |
is_exclusive_resource_group | boolean | 是否为独享资源组。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Examples元数据
Table指标明细(table_metrics_detail)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型。 |
datasource_id | string | 数据源标识。 |
catalog_name | string | 数据目录名称。 |
database_name | string | 数据库名称。 |
schema_name | string | 数据模式名称。 |
table_name | string | 表名称。 |
table_uuid | string | 表标识,用于跳转到详情。 |
meta_entity_id | string | 表标识,可读性好。 |
content_size | bigint | 采集到的存储量。不支持采集存储量时,字段值为NULL。 |
daily_rate_cs | decimal(16,6) | 存储量日环比变化率。 |
avg_content_size_7d | bigint | 存储量的7天平均值。 |
daily_rate_acs_7d | decimal(16,6) | 七天平均存储量日环比变化率。 |
latest_data_update_time_31d | bigint | 31天数据范围内作为血缘下游对应实例的结束时间;数据更新时间最大值data_modified_timestamp。31天数据范围内无更新时,对应字段值为NULL。 |
latest_data_update_task_id | bigint | 31天内,最近更新表的调度任务ID。 |
latest_data_update_instance_id | bigint | 31天内,最近更新表的调度任务实例ID。 |
latest_data_update_time_by_task | bigint | 31天内,最近更新表的**调度任务**实例的结束时间。 |
writing_task_ids | array<bigint> | 当前业务日期,写入表的调度任务ID(无重复ID)。 |
writing_task_ids_31d | array<bigint> | 31天数据范围内,写入表的调度任务ID(无重复ID)。 |
latest_data_access_time_31d | bigint | 31天数据范围内作为血缘上游对应实例的结束时间;最后访问时间最大值last_access_timestamp。31天数据范围内无访问时,对应字段值为NULL。 |
latest_data_access_task_id | bigint | 31天内,最近读取表的调度任务ID。 |
latest_data_access_instance_id | bigint | 31天内,最近读取表的调度任务实例ID。 |
latest_data_access_time_by_task | bigint | 31天数据范围内作为血缘上游对应实例的结束时间。 |
reading_task_ids | array<string> | 读取表的调度任务ID。 |
reading_task_ids_31d | array<string> | 31天数据范围内,读取表的调度任务ID(无重复ID)。 |
direct_downstream_tables | array<string> | 直接下游表ID(uuid)。 |
direct_upstream_tables | array<string> | 直接上游表ID(uuid)。 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Table指标汇总(table_metrics_summary)
字段 | 类型 | 描述 |
table_count | bigint | 表数量。 |
daily_rate_tc | decimal(16,6) | 表数量日环比变化率。 |
avg_table_count_7d | bigint | 表数量的7日平均值。 |
daily_rate_atc_7d | decimal(16,6) | 表数量7日平均值日环比变化率。 |
content_size | bigint | 采集到的存储量。不支持采集存储量时,字段值为NULL。 |
daily_rate_cs | decimal(16,6) | 存储量日环比变化率。 |
avg_content_size_7d | bigint | 存储量的7天平均值。 |
daily_rate_acs_7d | decimal(16,6) | 七天平均存储量日环比变化率。 |
updated_table_count | bigint | 31天内更新的表数量。 |
daily_rate_utc | decimal(16,6) | 31天内更新的表数量日环比变化率。 |
avg_updated_table_count_7d | bigint | 31天内更新的表数量的7日平均值。 |
daily_rate_autc_7d | decimal(16,6) | 31天内更新的表数量7日平均值日环比变化率。 |
accessed_table_count | bigint | 31天内读取的表数量。 |
daily_rate_atc | decimal(16,6) | 31天内读取的表数量日环比变化率。 |
avg_accessed_table_count_7d | bigint | 31天内读取的表数量的7日平均值。 |
daily_rate_aatc_7d | decimal(16,6) | 31天内读取的表数量7日平均值日环比变化率。 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Task指标明细(task_metrics_detail)
字段 | 类型 | 描述 |
task_id | bigint | 任务标识。 |
workflow_id | bigint | 工作流标识。 |
node_type | bigint | 任务类型。 |
project_id | bigint | 工作空间标识。 |
week_number | bigint | 业务日期所在年的第几周。 |
task_owner | string | 负责人ID。 |
compute_resource_type | string | 计算资源类型。 |
compute_resource_id | string | 计算资源标识:MC项目名称,EMR集群ID,Hologres实例ID等。 |
datasource_name | string | 数据源名称。 |
inst_success_count | bigint | 运行成功的实例数量。 |
inst_failed_count | bigint | 运行失败的实例数量。 |
inst_running_count | bigint | 运行中的实例数量。 |
inst_abnormal_count | bigint | 运行异常的实例数量。 |
inst_not_started_count | bigint | 未运行的实例数量。 |
inst_runtime_cu | double | 实例运行时CU消耗。 |
task_avg_cu_31d | double | 任务日均CU消耗(31日内)。 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Task指标汇总(task_metrics_summary)
字段 | 类型 | 描述 |
node_type | bigint | 节点类型。 |
inst_status | string | 实例状态。 |
inst_count | bigint | 实例数量。 |
avg_inst_count_7d | double | 7日实例平均数量。 |
granularity | string | 统计粒度,日DAILY,周WEEKLY。 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |