DataWorks开放数据为您提供各维度的表或视图,便于您采集元数据。本文为您介绍当前DataWorks开放数据提供的表和视图列表,及其结构明细。

Table核心指标rpt_v_meta_ind_table_core

名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id bigint DataWorks项目(工作空间)ID
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
table_name string 表名称
table_uuid string 表唯一标识
owner_yun_acct string 表Owner云账号
dim_life_cycle bigint 生命周期,单位为天。
  • 0:未设置生命周期
  • 其他数值:代表生命周期具体的值
is_partition_table boolean 是否为分区表。
  • true:表示为分区表
  • false:表示为非分区表
entity_type bigint 实体类型。
  • 0:table
  • 1:view
categories string 类目信息
last_access_time bigint 表最后访问时间(10位UNIX_TIMESTAMP)
size bigint 表大小,此处指数据占用的逻辑存储值,单位为Byte,视图对应存储量为NULL。
column_count bigint 字段数量(含分区列)
partition_count bigint 分区数量,对于非分区表该值为NULL。
detail_view_count bigint 通过页面查看表详情的次数
favorite_count bigint 添加表到收藏的次数

Table额外指标rpt_v_meta_ind_table_extra

名称 类型 描述
tenant_id bigint DataWorks租户ID
table_uuid string 表唯一标识
read_count bigint 读取次数(通过SQL读取次数,包含非调度任务)
read_count_30d bigint 30天读取次数(通过SQL读取次数,包含非调度任务)
write_count bigint 写入次数(通过SQL写入次数,包含非调度任务)
join_count bigint 关联次数,即作为join运算的参与方的次数。
direct_upstream_count bigint 血缘关系中,其直接上游表的数量。
direct_downstream_count bigint 血缘关系中,其直接下游表的数量。
output_task_count bigint 产出当前表的任务数量

数据库(ODPS项目)元数据明细raw_v_meta_database

名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id bigint DataWorks项目ID
env_type bigint 环境类型。
  • 0:表示开发环境
  • 1:表示生产环境
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
database_comment string 数据库或ODPS项目描述
owner_name string 所有者名称
created_time_ts bigint 创建时间戳(13位数字时间戳)
last_modified_time_ts bigint 最后修改时间(13位数字时间戳)
location string 数据库存储路径
extras string 数据库额外属性信息,为JSON字符格式。
MaxCompute项目如果设置了预览和表可见范围属性,可以通过KEY:allowDataPreview和projectVisibility获取。
  • allowDataPreview:表示对应MaxCompute项目下的表是否允许预览。
    • true:表示允许
    • 其他或NULL:表示不允许
  • projectVisibility:表示对应MaxCompute项目下的表可见范围。
    • 0:隐藏,仅表所有者、项目管理员、项目所有者可见
    • 1:租户内可见
    • 2:项目成员内可见
biz_date string 业务数据日期

表(table)元数据明细raw_v_meta_table

名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id string DataWorks项目ID
table_uuid string 表唯一标识
table_name string 表名称
table_type string 表类型
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
partition_keys string 表的分区键。多级分区使用英文逗号(,)分隔,非分区表该值为空字符串。
table_comment string 表描述信息
table_biz_comment string 表业务描述信息
visibility_scope bigint 表可见范围。
  • 0:隐藏,仅表所有者、项目管理员、项目所有者可见
  • 1:租户内可见
  • 2:项目成员内可见
owner_name string 所有者名称
created_time_ts bigint 创建时间(13位数字时间戳)
last_modified_time_ts bigint 数据最后修改时间(13位数字时间戳)
last_meta_modified_time_ts bigint 表元数据最后变更时间(13位数字时间戳)
location string 表存储路径
life_cycle bigint 表生命周期,单位为天。
data_size bigint 表的逻辑存储量,单位为Byte。当表为分区表时,该值为NULL,需要根据其分区列表统计存储量。
biz_date string 业务数据日期

视图(view)元数据明细raw_v_meta_view

名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id string DataWorks项目ID
table_uuid string 表唯一标识
table_name string 表名称
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
table_comment string 表描述信息
table_biz_comment string 表业务描述信息
visibility_scope bigint 表可见范围。
  • 0:隐藏,仅表所有者、项目管理员、项目所有者可见
  • 1:租户内可见
  • 2:项目成员内可见
owner_name string 所有者名称
created_time_ts bigint 创建时间(13位数字时间戳)
last_ddl_time_ts bigint DDL最后修改时间(13位数字时间戳)
view_text string 创建视图的SQL语句
biz_date string 业务数据日期

列(column)元数据明细raw_v_meta_column

名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id bigint DataWorks项目ID
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
table_name string 表名称
column_name string 字段名称
column_comment string 字段描述信息
column_biz_comment string 字段业务描述信息
column_type string 字段类型
column_sequence bigint 字段顺序(从1开始)
is_partition_key boolean 是否为分区键
is_primary_key boolean 是否为主键
biz_date string 业务数据日期

分区(partition)元数据明细 raw_v_meta_partition

名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id bigint DataWorks项目ID
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
table_name string 表名称
partition_name string 分区名称
size bigint 分区大小(逻辑大小),单位为Byte
record_number bigint 分区记录数量
created_time_ts bigint 创建时间(13位数字时间戳)
last_modified_time_ts bigint 最后修改时间(13位数字时间戳)
biz_date string 业务数据日期

表血缘(table-lineage)元数据明细raw_v_meta_table_lineage

说明 因为SQL语言与用户代码等本身的复杂性,血缘功能做不到100%的完整性与准确性。请不要用此功能支持需要保证完整性与正确性的业务。
名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id bigint DataWorks项目ID
src_type string 源数据源类型
src_data_source_id string 源数据源标识
src_database string 源数据库
src_table string 源表
dest_type string 目标数据源类型
dest_data_source_id string 目标数据源标识
dest_database string 目标数据库
dest_table string 目标表
schedule_task_id string 调度任务ID
schedule_instance_id string 调度任务实例ID
schedule_task_owner string 调度任务Owner
job_start_time_ts bigint 任务开始时间(13位数字时间戳)
job_end_time_ts bigint 任务结束时间(13位数字时间戳)
execute_time bigint 任务耗时,单位为秒
input_record_number bigint 源表输入记录数
biz_date string 业务数据日期

表产出任务(table-output)元数据明细raw_v_meta_table_output

数据地图页面透出的产出任务只有ODPS表,此处产出表类型是大血缘支持的表类型。
说明 产出信息基于血缘计算。
名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id bigint DataWorks项目ID,此处指运行调度任务的项目。
type string 数据源类型
data_source_id string 数据源标识
database string 数据库
table string 表名称
schedule_task_id string 调度任务ID
schedule_instance_id string 调度任务实例ID
schedule_task_owner string 调度任务Owner
job_start_time_ts bigint 任务开始时间(13位数字时间戳)
job_end_time_ts bigint 任务结束时间(13位数字时间戳)
execute_time bigint 任务耗时,单位为秒。
biz_date string 业务数据日期

表使用(table-usage)信息元数据明细raw_v_meta_table_usage

名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id bigint DataWorks项目ID,此处指运行调度任务的项目。
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
table_name string 表名称
schedule_task_id string 调度任务ID
schedule_task_owner string 调度任务的负责人,如果当前任务未经DataWorks调度,该值为NULL
job_id string 任务标识(此处不一定是DataWorks调度任务实例),可以基于此来统计表读取,写入次数等
op_type string 操作类型,如READ、WRITE、UNKNOWN等
extras string 额外信息,格式为JSON字符串格式。

操作表的任务为ODPS任务时,可以通过KEY为task_name获取ODPS任务名称。若DataWorks调度任务ID不为空,可以通过schedule_task_name属性获取调度任务名称。例如 { "task_name": "console_query_task_16056294000000", "schedule_task_name": "测试SQL任务" }

biz_date string 业务数据日期

字段使用(column-usage)信息元数据明细raw_v_meta_column_usage

名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id bigint DataWorks项目ID,此处指运行调度任务的项目。
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
table_name string 表名称
column_name string 字段名称
schedule_task_id string 调度任务ID
schedule_task_owner string 调度任务的负责人,如果当前任务未经DataWorks调度,该值为NULL
inst_id string 任务标识(此处不一定是DataWorks调度任务实例)
op_type string 操作类型,如select、join、groupby、where等
extras string 额外信息,JSON字符串。

操作表的任务为ODPS任务时,可以通过KEY为task_name获取ODPS任务名称。若DataWorks调度任务ID不为空,可以通过schedule_task_name属性获取调度任务名称。例如 { "task_name": "console_query_task_16056294000000", "schedule_task_name": "测试SQL任务" }

biz_date string 业务数据日期

表WIKI(table-wiki)信息元数据明细raw_v_meta_biz_table_wiki

名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id bigint DataWorks项目ID,此处指运行调度任务的项目。
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
table_name string 表名称
version string wiki版本号
operator string 最后操作人,可能是某一任的表owner。
content string 以Markdown格式编写的wiki
update_time_ts bigint 修改时间(13位数字时间戳)
biz_date string 业务数据日期

表频繁关联(table-join)信息元数据明细raw_v_meta_table_join_map

名称 类型 描述
tenant_id bigint DataWorks租户ID
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
table_name string 表名称
column_name string 字段名称
join_database_name string 关联数据库或ODPS项目名称
join_table_name string 关联表名称
join_column_name string 关联字段名称
join_type string JOIN类型,比如:left,right,inner
schedule_task_id string 调度任务ID
schedule_task_owner string 调度任务的负责人
job_id string 引擎层的任务标识
extras string 额外信息,格式为JSON字符串格式。操作表的任务为ODPS任务时,可以通过KEY为task_name获取ODPS任务名称。
biz_date string 业务数据日期

元数据表详情查看记录明细raw_v_meta_table_detail_log

名称 类型 描述
tenant_id bigint DataWorks租户ID
catalog_name string 所属catalog。MaxCompute项目对应值为odps。
database_name string 数据库或ODPS项目名称
table_name string 表名称
operator string 表详情查看者
view_time_ts bigint 查看表详情时间(13位数字时间戳)
biz_date string 业务数据日期

元数据类目明细raw_v_meta_category

名称 类型 描述
tenant_id bigint DataWorks租户ID
category_id bigint 类目ID
category_name string 类目名称
category_pid bigint 父类目ID(为0或NULL代表是顶级类目)
depth bigint 类目层级(深度),一级类目为1
sort_field double 排序字段
creator_account string 类目创建人账号
created_time_ts bigint 创建时间戳(13位数字时间戳)
last_modified_time_ts bigint 最后修改时间(13位数字时间戳)
biz_date string 业务数据日期

调度节点明细raw_v_schedule_node

名称 类型 描述
tenant_id bigint 租户ID
project_id bigint 项目空间ID
node_id bigint 节点ID
node_name string 节点名称
node_type bigint 节点调度类型。
  • 0:周期调度
  • 1:手动任务
  • 2:暂停任务
  • 3:空跑任务
prg_type bigint 节点类型。
  • 10:ODPS SQL
  • 23:数据集成任务
flow_id bigint 工作流ID
project_env string 环境标识。
  • PROD:生产环境
  • DEV:开发环境
create_time bigint 创建时间戳(13位数字时间戳)
create_user string 创建人
modify_time bigint 最后修改时间(13位数字时间戳)
modify_user string 修改人
prg_name string 节点类型名称
para_value string 执行参数
file_id bigint 对应的文件ID
file_version bigint 对应文件版本
owner string 节点Owner
resgroup_id bigint 资源组ID
baseline_id bigint 基线ID
cycle_type bigint 调度周期。
  • 0:日、周、月任务
  • 其他:小时、分钟任务
repeatable bigint 重跑标识。
  • 0:只有失败可重跑
  • 1:均可重跑
  • 2:均不可重跑
connection string 数据源连接串
dqc_type bigint DQC类型。
  • 0:表示有关联dqc
  • 1:表示没有关联dqc
dqc_description string DQC规则串
task_rerun_time bigint 任务可重跑次数
task_rerun_interval bigint 重跑间隔,单位为毫秒
cron_express string 节点的调度频率CRON表达式
priority bigint 任务优先级,取值为:1、3、5、7、8。数值越大优先级越高。
start_effect_date bigint 节点的生效日期(13位数字时间戳)
end_effect_date bigint 节点的失效日期(13位数字时间戳)
biz_date string 业务数据日期

调度任务明细raw_v_schedule_task

名称 类型 描述
tenant_id bigint 租户ID
project_id bigint 项目空间ID
node_id bigint 节点ID
node_name string 节点名称
task_id bigint 任务名称
dag_id bigint 工作流的DAGID
task_type bigint 任务调度类型。
  • 0:周期调度
  • 1:手动任务
  • 2:暂停任务
  • 3或5:空跑任务
dag_type bigint DAG类型。
  • 0:周期
  • 1:手动任务
  • 3:补数据
prg_type bigint 节点类型。
  • 10:ODPS SQL
  • 23:数据集成任务
flow_id bigint 工作流ID
create_time bigint 创建时间戳(13位数字时间戳)
modify_time bigint 最后修改时间(13位数字时间戳)
cycle_time bigint 调度时间(13位数字时间戳)
in_group_id bigint 任务序号
prg_name string 节点类型名称
para_value string 执行参数
file_id bigint 对应的文件ID
file_version bigint 对应文件版本
owner string 节点Owner
resgroup_id bigint 资源组ID
baseline_id bigint 基线ID
cycle_type bigint 调度周期
  • 0:日、周、月任务
  • 其他:小时、分钟任务
repeatable bigint 重跑标识。
  • 0:只有失败可重跑
  • 1:均可重跑
  • 2:均不可重跑
connection string 数据源连接串
dqc_type bigint DQC类型。
  • 0:表示有关联dqc
  • 1:表示没有关联dqc
dqc_description string DQC规则串
task_rerun_time bigint 任务可重跑次数
task_rerun_interval bigint 重跑间隔,单位为毫秒
begin_waittime_time bigint 开始等时间的时间戳(13位数字时间戳)
finish_time bigint 运行完成时间戳(13位数字时间戳)
begin_waitres_time bigint 开始等资源的时间戳(13位数字时间戳)
begin_run_time bigint 开始运行时间戳(13位数字时间戳)
rerun_times bigint 任务重跑次数
priority bigint 任务优先级,取值为:1、3、5、7、8。数值越大优先级越高。
task_key string 任务唯一标识
error_msg string 运行错误原因
status bigint 任务状态。
  • NOT_RUN(1, "未运行:上游实例未全部成功")
  • WAIT_TIME(2, "等待定时时间(dueTime/cycleTime)到来")
  • WAIT_RESOURCE(3, "已经下发到执行引擎alisa,在等待alisa排队调度执行")
  • RUNNING(4, "运行中")
  • CHECKING(7, "alisa执行完毕,已经下发给dqc做数据校验")
  • CHECKING_CONDITION(8, "alisa执行完毕,正在做分支条件校验")
  • FAILURE(5, "运行失败")
  • SUCCESS(6, "运行成功")
biz_date string 业务数据日期

调度节点关系raw_v_schedule_node_relation

名称 类型 描述
tenant_id bigint 租户ID
child_node_id bigint 下游节点ID
parent_node_id bigint 上游节点ID
step_type bigint 依赖关系类型。
  • 0:普通
  • 3:跨周期
child_flow_id bigint 工作流ID
project_env string 环境标识。
  • PROD:生产环境
  • DEV:开发环境
create_time bigint 创建时间戳(13位数字时间戳)
create_user string 创建人
modify_time bigint 最后修改时间(13位数字时间戳)
modify_user string 修改人
biz_date string 业务数据日期

调度数据集成资源组明细raw_v_schedule_di_resgroup

名称 类型 描述
tenant_id bigint 租户ID
project_id bigint 项目空间ID
node_id bigint 节点ID
project_env string 项目环境
res_group_identifier string 数据集成资源组标识
src_type string 来源数据源类型
dst_type string 去向数据源类型
src_datasource string 来源数据源
dst_datasource string 去向数据源
config_concurrent bigint 并发数
biz_date string 业务数据日期

租户资源组(包含调度,数据集成及odps资源组)raw_v_tenant_res_group

名称 类型 描述
tenant_id bigint 租户ID
res_group_id bigint 资源组ID
res_group_identifier string 资源组标识
res_group_type bigint 资源组类型。
  • 1:调度资源组
  • 2:MaxCompute资源组
  • 4:数据集成资源组
res_group_mode bigint 资源组类型。
  • 1:预付费
  • 2:后付费
  • 3:开发者版本(仅MaxCompute支持)
status bigint 资源组状态。
  • 0:正常
  • 1:冻结
  • 2:删除
  • 3:创建中
  • 4:创建失败
  • 5:更新中
  • 6:更新失败
  • 7:删除中
  • 8:删除失败
biz_ext_key string 资源组扩展字段。取值为single时表示为独享资源组。
biz_date string 业务数据日期

租户用户信息raw_v_tenant_user

名称 类型 描述
tenant_id bigint 租户ID
yun_account string 云账号
account_name string 账号名
nick string 账号显示名称
full_yun_account string 含AccountProvider的云账号
biz_date string 业务数据日期

租户工作空间信息raw_v_tenant_workspace

名称 类型 描述
tenant_id bigint 租户ID
project_id bigint 工作空间ID
project_name string 工作空间名称
project_identifier string 工作空间标识符
project_desc string 工作空间描述信息
project_owner string 工作空间Owner
status bigint 工作空间状态。
  • 0:正常
  • 1:已删除
  • 2:初始化
  • 3:初始化失败
  • 4:手动禁用
  • 5:删除中
  • 6:删除失败
  • 7:欠费冻结
biz_date string 业务数据日期

租户工作空间用户信息raw_v_tenant_workspace_user

名称 类型 描述
tenant_id bigint DataWorks租户ID
project_id bigint DataWorks项目ID
base_id string 用户baseId
status bigint 用户状态。
  • 0:正常
  • 1:禁用
  • 2:删除
gmt_create_ts bigint 创建时间(13位数字时间戳)
gmt_modified_ts bigint 修改时间(13位数字时间戳)
biz_date string 业务数据日期