如果您已开通MaxCompute服务,可以通过MaxCompute查询编辑器获取到公开数据集中的表,并查询这些表,以便您快速试用MaxCompute。本文为您介绍公开数据集信息,并指导您如何通过MaxCompute查询编辑器查询并分析数据。

MaxCompute开放的数据主要是阿里巴巴提供的一个淘宝展示广告点击率预估数据集,详细数据字段信息请参见天池数据集。数据存放在MaxCompute的MAXCOMPUTE_PUBLIC_DATA项目中。

声明

MaxCompute提供的公开数据集数据只能用于产品测试,数据将不做周期更新,且不保障数据准确性,因此请您勿用于正式生产。

注意事项

公开数据集通过MaxCompute的特殊授权机制实现公开授权,对所有的MaxCompute用户开放。在使用过程中,您需要注意:
  • 公开数据集的数据均存储在一个名为MAXCOMPUTE_PUBLIC_DATA的项目中,但所有用户并未被加入到该项目中,即非项目空间成员。因此,用户需要跨项目访问数据,在编写SQL脚本时,必须在表名前指定项目名称。命令示例如下。
    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.raw_sample limit 10;
    说明 公开数据集的数据无需付费即可查看,但是执行查询语句会产生相应计算费用。费用计算规则请参见计算费用
  • 由于公开数据集需要跨项目访问,您在DataWorks的数据地图中无法查找到公开数据集中的表。

公开数据集

MAXCOMPUTE_PUBLIC_DATA项目数据集中的表详细信息如下。

  • 原始样本骨架

    从淘宝网站中随机抽样100+万用户8天内的展示广告点击日志,构成原始的样本骨架。

    项目名称 MAXCOMPUTE_PUBLIC_DATA
    表名称 raw_sample
    更新周期 提供固定数据,不再做增量更新。
    查询表结构 DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
    查询示例 SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.raw_sample limit 10;
  • 广告基本信息

    涵盖了raw_sample表中部分广告的基本信息。

    项目名称 MAXCOMPUTE_PUBLIC_DATA
    表名称 ad_feature
    更新周期 提供固定数据,不再做增量更新。
    查询表结构 DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
    查询示例 SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.ad_feature limit 10;
  • 用户基本信息

    涵盖了raw_sample中全部用户的基本信息。

    项目名称 MAXCOMPUTE_PUBLIC_DATA
    表名称 user_profile
    更新周期 提供固定数据,不再做增量更新。
    查询表结构 DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
    查询示例 SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.user_profile limit 10;
  • 用户的行为日志

    涵盖了raw_sample中全部用户22天内的购物行为。

    项目名称 MAXCOMPUTE_PUBLIC_DATA
    表名称 behavior_log
    更新周期 提供固定数据,不再做增量更新。
    查询表结构 DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
    查询示例 SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.behavior_log limit 10;