本文将为您介绍测试方案介绍文档中介绍测试方法的参考结果。

背景信息

本文的参考结果是针对Hologres公有云实例进行测试的结果。

测试所用的数据量及相关集群规格说明如下:

基于100GB数据集性能参考

  • 测试所用的数据量及相关集群规格说明如下:
    • 测试数据量说明:
      表名称 表中包含的数据行数
      LINEITEM 600,037,902
      ORDERS 150,000,000
      PARTSUPP 80,000,000
      PART 20,000,000
      CUSTOMER 15,000,000
      SUPPLIER 1,000,000
      NATION 25
      REGION 5
    • 集群规则说明如下:
      计算资源 存储容量 软件版本 备注
      64 CU

      (CPU:64 Core,内存:256 GB)

      100 GB r0.10.20 使用集群默认配置,Shard数量为40。
      128 CU

      (CPU:128 Core,内存:512 GB)

      100 GB r0.10.20 使用集群默认配置,Shard数量为80。
  • 测试结果:导入时间数据

    导入时间指将数据导入Hologres内表的时间,数据导入时间以秒(s)为单位。下表以64 CU计算资源为例,为您展示各类导入时间的具体数值。

    说明 在使用COPY方法导入数据时,一张表对应一个数据文件,并未使用并发导入方式。
    表名 数据行数 数据量 在公共网络下使用COPY方式导入 在VPC网络下使用COPY方式导入 使用MaxCompute外表导入
    LINEITEM 600,037,902 73.6 GB 3,070.453 694.364 148.165
    ORDERS 150,000,000 16.4 GB 691.060 172.529 37.741
    PARTSUPP 80,000,000 2.3 GB 468.560 107.092 18.488
    PART 20,000,000 11.3 GB 96.342 24.020 8.083
    CUSTOMER 15,000,000 2.3 GB 95.190 22.937 10.363
    SUPPLIER 1,000,000 132 MB 5.057 1.803 1.503
    NATION 25 2 KB 0.580 0.584 0.747
    REGION 5 0.375 KB 0.168 0.153 0.430
    Total 106 GB 4427.410 1023.482 225.52
  • 测试结果:导入时间图示

    下图中蓝色为使用COPY方式在公网条件下导入数据的时间,绿色为使用COPY方式在VPC网络条件下导入数据的时间,灰色为使用MaxCompute外表方式导入的时间。其中纵坐标数值越低,表示导入速度越快。

    说明 横轴:表名。纵轴:数据导入时间(s)。

    结合下图内容可以看出

    • 使用COPY方式导入本地文件数据时,由于网络带宽影响,使用VPC网络的导入数据时间明显短于使用公共网络的导入数据时间。
    • 使用MaxCompute导入数据时间明显短于使用COPY方式导入本地文件数据时间。
    导入时间图示
  • 测试结果:查询时间数据

    查询执行时间以秒(s)为单位,结果均基于Hologres内表,具体数值如下所示。

    TPCH Query编号 Hologres 64CU Hologres 128CU
    1 1.99 1.23
    2 0.61 0.43
    3 1.58 0.72
    4 1.18 0.51
    5 2.65 1.95
    6 0.17 0.11
    7 1.65 0.77
    8 2.43 1.29
    9 5.49 2.66
    10 1.65 0.62
    11 0.36 0.32
    12 1.15 0.63
    13 1.55 0.75
    14 0.27 0.19
    15 0.26 0.20
    16 1.05 0.89
    17 1.18 0.52
    18 11.52 1.83
    19 1.00 0.70
    20 1.10 1.08
    21 3.83 2.37
    22 0.94 0.46
    Total 43.58 20.23
  • 测试结果:查询时间图示

    下图中蓝色数据为64 CU的实例查询结果,绿色为128 CU实例的查询结果。其中纵坐标数值越低,表示TPC-H的性能越好。随着实例规模的成本增长,查询时间也在成线性下降趋势。

    说明 横轴:query在文档中的编号。纵轴:query执行时间(s)。
    测试结果图

基于1TB数据集性能参考

  • 测试所用的数据量及相关集群规格说明如下:
    • 测试数据量说明:
      表名称 表中包含的数据行数 数据量
      LINEITEM 5,999,989,709 752.27 GB
      ORDERS 1,500,000,000 167.11 GB
      PARTSUPP 800,000,000 114.45 GB
      PART 150,000,000 22.94 GB
      CUSTOMER 200,000,000 22.85 GB
      SUPPLIER 10,000,000 1.33 GB
      NATION 25 2.15 KB
      REGION 5 0.38 KB
    • 集群规则说明如下:
      计算资源 存储容量 软件版本 备注
      96 CU

      (CPU:96 Core,内存:384 GB)

      1000 GB r1.1.24 使用集群默认配置,Shard数量为60。
  • 测试结果:查询时间数据

    查询执行时间以秒(s)为单位,结果均基于Hologres内表,具体数值如下所示。

    TPCH Query编号 查询耗时
    1 12.66
    2 1.43
    3 10.79
    4 8.13
    5 14.51
    6 1.48
    7 8.10
    8 12.62
    9 28.20
    10 12.19
    11 3.27
    12 8.96
    13 12.78
    14 1.10
    15 1.36
    16 5.67
    17 8.37
    18 27.78
    19 9.25
    20 4.11
    21 25.80
    22 4.51
    Total 223.08