HybridDB for PostgreSQL

基于 Greenplum Database 开源数据库项目,支持 OSS 外部表、JSON 数据类型、HyperLogLog 预估分析等功能特性

云数据库HybridDB for PostgreSQL(ApsaraDB HybridDB for PostgreSQL)是一种在线MPP大规模并行处理数据仓库服务。云数据库HybridDB for PostgreSQL 基于 Greenplum Database 开源数据库项目,并由阿里云深度扩展,支持 OSS存储、JSON数据类型、HyperLogLog预估分析 等功能特性。通过符合 SQL2008 标准查询语法及 OLAP分析聚合函数,提供灵活的混合分析能力。支持行存储和列存储混合模式,提高分析性能,同时支持数据压缩技术,降低存储成本。并提供在线扩容、性能监测等服务,用户无需进行复杂的大规模MPP集群运维管理,让 DBA、开发人员及数据分析师专注于如何通过 SQL 提高企业的生产力,创造核心价值。

优点

性能卓越
支持行、列存储混合使用,列存性能在 OLAP分析 时相比行存储可达100倍性能提升
支持高性能OSS并行数据导入,避免单通道导入的性能瓶颈,线性提高数据写入性能
灵活扩展
按需进行计算组规格(CPU、内存、存储空间)的等比扩展,OLAP性能平滑上升致数百TB
透明的OSS外部表操作,非在线分析的冷数据可压缩转存到OSS,数据存储成本大幅降低
稳定可靠
支持分布式 ACID数据一致性,所有数据双节点同步
分布式部署,计算单元、服务器、机柜三重防护,提高重要数据基础设施保障
简单易用
支持丰富的OLAP SQL语法及函数,众多 Oracle函数,业界流行的BI软件可直接联机使用
可与云数据库RDS 实现数据通讯,实现 OLTP+OLAP(HTAP) 混合事务分析解决方案

产品详情

  • 分布式处理

    分布式事务一致性支持


    MPP架构基于分布式大规模并行处理


    随计算单元的添加线性扩展存储及计算能力


    充分发挥每个计算单元的OLAP计算效能


    支持分布式的SQL OLAP统计及窗口函数


    支持分布式PL/pgSQL及PL/JAVA存储过程

  • 学习分析

    基于SQL的MADlib机器学习函数库


    符合国际OpenGIS标准的地理数据SQL混合分析


    直接支持JSON数据类型分析,物联网应用更易接入


    HyperLogLog协助互联网广告高效进行PV、UV预估计算


    支持人流量、面积统计、路径规划等分析处理

  • 数据互通

    业界流行的ETL工具均可支持以HybridDB为目标的ETL数据导入


    MySQL用户可通过阿里云开源的rds_dbsync实现数据持续增量同步


    可将存储于OSS中的格式化文件作为数据源,直接进行基于SQL的外部表操作


    OSS中的数据支持压缩,大幅度降低存储成本

  • 安全防护

    支持高达1000个IP白名单,从访问源进行直接的风险控制


    网络入口实时监测提供DDoS防护


    发现超大流量攻击时,对源IP进行清洗,清洗无效情况下可以直接拉进黑洞

  • 混合分析

    支持 SQL语法 进行分布式 JSON、XML、模糊字符串等数据实时分析,助金融、政企行业实现报文数据处理及模糊文本统计


    支持 SQL语法 进行分布式 GIS地理信息数据类型实时分析,协助物联网、互联网实现LBS位置服务统计

领军客户实战场景

  • 一次开发On Premise及Cloud通用
  • IoT混合数据分析(JSON+GIS)
  • 互联网预估统计分析(HyperLogLog)
  • 通用型ETL+BI分析方案(OLTP & OLAP)
一次开发On Premise及Cloud通用

一次开发On Premise及Cloud通用

独立软件开发商(ISV),可以灵活地在 On Premise 及 Cloud 环境中进行 MPP 系统的应用切换,云下业务直接使用 Greenplum Database,云上业务直接使用 HybridDB。开发人员只需要进行一次程序编写,即可在传统业务平台及云平台上通用,同时由于云上云下架构都可以通过 PostgreSQL 的通用驱动进行连接,因此可以与更多同架构平台实现业务连通。用户可以轻松地构建,一体化的“混合云”数据仓库开发平台,无需再为云上云下平台的差异而烦恼。

IoT混合数据分析(JSON+GIS)

IoT混合数据分析(JSON+GIS)

云数据库HybridDB及PostgreSQL都已经内置支持符合OpenGIS标准的空间数据库引擎PostGIS,可以实现实时的定位及路径规划。同时PostGIS也是被业界广泛支持的空间数据库引擎,支持厂商包括:ArcGIS、Intergraph、QGIS等。用户只需在应用程序中使用简单的SQL,配合GIS函数操作,即可处理复杂的空间地理数据模型(支持2D及3D处理)。得益于云数据库HybridDB的OLAP数据综合分析能力,用户更可以实现基于地理信息的海量数据分析工作,为物联网、移动互联网、物流配送、智慧出行(智慧城市)、LBS位置服务、O2O业务系统等提供强大的决策分析支持。

互联网预估统计分析(HyperLogLog)

互联网预估统计分析(HyperLogLog)

互联网的大数据应用场景中最常见的一个问题便是基数估算,而在进行基数估算时遇到的问题主要是内存需求以及后期数据合并处理等。如计算页面访问的PV、VU等操作都属于这类需求,通常我们在SQL中会通过COUNT DISTINCT进行计算,性能十分低下。通过HyperLogLog进行基数估算会伴随有约为2%的错误率,但可以将查询性能提高20-100倍。因此在很多非精确计算需求的业务场景下可以大大减轻服务器计算负担及计算成本。

通用型ETL+BI分析方案(OLTP & OLAP)

通用型ETL+BI分析方案(OLTP & OLAP)

用户现有基于Greenplum Database的数据仓库可以通过多种方案导入到云数据库HybridDB,实现云端数据仓库的OLAP在线分析,用户无需进行复杂的大规模MPP集群运维管理。同时阿里云为用户提供完整的扩容及可用性保障,让DBA、开发人员及数据分析师专注于如何通过SQL提高企业的生产力,创造核心价值。通过阿里云ApsaraDB for RDS,用户可以实现高性能的OLTP应用,RDS支持MySQL、SQL Server、PostgreSQL,结合云数据库HybridDB,用户即可实现云平台下OLTP到OLAP数据库整合解决方案,为用户构建从高并发生产事务到决策分析的云数据库架构平台。

常见问题

1. 如何选择RDS、HybridDB for PostgreSQL、E-MapReduce?

HybridDBRDSE-MapReduce
基于Greenplum Database开源项目OLAP (On-line Analytical Processing) 数据仓库可按需扩展到PB级别,基于MPP分布式架构,分析性能及存储线性上升,复杂SQL查询可保持秒级甚至毫秒级响应,并发控制在500以内。
MySQL/PostgreSQL/SQL ServerOLTP (On-line Transaction Processing) 数据库支持不同的数据库引擎,针对基于事务的业务模型实时处理CRUD(create, retrieve, update, and delete),支持2TB以下在线数据。
Hadoop, Apache Spark, HBase, Presto, and StormBigData大数据处理解决方案,用于海量数据离线计算提供快速建立Hadoop集群的能力,几分钟内即可开通并开始进行大规模计算处理。通过这种方式,他简化了复杂的大数据处理所涉大量任务及应用程序配置。

2. 哪些ETL工具可以支持云数据库HybridDB for PostgreSQL?

HybridDB 基于开源 Greenplum Database 项目,使用通用的 JDBC、ODBC 接口,因此几乎所有已经支持 Greenplum 及 PostgreSQL 数据库的 ETL 工具都支持 HybridDB。

3. HybridDB for PostgreSQL 基于开源Greenplum Database,两者之间有什么不同?

HybridDB for PostgreSQL相比增强了以下功能

HybridDB for PostgreSQL 扩展支持JSON、HyperLogLog、oss_ext外部表,开源Greenplum Database不支持这些特性。

HybridDB for PostgreSQL 是云计算服务,用户无需自行管理数据仓库的部署扩展等复杂的配置操作,只需要阿里云控制台进行简单点击即可完成。

HybridDB for PostgreSQL有以下功能限制

HybridDB for PostgreSQL 基于阿里云ApsaraDB统一管理平台,对于superuser权有有限制,请参考文档“功能与限制”。

4. HybridDB for PostgreSQL 中购买实例空间是否全部可用?

磁盘空间为用户真实可用的空间,HybridDB for PostgreSQL为用户预留了额外的temporary file space,这部份空间不会占用用户购买到的资源。

5. HybridDB for PostgreSQL的计算组规格和 Greenplum Database 的 Segment 是什么关系?

a. 一个计算组中由一个或多个 Segment 组成,计算组规格中表示的 Cores、内存、磁盘空间是用户真正可用到的空间,以 4Cores/32GB Mem/2TB HDD 的计算组规格为例,这个规格中会包含:4个1Cores/8GB Mem/0.5TB HDD 的 Segment。

b. 以 4Cores/32GB Mem/2TB HDD 的计算组规格为例:对应源生的 Greenplum Database 为共计 4Cores/32GB Mem/2TB HDD 的 Primary Segment,加上 4Cores/32GB Mem/2TB HDD 的 Mirror Segment。也就是说,如果用户自建同等配置的 Greenplum Database 集群相当于需要 8Cores/64GB Mem/4TB HDD 以上的物理资源(还需要为集群准备额外的temporary file space)。

c. 每个计算组中的所有 Segment 都会在同一个服务器上进行分配,因此选用大规格的计算组,有利于减少网络交换,以提高性能。因此如果用户需要的计算资源比较多,建议尽量选用大规格的计算组(购买特大规格实例请联系您的客户经理或提“工单”进行申请)。

6. HybridDB for PostgreSQL 可以扩展到多大的存储容量?

按用户的需求,我们可以扩展到2048Cores/16TB Mem/1024TB HDD以上的计算及存储资源(购买特大规格实例请联系您的客户经理或提“工单”进行申请)。