云原生数据仓库AnalyticDB MySQL版(简称ADB,原分析型数据库MySQL版)集群版采用云原生架构,计算存储分离、冷热数据分离,支持高吞吐实时写入和数据强一致,兼顾高并发查询和大吞吐批处理的混合负载。

实现架构

架构图

AnalyticDB在技术架构上分为接入层、计算层、存储层解耦,各层可独立伸缩。同时所有的服务节点均采用无状态化(Serverless)设计,所有节点均为多活(Active-Active)模式或主备(Primary-Standby)模式,当发生软、硬件故障时,调度系统会自动检测和迁移故障节点,整个过程对应用透明无感知。从请求路由接入到存储计算、必须做到全分布式设计,来解决系统模块的单点不可用的问题。

AnalyticDB支持在线扩容(Online scale out)和滚动升级(Rolling upgrade),支持数据存储和计算量从GB到PB规模扩展。支持数据自动重新分布,索引重新构建,不需要关闭服务器。从而更好的支持客户业务的不断发展,按需购买服务,当业务迅速扩展时,灵活敏捷的进行AnalyticDB扩缩容操作。

AnalyticDB支持两级分区,一级分区将表切分为shard(分片),二级分区则是在每个shard内再进行分区。可以通过指定分布键将数据自动分布到若干个分片,可以通过指定分区键按照某个维度进行二级分区。AnalyticDB支持数据多副本存储,每个副本都可以提供读写服务,未来将支持只读副本。

AnalyticDB支持多列索引,多个条件同时走索引,并支持快速多路合并,能够在快速找出满足条件的结果集。AnalyticDB不仅支持经典的传统索引技术,如倒排、bitmap、range tree等,也支持了全文检索、JSON索引、向量索引等。在数据不断增量写入情况下,索引数据能自动重构和合并,不需要停机和中断服务,用户和应用无感知。

AnalyticDB支持基于规则的优化(RBO),支持使用hint手动干预执行计划,并且可以依赖hint调整计划的能力。Hint可以出现在SQL中的任意位置,并基于出现的位置来影响指定QueryBlock的查询计划。AnalyticDB支持基于代价执行计划优化,优化器可以通过尝试各种可能的执行计划,达到全局最优。AnalyticDB实现了在不同的数据规模时,生成对应其数据特征最优的执行计划

AnalyticDB采用了向量化执行(Vectorized execution)、代码生成(code gen)和加速新硬件(GPU、FPGA)等新技术来加速查询。

分析型数据库MySQL高级向量版的向量分析功能旨在帮助您实现非结构化数据的近似检索和分析,其实现原理是通过AI算法提取非结构化数据的特征,然后利用特征向量唯一标识非结构化数据,向量间的距离用于衡量非结构化数据之间的相似度。向量分析采用全索引结构,通过SIMD指令加速、高效索引算法、混合检索CBO策略以及低成本存储技术,帮助您实现高性能、低成本的非结构化数据近似查询和分析。AnalyticDB高级向量版支持直接读取存储在OSS等存储设备上的图像、声音、视频等非结构化数据,对这些数据进行数字化生成向量,提供向量检索索引,并能使用SQL语言对非结构化数据进行分析查询。

优势

  • 弹性扩展

    支持节点和存储空间的弹性扩展,集群变更期间完全不影响数据查询。

    系列 型号 规格说明 特征 性能
    CPU 内存(GB) 磁盘空间(GB)
    集群版 (计算密集型) C8 8 Core 64 100~1000 支持同时扩展节点数和存储空间。 性能是MySQL的100倍,且支持线性扩展性能。
    C24 24 Core 96 100~1000
    C4 4 Core 32 100~200 支持扩展节点数。
    集群版 (存储密集型) S8 8 Core 64 1000~12000 支持同时扩展节点数和存储空间。 与计算密集型相比,性能稍差,支持线性扩展性能。
  • 更大规模和更快读写能力

    基于强一致RAFT协议的副本同步机制以及轻量的索引构建方式,具有承载更大吞吐数据实时写入和读取能力。优化分布式混合计算引擎和优化器以达到更高的复杂计算能力。

  • 更高可用和可靠性

    服务秒级恢复,可用区 (Available Zone,简称AZ)内/跨可用区部署,可用性高于99.95%,自动故障检测、摘除和副本重搭。数据三副本存储、定时全量和增量备份,提供金融级别的数据可靠性保证。

使用场景

  • MySQL复杂分析

    可快速实现MySQL数据复杂分析,与业务数据实时整合帮助决策者从快速增长的数据中获取见解。

  • 大中型企业构建实时数据仓库

    通过数据库方式构建企业级实时数仓,使用简单、上手快、性价比高,支持多种数据源,增强型ETL。相比其它离线数仓,成本大约降低40%。

  • 大数据Hadoop/EMR/Spark回流加速和交互分析

    支持Hadoop/EMR/Spark回流加速,数据迁移方便简单。SQL查询自由灵活,速度快,万亿宽表毫秒级多维度分析。