数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。

使用限制

  • 支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成支持传输能够抽象为逻辑二维表的数据同步,不支持同步OSS中存放完全非结构化的数据(例如一段MP3)至MaxCompute。
  • 支持单个和部分跨区域的数据存储相互同步、交换的数据同步需求。

    部分区域可以通过经典网络传输,但不能保证其连通性。如果测试经典网络不通,建议您使用公网方式进行连接。

  • 数据集成仅完成数据同步(传输),本身不提供数据流的消费方式。

离线(批量)同步简介

数据集成主要用于离线(批量)数据同步。离线(批量)的数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架设计一套简化版的中间数据传输格式,从而实现任意结构化、半结构化数据源之间数据传输。离线同步

离线同步支持的数据源类型

  • 关系型数据库:MySQL、SQL Server、PostgreSQL、Oracle、DM、DRDS、PolarDB、HybridDB for MySQL、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 2.0和AnalyticDB for MySQL 3.0。
  • 大数据存储:MaxCompute(ODPS)、DataHub和Data Lake AnalyticDB(DLA)。
  • 半结构化存储:OSS、HDFS和FTP。
  • NoSQL:MongoDB、Memcache(OCS)、Redis和Table Store(OTS)。
  • 消息队列:LogHub。
  • 图计算引擎:GraphCompute。
更多详情请参见支持的数据源与读写插件
说明 每个数据源的配置信息差距较大,请根据自身需求,在数据源配置和作业配置模块查询相应的参数配置信息。

实时同步简介

数据集成的实时同步包括实时读取、转换和写入三种基础插件,各插件之间通过内部定义的中间数据格式进行交互。

一个实时同步任务支持多个转换插件进行数据清洗,并支持多个写入插件实现多路输出功能。同时针对某些场景,支持整库实时同步解决方案,您可以一次性实时同步多个表。实时同步

实时同步支持的数据源类型

  • 输入:MySQL、Oracle、Kafka、Datahub、Loghub和PolarDB。
  • 输出:MaxCompute、Hologres、Kafka和Datahub。
  • 数据转换:数据过滤、Groovy和字符串替换。

详情请参见实时同步支持的数据源

数据同步的开发模式

您可以通过以下两种模式进行数据同步开发:
  • 向导模式:提供向导式的开发引导,通过可视化的填写和下一步的引导,助您快速完成数据同步任务的配置工作。向导模式的学习成本低,但无法支持部分高级功能。详情请参见通过向导模式配置任务
  • 脚本模式:您可以通过直接编写数据同步的JSON脚本来完成数据同步开发,适合高级用户,学习成本较高。脚本模式可以提供更丰富灵活的能力,实现精细化的配置管理。详情请参见通过脚本模式配置任务
说明
  • 向导模式生成的代码可以转换为脚本模式,该转换为单向操作,转换完成后无法恢复至向导模式。
  • 代码编写前,您需要配置数据源和创建目标表。

网络类型说明

网络类型包括经典网络、专有网络(VPC)和本地IDC网络(规划中):
  • 经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责,更适合对网络易用性要求比较高的客户。
  • 专有网络:基于阿里云构建出一个隔离的网络环境。您可以完全掌控自己的虚拟网络,包括选择自有的IP地址范围,划分网段以及配置路由表、网关。

    专有网络构建了一个隔离的网络环境,您可以自定义IP地址范围、网段、网关等参数。随着专有网络应用的推广,数据集成提供了RDS(MySQL、PostgreSQL和SQLServer)、PolarDB、DRDS、HybridDB for MySQL、AnalyticDB for PostgreSQL和AnalyticDB for MySQL3.0数据源之间的反向代理自动检测功能:在专有网络下不需要购买一台和VPC同网络的ECS,系统可以通过反向代理自动检测打通网络。

    PPAS、OceanBase、Redis、MongoDB、Memcache、Tabl eStore和HBase等阿里云其它非RDS的数据库,在专有网络下配置数据同步任务时,需要购买同网络的ECS,才可以通过ECS连通网络。

  • 本地IDC网络:您自身构建机房的网络环境,与阿里云网络隔离。
经典网络和专有网络相关问题请参见经典网络和VPC常见问题
说明 网络连接可以支持公网连接,请注意公网带宽的速度和相关网络费用消耗。无特殊情况不建议使用。

基本概念

  • 并发数

    并发数是数据同步任务中,可以从源并行读取或并行写入数据存储端的最大线程数。

  • 限速

    限速是数据集成同步任务可以达到的传输速度限制。

  • 脏数据

    脏数据是对于业务没有意义或者格式非法的数据。例如,源端是VARCHAR类型的数据写到INT类型的目标列中,导致因为转换不合理而无法写入的数据。

  • 数据源

    DataWorks所处理的数据的来源,可能是一个数据库或数据仓库。DataWorks支持各种类型的数据源,并且支持数据源之间的转换。

参考文档

  • 数据同步任务配置详情请参见创建数据同步任务
  • 如果需要处理OSS等非结构化数据,请参见MaxCompute访问OSS数据
  • DataWorks可以通过免费传输能力(默认任务资源组)进行海量数据上云,但默认资源组无法实现传输速度存在较高要求或复杂环境中的数据源同步上云的需求。您可以新增独享数据集成资源或者数据集成自定义资源组运行数据同步任务,解决DataWorks默认资源组与您的数据源不通的问题,或实现更高速度的传输能力。详情请参见独享数据集成资源组新增自定义资源组