将PolarDB-X 2.0迁移至阿里云消息队列Kafka - 数据传输服务 DTS

前提条件

已创建源PolarDB-X 2.0实例。
目标Kafka实例中已创建用于接收迁移数据的Topic，请参见步骤一：创建Topic。
源库和目标库支持的版本，请参见数据库版本。
目标Kafka实例的存储空间须大于PolarDB-X 2.0实例占用的存储空间。

注意事项

说明

DTS不会将源数据库中的外键迁移到目标数据库，因此源数据库的级联、删除等操作不会迁移到目标数据库。

类型	说明
源库限制	带宽要求：源库所属的服务器需具备足够的出口带宽，否则将影响数据迁移速率。源库暂不支持企业版的PolarDB-X 2.0只读实例。待迁移的表需具备主键或唯一约束，且字段具有唯一性，否则可能会导致目标数据库中出现重复数据。若迁移对象为表级别，且需进行编辑（如表列名映射），则单次迁移任务仅支持迁移至多1000张表。当超出数量限制，任务提交后会显示请求报错，此时建议您拆分待迁移的表，分批配置多个任务，或者配置整库的迁移任务。如需进行增量迁移，Binlog日志：需开启，并且binlog_row_image为full。否则预检查阶段提示报错，且无法成功启动数据迁移任务。如为增量迁移任务，DTS要求源数据库的本地Binlog日志保存24小时以上，如为全量迁移和增量迁移任务，DTS要求源数据库的本地Binlog日志至少保留7天以上（您可在全量迁移完成后将Binlog保存时间设置为24小时以上），否则DTS可能因无法获取Binlog而导致任务失败，极端情况下甚至可能会导致数据不一致或丢失。由于您所设置的Binlog日志保存时间低于DTS要求的时间进而导致的问题，不在DTS的SLA保障范围内。若PolarDB-X 2.0实例中待迁移的表名中含大写字母，则仅支持库表结构迁移。源库的操作限制：在库表结构迁移和全量迁移阶段，请勿执行库或表结构变更的DDL操作，否则数据迁移任务会失败。说明在全量迁移阶段，DTS将对源库进行查询，这将产生元数据锁，从而可能阻碍源数据库的DDL操作执行。迁移期间如需切换PolarDB-X 2.0的网络类型，切换成功后，请调整迁移链路的网络连接信息。如仅执行全量数据迁移，请勿向源实例中写入新的数据，否则会导致源和目标数据不一致。为实时保持数据一致性，建议选择结构迁移、全量数据迁移和增量数据迁移。不支持迁移表组（TABLEGROUP）和包含Locality属性的库或表。不支持迁移名称为保留字（如`select`等）的表。 PolarDB-X 2.0实例中，DRDS模式下的数据库分区不支持同步。 DTS迁移任务运行期间，源PolarDB-X 2.0实例中的广播表不支持中途变更表类型（例如从广播表变更为单表或分库分表）。如需变更表类型，请先停止迁移任务，变更完成后重新配置迁移任务。
其他限制	不支持迁移INDEX、PARTITION、VIEW、PROCEDURE、FUNCTION、TRIGGER、FK。执行数据迁移前需评估源库和目标库的性能，同时建议业务低峰期执行数据迁移。否则全量数据迁移时DTS占用源和目标库一定读写资源，可能会导致数据库的负载上升。由于全量数据迁移会并发执行INSERT操作，导致目标数据库的表产生碎片，因此全量迁移完成后目标数据库的表存储空间会比源实例的表存储空间大。 DTS会尝试恢复七天之内迁移失败任务。因此业务切换至目标实例前，请务必结束或释放该任务，或者将DTS访问目标实例账号的写权限用`revoke`命令回收掉。避免该任务被自动恢复后，源端数据覆盖目标实例的数据。在迁移期间，若目标Kafka发生了扩容或缩容，您需要重启实例。若实例运行失败，DTS技术支持人员将在8小时内尝试恢复该实例。在恢复失败实例的过程中，可能会对该实例进行重启、调整参数等操作。说明在调整参数时，仅会修改DTS实例的参数，不会对数据库中的参数进行修改。可能修改的参数，包括但不限于修改实例参数中的参数。
其他注意事项	DTS会在源库定时更新`dts_health_check`.`ha_health_check`表以推进binlog位点。

费用说明

迁移类型	链路配置费用	公网流量费用
结构迁移和全量数据迁移	不收费。	当目标库的接入方式为公网IP时收取公网流量费用，详情请参见计费概述。
增量数据迁移	收费，详情请参见计费概述。	当目标库的接入方式为公网IP时收取公网流量费用，详情请参见计费概述。

迁移类型说明

库表结构迁移
DTS将源库中迁移对象的结构定义迁移到目标库。
全量迁移
DTS将源库中迁移对象的存量数据，全部迁移到目标库中。
增量迁移
DTS在全量迁移的基础上，将源库的增量更新数据迁移到目标库中。通过增量数据迁移可以实现在自建应用不停机的情况下，平滑地完成数据迁移。

支持增量迁移的SQL操作

操作类型	SQL操作语句
DML	INSERT、UPDATE、DELETE
DDL	CREATE TABLE、ALTER TABLE、DROP TABLE、RENAME TABLE、TRUNCATE TABLE 重要 RENAME TABLE操作可能导致迁移数据不一致。例如迁移对象只包含某个表，如果迁移过程中源实例对该表执行了重命名操作，那么该表的数据将不会迁移到目标库。为避免该问题，您可以在数据迁移配置时将该表所属的整个数据库作为迁移对象，且确保RENAME TABLE操作前后的表所属的数据库均在迁移对象中。 CREATE FUNCTION、DROP FUNCTION、CREATE TRIGGER、DROP TRIGGER CREATE INDEX、DROP INDEX 说明源库为企业版的PolarDB-X 2.0实例时，不支持迁移CREATE FUNCTION和CREATE INDEX操作。

数据库账号的权限要求

数据库	库表结构迁移	全量迁移	增量迁移
PolarDB-X 2.0实例	SELECT权限	SELECT权限	REPLICATION SLAVE、REPLICATION CLIENT及待迁移对象的SELECT权限。说明授权方式，请参见数据同步过程中的账号权限问题。

进入目标地域的迁移任务列表页面（二选一）。
通过DTS控制台进入
1. 登录数据传输服务DTS控制台。
2. 在左侧导航栏，单击数据迁移。
3. 在页面左上角，选择迁移实例所属地域。
通过DMS控制台进入
说明
实际操作可能会因DMS的模式和布局不同，而有所差异。更多信息。请参见极简模式控制台和自定义DMS界面布局与样式。
1. 登录DMS数据管理服务。
2. 在顶部菜单栏中，选择Data + AI > 数据传输（DTS） > 数据迁移。
3. 在迁移任务右侧，选择迁移实例所属地域。
单击创建任务，进入任务配置页面。

配置源库及目标库信息。

警告

选择源和目标实例后，建议您仔细阅读页面上方显示的使用限制，否则可能会导致任务失败或数据不一致。

类别	配置	说明
无	任务名称	DTS会自动生成一个任务名称，建议配置具有业务意义的名称（无唯一性要求），便于后续识别。
源库信息	选择已有连接信息	若您需要使用已录入系统（新建或保存）的数据库实例，请在下拉列表中选择所需的数据库实例，下方的数据库信息将自动进行配置。说明 DMS控制台的配置项为选择DMS数据库实例。若您未将数据库实例录入到系统，或无需使用已录入系统的数据库实例，则需要手动配置下方的数据库信息。
	数据库类型	选择PolarDB-X 2.0。
	接入方式	选择云实例。
	实例地区	选择源PolarDB-X 2.0实例所属地域。
	是否跨阿里云账号	本示例为同一阿里云账号间的迁移，选择不跨账号。
	实例ID	选择源PolarDB-X 2.0实例ID。
	数据库账号	填入源PolarDB-X 2.0实例的数据库账号，权限要求请参见数据库账号的权限要求。
	数据库密码	填入该数据库账号对应的密码。
目标库信息	选择已有连接信息	若您需要使用已录入系统（新建或保存）的数据库实例，请在下拉列表中选择所需的数据库实例，下方的数据库信息将自动进行配置。说明 DMS控制台的配置项为选择DMS数据库实例。若您未将数据库实例录入到系统，或无需使用已录入系统的数据库实例，则需要手动配置下方的数据库信息。
	数据库类型	选择Kafka。
	接入方式	选择专线/VPN网关/智能网关。说明此处将阿里云消息队列Kafka版实例作为自建Kafka数据库来配置迁移实例。
	实例地区	选择目标Kafka实例所属地域。
	已和目标端数据库联通的VPC	选择目标Kafka实例所属的专有网络ID。您可以在Kafka实例的基本信息页面中查看到专有网络ID。
	域名或IP地址	填入Kafka实例默认接入点中的任意一个IP地址。说明您可以在Kafka实例的基本信息页面中，获取默认接入点对应的IP地址。
	端口	Kafka实例的服务端口，默认为9092。
	数据库账号	填入目标Kafka实例的数据库账号。说明如果Kafka实例的实例类型为VPC实例，无需配置数据库账号和数据库密码。
	数据库密码	填入该数据库账号对应的密码。
	Kafka版本	根据Kafka实例版本，选择对应的版本信息。
	连接方式	根据业务及安全需求，选择非加密连接或SCRAM-SHA-256。
	Topic	在下拉框中选择接收数据的Topic。
	是否使用Kafka Schema Registry	Kafka Schema Registry是元数据提供服务层，提供了一个RESTful接口，用于存储和检索Avro Schema。否：不使用Kafka Schema Registry。是：使用Kafka Schema Registry。您需要输入Avro Schema在Kafka Schema Registry注册的URL或IP。

配置完成后，在页面下方单击测试连接以进行下一步。
说明
- 请确保DTS服务的IP地址段能够被自动或手动添加至源库和目标库的安全设置中，以允许DTS服务器的访问。更多信息，请参见添加DTS服务器IP地址白名单。
- 若源库或目标库为自建数据库（接入方式不是云实例），则还需要在弹出的DTS服务器访问授权对话框单击测试连接。

配置任务对象。

在对象配置页面，配置待迁移的对象。

配置	说明
迁移类型	如果只需要进行全量迁移，建议同时选中库表结构迁移和全量迁移。如果需要进行不停机迁移，建议同时选中库表结构迁移、全量迁移和增量迁移。说明若未选中库表结构迁移，请确保目标库中存在接收数据的数据库和表，并根据实际情况，在已选择对象框中使用库表列名映射功能。若未选中增量迁移，为保障数据一致性，数据迁移期间请勿在源实例中写入新的数据。
目标已存在表的处理模式	预检查并报错拦截：检查目标数据库中是否有同名的表。如果目标数据库中没有同名的表，则通过该检查项目；如果目标数据库中有同名的表，则在预检查阶段提示错误，数据迁移任务不会被启动。说明如果目标库中同名的表不方便删除或重命名，您可以更改该表在目标库中的名称，请参见库表列名映射。忽略报错并继续执行：跳过目标数据库中是否有同名表的检查项。警告选择为忽略报错并继续执行，可能导致数据不一致，给业务带来风险，例如：表结构一致的情况下，在目标库遇到与源库主键的值相同的记录：全量期间，DTS会保留目标集群中的该条记录，即源库中的该条记录不会迁移至目标数据库中。增量期间，DTS不会保留目标集群中的该条记录，即源库中的该条记录会覆盖至目标数据库中。表结构不一致的情况下，可能导致只能迁移部分列的数据或迁移失败，请谨慎操作。
投递到Kafka的数据格式	根据需求选择迁移到Kafka实例中的数据存储格式。如果您选择DTS Avro，需要根据DTS Avro的Schema定义进行数据解析，详情请参见DTS Avro的Schema定义和DTS Avro的反序列化示例。如果您选择Canal JSON，Canal Json的参数说明和示例请参见Canal Json说明。
Kafka压缩格式	根据需求选择Kafka压缩消息的压缩格式。 LZ4（默认）：压缩率较低，压缩速率较高。 GZIP：压缩率较高，压缩速率较低。说明对CPU的消耗较高。 Snappy：压缩率中等，压缩速率中等。
投递到Kafka Partition策略	根据业务需求选择策略。重要若源库为PolarDB-X 1.0，则暂不支持此功能。
消息确认机制	根据业务需求选择消息确认机制。
目标库对象名称大小写策略	您可以配置目标实例中迁移对象的库名、表名和列名的英文大小写策略。默认情况下选择DTS默认策略，您也可以选择与源库、目标库默认策略保持一致。更多信息，请参见目标库对象名称大小写策略。
源库对象	在源库对象框中选择待迁移对象，然后单击将其移动至已选择对象框。说明迁移对象选择的粒度为Schema、表、列。若选择的迁移对象为表或列，其他对象（如视图、触发器、存储过程）不会被迁移至目标库。
已选择对象	本示例无需额外配置。您可以使用映射功能，设置源表在目标Kafka实例中的Topic名称、Topic的Partition数量、Partition Key等信息。更多信息，请参见映射信息。说明如果使用了对象名映射功能，可能会导致依赖这个对象的其他对象迁移失败。如需选择增量迁移的SQL操作，请在已选择对象中右击待迁移对象，并在弹出的对话框中选择所需迁移的SQL操作。

单击下一步高级配置，进行高级参数配置。

配置	说明
选择调度该任务的专属集群	DTS默认将任务调度到共享集群上，您无需选择。若您希望任务更加稳定，可以购买专属集群来运行DTS迁移任务。
源库、目标库无法连接后的重试时间	在迁移任务启动后，若源库或目标库连接失败则DTS会报错，并会立即进行持续的重试连接，默认重试720分钟，您也可以在取值范围（10~1440分钟）内自定义重试时间，建议设置30分钟以上。如果DTS在设置的时间内重新连接上源、目标库，迁移任务将自动恢复。否则，迁移任务将失败。说明针对同源或者同目标的多个DTS实例，网络重试时间以后创建任务的设置为准。由于连接重试期间，DTS将收取任务运行费用，建议您根据业务需要自定义重试时间，或者在源和目标库实例释放后尽快释放DTS实例。
源库、目标库出现其他问题后的重试时间	在迁移任务启动后，若源库或目标库出现非连接性的其他问题（如DDL或DML执行异常），则DTS会报错并会立即进行持续的重试操作，默认持续重试时间为10分钟，您也可以在取值范围（1~1440分钟）内自定义重试时间，建议设置10分钟以上。如果DTS在设置的重试时间内相关操作执行成功，迁移任务将自动恢复。否则，迁移任务将会失败。重要源库、目标库出现其他问题后的重试时间的值需要小于源库、目标库无法连接后的重试时间的值。
是否限制全量迁移速率	在全量迁移阶段，DTS将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升。您可以根据实际情况，选择是否对全量迁移任务进行限速设置（设置每秒查询源库的速率QPS、每秒全量迁移的行数RPS和每秒全量迁移的数据量(MB)BPS），以缓解目标库的压力。说明仅当迁移类型选择了全量迁移，才有此配置项。您也可以在迁移实例运行后，调整全量迁移的速率。
是否限制增量迁移速率	您也可以根据实际情况，选择是否对增量迁移任务进行限速设置（设置每秒增量迁移的行数RPS和每秒增量迁移的数据量(MB)BPS），以缓解目标库的压力。说明仅当迁移类型选择了增量迁移，才有此配置项。您也可以在迁移实例运行后，调整增量迁移的速率。
环境标签	您可以根据实际情况，选择用于标识实例的环境标签。本示例无需选择。
配置 ETL 功能	选择是否配置ETL功能。关于ETL的更多信息，请参见什么是ETL。是：配置ETL功能，并在文本框中填写数据处理语句，详情请参见在DTS迁移或同步任务中配置ETL。否：不配置ETL功能。
是否去除正反向任务的心跳表 SQL	根据业务需求选择是否在DTS实例运行时，在源库中写入心跳SQL信息。是：不在源库中写入心跳SQL信息，DTS实例可能会显示有延迟。否：在源库中写入心跳SQL信息，可能会影响源库的物理备份和克隆等功能。
监控告警	根据业务需求选择是否设置告警并接收告警通知。不设置：不设置告警。设置：设置告警。您还需要设置告警阈值和告警通知，当迁移失败或延迟超过阈值后，系统将进行告警通知。

保存任务并进行预检查。
- 若您需要查看调用API接口配置该实例时的参数信息，请将鼠标光标移动至下一步保存任务并预检查按钮上，然后单击气泡中的预览OpenAPI参数。
- 若您无需查看或已完成查看API参数，请单击页面下方的下一步保存任务并预检查。
说明
- 在迁移任务正式启动之前，会先进行预检查。只有预检查通过后，才能成功启动迁移任务。
- 如果预检查失败，请单击失败检查项后的查看详情，并根据提示修复后重新进行预检查。
- 如果预检查产生警告：
  对于不可以忽略的检查项，请单击失败检查项后的查看详情，并根据提示修复后重新进行预检查。
  对于可以忽略无需修复的检查项，您可以依次单击点击确认告警详情、确认屏蔽、确定、重新进行预检查，跳过告警检查项重新进行预检查。如果选择屏蔽告警检查项，可能会导致数据不一致等问题，给业务带来风险。

购买实例。

预检查通过率显示为100%时，单击下一步购买。

在购买页面，选择数据迁移实例的链路规格，详细说明请参见下表。

类别	参数	说明
信息配置	资源组配置	选择实例所属的资源组，默认为default resource group。更多信息，请参见什么是资源管理。
信息配置	链路规格	DTS为您提供了不同性能的迁移规格，迁移链路规格的不同会影响迁移速率，您可以根据业务场景进行选择。更多信息，请参见数据迁移链路规格说明。

配置完成后，阅读并选中《数据传输（按量付费）服务条款》。
单击购买并启动，并在弹出的确认对话框，单击确定。
您可以在迁移任务列表页面，查看迁移实例的具体进度。
说明
- 若迁移实例不包含增量迁移任务，则迁移实例会自动结束。迁移实例自动结束后，运行状态为已完成。
- 若迁移实例包含增量迁移任务，则迁移实例不会自动结束，增量迁移任务会持续进行。在增量迁移任务正常运行期间，迁移实例的运行状态为运行中。

映射信息

在已选择对象区域框中，将鼠标指针放置在目标Topic名上。
单击目标Topic名后出现的编辑。

在弹出的编辑表对话框中，配置映射信息。

说明

库级别是编辑Schema对话框，且支持配置的参数少；表级别是编辑表对话框。
若迁移对象的粒度不是整库，则不支持修改编辑Schema对话框的目标Topic名称和设置新建Topic的Partition数量。

配置	说明
目标Topic名称	源表迁移到的目标Topic名称，默认为源库及目标库配置阶段在目标库信息选择的Topic。重要目标库为阿里云消息队列Kafka版实例时，填写的Topic名称必须在目标Kafka实例中真实存在，否则将会导致数据迁移失败。目标库为自建Kafka数据库，且迁移实例包含库表结构任务时，DTS会尝试在目标库中创建您填写的Topic。若您修改了目标Topic名称，数据将会被写入到您填写的Topic中。
过滤条件	详情请参见设置过滤条件。
设置新建Topic的Partition数量	数据写入到目标Topic时的分区数。
Partition Key	当投递到Kafka Partition策略选择为按主键的hash值投递到不同Partition时，您可以配置本参数，指定单个或多个列作为Partition Key来计算Hash值，DTS将根据计算得到的Hash值将不同的行投递到目标Topic的各Partition中。说明仅支持在编辑表对话框勾选Partition Key。

单击确定。