本文介紹如何使用Data Transmission Service,結合Kafka叢集與TiDB資料庫的Pump、Drainer組件,完成增量資料移轉,實現在應用不停服的情況下,平滑地完成資料庫的遷移上雲。
前提條件
增量遷移前,您可先將自建TiDB中的存量資料移轉至RDS MySQL,請參見從自建TiDB全量遷移至RDS MySQL。
由於該功能僅在部分地區支援,目標RDS MySQL執行個體所屬的地區需為華東1(杭州)、華東2(上海)、華北1(青島)、華北2(北京)、華南1(深圳)、華北3(張家口)、中國香港、亞太地區東南1(新加坡)、美國西部1(矽谷)或美國東部1(維吉尼亞)地區。
RDS MySQL執行個體的儲存空間須大於TiDB資料庫已佔用的儲存空間。
背景資訊

由於TiDB的Binlog格式和實現機制與MySQL資料庫存在一定區別,為實現增量資料移轉,同時減少對來源資料庫的改動,您需要部署Kafka叢集以及TiDB資料庫的Pump和Drainer組件。
由Pump組件即時記錄TiDB產生的Binlog並提供給Drainer組件,然後由Drainer組件將擷取到的Binlog寫入到下遊的Kafka叢集。DTS在執行增量資料移轉時將從Kafka叢集中擷取對應的資料並即時移轉至目標資料庫(例如RDS MySQL執行個體)。
注意事項
DTS在執行全量資料移轉時將佔用源庫和目標庫一定的讀寫資源,可能會導致資料庫的負載上升,在資料庫效能較差、規格較低或業務量較大的情況下(例如源庫有大量慢SQL、存在無主鍵表或目標庫存在死結等),可能會加重資料庫壓力,甚至導致資料庫服務不可用。因此您需要在執行資料移轉前評估源庫和目標庫的效能,同時建議您在業務低峰期執行資料移轉(例如源庫和目標庫的CPU負載在30%以下)。
如果源庫中待遷移的表沒有主鍵或唯一約束,且所有欄位沒有唯一性,可能會導致目標資料庫中出現重複資料。
對於資料類型為FLOAT或DOUBLE的列,DTS會通過
ROUND(COLUMN,PRECISION)來讀取該列的值。如果沒有明確定義其精度,DTS對FLOAT的遷移精度為38位,對DOUBLE的遷移精度為308位,請確認遷移精度是否符合業務預期。DTS會自動地在阿里雲RDS MySQL中建立資料庫,如果待遷移的資料庫名稱不符合阿里雲RDS的定義規範,您需要在配置遷移任務之前在阿里雲RDS MySQL中建立資料庫。
說明關於阿里雲RDS的定義規範和建立資料庫的操作方法,請參見建立資料庫。
對於遷移失敗的任務,DTS會觸發自動回復。在您將業務切換至目標執行個體前,請務必先結束或釋放該任務,避免該任務被自動回復後,導致源端資料覆蓋目標執行個體的資料。
費用說明
遷移類型 | 鏈路配置費用 | 公網流量費用 |
結構遷移和全量資料移轉 | 不收費。 | 當目標庫的接入方式為公網IP時收取公網流量費用。更多資訊,請參見計費概述。 |
增量資料移轉 | 收費,詳情請參見計費概述。 |
遷移類型說明
遷移類型 | 說明 |
結構遷移 | DTS將待遷移對象的結構定義遷移到目標庫。目前DTS支援結構遷移的對象為庫、表和視圖。 警告 此情境屬於異構資料庫間的資料移轉,DTS在執行結構遷移時資料類型無法完全對應,請謹慎評估資料類型的映射關係對業務的影響,詳情請參見異構資料庫間的資料類型映射關係。 |
全量資料移轉 | DTS將待遷移對象的存量資料全部遷移到目標庫中。 說明 由於全量資料移轉會並發INSERT導致目標執行個體的表存在片段,全量遷移完成後目標庫的資料表空間會比源庫的資料表空間大。 |
增量資料移轉 | DTS從Kafka叢集中擷取TiDB產生的Binlog資料,然後將對應的累加式更新即時移轉至到目標庫中。增量資料移轉階段支援下列SQL操作的同步:
通過增量資料移轉可以實現在應用不停服的情況下,平滑地完成資料庫的遷移上雲。 |
準備工作
為減少網路延遲對增量資料移轉的影響,Pump組件、Drainer組件和Kafka叢集所部署的伺服器需要與源庫所屬的伺服器在同一內網中。
部署Pump和Drainer組件,詳情請參見TiDB Binlog叢集部署。
修改Drainer組件的設定檔,設定輸出為Kafka,詳情請參見Kafka自訂開發。
選擇下述方法準備Kafka叢集:
部署自建Kafka叢集,詳情請參見Apache Kafka官網。
警告為保障Kafka叢集可正常接收到TiDB產生的較大的Binlog資料,請適當將Broker組件中的
message.max.bytes、replica.fetch.max.bytes參數以及Consumer組件中的fetch.message.max.bytes參數對應的值調大,詳細說明請參見Kafka配置說明。使用阿里雲訊息佇列Kafka版(MQ for Apache Kafka),詳情請參見阿里雲訊息佇列Kafka版快速入門。
說明為保障正常通訊和減少網路延遲對增量資料移轉的影響,部署阿里雲訊息佇列Kafka執行個體時,需配置和源程式庫伺服器相同的專用網路。
在自建Kafka叢集或阿里雲訊息佇列Kafka執行個體中建立Topic。
將DTS伺服器的IP位址區段加入至TiDB資料庫的白名單安全設定中,具體IP位址區段資訊請參見添加DTS伺服器的IP位址區段。
操作步驟
登入資料轉送控制台。
說明若資料轉送控制台自動跳轉至Data Management控制台,您可以在右下角的
中單擊
,返回至舊版資料轉送控制台。在左側導覽列,單擊資料移轉。
在遷移工作清單頁面頂部,選擇遷移的目的地組群所屬地區。
單擊頁面右上方的建立遷移任務。
配置遷移任務的源庫及目標庫資訊。
配置遷移任務的名稱和源庫資訊。

配置
說明
任務名稱
DTS會自動產生一個任務名稱,建議配置具有業務意義的名稱(無唯一性要求),便於後續識別。
執行個體類型
根據源庫的部署位置進行選擇, 本文以ECS上的自建資料庫為例介紹配置流程。
說明當自建資料庫為其他執行個體類型時,您還需要執行相應的準備工作,詳情請參見準備工作。
執行個體地區
選擇部署了TiDB資料庫的ECS執行個體所屬的地區。
資料庫類型
選擇TiDB。
連接埠
填入TiDB資料庫的服務連接埠,預設為4000。
資料庫帳號
填入TiDB資料庫帳號,需具備SHOW VIEW和待遷移對象的SELECT許可權。
資料庫密碼
填入該資料庫帳號的密碼。
重要源庫資訊填寫完畢後,您可以單擊資料庫密碼後的測試連接來驗證填入的源庫資訊是否正確。源庫資訊填寫正確則提示測試通過;如果提示測試失敗,單擊測試失敗後的診斷,根據提示調整填寫的源庫資訊。
是否做增量遷移
根據業務需求選擇,本案例選擇為是。如果僅需要全量資料移轉,配置方法請參見從自建TiDB全量遷移至RDS MySQL。
Kafka叢集類型
根據Kafka的部署位置進行選擇, 本文以ECS上的自建資料庫為例介紹配置流程。當自建Kafka為其他執行個體類型時,您還需要執行相應的準備工作,詳情請參見準備工作概覽。
說明由於DTS暫時不支援直接選擇阿里雲訊息佇列Kafka版,如果您使用的是阿里雲訊息佇列Kafka執行個體,此處需將其作為自建Kafka來配置,即選擇為通過專線/VPN網關/Smart Access Gateway接入的自建資料庫,然後選擇阿里雲訊息佇列Kafka執行個體所屬的專用網路。
執行個體地區
和源庫的執行個體地區保持一致,不可變更。
ECS執行個體ID
選擇自建Kafka所屬的ECS執行個體ID。
Kafka連接埠
自建Kafka的服務連接埠,預設為9092。
Kafka叢集帳號
填入自建Kafka的使用者名稱,如自建Kafka未開啟驗證可不填寫。
Kafka叢集密碼
填入該使用者的密碼,如自建Kafka未開啟驗證可不填寫。
Topic
單擊右側的擷取Topic列表,然後在下拉框中選擇具體的Topic。
Kafka版本
根據自建Kafka的版本進行選擇。
Kafka叢集串連方式
根據業務及安全需求,選擇非加密串連或SCRAM-SHA-256。
配置遷移任務的目標庫資訊。

配置
說明
執行個體類型
選擇RDS執行個體。
執行個體地區
選擇目標RDS執行個體所屬地區。
資料庫帳號
資料庫密碼
填入該資料庫帳號的密碼。
重要源庫資訊填寫完畢後,您可以單擊資料庫密碼後的測試連接來驗證填入的源庫資訊是否正確。源庫資訊填寫正確則提示測試通過;如果提示測試失敗,單擊測試失敗後的診斷,根據提示調整填寫的源庫資訊。
串連方式
根據需求選擇非加密串連或SSL安全連線。如果設定為SSL安全連線,您需要在配置遷移任務之前開啟RDS執行個體的SSL加密功能,詳情請參見使用雲端認證快速開啟SSL鏈路加密。
重要目前僅中國內地及中國香港地區支援設定串連方式。
配置完成後,單擊頁面右下角的授權白名單並進入下一步。
如果源或目標資料庫是阿里雲資料庫執行個體(例如RDS MySQL、ApsaraDB for MongoDB等),DTS會自動將對應地區DTS服務的IP地址添加到阿里雲資料庫執行個體的白名單;如果源或目標資料庫是ECS上的自建資料庫,DTS會自動將對應地區DTS服務的IP地址添加到ECS的安全規則中,您還需確保自建資料庫沒有限制ECS的訪問(若資料庫是叢集部署在多個ECS執行個體,您需要手動將DTS服務對應地區的IP地址添加到其餘每個ECS的安全規則中);如果源或目標資料庫是IDC自建資料庫或其他雲資料庫,則需要您手動添加對應地區DTS服務的IP地址,以允許來自DTS伺服器的訪問。DTS服務的IP地址,請參見DTS伺服器的IP位址區段。
警告DTS自動添加或您手動添加DTS服務的公網IP位址區段可能會存在安全風險,一旦使用本產品代表您已理解和確認其中可能存在的安全風險,並且需要您做好基本的安全防護,包括但不限於加強帳號密碼強度防範、限制各網段開放的連接埠號碼、內部各API使用鑒權方式通訊、定期檢查並限制不需要的網段,或者使用通過內網(專線/VPN網關/智能網關)的方式接入。
選擇遷移類型和遷移對象。

配置
說明
遷移類型
如果只需要進行全量遷移,同時選中結構遷移和全量資料移轉。
如果需要進行不停機遷移,同時選中結構遷移、全量資料移轉和增量資料移轉。本案例同時選中這三種遷移類型。
遷移對象
在遷移對象框中單擊待遷移的對象,然後單擊
表徵圖將其移動至已選擇對象框。 說明遷移對象選擇的粒度為庫、表、列。若選擇的遷移對象為表或列,其他對象(如視圖、觸發器、預存程序)不會被遷移至目標庫。
預設情況下,遷移對象在目標庫中的名稱與源庫保持一致。如果您需要改變遷移對象在目標庫中的名稱,需要使用對象名映射功能,詳情請參見庫表列映射。
如果使用了對象名映射功能,可能會導致依賴這個對象的其他對象遷移失敗。
映射名稱更改
如需更改遷移對象在目標執行個體中的名稱,請使用對象名映射功能,詳情請參見庫表列映射。
源、目標庫無法串連重試時間
預設重試12小時,您也可以自訂重試時間。如果DTS在設定的時間內重新串連上源、目標庫,遷移任務將自動回復。否則,遷移任務將失敗。
說明由於串連重試期間,DTS將收取任務運行費用,建議您根據業務需要自訂重試時間,或者在源和目標庫執行個體釋放後儘快釋放DTS執行個體。
上述配置完成後,單擊頁面右下角的預檢查並啟動。
說明在遷移任務正式啟動之前,會先進行預檢查。只有預檢查通過後,才能成功啟動遷移任務。
如果預檢查失敗,單擊具體檢查項後的
,查看失敗詳情。您可以根據提示修複後重新進行預檢查。
如無需修複警示檢測項,您也可以選擇確認屏蔽、忽略警示項並重新進行預檢查,跳過警示檢測項重新進行預檢查。
預檢查通過後,單擊下一步。
在彈出的購買配置確認對話方塊,選擇鏈路規格並選中資料轉送(隨用隨付)服務條款。
單擊購買並啟動,遷移任務正式開始。
結構遷移+全量資料移轉
請勿手動結束遷移任務,否則可能會導致資料不完整。您只需等待遷移任務完成即可,遷移任務會自動結束。
結構遷移+全量資料移轉+增量資料移轉
遷移任務不會自動結束,您需要手動結束遷移任務。
重要請選擇合適的時間手動結束遷移任務,例如業務低峰期或準備將業務切換至目的地組群時。
觀察遷移任務的進度變更為增量遷移,並顯示為無延遲狀態時,將源庫停寫幾分鐘,此時增量遷移的狀態可能會顯示延遲的時間。
等待遷移任務的增量遷移再次進入無延遲狀態後,手動結束遷移任務。
