rds_dbsync為開源的資料同步遷移工具 ,支援多線程匯入(每個背景工作執行緒負責匯入一部分資料庫表),可同時串連源端和目的端資料庫,從源端MySQL庫中查詢要匯出的資料,然後通過COPY命令匯入目的端,其mysql2pgsql功能支援不落地的把MySQL中的表遷移到AnalyticDB PostgreSQL版。
參數配置
修改設定檔my.cfg、配置源和目的庫串連資訊。
源庫MySQL的串連資訊如下:
重要源庫MySQL的串連資訊中,使用者需要有對所有使用者表的讀許可權。
[src.mysql] host = "192.168.1.1" port = "3306" user = "test" password = "test" db = "test" encodingdir = "share" encoding = "utf8"
目的庫pgsql(包括Postgresql、PPAS和AnalyticDB PostgreSQL版)的串連資訊如下:
重要目的庫pgsql的串連資訊,使用者需要對目標表有寫的許可權。
[desc.pgsql] connect_string = "host=192.168.1.2 dbname=test port=3432 user=test password=pgsql"
mysql2pgsql用法
mysql2pgsql的用法如下所示:
./mysql2pgsql -l <tables_list_file> -d -n -j <number of threads> -s <schema of target table>
參數說明:
-l:選擇性參數,指定一個文字檔,檔案中含有需要同步的表;如果不指定此參數,則同步設定檔中指定資料庫下的所有表。
<tables_list_file>
為一個檔案名稱,裡面含有需要同步的表集合以及表上查詢的條件,其內容格式樣本如下:table1 : select * from table_big where column1 < '2016-08-05' table2 : table3 table4: select column1, column2 from tableX where column1 != 10 table5: select * from table_big where column1 >= '2016-08-05'
-d:選擇性參數,表示只產生目的表的建表DDL語句,不實際進行資料同步。
-n:選擇性參數,需要與-d一起使用,指定在DDL語句中不包含表分區定義。
-j:選擇性參數,指定使用多少線程進行資料同步;如果不指定此參數,會使用5個線程並發。
-s:選擇性參數,指定目標表的schema,目前僅支援設定為public。
典型用法
全庫遷移
全庫遷移的操作步驟如下所示:
通過如下命令,擷取目的端對應表的DDL。
./mysql2pgsql -d
根據這些DDL,再加入Distribution Key等資訊,在目的端建立表。
執行如下命令,同步所有表:
./mysql2pgsql
此命令會把設定檔中所指定資料庫中的所有MySQL 表資料移轉到目的端。過程中使用5個線程(即預設線程數為5),讀取和匯入所有涉及的表資料。
部分表遷移
編輯一個新檔案tab_list.txt,放入如下內容:
t1 t2 : select * from t2 where c1 > 138888
執行如下命令,同步指定的t1和t2表(注意t2表只遷移符合c1 > 138888條件的資料):
./mysql2pgsql -l tab_list.txt
下載與說明
下載mysql2pgsql二進位安裝包。
查看mysql2pgsql源碼編譯說明。