Data Transmission Service (DTS) を使用すると、自己管理 MySQL データベースや ApsaraDB RDS for MySQL インスタンスなどの MySQL データベースから Doris データベースにデータを同期して、大規模なデータ分析要件を満たすことができます。このトピックでは、ソース ApsaraDB RDS for MySQL インスタンスから、ECS インスタンスにデプロイされたターゲット Doris データベースにデータを同期する方法を説明します。
前提条件
ターゲット Doris データベースが作成済みであること。このデータベースの利用可能なストレージ容量が、ソース RDS MySQL インスタンスの使用済みストレージ容量を超えていること。
サポートされているソースデータベースとターゲットデータベースのバージョンについては、「データ同期ソリューションの概要」をご参照ください。
注意事項
タイプ | 説明 |
ソースデータベースの制限 |
|
その他の制限 |
|
特殊なケース |
|
課金
| 同期タイプ | タスク設定料金 |
| スキーマ同期と完全データ同期 | 無料です。 |
| 増分データ同期 | 有料です。詳細については、「課金の概要」をご参照ください。 |
増分同期がサポートする SQL 操作
操作タイプ | SQL 文 |
DML | INSERT、UPDATE、および DELETE |
DDL |
|
データベースアカウントに必要な権限
データベース | 必要な権限 | 作成と権限付与の方法 |
ソース RDS MySQL インスタンス | 同期対象オブジェクトに対する読み取りおよび書き込み権限 | アカウントの作成 および アカウント権限の変更 |
ターゲット Doris データベース | USAGE_PRIV 権限と、次の読み取りおよび書き込み権限:SELECT_PRIV、LOAD_PRIV、ALTER_PRIV、CREATE_PRIV、および DROP_PRIV |
使用するソースデータベースアカウントが RDS MySQL コンソールで作成および権限付与されていない場合は、そのアカウントに REPLICATION CLIENT、REPLICATION SLAVE、SHOW VIEW、および SELECT 権限があることを確認してください。
操作手順
ターゲットリージョンのデータ同期タスクリストページに移動します。次のいずれかの方法を使用できます。
DTS コンソールから
DTS コンソールにログインします。
左側のナビゲーションウィンドウで、データ同期 をクリックします。
ページの左上隅で、同期インスタンスが配置されているリージョンを選択します。
DMS コンソールから
説明実際の操作は、DMS コンソールのモードとレイアウトによって異なる場合があります。詳細については、「シンプルモードコンソール」および「DMS コンソールのレイアウトとスタイルをカスタマイズする」をご参照ください。
DMS コンソールにログインします。
トップメニューバーから、 を選択します。
データ同期タスク の右側で、同期インスタンスのリージョンを選択します。
タスクの作成 をクリックすると、タスク構成ページに移動します。
ソースデータベースとターゲットデータベースを設定します。次の表にパラメーターを示します。
カテゴリ
パラメーター
説明
N/A
タスク名
DTS は自動的にタスク名を生成します。簡単に識別できるように、わかりやすい名前を指定することを推奨します。名前は一意である必要はありません。
移行元データベース
既存の接続情報の選択
システムに登録されているデータベースインスタンス (新規作成または保存済み) を使用するには、ドロップダウンリストから目的のデータベースインスタンスを選択します。以下のデータベース情報は自動的に設定されます。
説明DMS コンソールでは、この設定項目は DMS データベースインスタンスの選択 です。
データベースインスタンスをシステムに登録していない場合、または登録済みのインスタンスを使用する必要がない場合は、以下のデータベース情報を手動で設定します。
データベースタイプ
MySQL を選択します。
アクセス方法
Alibaba Cloud インスタンス を選択します。
インスタンスのリージョン
ソース ApsaraDB RDS for MySQL インスタンスが存在するリージョンを選択します。
Alibaba Cloud アカウント間でデータを複製
この例では、現在の Alibaba Cloud アカウント配下のデータベースインスタンスを使用するため、× を選択します。
RDS インスタンス ID
ソース ApsaraDB RDS for MySQL インスタンスの ID を選択します。
データベースアカウント
ソース ApsaraDB RDS for MySQL インスタンスのデータベースアカウント。アカウントに必要な権限の詳細については、「データベースアカウントに必要な権限」をご参照ください。
データベースのパスワード
データベースアカウントに対応するパスワードを入力します。
暗号化
必要に応じて [非暗号化接続] または [SSL セキュア接続] を選択します。 これを [SSL セキュア接続] に設定した場合、事前に RDS for MySQL インスタンスの SSL 暗号化を有効にする必要があります。 詳細については、「クラウド証明書を使用して SSL リンク暗号化をすばやく有効にする」をご参照ください。
移行先データベース
既存の接続情報の選択
システムに登録されているデータベースインスタンス (新規作成または保存済み) を使用するには、ドロップダウンリストから目的のデータベースインスタンスを選択します。以下のデータベース情報は自動的に設定されます。
説明DMS コンソールでは、この設定項目はDMS データベースインスタンスの選択です。
データベースインスタンスをシステムに登録していない場合、または登録済みのインスタンスを使用する必要がない場合は、以下のデータベース情報を手動で設定します。
データベースタイプ
[Doris] を選択します。
アクセス方法
ターゲットデータベースのデプロイメントの場所に基づいて選択します。この例では、ECS 上の自己管理データベース を選択します。
説明他の接続方法で自己管理データベースにアクセスする場合、対応する準備を完了する必要があります。詳細については、「事前準備」をご参照ください。
インスタンスのリージョン
ターゲット Doris データベースが存在するリージョンを選択します。
ECS インスタンス ID
ターゲット Doris データベースがデプロイされている ECS インスタンスの ID を選択します。
説明ターゲット Doris データベースが複数の ECS インスタンスにデプロイされている場合 (たとえば、BE または FE ノードが他の ECS インスタンスにデプロイされている場合)、ノードがデプロイされている各 ECS インスタンスのセキュリティルールに DTS サーバーの CIDR ブロックを手動で追加する必要があります。
ポート番号
接続先の Doris データベースのサービスポートを入力します。デフォルト値:[9030]。
データベースアカウント
ターゲット Doris データベースのデータベースアカウントを入力します。アカウントに必要な権限の詳細については、このトピックの「データベースアカウントに必要な権限」セクションをご参照ください。
データベースのパスワード
データベースアカウントに対応するパスワードを入力します。
構成が完了したら、ページの下部にある接続をテストして続行をクリックします。 DTS サーバーの CIDR ブロック ダイアログボックスで、接続テスト をクリックします。
説明DTS サービスからのアクセスを許可するために、DTS サービスの IP アドレスブロックがソースデータベースとターゲットデータベースのセキュリティ設定に自動または手動で追加されていることを確認してください。詳細については、「DTS サーバーの IP アドレスホワイトリストを追加する」をご参照ください。
タスクオブジェクトを設定します。
オブジェクト設定 ページで、同期するオブジェクトを設定できます。
設定
説明
同期タイプ
[増分同期] はデフォルトで選択されています。また、[スキーマ同期] と [完全データ同期] も選択する必要があります。事前チェックが完了すると、DTS はソースインスタンスの完全データで宛先クラスターの同期オブジェクトを初期化します。このデータは、後続の増分同期のベースラインとなります。
重要ApsaraDB RDS for MySQL インスタンスから自己管理の Doris データベースにデータを同期すると、データの型が変換されます。スキーマ同期 を選択しない場合、データ同期の前に、宛先の Doris データベースに Unique Key モデルまたは Duplicate key モデルを使用するテーブルを作成する必要があります。詳細については、「データ型のマッピング」、「追加の列」、および「Unique Key モデル」をご参照ください。
競合するテーブルの処理モード
エラーの事前チェックと報告:ターゲットデータベースに同じ名前のテーブルがあるかどうかをチェックします。同じ名前のテーブルが見つかった場合、事前チェック中にエラーが報告され、データ同期タスクは開始されません。それ以外の場合、事前チェックは成功します。
説明ターゲットデータベースで同じ名前のテーブルを削除または名前変更できない場合は、オブジェクト名マッピング機能を使用してターゲットデータベースのテーブル名を変更できます。詳細については、「オブジェクト名のマッピング」をご参照ください。
エラーを無視して続行: ターゲットデータベースにおける名前の競合チェックをスキップします。
警告エラーを無視して続行 を選択すると、データに不整合が生じ、ビジネスが危険にさらされる可能性があります。たとえば、
テーブルスキーマが一致し、ターゲットデータベースのレコードがソースデータベースのレコードと同じプライマリキーまたは一意キーの値を持つ場合:
完全データ同期中、DTS はターゲットクラスターのレコードを保持します。ソースデータベースの対応するレコードは同期されません。
増分同期中、ソースデータベースのレコードがターゲットデータベースのレコードを上書きします。
テーブルスキーマが一致しない場合、データ初期化が失敗する可能性があります。これにより、一部の列のみの同期や完全な同期失敗が発生する可能性があります。注意して進めてください。
移行先インスタンスでのオブジェクト名の大文字化
宛先インスタンスのデータベース、テーブル、および列オブジェクト名の大文字/小文字のポリシーを設定できます。デフォルトでは、[DTS デフォルトポリシー] が選択されています。ソースデータベースまたはターゲットデータベースのデフォルトポリシーを選択することもできます。詳細については、「宛先オブジェクト名の大文字/小文字のポリシー」をご参照ください。
ソースオブジェクト
ソースオブジェクト ボックスでオブジェクトをクリックし、次に
をクリックして 選択中のオブジェクト ボックスに移動します。説明同期するオブジェクトとしてデータベースまたはテーブルを選択します。
選択中のオブジェクト
宛先インスタンスの同期オブジェクトの名前を変更するには、選択中のオブジェクト ボックスでオブジェクトを右クリックします。詳細については、「オブジェクト名をマッピングする」をご参照ください。
同期タイプ で スキーマ同期 を選択し、同期オブジェクトとしてテーブルを選択し、バケット数 (
bucket_countパラメーター) を設定する必要がある場合は、選択中のオブジェクト ボックス内のテーブルを右クリックします。パラメーター設定 セクションで、パラメーター設定の有効化 を ○ に設定し、必要に応じて パラメーター値 パラメーターを設定してから、[OK] をクリックします。
説明データベースまたはテーブルレベルで同期する増分 SQL 操作を選択するには、選択中のオブジェクト ボックスで同期オブジェクトを右クリックし、表示されるダイアログボックスで目的の SQL 操作を選択します。
データをフィルターする WHERE 句を設定するには、選択中のオブジェクト ボックス内のテーブルを右クリックし、表示されるダイアログボックスでフィルター条件を設定します。詳細については、「フィルター条件を設定する」をご参照ください。
オブジェクト名マッピング機能を使用すると、マッピングされたオブジェクトに依存する他のオブジェクトの同期が失敗する可能性があります。
詳細設定へ をクリックします。
パラメーター
説明
タスクのスケジュールに使用する専用クラスターの選択
デフォルトでは、DTS は共有クラスターでタスクをスケジュールするため、選択する必要はありません。タスクの安定性を高めるために、DTS 同期タスクを実行するための専用クラスターを購入できます。詳細については、「DTS 専用クラスターとは何ですか?」をご参照ください。
失敗した接続の再試行時間
同期タスクの開始後にソースまたはターゲットデータベースへの接続が失敗した場合、DTS はエラーを報告し、すぐに接続のリトライを開始します。デフォルトのリトライ時間は 720 分です。リトライ時間を 10 分から 1,440 分の間の値にカスタマイズできます。30 分以上の設定を推奨します。指定されたリトライ時間内に DTS が再接続した場合、タスクは自動的に再開されます。それ以外の場合、タスクは失敗します。
説明同じソースまたはターゲットを持つ複数の DTS インスタンス (DTS インスタンス A と DTS インスタンス B など) の場合、A のネットワークリトライ時間が 30 分、B が 60 分に設定されている場合、短い方の 30 分が適用されます。
DTS は接続リトライ中のタスク実行時間に対して課金するため、ビジネスニーズに基づいてリトライ時間をカスタマイズするか、ソースおよびターゲットデータベースインスタンスがリリースされた後できるだけ早く DTS インスタンスをリリースすることを推奨します。
移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。
同期タスクの開始後、ソースまたはターゲットデータベースで接続以外の問題 (DDL または DML 実行エラーなど) が発生した場合、DTS はエラーを報告し、すぐに連続的なリトライ操作を開始します。デフォルトのリトライ時間は 10 分です。リトライ時間を 1 分から 1,440 分の間の値にカスタマイズすることもできます。10 分以上の設定を推奨します。設定されたリトライ時間内に関連操作が成功した場合、同期タスクは自動的に再開されます。それ以外の場合、タスクは失敗します。
重要移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。 の値は、失敗した接続の再試行時間 の値より小さくする必要があります。
完全同期レートを制限するかどうか
完全データ同期フェーズでは、DTS はソースデータベースとターゲットデータベースの読み取りおよび書き込みリソースを消費するため、負荷が増加する可能性があります。 ターゲットデータベースの負荷を軽減するには、1 秒あたりのソースデータベースのクエリ率 QPS、1 秒あたりの完全移行の行数 RPS、および 1 秒あたりの完全移行データ量 (MB) BPS を設定して、完全データ同期タスクのレートを制限します。
説明この設定項目は、同期タイプ が 完全データ同期 に設定されている場合にのみ利用できます。
同期インスタンスの実行後に、完全データ同期のレートを調整することもできます。
増分同期率を制限するかどうか
また、1 秒あたりの増分同期の行数 RPS と 1 秒あたりの増分同期データ量 (MB) BPS を設定することで、増分同期タスクにレート制限を設定し、ターゲットデータベースの負荷を軽減することもできます。
順方向および逆方向タスクのハートビートテーブル SQL を削除
ビジネスニーズに基づいて、DTS インスタンスの実行中にハートビート SQL 情報をソースデータベースに書き込むかどうかを選択します。
はい: ハートビート SQL 情報はソースデータベースに書き込まれません。これにより、DTS インスタンスが遅延をレポートする可能性があります。
いいえ:ソースデータベースにハートビート SQL 情報を書き込むため、ソースデータベースの物理バックアップやクローニングなどの機能に干渉する可能性があります。
環境タグ
インスタンスを識別するために使用される環境タグ。必要に応じて環境タグを選択できます。この例では、このパラメーターを設定する必要はありません。
ETL 機能の設定
抽出、変換、書き出し (ETL) 機能を有効にするかどうかを指定します。詳細については、「ETL とは何か?」をご参照ください。有効な値:
はい:ETL 機能を設定します。コードエディタにデータ処理文を入力できます。詳細については、「データ移行またはデータ同期タスクで ETL を設定する」をご参照ください。
いいえ: ETL 機能を設定しません。
監視アラート
アラートを設定するかどうかを指定します。同期が失敗した場合、または遅延が指定されたしきい値を超えた場合、アラート連絡先に通知が送信されます。
設定しない: アラートを設定しません。
設定: アラートを設定します。アラートのしきい値と アラート通知も設定する必要があります。詳細については、「タスク構成中にモニタリングとアラートを設定する」をご参照ください。
任意: 前述の構成を完了した後、次:データベースおよびテーブルのフィールド設定 をクリックして、ターゲットデータベース内で同期するテーブルの プライマリキー列の追加、配布キー、および エンジンの選択 を設定します。
説明このステップは、タスクオブジェクトを設定する際に 同期タイプで スキーマ同期を選択した場合にのみ利用できます。定義ステータスを すべてに設定して、設定を変更できます。
プライマリキー列の追加 に複数の列を選択して、複合プライマリキーを構成できます。プライマリキー列の追加 から 1 つ以上の列を 配布キー として選択する必要があります。
プライマリキーも一意制約も持たないテーブルについては、エンジンの選択 を [duplicate] に設定する必要があります。そうしないと、インスタンスで障害が発生したり、データが失われたりする可能性があります。
タスクを保存し、事前チェックを実行します。
API 操作でこのインスタンスを設定するためのパラメーターを表示するには、次:タスク設定の保存と事前チェック ボタンにマウスポインターを合わせ、ツールチップに表示される OpenAPI パラメーターのプレビュー をクリックします。
API パラメーターの表示が完了したら、ページの下部にある次:タスク設定の保存と事前チェックをクリックします。
説明同期ジョブが開始される前に、事前チェックが実行されます。ジョブは事前チェックに合格した後にのみ開始できます。
事前チェックが失敗した場合は、失敗した項目の横にある詳細を表示をクリックし、プロンプトに従って問題を解決してから、事前チェックを再実行してください。
事前チェック中に警告が生成された場合:
チェック項目が失敗し、無視できない場合は、項目の横にある詳細を表示をクリックします。その後、指示に従って問題を修正し、事前チェックを再実行します。
無視できるチェック項目については、アラートの詳細を確認、無視、OK、再度事前チェックを実行 の順にクリックして、警告をスキップし、事前チェックを再実行します。チェック項目の警告を無視すると、データの不整合などの問題が発生し、ビジネスにリスクをもたらす可能性があります。
インスタンスを購入します。
成功率 が 100% になったら、次:インスタンスの購入 をクリックします。
購入 ページで、データ同期インスタンスの課金方法とリンク仕様を選択します。詳細については、次の表をご参照ください。
カテゴリ
パラメーター
説明
新しいインスタンスクラス
課金方法
サブスクリプション:インスタンス作成時にお支払いいただきます。長期的なニーズに適しており、従量課金よりも手頃で、サブスクリプション期間が長いほど割引率が高くなります。
従量課金:時間単位で課金されます。短期的なニーズに適しています。使用後すぐにインスタンスをリリースしてコストを節約できます。
リソースグループの設定
インスタンスが属するリソースグループ。デフォルトは [デフォルトリソースグループ] です。詳細については、「Resource Management とは」をご参照ください。
リンク仕様
DTS は、異なるパフォーマンスレベルの同期仕様を提供します。リンク仕様は同期レートに影響します。ビジネスシナリオに基づいて選択できます。詳細については、「データ同期リンク仕様」をご参照ください。
サブスクリプション期間
サブスクリプションモードでは、サブスクリプションインスタンスの期間と数量を選択します。月次サブスクリプションでは 1〜9 ヶ月、年次サブスクリプションでは 1、2、3、または 5 年から選択できます。
説明このオプションは、課金方法がサブスクリプションの場合にのみ表示されます。
構成を完了した後、Data Transmission Service (従量課金) 利用規約 をお読みいただき、選択します。
購入して起動 をクリックし、OK ダイアログボックスで [OK] をクリックします。
データ同期ページでタスクの進捗状況を確認できます。
データ型のマッピング
カテゴリ | ApsaraDB RDS for MySQL のデータ型 | Doris のデータ型 |
数値 | TINYINT | TINYINT |
TINYINT UNSIGNED | SMALLINT | |
SMALLINT | SMALLINT | |
SMALLINT UNSIGNED | INT | |
MEDIUMINT | INT | |
MEDIUMINT UNSIGNED | BIGINT | |
INT | INT | |
INT UNSIGNED | BIGINT | |
BIGINT | BIGINT | |
BIGINT UNSIGNED | LARGEINT | |
BIT(M) | INT | |
Decimal | Decimal 説明 ZEROFILL はサポートされていません。 | |
Numeric | Decimal | |
Float | Float | |
Double | DOUBLE | |
| BOOLEAN | |
日付と時刻 | DATE | DATEV2 |
DATETIME[(fsp)] | DATETIMEV2 | |
Timestamp[(fsp)] | DATETIMEV2 | |
Time[(fsp)] | VARCHAR | |
YEAR[(4)] | INT | |
文字列 |
| VARCHAR 重要 データ損失を避けるため、CHAR および VARCHAR(n) 型のデータは、ターゲット Doris データベースに同期された後、VARCHAR(4*n) に変換されます。
|
| STRING | |
| STRING | |
| STRING | |
ENUM | STRING | |
SET | STRING | |
JSON | STRING |
追加列
追加列
次の表は、DTS によって自動的に追加されるか、または Duplicate Key モデルを使用するターゲットテーブルに手動で追加する必要がある追加列について説明しています。
名前 | データ型 | デフォルト値 | 説明 |
_is_deleted | Int | 0 | データが削除されたかどうかを示します。
|
_version | Bigint | 0 |
|
_record_id | Bigint | 0 |
|