このトピックでは、データ伝送サービス (DTS) を使用して ApsaraDB RDS for MySQL インスタンスからMaxComputeプロジェクトにデータを同期する方法について説明します。これにより、リアルタイムのデータ分析システムを迅速に構築できます。
前提条件
MaxComputeがアクティブ化され、MaxComputeプロジェクトが作成されていること。詳細については、「MaxComputeとDataWorksをアクティブ化する」および「MaxComputeプロジェクトを作成する」をご参照ください。
DTSからMaxComputeへのアクセスを許可するために、MaxComputeプロジェクトにIPアドレスホワイトリストが構成されていること。詳細については、「Alibaba CloudサービスからMaxComputeへのアクセスを許可するIPアドレスホワイトリストを構成する」をご参照ください。
宛先MaxComputeプロジェクトを所有するAlibaba CloudアカウントにAccessKeyペアが作成されていること。詳細については、「AccessKeyペアを作成する」をご参照ください。
制限事項
DTSは、ソースデータベースからターゲットデータベースに外部キーを同期しません。そのため、ソースデータベースのカスケード操作と削除操作は、ターゲットデータベースに同期されません。
制限タイプ | 説明 |
ソースデータベースの制限 |
|
その他の制限 |
|
特別な場合 |
|
課金
| 同期タイプ | タスク構成料金 |
| スキーマ同期とフルデータ同期 | 無料。 |
| 増分データ同期 | 有料。詳細については、「課金の概要」をご参照ください。 |
増分同期できる SQL 操作
操作タイプ | SQL 文 |
DML | INSERT、UPDATE、および DELETE |
DDL | ADD COLUMN 説明 属性列を含む ADD COLUMN 操作は同期できません。 |
データベースアカウントに必要な権限
データベースタイプ | 必要な権限 | 参照 |
ソース ApsaraDB RDS for MySQL インスタンス | 読み取りおよび書き込み権限 |
使用するソースデータベースアカウントが ApsaraDB RDS for MySQL コンソールで作成および承認されていない場合は、アカウントに REPLICATION CLIENT、REPLICATION SLAVE、SHOW VIEW、および SELECT の権限があることを確認してください。
同期プロセス
初期スキーマ同期。
DTS は、必要なオブジェクトのスキーマをソースデータベースから MaxCompute に同期します。初期スキーマ同期中、DTS はソーステーブル名の末尾に _base サフィックスを追加します。たとえば、ソーステーブルの名前が customer の場合、MaxCompute 内のテーブルの名前は customer_base になります。
初期フルデータ同期。
DTS は、ソースデータベースから MaxCompute のターゲットテーブルにテーブルの履歴データを同期します。たとえば、ソースデータベースの customer テーブルは、MaxCompute の customer_base テーブルに同期されます。データは、後続の増分同期の基礎となります。
説明_base がサフィックスとして付加されたターゲットテーブルは、フルベースラインテーブルと呼ばれます。
増分データ同期。
DTS は、MaxCompute に増分データテーブルを作成します。増分データテーブルの名前には、customer_log など、_log がサフィックスとして付加されます。次に、DTS はソースデータベースで生成された増分データを増分データテーブルに同期します。
説明詳細については、「増分データテーブルのスキーマ」をご参照ください。
手順
次のいずれかの方法を使用して [データ同期] ページに移動し、データ同期インスタンスが存在するリージョンを選択します。
DTS コンソール
DTS console にログオンします。
左側のナビゲーションウィンドウで、データ同期 をクリックします。
ページの左上隅で、データ同期タスクが存在するリージョンを選択します。
DMS コンソール
説明実際の操作は、DMS コンソールのモードとレイアウトによって異なる場合があります。詳細については、「シンプルモード」および「DMS コンソールのレイアウトとスタイルをカスタマイズする」をご参照ください。
DMS console にログオンします。
上部のナビゲーションバーで、ポインタを [データ + AI] に重ね、 を選択します。
データ同期タスク の右側にあるドロップダウンリストから、データ同期インスタンスが存在するリージョンを選択します。
タスクの作成 をクリックして、タスク構成ページに移動します。
ソースデータベースとターゲットデータベースを構成します。次の表にパラメータを示します。
セクション
パラメータ
説明
該当なし
移行先データベース
DTS タスクの名前。DTS はタスク名を自動的に生成します。タスクを簡単に識別できる説明的な名前を指定することをお勧めします。一意のタスク名を指定する必要はありません。
移行元データベース
[既存の接続を選択]
DTS に登録されているデータベースインスタンスを使用する場合は、ドロップダウンリストからインスタンスを選択します。DTS は、インスタンスの次のデータベースパラメータを自動的に入力します。詳細については、「データベース接続を管理する」をご参照ください。
説明DMS コンソールでは、[DMS データベースインスタンスを選択] ドロップダウンリストからデータベースインスタンスを選択できます。
インスタンスを DTS に登録できなかった場合、または DTS に登録されているインスタンスを使用する必要がない場合は、次のデータベース情報を構成する必要があります。
データベースタイプ
ソースデータベースのタイプ。MySQL を選択します。
アクセス方法
ソースデータベースのアクセス方法。Alibaba Cloud インスタンス を選択します。
インスタンスのリージョン
ソース ApsaraDB RDS for MySQL インスタンスが存在するリージョン。
Alibaba Cloud アカウント間でデータを複製
この例では、現在の Alibaba Cloud アカウントのデータベースが使用されます。× を選択します。
RDS インスタンス ID
ソース ApsaraDB RDS for MySQL インスタンスの ID。
データベースアカウント
ソース ApsaraDB RDS for MySQL インスタンスのデータベースアカウント。アカウントに必要な権限については、このトピックの「データベースアカウントに必要な権限」セクションを参照してください。
データベースのパスワード
データベースへのアクセスに使用するパスワード。
暗号化
データベースへの接続を暗号化するかどうかを指定します。ビジネス要件に基づいて、[非暗号化] または [SSL 暗号化] を選択できます。このパラメータを [SSL 暗号化] に設定する場合は、DTS タスクを構成する前に、ApsaraDB RDS for MySQL インスタンスで SSL 暗号化を有効にする必要があります。詳細については、「クラウド証明書を使用して SSL 暗号化を有効にする」をご参照ください。
移行先データベース
[既存の接続を選択]
DTS に登録されているデータベースインスタンスを使用する場合は、ドロップダウンリストからインスタンスを選択します。DTS は、インスタンスの次のデータベースパラメータを自動的に入力します。詳細については、「データベース接続を管理する」をご参照ください。
説明DMS コンソールでは、[DMS データベースインスタンスを選択] ドロップダウンリストからデータベースインスタンスを選択できます。
インスタンスを DTS に登録できなかった場合、または DTS に登録されているインスタンスを使用する必要がない場合は、次のデータベース情報を構成する必要があります。
データベースタイプ
ターゲットデータベースのタイプ。MaxCompute を選択します。
アクセス方法
ターゲットデータベースのアクセス方法。Alibaba Cloud インスタンス を選択します。
インスタンスのリージョン
ターゲット MaxCompute プロジェクトが存在するリージョン。
プロジェクト
ターゲット MaxCompute プロジェクトの名前。
Alibaba Cloud アカウントの AccessKey ID
ターゲット MaxCompute プロジェクトが属する Alibaba Cloud アカウントの AccessKey ID とシークレット。詳細については、このトピックの「前提条件」セクションを参照してください。
Alibaba Cloud アカウントの AccessKey Secret
ページの下部にある 接続をテストして続行 をクリックします。
説明DTS サーバーの CIDR ブロックをソースデータベースとターゲットデータベースのセキュリティ設定に自動または手動で追加して、DTS サーバーからのアクセスを許可できることを確認してください。詳細については、「DTS サーバーの CIDR ブロックを追加する」をご参照ください。
ソースデータベースまたはターゲットデータベースがセルフマネージドデータベースであり、その アクセス方法 が Alibaba Cloud インスタンス に設定されていない場合は、DTS サーバーの CIDR ブロック ダイアログボックスの 接続テスト をクリックします。
[OK] をクリックして、MaxCompute アカウントに権限を付与します。次に、[接続テストと続行] をクリックします。
同期するオブジェクトを構成します。
オブジェクト設定 ステップで、同期するオブジェクトを構成します。
パラメータ
説明
同期タイプ
同期タイプ。デフォルトでは、[増分データ同期] が選択されています。[スキーマ同期] と [フルデータ同期] も選択する必要があります。事前チェックが完了すると、DTS は選択したオブジェクトの履歴データをソースデータベースからターゲットクラスタに同期します。履歴データは、後続の増分同期の基礎となります。
追加列の命名規則
DTS が MaxCompute にデータを同期した後、DTS はターゲットテーブルに追加列を追加します。追加列の名前がターゲットテーブルの既存の列と同じ名前の場合、データ移行タスクは失敗し、データ損失が発生する可能性があります。ビジネス要件に基づいて、このパラメータに 新規ルール または 前のルール を選択できます。
警告このパラメータを指定する前に、ターゲットテーブルの追加列と既存の列で名前の競合が発生していないかどうかを確認してください。詳細については、「追加列の命名規則を変更する」トピックの「追加列の命名規則」セクションを参照してください。
増分データテーブルのパーティション定義
ビジネス要件に基づいてパーティション名を選択します。詳細については、「パーティション」をご参照ください。
競合するテーブルの処理モード
エラーの事前チェックと報告: ターゲットデータベースにソースデータベースのテーブルと同じ名前のテーブルが含まれているかどうかを確認します。ソースデータベースとターゲットデータベースに同じテーブル名のテーブルが含まれていない場合、事前チェックは合格です。それ以外の場合、事前チェック中にエラーが返され、データ同期タスクを開始できません。
説明ソースデータベースとターゲットデータベースに同じ名前のテーブルが含まれており、ターゲットデータベースのテーブルを削除または名前変更できない場合は、オブジェクト名マッピング機能を使用して、ターゲットデータベースに同期されるテーブルの名前を変更できます。詳細については、「オブジェクト名をマッピングする」をご参照ください。
エラーを無視して続行: ソースデータベースとターゲットデータベースの同じテーブル名の事前チェックをスキップします。
警告エラーを無視して続行 を選択すると、データの不整合が発生し、ビジネスが潜在的なリスクにさらされる可能性があります。
ソースデータベースとターゲットデータベースのスキーマが同じで、ターゲットデータベースのデータレコードのプライマリキー値または一意キー値がソースデータベースのデータレコードと同じである場合:
フルデータ同期中、DTS はデータレコードをターゲットデータベースに同期しません。ターゲットデータベースの既存のデータレコードは保持されます。
増分データ同期中、DTS はデータレコードをターゲットデータベースに同期します。ターゲットデータベースの既存のデータレコードは上書きされます。
ソースデータベースとターゲットデータベースのスキーマが異なる場合、データの初期化に失敗する可能性があります。この場合、一部の列のみが同期されるか、データ同期インスタンスが失敗します。注意して進めてください。
移行先インスタンスでのオブジェクト名の大文字化
ターゲットインスタンスのデータベース名、テーブル名、および列名の大文字と小文字の区別。デフォルトでは、[DTS デフォルトポリシー] が選択されています。オブジェクト名の大文字と小文字の区別がソースデータベースまたはターゲットデータベースと一致するように、他のオプションを選択できます。詳細については、「ターゲットインスタンスのオブジェクト名の大文字と小文字の区別を指定する」をご参照ください。
ソースオブジェクト
ソースオブジェクト セクションから 1 つ以上のオブジェクトを選択し、
アイコンをクリックして、選択中のオブジェクト セクションにオブジェクトを追加します。説明同期対象のオブジェクトとしてテーブルを選択できます。
選択中のオブジェクト
ターゲットインスタンスに同期するオブジェクトの名前を変更するには、選択中のオブジェクト セクションでオブジェクトを右クリックします。詳細については、「オブジェクト名をマッピングする」トピックの「単一オブジェクトの名前をマッピングする」セクションを参照してください。
複数のオブジェクトの名前を一度に変更するには、選択中のオブジェクト セクションの右上隅にある 一括編集 をクリックします。詳細については、「オブジェクト名をマッピングする」トピックの「一度に複数のオブジェクト名をマッピングする」セクションを参照してください。
説明特定のデータベースまたはテーブルで実行される SQL 操作を選択するには、選択中のオブジェクト セクションでオブジェクトを右クリックします。表示されるダイアログボックスで、同期する SQL 操作を選択します。
WHERE 条件を指定してデータをフィルタリングするには、選択中のオブジェクト セクションでテーブルを右クリックします。表示されるダイアログボックスで、条件を指定します。詳細については、「フィルタ条件を指定する」をご参照ください。
オブジェクト名マッピング機能を使用してオブジェクトの名前を変更すると、そのオブジェクトに依存する他のオブジェクトが同期されない場合があります。
次へ:詳細設定 をクリックして、詳細設定を構成します。
パラメータ
説明
タスクのスケジュールに使用する専用クラスターの選択
デフォルトでは、専用クラスタを指定しない場合、DTS は共有クラスタにタスクをスケジュールします。データ同期インスタンスの安定性を向上させるには、専用クラスタを購入します。詳細については、「DTS 専用クラスタとは」をご参照ください。
失敗した接続の再試行時間
接続失敗時の再試行時間の範囲。データ同期タスクの開始後にソースデータベースまたはターゲットデータベースに接続できない場合、DTS は時間範囲内で接続をすぐに再試行します。有効値: 10 ~ 1440。単位: 分。デフォルト値: 720。このパラメータは 30 より大きい値に設定することをお勧めします。DTS が指定された時間範囲内にソースデータベースとターゲットデータベースに再接続すると、DTS はデータ同期タスクを再開します。それ以外の場合、データ同期タスクは失敗します。
説明同じソースデータベースまたはターゲットデータベースを持つ複数のデータ同期タスクに異なる再試行時間の範囲を指定すると、最も短い再試行時間の範囲が優先されます。
DTS が接続を再試行すると、DTS インスタンスの料金が発生します。ビジネス要件に基づいて再試行時間の範囲を指定することをお勧めします。ソースインスタンスとターゲットインスタンスが解放された後、できるだけ早く DTS インスタンスを解放することもできます。
移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。
その他の問題の再試行時間の範囲。たとえば、データ同期タスクの開始後に DDL または DML 操作の実行に失敗した場合、DTS は時間範囲内で操作をすぐに再試行します。有効値: 1 ~ 1440。単位: 分。デフォルト値: 10。このパラメータは 10 より大きい値に設定することをお勧めします。指定された時間範囲内で失敗した操作が正常に実行されると、DTS はデータ同期タスクを再開します。それ以外の場合、データ同期タスクは失敗します。
重要移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。 パラメータの値は、失敗した接続の再試行時間 パラメータの値よりも小さくする必要があります。
完全同期レートを制限するかどうか
フルデータ同期中、DTS はソースデータベースとターゲットデータベースの読み取りリソースと書き込みリソースを使用します。これにより、データベースサーバーの負荷が増加する可能性があります。1 秒あたりのソースデータベースのクエリ率 QPS、1 秒あたりの完全移行の行数 RPS、および 1 秒あたりの完全移行データ量 (MB) BPS パラメータをフルデータ同期タスクに構成して、ターゲットデータベースサーバーの負荷を軽減できます。
説明同期タイプ パラメータで 完全データ同期 が選択されている場合にのみ、このパラメータを構成できます。
増分同期率を制限するかどうか
増分データ同期の調整を有効にするかどうかを指定します。ビジネス要件に基づいて、増分データ同期の調整を有効にできます。調整を構成するには、1 秒あたりの増分同期の行数 RPS および 1 秒あたりの増分同期データ量 (MB) BPS パラメータを構成する必要があります。これにより、ターゲットデータベースサーバーの負荷が軽減されます。
環境タグ
DTS インスタンスを識別するために使用される環境タグ。ビジネス要件に基づいて環境タグを選択できます。この例では、環境タグは選択されていません。
順方向および逆方向タスクのハートビートテーブル sql を削除
DTS インスタンスの実行中に、ハートビートテーブルに対する SQL 操作をソースデータベースに書き込むかどうかを指定します。有効値:
[はい]: ハートビートテーブルに対する SQL 操作を書き込みません。この場合、DTS インスタンスのレイテンシが表示される場合があります。
[いいえ]: ハートビートテーブルに対する SQL 操作を書き込みます。この場合、ソースデータベースの物理バックアップやクローニングなどの機能が影響を受ける可能性があります。
ETL の設定
抽出、変換、ロード (ETL) 機能を有効にするかどうかを指定します。詳細については、「ETL とは」をご参照ください。有効値:
[はい]: ETL 機能を構成します。コードエディタにデータ処理ステートメントを入力できます。詳細については、「データ移行タスクまたはデータ同期タスクで ETL を構成する」をご参照ください。
[いいえ]: ETL 機能を構成しません。
監視アラート
データ同期インスタンスのアラートを構成するかどうかを指定します。タスクが失敗した場合、または同期レイテンシが指定されたしきい値を超えた場合、アラート連絡先に通知が送信されます。有効値:
[いいえ]: アラートを有効にしません。
[はい]: アラートを構成します。この場合、アラートしきい値と アラート通知設定 も構成する必要があります。詳細については、「監視とアラートを構成する」トピックの「DTS タスクの作成時に監視とアラートを構成する」セクションを参照してください。
タスク設定を保存し、事前チェックを実行します。
関連する API 操作を呼び出して DTS タスクを構成するときに指定するパラメータを表示するには、次:タスク設定の保存と事前チェック にポインタを重ね、OpenAPI パラメーターのプレビュー をクリックします。
パラメータを表示する必要がない場合、またはすでに表示している場合は、ページの下部にある 次:タスク設定の保存と事前チェック をクリックします。
説明データ同期タスクを開始する前に、DTS は事前チェックを実行します。タスクが事前チェックに合格した後にのみ、データ同期タスクを開始できます。
データ同期タスクが事前チェックに失敗した場合は、失敗した各項目の横にある [詳細の表示] をクリックします。チェック結果に基づいて原因を分析した後、問題をトラブルシューティングします。次に、事前チェックを再実行します。
事前チェック中に項目のアラートがトリガーされた場合:
アラート項目を無視できない場合は、失敗した項目の横にある [詳細の表示] をクリックして、問題をトラブルシューティングします。次に、事前チェックを再実行します。
アラート項目を無視できる場合は、[アラート詳細の確認] をクリックします。[詳細の表示] ダイアログボックスで、[無視] をクリックします。表示されるメッセージで、[OK] をクリックします。次に、[再チェック] をクリックして、事前チェックを再実行します。アラート項目を無視すると、データの不整合が発生し、ビジネスが潜在的なリスクにさらされる可能性があります。
インスタンスを購入します。
[成功率] が [100%] になるまで待ちます。次に、[次へ: インスタンスの購入] をクリックします。
[購入] ページで、データ同期タスクの [課金方法] および [インスタンスクラス] パラメータを構成します。次の表にパラメータを示します。
セクション
パラメータ
説明
新しいインスタンスクラス
課金方法
サブスクリプション: データ同期インスタンスの作成時にサブスクリプション料金を支払います。サブスクリプション課金方法は、長期使用の場合、従量課金方法よりも費用対効果が高くなります。
従量課金: 従量課金インスタンスは 1 時間単位で課金されます。従量課金方法は、短期使用に適しています。従量課金データ同期インスタンスが不要になった場合は、インスタンスを解放してコストを削減できます。
リソースグループ設定
データ同期インスタンスが属するリソースグループ。デフォルト値: [デフォルトリソースグループ]。詳細については、「Resource Management とは」をご参照ください。
インスタンスクラス
DTS は、同期速度が異なるインスタンスクラスを提供します。ビジネス要件に基づいてインスタンスクラスを選択できます。詳細については、「データ同期インスタンスのインスタンスクラス」をご参照ください。
サブスクリプション期間
サブスクリプション課金方法を選択した場合は、サブスクリプション期間と作成するデータ同期インスタンスの数を指定します。サブスクリプション期間は、1 ~ 9 か月、1 年、2 年、3 年、または 5 年にすることができます。
説明このパラメータは、サブスクリプション 課金方法を選択した場合にのみ使用できます。
[データ伝送サービス (従量課金) サービス規約] を読んで選択します。
[購入して開始] をクリックします。表示されるダイアログボックスで、OK をクリックします。
タスクリストでタスクの進捗状況を確認できます。
増分データテーブルのスキーマ
MaxCompute で set odps.sql.allow.fullscan=true; コマンドを実行して、MaxCompute プロジェクトのフルテーブルスキャンを許可する必要があります。
DTS は、ソースデータベースで生成された増分データを MaxCompute の増分データテーブルに同期します。増分データテーブルには、増分データと特定のメタデータが格納されます。次の表に、増分データテーブルのスキーマを示します。
フィールド | 説明 |
record_id | 増分ログのレコード ID。ログの一意の識別子です。 説明
|
operation_flag | 操作タイプ。有効値:
|
utc_timestamp | UTC での操作タイムスタンプ。バイナリログファイルのタイムスタンプでもあります。 |
before_flag | 列の値が更新前の値かどうかを示します。有効値: Y および N。 |
after_flag | 列の値が更新後の値かどうかを示します。有効値: Y および N。 |