このトピックでは、Data Transmission Service (DTS) を使用して PolarDB for MySQL クラスタから ApsaraDB for ClickHouse クラスタにデータを同期する方法について説明します。これにより、データを簡単に転送し、一元的に分析できます。
前提条件
ClickHouse V20.8 以降を実行する ApsaraDB for ClickHouse クラスタが宛先クラスタとして作成されています。詳細については、「ApsaraDB for ClickHouse クラスタを作成する」をご参照ください。
宛先 ApsaraDB for ClickHouse クラスタの使用可能なストレージ容量は、ソース PolarDB for MySQL クラスタのデータの合計サイズよりも大きくなっています。
使用上の注意
制限事項 | 説明 |
ソースインスタンスの制限 |
|
その他の制限 |
|
課金
| 同期タイプ | タスク構成料金 |
| スキーマ同期と完全データ同期 | 無料。 |
| 増分データ同期 | 有料。詳細については、「課金の概要」をご参照ください。 |
データ同期をサポートする SQL 操作
操作タイプ | SQL 文 |
DML | INSERT、UPDATE、および DELETE |
DDL |
|
データ型マッピング
PolarDB for MySQL クラスタと ApsaraDB for ClickHouse クラスタでサポートされているデータ型は異なり、1 対 1 の対応関係はありません。初期スキーマ同期中、DTS は宛先データベースでサポートされているデータ型に基づいてデータ型マッピングを実行します。詳細については、「初期スキーマ同期のデータ型マッピング」をご参照ください。
データベースアカウントに必要な権限
データベースタイプ | 必要な権限 | 参照 |
ソース PolarDB for MySQL クラスタ | 同期対象のオブジェクトに対する読み取り権限 | |
宛先 ApsaraDB for ClickHouse クラスタ |
|
手順
次のいずれかの方法を使用して [データ同期] ページに移動し、データ同期インスタンスが存在するリージョンを選択します。
DTS コンソール
DTS コンソール にログオンします。
左側のナビゲーションウィンドウで、データ同期 をクリックします。
ページの左上隅で、データ同期インスタンスが存在するリージョンを選択します。
DMS コンソール
説明実際の操作は、DMS コンソールのモードとレイアウトによって異なる場合があります。詳細については、「シンプルモード」および「DMS コンソールのレイアウトとスタイルをカスタマイズする」をご参照ください。
DMS コンソール にログオンします。
上部のナビゲーションバーで、[データ + AI] にポインタを移動し、 を選択します。
データ同期タスク の右側にあるドロップダウンリストから、データ同期インスタンスが存在するリージョンを選択します。
タスクの作成 をクリックして、タスク構成ページに移動します。
ソースデータベースと宛先データベースを構成します。次の表にパラメータを示します。
セクション
パラメータ
説明
該当なし
タスク名
DTS タスクの名前。DTS はタスク名を自動的に生成します。タスクを簡単に識別できる説明的な名前を指定することをお勧めします。一意のタスク名を指定する必要はありません。
移行元データベース
既存の接続情報の選択
使用するデータベース。ビジネス要件に基づいて既存のデータベースを使用するかどうかを選択できます。
既存のデータベースを選択すると、DTS はデータベースのパラメータを自動的に入力します。
既存のデータベースを選択しない場合は、次のデータベース情報を構成する必要があります。
説明DTS コンソールでは、データベース接続 ページまたは新しい構成ページで、データベースを DTS に登録します。詳細については、「データベース接続を管理する」をご参照ください。
DMS コンソールでは、DMS データベースインスタンスの選択 ドロップダウンリストから既存のデータベースを選択できます。DMS データベースインスタンスの追加 をクリックするか、DMS コンソールのホームページに戻ってデータベースを DMS に登録することもできます。詳細については、「Alibaba Cloud データベースインスタンスを登録する」および「サードパーティクラウドサービスまたは自己管理データベースでホストされているデータベースを登録する」をご参照ください。
データベースタイプ
ソースデータベースのタイプ。PolarDB for MySQL を選択します。
アクセス方法
ソースデータベースのアクセス方法。Alibaba Cloud インスタンス を選択します。
インスタンスのリージョン
ソース PolarDB for MySQL クラスタが存在するリージョン。
Alibaba Cloud アカウント間でデータを複製
Alibaba Cloud アカウント間でデータを同期するかどうかを指定します。この例では、× が選択されています。
PolarDB クラスター ID
ソース PolarDB for MySQL クラスタの ID。
データベースアカウント
ソース PolarDB for MySQL クラスタのデータベースアカウント。データベースアカウントに必要な権限の詳細については、このトピックの「データベースアカウントに必要な権限」セクションをご参照ください。
データベースのパスワード
データベースへのアクセスに使用するパスワード。
暗号化
ソースデータベースへの接続を暗号化するかどうかを指定します。ビジネス要件に基づいてこのパラメータを構成できます。SSL 暗号化機能の詳細については、「SSL 暗号化を構成する」をご参照ください。
移行先データベース
既存の接続情報の選択
使用するデータベース。ビジネス要件に基づいて、既存のデータベースを使用するかどうかを選択できます。
既存のデータベースを選択すると、DTS によってデータベースのパラメーターが自動的に入力されます。
既存のデータベースを選択しない場合は、以下のデータベース情報を構成する必要があります。
説明DTS コンソールで、データベース接続 ページまたは新しい構成ページで、DTS にデータベースを登録します。詳細については、「データベース接続を管理する」をご参照ください。
DMS コンソールで、DMS データベースインスタンスの選択 ドロップダウンリストから既存のデータベースを選択できます。また、DMS データベースインスタンスの追加 をクリックするか、DMS コンソールのホームページに戻って DMS にデータベースを登録することもできます。詳細については、「Alibaba Cloud データベースインスタンスを登録する」および「サードパーティクラウドサービスまたは自己管理データベースでホストされているデータベースを登録する」をご参照ください。
データベースタイプ
宛先データベースのタイプ。ClickHouse を選択します。
アクセス方法
宛先データベースのアクセス方法。Alibaba Cloud インスタンス を選択します。
インスタンスのリージョン
宛先 ApsaraDB for ClickHouse クラスタが存在するリージョン。
Alibaba Cloud アカウント間でデータを複製
Alibaba Cloud アカウント間でデータを同期するかどうかを指定します。この例では、× が選択されています。
クラスタータイプ
宛先 ApsaraDB for ClickHouse クラスタのタイプ
クラスター ID
宛先 ApsaraDB for ClickHouse クラスタの ID。
データベースアカウント
宛先 ApsaraDB for ClickHouse クラスタのデータベースアカウント。データベースアカウントに必要な権限については、このトピックの「データベースアカウントに必要な権限」セクションをご参照ください。
データベースのパスワード
データベースへのアクセスに使用するパスワード。
ページの下部にある 接続をテストして続行 をクリックします。
説明DTS サーバーの CIDR ブロックをソースデータベースと宛先データベースのセキュリティ設定に自動または手動で追加して、DTS サーバーからのアクセスを許可できることを確認してください。詳細については、「DTS サーバーの CIDR ブロックを追加する」をご参照ください。
同期するオブジェクトを構成します。
オブジェクト設定 ステップで、同期するオブジェクトを構成します。
パラメータ
説明
同期タイプ
同期タイプ。デフォルトでは、[増分データ同期] が選択されています。[スキーマ同期] と [完全データ同期] も選択する必要があります。事前チェックが完了すると、DTS は選択したオブジェクトの既存データをソースデータベースから宛先クラスタに同期します。既存データは、後続の増分同期の基礎となります。
競合するテーブルの処理モード
エラーの事前チェックと報告: 宛先データベースにソースデータベースのテーブルと同じ名前のテーブルが含まれているかどうかを確認します。ソースデータベースと宛先データベースに同じテーブル名のテーブルが含まれていない場合、事前チェックは合格です。それ以外の場合、事前チェック中にエラーが返され、データ同期タスクを開始できません。
説明ソースデータベースと宛先データベースに同じ名前のテーブルが含まれており、宛先データベースのテーブルを削除または名前変更できない場合は、オブジェクト名マッピング機能を使用して、宛先データベースに同期されるテーブルの名前を変更できます。詳細については、「オブジェクト名をマッピングする」をご参照ください。
エラーを無視して続行: ソースデータベースと宛先データベースの同じテーブル名の事前チェックをスキップします。
警告エラーを無視して続行 を選択すると、データの不整合が発生し、ビジネスが潜在的なリスクにさらされる可能性があります。
ソースデータベースと宛先データベースのスキーマが同じで、宛先データベースのデータレコードのプライマリキー値または一意キー値がソースデータベースのデータレコードと同じである場合:
完全データ同期中、DTS はデータレコードを宛先データベースに同期しません。宛先データベースの既存のデータレコードは保持されます。
増分データ同期中、DTS はデータレコードを宛先データベースに同期します。宛先データベースの既存のデータレコードは上書きされます。
ソースデータベースと宛先データベースのスキーマが異なる場合、データの初期化に失敗する可能性があります。この場合、一部の列のみが同期されるか、データ同期タスクが失敗します。注意して進めてください。
移行先インスタンスでのオブジェクト名の大文字化
宛先インスタンスのデータベース名、テーブル名、および列名の大文字と小文字の区別。デフォルトでは、[DTS デフォルトポリシー] が選択されています。オブジェクト名の大文字と小文字の区別がソースデータベースまたは宛先データベースと一致するように、他のオプションを選択できます。詳細については、「宛先インスタンスのオブジェクト名の大文字と小文字の区別を指定する」をご参照ください。
ソースオブジェクト
ソースオブジェクト セクションから 1 つ以上のオブジェクトを選択し、
アイコンをクリックして、選択中のオブジェクト セクションにオブジェクトを追加します。説明データベース、テーブル、または列を同期対象のオブジェクトとして選択できます。
選択中のオブジェクト
宛先インスタンスに同期するオブジェクトの名前を変更するには、選択中のオブジェクト セクションでオブジェクトを右クリックします。詳細については、「オブジェクト名をマッピングする」トピックの「単一オブジェクトの名前をマッピングする」セクションをご参照ください。
複数のオブジェクトの名前を一度に変更するには、選択中のオブジェクト セクションの右上隅にある 一括編集 をクリックします。詳細については、「オブジェクト名をマッピングする」トピックの「一度に複数のオブジェクト名をマッピングする」セクションをご参照ください。
説明特定の条件を満たすデータを同期するためのフィルタ条件を指定するには、選択中のオブジェクト セクションで同期するテーブルを右クリックします。表示されるダイアログボックスで、1 つ以上の SQL 条件を指定します。詳細については、「フィルタ条件を設定する」をご参照ください。
オブジェクト名マッピング機能を使用する場合、名前が変更されたオブジェクトに依存する他のオブジェクトは同期に失敗する可能性があります。
次へ:詳細設定 をクリックして詳細設定を構成します。
パラメータ
説明
タスクのスケジュールに使用する専用クラスターの選択
デフォルトでは、専用クラスタを指定しない場合、DTS は共有クラスタにタスクをスケジュールします。データ同期タスクの安定性を向上させるには、専用クラスタを購入します。詳細については、「DTS 専用クラスタとは」をご参照ください。
ターゲットデータベースのタイムゾーン
ビジネス要件に基づいて、ApsaraDB for ClickHouse クラスタに書き込まれる DateTime データのタイムゾーンを選択できます。
失敗した接続の再試行時間
接続失敗時のリトライ時間の範囲。データ同期タスクの開始後にソースデータベースまたは宛先データベースへの接続に失敗した場合、DTS は指定された時間範囲内で直ちに接続を再試行します。有効値: 10 ~ 1440。単位: 分。デフォルト値: 720。このパラメータは 30 より大きい値に設定することをお勧めします。指定された時間範囲内に DTS がソースデータベースと宛先データベースに再接続すると、DTS はデータ同期タスクを再開します。それ以外の場合、データ同期タスクは失敗します。
説明ソースデータベースまたは宛先データベースが同じ複数のデータ同期タスクに異なるリトライ時間の範囲を指定した場合、最短のリトライ時間の範囲が優先されます。
DTS が接続を再試行すると、DTS インスタンスに対して課金されます。ビジネス要件に基づいてリトライ時間の範囲を指定することをお勧めします。ソースインスタンスと宛先インスタンスが解放された後、できるだけ早く DTS インスタンスを解放することもできます。
移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。
その他の問題のリトライ時間の範囲。たとえば、データ同期タスクの開始後に DDL または DML 操作の実行に失敗した場合、DTS は指定された時間範囲内で直ちに操作を再試行します。有効値: 1 ~ 1440。単位: 分。デフォルト値: 10。このパラメータは 10 より大きい値に設定することをお勧めします。指定された時間範囲内に失敗した操作が正常に実行されると、DTS はデータ同期タスクを再開します。それ以外の場合、データ同期タスクは失敗します。
重要移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。 パラメータの値は、失敗した接続の再試行時間 パラメータの値よりも小さくなければなりません。
完全移行率を制限するかどうか
完全データ同期中、DTS はソースデータベースと宛先データベースの読み取りおよび書き込みリソースを使用します。これにより、データベースサーバーの負荷が増加する可能性があります。宛先データベースサーバーの負荷を軽減するために、完全データ同期タスクの 1 秒あたりのソースデータベースのクエリ率 QPS、1 秒あたりの完全移行の行数 RPS、および 1 秒あたりの完全移行データ量 (MB) BPS パラメータを構成できます。
説明このパラメータは、同期タイプ パラメータで 完全データ同期 が選択されている場合にのみ表示されます。
増分同期率を制限するかどうか
増分データ同期の速度制限を有効にするかどうかを指定します。ビジネス要件に基づいて、増分データ同期の速度制限を有効にできます。速度制限を構成するには、1 秒あたりの増分同期の行数 RPS および 1 秒あたりの増分同期データ量 (MB) BPS パラメータを構成する必要があります。これにより、宛先データベースサーバーの負荷が軽減されます。
順方向および逆方向タスクのハートビートテーブル sql を削除
DTS インスタンスの実行中に、ハートビートテーブルの SQL 操作をソースデータベースに書き込むかどうかを指定します。有効値:
[はい]: ハートビートテーブルの SQL 操作を書き込みません。この場合、DTS インスタンスのレイテンシが表示される場合があります。
[いいえ]: ハートビートテーブルの SQL 操作を書き込みます。この場合、ソースデータベースの物理バックアップやクローニングなどの機能が影響を受ける可能性があります。
環境タグ
ビジネス要件に基づいて、データベースインスタンスに環境タグを追加できます。この例では、環境タグは選択されていません。
ETL の設定
抽出、変換、書き出し (ETL) 機能を有効にするかどうかを指定します。詳細については、「ETL とは」をご参照ください。有効値:
[はい]: ETL 機能を構成します。コードエディタにデータ処理文を入力できます。詳細については、「データ移行またはデータ同期タスクで ETL を構成する」をご参照ください。
[いいえ]: ETL 機能を構成しません。
監視アラート
データ同期タスクのアラートを構成するかどうかを指定します。タスクが失敗した場合、または同期レイテンシが指定されたしきい値を超えた場合、アラート連絡先に通知が送信されます。有効値:
[いいえ]: アラートを有効にしません。
[はい]: アラートを構成します。この場合、アラートのしきい値と アラート通知設定 も構成する必要があります。詳細については、「監視とアラートを構成する」トピックの「DTS タスクの作成時に監視とアラートを構成する」セクションをご参照ください。
次:データベースおよびテーブルのフィールド設定 をクリックして、ClickHouse で同期するテーブルの タイプ、プライマリキー列の追加、ソートキー、配布キー、および パーティションキー 情報を設定します。
説明デフォルトでは、これらのパラメーターは DTS によって設定されます。パラメーターを変更するには、定義ステータス パラメーターを すべて に設定します。
対応するドロップダウンリストから、プライマリキー列の追加 パラメーターまたは ソートキー パラメーターに複数の列を選択できます。プライマリキー列の追加 パラメーターに指定された 1 つ以上の列を、パーティションキー パラメーターに選択できます。配布キー パラメーターには、1 つの列のみを選択できます。 詳細については、「CREATE TABLE」をご参照ください。
パーティションキー パラメーターはオプションです。ただし、このパラメーターを設定する場合、パーティションキー パラメーターの選択されたすべての列は空ではないフィールドである必要があります。そうでない場合、同期タスクは失敗します。
タスク設定を保存し、事前チェックを実行します。
DTS タスクを設定するために関連 API 操作を呼び出すときに指定するパラメーターを表示するには、次:タスク設定の保存と事前チェック にポインターを移動し、OpenAPI パラメーターのプレビュー をクリックします。
パラメーターを表示する必要がない場合、またはすでに表示済みの場合は、ページ下部にある 次:タスク設定の保存と事前チェック をクリックします。
説明データ同期タスクを開始する前に、DTS は事前チェックを実行します。タスクが事前チェックに合格した後にのみ、データ同期タスクを開始できます。
データ同期タスクが事前チェックに失敗した場合は、失敗した各項目の横にある [詳細の表示] をクリックします。チェック結果に基づいて原因を分析した後、問題をトラブルシューティングします。その後、事前チェックを再実行します。
事前チェック中に項目に対してアラートがトリガーされた場合:
アラート項目を無視できない場合は、失敗した項目の横にある [詳細の表示] をクリックし、問題をトラブルシューティングします。次に、事前チェックを再度実行します。
アラート項目を無視できる場合は、[アラート詳細の確認] をクリックします。 [詳細の表示] ダイアログボックスで、[無視] をクリックします。表示されるメッセージで、[OK] をクリックします。次に、[再チェック] をクリックして、事前チェックを再度実行します。アラート項目を無視すると、データの不整合が発生し、ビジネスが潜在的なリスクにさらされる可能性があります。
インスタンスを購入します。
[成功率] が [100%] になるまで待ちます。次に、[次へ: インスタンスの購入] をクリックします。
[購入] ページで、データ同期インスタンスの課金方法とインスタンスクラスのパラメーターを設定します。次の表にパラメーターを示します。
セクション
パラメーター
説明
新しいインスタンスクラス
課金方法
サブスクリプション: データ同期インスタンスを作成するときにサブスクリプション料金を支払います。サブスクリプションの課金方法は、長期使用の場合、従量課金の課金方法よりも費用対効果が高くなります。
従量課金: 従量課金インスタンスは時間単位で課金されます。従量課金の課金方法は、短期使用に適しています。従量課金データ同期インスタンスが不要になった場合は、インスタンスをリリースしてコストを削減できます。
リソースグループ設定
データ同期インスタンスが属するリソースグループ。デフォルト値: [デフォルトのリソースグループ]。詳細については、「リソース管理とは」をご参照ください。
インスタンスクラス
DTS は、同期速度が異なるインスタンスクラスを提供します。ビジネス要件に基づいてインスタンスクラスを選択できます。詳細については、「データ同期インスタンスのインスタンスクラス」をご参照ください。
サブスクリプション期間
サブスクリプションの課金方法を選択した場合は、サブスクリプション期間と作成するデータ同期インスタンスの数を入力します。サブスクリプション期間は、1 ~ 9 か月、1 年、2 年、3 年、または 5 年です。
説明このパラメーターは、サブスクリプション 課金方法を選択した場合にのみ使用できます。
[data Transmission Service (従量課金) サービス規約] を読んで選択します。
[購入して開始] をクリックします。表示されるダイアログボックスで、OK をクリックします。
タスクの進捗状況はタスクリストで確認できます。
付録
時間範囲
データ型 | 最小値 | 最大値 |
Date | 1970-01-01 00:00:00 | 2149-06-06 00:00:00 |
Date32 | 1925-01-01 00:00:00 | 2283-11-11 00:00:00 |
DateTime | 1970-01-01 08:00:00 | 2106-02-07 14:28:15 |
DateTime64 | 1925-01-01 08:00:00 | 2283-11-12 07:59:59 |
テーブルとフィールド
テーブル情報
オブジェクト名マッピング機能を使用しない場合、作成するテーブルは次の要件を満たしている必要があります。
宛先テーブルに ENGINE パラメーターが含まれている場合、パラメーターは ENGINE = ReplicatedReplacingMergeTree(_version, _is_deleted) に設定する必要があります。設定しない場合、データの不整合が発生する可能性があります。
ApsaraDB for ClickHouse Community Edition インスタンス: ローカルテーブルと分散テーブルを作成する必要があります。分散テーブルの名前は、ソーステーブルの名前と同じである必要があります。ローカルテーブルの名前は、
<分散テーブルの名前>+_localである必要があります。ApsaraDB for ClickHouse Enterprise Edition インスタンス: ソーステーブルと同じ名前のテーブルを作成する必要があります。
フィールド情報
select * from table_name final where _sign>0; 文を使用して、ClickHouse インスタンスのデータをクエリできます。where 条件は削除されたデータをフィルタリングし、テーブル名の後の final フィールドは同じソートキーを持つデータをフィルタリングします。
バージョン | 名前 | データ型 | デフォルト値 | 説明 |
バージョン 23.8 より前の Community EditionCommunity Edition | _sign | Int8 | 1 | DML 操作のタイプ。
|
_version | UInt64 | 1 | ApsaraDB for ClickHouse にデータが書き込まれたときのタイムスタンプ。 | |
Enterprise Edition と Community Edition 23.8 以降 | _sign | Int8 | 1 | DML 操作のタイプ。
|
_is_deleted | Int8 | 0 | レコードが削除されているかどうかを示します。
| |
_version | UInt64 | 1 | ApsaraDB for ClickHouse にデータが書き込まれたときのタイムスタンプ。 |