ApsaraDB for ClickHouse は、オンライン分析処理(OLAP)向けに設計された列指向データベース管理システム(DBMS)です。従来の分析データベースと比較して、ApsaraDB for ClickHouse は、大規模で幅広いテーブルに対する集計クエリの高速化を実現します。Data Transmission Service (DTS) を使用すると、MySQL データベース (自己管理 MySQL データベースまたは ApsaraDB RDS for MySQL インスタンス) から ApsaraDB for ClickHouse クラスターにデータを同期できます。データ同期機能により、効率的なデータ転送と分析が可能になります。このトピックでは、ApsaraDB RDS for MySQL インスタンスから ApsaraDB for ClickHouse クラスターにデータを同期する方法について説明します。
前提条件
バージョン 20.8 以降の宛先 ApsaraDB for ClickHouse クラスターが作成されていること。詳細については、「クラスターの作成」をご参照ください。
ApsaraDB for ClickHouse クラスターのストレージ容量は、ソース ApsaraDB RDS for MySQL インスタンスの使用済みストレージ容量よりも大きくなければなりません。
制限事項
種類 | 説明 |
ソースデータベースの制限 |
|
その他 |
|
特殊なケース |
|
課金
同期タイプ | タスク設定料金 |
スキーマ同期と完全データ同期 | 無料。 |
増分同期 | 有料。詳細については、「課金の概要」をご参照ください。 |
同期可能な SQL 操作
操作タイプ | SQL 文 |
DML | INSERT、UPDATE、DELETE |
DDL |
|
データ型マッピング
MySQL と ClickHouse クラスターでは、異なるデータ型がサポートされています。データ型は 1 対 1 でマッピングできません。スキーマの初期化中、DTS は宛先データベースでサポートされているデータ型に基づいてデータ型をマッピングします。詳細については、「スキーマ初期化のデータ型マッピング」をご参照ください。
データベースアカウントに必要な権限
データベース | 必要な権限 | 作成および承認方法 |
ソース ApsaraDB RDS for MySQL | 同期するオブジェクトに対する読み取り権限。 | |
宛先 ApsaraDB for ClickHouse クラスター |
|
使用するソースデータベースアカウントが ApsaraDB RDS for MySQL コンソールを使用して作成および承認されていない場合は、アカウントに REPLICATION CLIENT、REPLICATION SLAVE、SHOW VIEW、および SELECT の権限があることを確認してください。
手順
次のいずれかの方法を使用して [データ同期] ページに移動し、データ同期インスタンスが存在するリージョンを選択します。
DTS コンソール
DTS コンソール にログインします。
左側のナビゲーションウィンドウで、データ同期 をクリックします。
ページの左上隅で、データ同期インスタンスが存在するリージョンを選択します。
DMS コンソール
説明実際の操作は、DMS コンソールのモードとレイアウトによって異なる場合があります。詳細については、「シンプルモード」と「DMS コンソールのレイアウトとスタイルをカスタマイズする」をご参照ください。
DMS コンソール にログインします。
上部のナビゲーションバーで、[データ + AI] にポインターを移動し、
を選択します。データ同期タスク の右側にあるドロップダウンリストから、データ同期インスタンスが存在するリージョンを選択します。
タスクの作成 をクリックして、タスク設定ページに移動します。
ソースデータベースと宛先データベースを設定します。次の表にパラメータを示します。
カテゴリ
パラメータ
説明
該当なし
タスク名
DTS タスクの名前。DTS は自動的にタスク名を生成します。タスクを簡単に識別できる説明的な名前を指定することをお勧めします。一意のタスク名を指定する必要はありません。
移行元データベース
既存の接続情報の選択
使用するデータベース。ビジネス要件に基づいて既存のデータベースを使用するかどうかを選択できます。
既存のデータベースを選択すると、DTS はデータベースのパラメータを自動的に入力します。
既存のデータベースを選択しない場合は、次のデータベース情報を設定する必要があります。
説明DTS コンソールで、データベース接続 ページまたは新しい設定ページでデータベースを DTS に登録します。詳細については、「データベース接続を管理する」をご参照ください。
DMS コンソールで、DMS データベースインスタンスの選択 ドロップダウンリストから既存のデータベースを選択できます。DMS データベースインスタンスの追加 をクリックするか、DMS コンソールのホームページに戻ってデータベースを DMS に登録することもできます。詳細については、「Alibaba Cloud データベースインスタンスを登録する」と「サードパーティクラウドサービスまたは自己管理データベースでホストされているデータベースを登録する」をご参照ください。
データベースタイプ
MySQL を選択します。
アクセス方法
Alibaba Cloud インスタンス を選択します。
インスタンスのリージョン
ソース ApsaraDB RDS for MySQL インスタンスが存在するリージョンを選択します。
Alibaba Cloud アカウント間でデータを複製
この例では、ソースインスタンスと宛先インスタンスは同じ Alibaba Cloud アカウントに属しています。× を選択します。
RDS インスタンス ID
ソース ApsaraDB RDS for MySQL インスタンスの ID を選択します。
データベースアカウント
ソース ApsaraDB RDS for MySQL インスタンスのデータベースアカウントを入力します。アカウントに必要な権限については、「データベースアカウントに必要な権限」をご参照ください。
データベースのパスワード
データベースへのアクセスに使用するパスワード。
暗号化
データベースへの接続を暗号化するかどうかを指定します。ビジネス要件に基づいて、[非暗号化] または [SSL 暗号化] を選択できます。このパラメータを [SSL 暗号化] に設定する場合は、DTS タスクを設定する前に、ApsaraDB RDS for MySQL インスタンスで SSL 暗号化を有効にする必要があります。詳細については、「クラウド証明書を使用して SSL 暗号化を有効にする」をご参照ください。
移行先データベース
既存の接続情報の選択
使用するデータベース。ビジネス要件に基づいて既存のデータベースを使用するかどうかを選択できます。
既存のデータベースを選択すると、DTS によってデータベースのパラメーターが自動的に入力されます。
既存のデータベースを選択しない場合は、以下のデータベース情報を構成する必要があります。
説明DTS コンソールで、データベース接続 ページまたは新しい構成ページで、DTS にデータベースを登録します。詳細については、「データベース接続を管理する」をご参照ください。
DMS コンソールで、DMS データベースインスタンスの選択 ドロップダウンリストから既存のデータベースを選択できます。また、DMS データベースインスタンスの追加 をクリックするか、DMS コンソールのホームページに戻って DMS にデータベースを登録することもできます。詳細については、「Alibaba Cloud データベースインスタンスを登録する」および「サードパーティクラウドサービスまたは自己管理データベースでホストされているデータベースを登録する」をご参照ください。
データベースタイプ
ClickHouse を選択します。
アクセス方法
Alibaba Cloud インスタンス を選択します。
インスタンスのリージョン
宛先 ApsaraDB for ClickHouse クラスターが存在するリージョンを選択します。
Alibaba Cloud アカウント間でデータを複製
この例では、ソースインスタンスと宛先インスタンスは同じ Alibaba Cloud アカウントに属しています。× を選択します。
クラスタータイプ
ビジネス要件に基づいて ApsaraDB for ClickHouse クラスタのタイプを選択します。
クラスター ID
宛先 ApsaraDB for ClickHouse クラスターの ID を選択します。
データベースアカウント
宛先 ApsaraDB for ClickHouse クラスターのデータベースアカウントを入力します。アカウントに必要な権限については、「データベースアカウントに必要な権限」をご参照ください。
データベースのパスワード
データベースへのアクセスに使用するパスワード。
ページの下部にある 接続をテストして続行 をクリックします。
説明DTS サーバーの CIDR ブロックをソースデータベースと宛先データベースのセキュリティ設定に自動または手動で追加して、DTS サーバーからのアクセスを許可できることを確認してください。詳細については、「DTS サーバーの CIDR ブロックを追加する」をご参照ください。
ソースデータベースまたは宛先データベースが自己管理データベースであり、その アクセス方法 が Alibaba Cloud インスタンス に設定されていない場合は、DTS サーバーの CIDR ブロック ダイアログボックスの 接続テスト をクリックします。
同期するオブジェクトを設定します。
オブジェクト設定 ステップで、同期するオブジェクトを設定します。
パラメータ
説明
同期タイプ
同期タイプ。デフォルトでは、[増分同期] が選択されています。[スキーマ同期] と [完全データ同期] も選択する必要があります。事前チェックが完了すると、DTS は選択したオブジェクトの既存データをソースデータベースから宛先クラスターに同期します。既存データは、後続の増分同期の基礎となります。
競合するテーブルの処理モード
エラーの事前チェックと報告: 宛先データベースにソースデータベースのテーブルと同じ名前のテーブルが含まれているかどうかを確認します。ソースデータベースと宛先データベースに同じテーブル名のテーブルが含まれていない場合、事前チェックは合格です。それ以外の場合、事前チェック中にエラーが返され、データ同期タスクを開始できません。
説明ソースデータベースと宛先データベースに同じ名前のテーブルが含まれており、宛先データベースのテーブルを削除または名前変更できない場合は、オブジェクト名マッピング機能を使用して、宛先データベースに同期されるテーブルの名前を変更できます。詳細については、「オブジェクト名をマッピングする」をご参照ください。
エラーを無視して続行: ソースデータベースと宛先データベースの同じテーブル名の事前チェックをスキップします。
警告エラーを無視して続行 を選択すると、データの不整合が発生し、ビジネスが潜在的なリスクにさらされる可能性があります。
ソースデータベースと宛先データベースのスキーマが同じで、宛先データベースのデータレコードのプライマリキー値または一意キー値がソースデータベースのデータレコードと同じである場合:
完全データ同期中、DTS はデータレコードを宛先データベースに同期しません。宛先データベースの既存のデータレコードは保持されます。
増分同期中、DTS はデータレコードを宛先データベースに同期します。宛先データベースの既存のデータレコードは上書きされます。
ソースデータベースと宛先データベースのスキーマが異なる場合、データの初期化に失敗する可能性があります。この場合、一部の列のみが同期されるか、データ同期タスクが失敗します。注意して進めてください。
移行先インスタンスでのオブジェクト名の大文字化
宛先インスタンスのデータベース名、テーブル名、および列名の大文字と小文字の区別。デフォルトでは、[DTS デフォルトポリシー] が選択されています。他のオプションを選択して、オブジェクト名の大文字と小文字の区別がソースデータベースまたは宛先データベースと一致するようにすることができます。詳細については、「宛先インスタンスのオブジェクト名の大文字と小文字の区別を指定する」をご参照ください。
ソースオブジェクト
ソースオブジェクト セクションから 1 つ以上のオブジェクトを選択し、
アイコンをクリックして、選択中のオブジェクト セクションにオブジェクトを追加します。
説明データベース、テーブル、または列を同期対象のオブジェクトとして選択できます。
選択中のオブジェクト
宛先インスタンスに同期するオブジェクトの名前を変更するには、選択中のオブジェクト セクションでオブジェクトを右クリックします。詳細については、「オブジェクト名をマッピングする」トピックの「単一オブジェクトの名前をマッピングする」セクションをご参照ください。
複数のオブジェクトの名前を一度に変更するには、選択中のオブジェクト セクションの右上隅にある 一括編集 をクリックします。詳細については、「オブジェクト名をマッピングする」トピックの「一度に複数のオブジェクト名をマッピングする」セクションをご参照ください。
説明テーブルのフィルター条件を設定するには、選択中のオブジェクト セクションでテーブルを右クリックします。表示されるダイアログボックスで、フィルター条件を設定します。詳細については、「フィルター条件を設定する」をご参照ください。
オブジェクト名マッピング機能を使用してオブジェクトの名前を変更すると、そのオブジェクトに依存する他のオブジェクトが同期されない場合があります。
次へ:詳細設定 をクリックして詳細設定を行います。
パラメータ
説明
タスクのスケジュールに使用する専用クラスターの選択
デフォルトでは、専用クラスターを指定しない場合、DTS はタスクを共有クラスターにスケジュールします。データ同期タスクの安定性を向上させるには、専用クラスターを購入します。詳細については、「DTS 専用クラスターとは」をご参照ください。
ターゲットデータベースのタイムゾーン
ビジネス要件に基づいて、ApsaraDB for ClickHouse クラスターに書き込まれる DateTime データのタイムゾーンを選択できます。
失敗した接続の再試行時間
接続失敗時のリトライ時間の範囲。データ同期タスクの開始後にソースデータベースまたは宛先データベースに接続できない場合、DTS は指定された時間範囲内で直ちに接続を再試行します。有効値: 10 ~ 1440。単位: 分。デフォルト値: 720。このパラメータは 30 より大きい値に設定することをお勧めします。指定された時間範囲内に DTS がソースデータベースと宛先データベースに再接続すると、DTS はデータ同期タスクを再開します。それ以外の場合、データ同期タスクは失敗します。
説明同じソースデータベースまたは宛先データベースを持つ複数のデータ同期タスクに異なるリトライ時間の範囲を指定した場合、最短のリトライ時間の範囲が優先されます。
DTS が接続を再試行すると、DTS インスタンスの料金が発生します。ビジネス要件に基づいてリトライ時間の範囲を指定することをお勧めします。ソースインスタンスと宛先インスタンスが解放された後、できるだけ早く DTS インスタンスを解放することもできます。
移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。
その他の問題のリトライ時間の範囲。たとえば、データ同期タスクの開始後に DDL 操作または DML 操作の実行に失敗した場合、DTS は指定された時間範囲内で直ちに操作を再試行します。有効値: 1 ~ 1440。単位: 分。デフォルト値: 10。このパラメータは 10 より大きい値に設定することをお勧めします。指定された時間範囲内で失敗した操作が正常に実行されると、DTS はデータ同期タスクを再開します。それ以外の場合、データ同期タスクは失敗します。
重要移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。 パラメータの値は、失敗した接続の再試行時間 パラメータの値よりも小さくなければなりません。
完全移行率を制限するかどうか
完全データ同期中、DTS はソースデータベースと宛先データベースの読み取りリソースと書き込みリソースを使用します。これにより、データベースサーバーの負荷が増加する可能性があります。完全データ同期タスクの 1 秒あたりのソースデータベースのクエリ率 QPS、1 秒あたりの完全移行の行数 RPS、および 1 秒あたりの完全移行データ量 (MB) BPS パラメータを設定して、宛先データベースサーバーの負荷を軽減できます。
説明このパラメータは、同期タイプ パラメータで 完全データ同期 が選択されている場合にのみ表示されます。
増分同期率を制限するかどうか
増分同期の速度制限を有効にするかどうかを指定します。ビジネス要件に基づいて、増分同期の速度制限を有効にすることができます。速度制限を設定するには、1 秒あたりの増分同期の行数 RPS と 1 秒あたりの増分同期データ量 (MB) BPS パラメータを設定する必要があります。これにより、宛先データベースサーバーの負荷が軽減されます。
順方向および逆方向タスクのハートビートテーブル sql を削除
DTS インスタンスの実行中に、ハートビートテーブルの SQL 操作をソースデータベースに書き込むかどうかを指定します。有効値:
[はい]: ハートビートテーブルの SQL 操作を書き込みません。この場合、DTS インスタンスのレイテンシが表示される場合があります。
[いいえ]: ハートビートテーブルの SQL 操作を書き込みます。この場合、ソースデータベースの物理バックアップやクローニングなどの機能が影響を受ける可能性があります。
環境タグ
DTS インスタンスを識別するために使用される環境タグ。ビジネス要件に基づいて環境タグを選択できます。この例では、環境タグは選択されていません。
ETL の設定
抽出、変換、書き出し (ETL) 機能を有効にするかどうかを指定します。詳細については、「ETL とは」をご参照ください。有効値:
[はい]: ETL 機能を設定します。コードエディタにデータ処理文を入力できます。詳細については、「データ移行タスクまたはデータ同期タスクで ETL を設定する」をご参照ください。
[いいえ]: ETL 機能を設定しません。
監視アラート
データ同期タスクのアラートを設定するかどうかを指定します。タスクが失敗した場合、または同期レイテンシが指定されたしきい値を超えた場合、アラート連絡先に通知が送信されます。有効値:
[いいえ]: アラートを有効にしません。
[はい]: アラートを設定します。この場合、アラートしきい値と アラート通知設定 も設定する必要があります。詳細については、「監視とアラートを設定する」トピックの「DTS タスクを作成するときに監視とアラートを設定する」セクションをご参照ください。
次:データベースおよびテーブルのフィールド設定 をクリックして、ApsaraDB for ClickHouse クラスターで同期するテーブルの タイプ、プライマリキー列の追加、ソートキー、配布キー、および パーティションキー を設定します。
説明DTS は、デフォルトでデータセットを構成します。定義ステータス ドロップダウンリストから すべて を選択し、データを変更できます。
プライマリキー列の追加 と ソートキー は複合キーにすることができます。対応するドロップダウンリストから複数のフィールドを プライマリキー列の追加 または ソートキー として選択できます。プライマリキー列の追加 から 1 つ以上の列を パーティションキー として選択する必要があります。配布キー としては、1 つのフィールドのみを選択できます。プライマリキー列、ソートキー、およびパーティションキーの詳細については、「CREATE TABLE」をご参照ください。
パーティションキー は指定しなくてもかまいません。ただし、NULL 値が許可されているフィールドをパーティションキーとして選択することはできません。選択した場合、同期タスクは失敗します。
タスク設定を保存し、事前チェックを実行します。
DTS タスクを設定するために関連 API 操作を呼び出すときに指定するパラメーターを表示するには、次:タスク設定の保存と事前チェック にポインターを移動し、OpenAPI パラメーターのプレビュー をクリックします。
パラメーターを表示する必要がない場合、またはすでに表示済みの場合は、ページの下部にある 次:タスク設定の保存と事前チェック をクリックします。
説明データ同期タスクを開始する前に、DTS は事前チェックを実行します。タスクが事前チェックに合格した後にのみ、データ同期タスクを開始できます。
データ同期タスクが事前チェックに失敗した場合は、失敗した各項目の横にある [詳細の表示] をクリックします。チェック結果に基づいて原因を分析した後、問題をトラブルシューティングします。その後、事前チェックを再実行します。
事前チェック中に項目に対してアラートがトリガーされた場合:
アラート項目を無視できない場合は、失敗した項目の横にある [詳細の表示] をクリックして、問題をトラブルシューティングします。次に、事前チェックを再度実行します。
アラート項目を無視できる場合は、[アラート詳細の確認] をクリックします。 [詳細の表示] ダイアログボックスで、[無視] をクリックします。表示されるメッセージで、[OK] をクリックします。次に、[再チェック] をクリックして、事前チェックを再度実行します。アラート項目を無視すると、データの不整合が発生し、ビジネスが潜在的なリスクにさらされる可能性があります。
インスタンスを購入します。
[成功率] が [100%] になるまで待ちます。次に、[次へ: インスタンスの購入] をクリックします。
[購入] ページで、データ同期インスタンスの課金方法とインスタンスクラスのパラメーターを設定します。次の表でパラメーターについて説明します。
セクション
パラメーター
説明
新しいインスタンスクラス
課金方法
サブスクリプション: データ同期インスタンスを作成するときにサブスクリプション料金を支払います。サブスクリプション課金方法は、長期利用の場合、従量課金方法よりも費用対効果が高くなります。
従量課金: 従量課金インスタンスは時間単位で課金されます。従量課金方法は、短期利用に適しています。従量課金データ同期インスタンスが不要になった場合は、インスタンスをリリースしてコストを削減できます。
リソースグループ設定
データ同期インスタンスが属するリソースグループ。デフォルト値: [デフォルトのリソースグループ]。詳細については、「リソース管理とは」をご参照ください。
インスタンスクラス
DTS は、同期速度が異なるインスタンスクラスを提供します。ビジネス要件に基づいてインスタンスクラスを選択できます。詳細については、「データ同期インスタンスのインスタンスクラス」をご参照ください。
サブスクリプション期間
サブスクリプション課金方法を選択した場合は、サブスクリプション期間と作成するデータ同期インスタンスの数 を指定します。サブスクリプション期間は、1 ~ 9 か月、1 年、2 年、3 年、または 5 年です。
説明このパラメーターは、サブスクリプション 課金方法を選択した場合にのみ使用できます。
[data Transmission Service (従量課金) サービス規約] を読んで選択します。
[購入して開始] をクリックします。表示されるダイアログボックスで、OK をクリックします。
タスクの進捗状況はタスクリストで確認できます。
付録
時間情報
データ型 | 最小値 | 最大値 |
Date | 1970-01-01 00:00:00 | 2149-06-06 00:00:00 |
Date32 | 1925-01-01 00:00:00 | 2283-11-11 00:00:00 |
DateTime | 1970-01-01 08:00:00 | 2106-02-07 14:28:15 |
DateTime64 | 1925-01-01 08:00:00 | 2283-11-12 07:59:59 |
テーブルとフィールドの情報
テーブル情報
オブジェクト名マッピング機能を使用しない場合、作成するテーブルは次の要件を満たしている必要があります。
宛先テーブルに ENGINE パラメーターが含まれている場合、パラメーターは ENGINE = ReplicatedReplacingMergeTree(_version, _is_deleted)
に設定する必要があります。そうでない場合、データの不整合が発生する可能性があります。
ApsaraDB for ClickHouse Community Edition インスタンス: ローカルテーブルと分散テーブルを作成する必要があります。分散テーブルの名前は、ソーステーブルの名前と同じである必要があります。ローカルテーブルの名前は、
<分散テーブルの名前>
+_local
である必要があります。ApsaraDB for ClickHouse Enterprise Edition インスタンス: ソーステーブルと同じ名前のテーブルを作成する必要があります。
フィールド情報
select * from table_name final where _sign>0;
文を使用して、ClickHouse インスタンスのデータをクエリできます。where 条件は削除されたデータをフィルタリングし、テーブル名の後の final フィールドは同じソートキーを持つデータをフィルタリングします。
バージョン | 名前 | データ型 | デフォルト値 | 説明 |
バージョン 23.8 より前の Community EditionCommunity Edition | _sign | Int8 | 1 | DML 操作のタイプ。
|
_version | UInt64 | 1 | ApsaraDB for ClickHouse にデータが書き込まれたときのタイムスタンプ。 | |
Enterprise Edition と Community Edition 23.8 以降 | _sign | Int8 | 1 | DML 操作のタイプ。
|
_is_deleted | Int8 | 0 | レコードが削除されているかどうかを示します。
| |
_version | UInt64 | 1 | ApsaraDB for ClickHouse にデータが書き込まれたときのタイムスタンプ。 |