このトピックでは、Data Transmission Service (DTS) を使用して、ApsaraDB RDS for MySQL インスタンスから Elasticsearch クラスターにデータを同期する方法について説明します。
前提条件
-
宛先の Elasticsearch クラスターを作成済みであること。詳細については、「Alibaba Cloud Elasticsearch クラスターの作成」をご参照ください。
-
宛先の Elasticsearch クラスターのストレージ容量は、ソースの ApsaraDB RDS for MySQL インスタンスが使用するストレージ容量よりも大きい必要があります。
注意事項
|
タイプ |
説明 |
|
ソースデータベースの制限 |
|
|
その他の制限 |
|
|
特殊なケース |
|
課金
同期タイプ | 料金 |
スキーマ同期と完全データ同期 | 無料です。 |
増分データ同期 | 有料です。詳細については、「課金の概要」をご参照ください。 |
サポートされる SQL 操作
|
操作タイプ |
SQL 操作 |
|
DML |
INSERT、UPDATE、DELETE 説明
UPDATE 文を使用してフィールドを削除することはできません。 |
データベースアカウントの権限
|
データベース |
必要な権限 |
作成および権限付与方法 |
|
ソースの ApsaraDB RDS for MySQL インスタンス |
同期するオブジェクトに対する読み取り権限。 |
「アカウントの作成」および「アカウント権限の変更」。 |
|
宛先の Elasticsearch クラスター |
Elasticsearch クラスター作成時に設定したログインユーザー名 (デフォルト:elastic) とパスワード。 |
|
ソースデータベースアカウントが ApsaraDB RDS for MySQL コンソールで作成および権限付与されていない場合、そのアカウントに REPLICATION CLIENT、REPLICATION SLAVE、SHOW VIEW、および SELECT 権限があることを確認してください。
データ型のマッピング
ソースデータベースと Elasticsearch インスタンスではサポートされるデータの型が異なるため、データの型を常に直接マッピングすることはできません。初期スキーマ同期中に、DTS は宛先の Elasticsearch インスタンスでサポートされる型に基づいてデータの型をマッピングします。詳細については、「初期スキーマ同期のデータの型マッピング」をご参照ください。
説明DTS はスキーマ移行の際に、
dynamic内のmappingパラメーターを設定しません。このパラメーターの動作は、ご利用の Elasticsearch インスタンスの設定に依存します。ソースデータが JSON フォーマットの場合、テーブル内のすべての行で、同じキーの値が同じデータの型を持つようにしてください。そうでない場合、DTS が同期エラーをレポートする可能性があります。詳細については、「dynamic」をご参照ください。次の表に、Elasticsearch とリレーショナルデータベース間のマッピングを示します。
Elasticsearch
リレーショナルデータベース
インデックス
データベース
タイプ
テーブル
ドキュメント
行
フィールド
列
マッピング
データベーススキーマ
操作手順
宛先リージョンの同期タスク一覧ページに移動します。次の 2 つの方法のいずれかを使用できます。
DTS コンソールから
左側のナビゲーションウィンドウで、データ同期 をクリックします。
ページの左上隅で、同期インスタンスが配置されているリージョンを選択します。
DMS コンソールから
説明実際の操作は、DMS コンソールのモードとレイアウトによって異なる場合があります。詳細については、「シンプルモード」および「DMS インターフェイスのレイアウトとスタイルのカスタマイズ」をご参照ください。
Data Management (DMS) にログインします。
トップメニューバーで、 を選択します。
データ同期タスク の右側で、同期インスタンスが配置されているリージョンを選択します。
タスクの作成 をクリックして、タスク設定ページを開きます。
-
ソースデータベースとターゲットデータベースを設定します。
カテゴリ
設定
説明
なし
タスク名
DTS は自動的にタスク名を生成します。識別しやすいように、わかりやすい名前を指定することを推奨します。名前は一意である必要はありません。
ソースデータベース
既存の接続情報の選択
システムに追加された(新しく作成されたか、保存された)データベースインスタンスを使用するには、ドロップダウンリストから該当のデータベースインスタンスを選択します。データベース情報は自動的に設定されます。
説明DMS コンソールでは、この設定項目は DMS データベースインスタンスの選択 という名前です。
データベースインスタンスをシステムに追加していない場合、または既に追加されているインスタンスを使用する必要がない場合は、次のデータベース情報を手動で設定します。
データベースタイプ
[MySQL] を選択します。
アクセス方法
[クラウドインスタンス] を選択します。
インスタンスリージョン
ソースの ApsaraDB RDS for MySQL インスタンスが存在するリージョンを選択します。
Alibaba Cloud アカウント間でデータを複製
この例では、同じ Alibaba Cloud アカウント内での同期を示します。× を選択します。
RDS インスタンス ID
ソースの ApsaraDB RDS for MySQL インスタンスの ID を選択します。
データベースアカウント
ソースの ApsaraDB RDS for MySQL インスタンスのデータベースアカウントを入力します。必要な権限については、「データベースアカウントの権限」をご参照ください。
データベースパスワード
データベースアカウントに対応するパスワードを入力します。
暗号化
必要に応じて 非暗号化 または SSL 暗号化 を選択します。SSL 暗号化 を選択する場合は、事前に RDS for MySQL インスタンスで SSL 暗号化を有効にする必要があります。詳細については、「クラウド証明書を使用して SSL 暗号化を迅速に有効にする」をご参照ください。
宛先データベース
既存の接続情報の選択
システムに追加された (新規作成または保存された) データベースインスタンスを使用するには、ドロップダウンリストからデータベースインスタンスを選択します。データベース情報は自動的に設定されます。
説明DMS コンソールでは、この設定項目は DMS データベースインスタンスの選択 と表示されます。
データベースインスタンスをシステムに追加していない場合、または既に追加されているインスタンスを使用する必要がない場合は、次のデータベース情報を手動で設定します。
データベースタイプ
[Elasticsearch] を選択します。
アクセス方法
[クラウドインスタンス] を選択します。
インスタンスリージョン
宛先の Elasticsearch クラスターが存在するリージョンを選択します。
タイプ
必要に応じて [クラスター] または [サーバーレス] を選択します。
インスタンス ID
宛先の Elasticsearch クラスターの ID を選択します。
データベースアカウント
Elasticsearch クラスターへの接続に使用するアカウントを入力します。これは、Elasticsearch クラスターを作成したときに入力した [ユーザー名] です。デフォルトのアカウントは elastic です。
データベースパスワード
データベースアカウントに対応するパスワードを入力します。
暗号化
必要に応じて HTTP または HTTPS を選択します。
構成が完了したら、ページ下部にある接続をテストして続行をクリックします。
説明DTS サーバーからのアクセスを許可するには、ソースデータベースとターゲットデータベースのセキュリティ設定に、DTS サーバーの IP アドレスの CIDR ブロックを追加する必要があります。この操作は自動または手動で行うことができます。詳細については、「DTS サーバーの IP アドレスの CIDR ブロックをホワイトリストに追加」をご参照ください。
ソースまたはターゲットデータベースが自己管理データベース(アクセス方法 が Alibaba Cloud インスタンス でない場合)である場合、接続テスト を DTS サーバーの CIDR ブロック ダイアログボックスでクリックする必要があります。
-
タスクオブジェクトを設定します。
-
オブジェクト設定 ページで、同期するオブジェクトを設定します。
設定
説明
同期タイプ
同期タイプ。デフォルトでは [増分データ同期] が選択されています。[スキーマ同期] と [完全データ同期] も選択する必要があります。事前チェックが完了すると、DTS は選択したオブジェクトの既存データをソースデータベースから宛先クラスターに同期します。既存データは、後続の増分同期の基礎となります。
競合するテーブルの処理モード
エラーの事前チェックと報告:ターゲットデータベースに同じ名前のテーブルが存在するかどうかを確認します。同じ名前のテーブルが存在しない場合、事前チェックは成功します。同じ名前のテーブルが存在する場合、事前チェックは失敗し、データ同期タスクは開始されません。
説明ターゲットデータベースで同じ名前のテーブルを削除または名前変更できない場合は、別のテーブル名にマッピングできます。詳細については、「テーブル名と列名のマッピング」をご参照ください。
エラーを無視して続行:ターゲットデータベースでの重複テーブル名のチェックをスキップします。
警告エラーを無視して続行 を選択すると、データの不整合が発生し、ビジネスにリスクをもたらす可能性があります。例:
テーブルスキーマが同じで、ターゲットデータベースのレコードがソースデータベースのレコードと同じプライマリキーまたはユニークキーの値を持つ場合:
完全同期中、DTS は宛先クラスターのレコードを保持します。ソースデータベースの対応するレコードは同期されません。
増分同期中、ソースデータベースのレコードがターゲットデータベースのレコードを上書きします。
テーブルスキーマが異なる場合、初期データ同期が失敗する可能性があります。これにより、一部の列データのみが同期されるか、同期が完全に失敗する可能性があります。注意して進めてください。
インデックス名
-
[テーブル名] を選択した場合、ターゲットの Elasticsearch インスタンスで作成されるインデックス名はテーブル名と一致します。
-
[データベース名_テーブル名] を選択した場合、ターゲットの Elasticsearch インスタンスで作成されるインデックス名は、データベース名、アンダースコア (_)、テーブル名をこの順序で連結したものになります。
説明インデックス名のマッピング設定は、すべてのテーブルに適用されます。
移行先インスタンスでのオブジェクト名の大文字化
宛先インスタンスに同期されるデータベース、テーブル、および列オブジェクト名の大文字と小文字の区別ポリシーを設定できます。デフォルトでは、DTS のデフォルトポリシー が選択されています。ソースデータベースとターゲットデータベースのデフォルトポリシーを使用することも選択できます。詳細については、「宛先オブジェクト名の大文字/小文字ポリシー」をご参照ください。
ソースオブジェクト
ソースオブジェクト ボックスで、同期するオブジェクトをクリックし、
をクリックして 選択中のオブジェクト ボックスに移動します。説明オブジェクトはデータベースまたはテーブルレベルで選択できます。同期オブジェクトとしてテーブルを選択した場合、ビュー、トリガー、ストアドプロシージャなどの他のオブジェクトはターゲットデータベースに同期されません。
選択中のオブジェクト
同期後にフィールド名を変更するには、選択中のオブジェクト ボックスで対応するテーブル名を右クリックします。宛先 Elasticsearch クラスターのテーブルのインデックス名、タイプ名、その他の情報を設定し、[OK] をクリックします。詳細については、「個別のテーブル名と列名のマッピング」をご参照ください。
説明-
インデックス名とタイプ名でサポートされている特殊文字はアンダースコア (_) のみです。
-
SQL フィルター条件を設定して、同期するデータをフィルタリングできます。フィルター条件を満たすデータのみが宛先インスタンスに同期されます。詳細については、「SQL 条件を使用したデータのフィルタリング」をご参照ください。
-
詳細パラメーターを設定するには、詳細設定へ をクリックします。
設定
説明
タスクのスケジュールに使用する専用クラスターの選択
デフォルトでは、DTS は共有クラスターでタスクをスケジュールするため、クラスターを選択する必要はありません。より安定したパフォーマンスを得るために、DTS 同期タスクを実行するための専用クラスターを購入できます。詳細については、「DTS 専用クラスターとは」をご参照ください。
失敗した接続の再試行時間
同期タスクが開始された後、ソースまたはターゲットデータベースへの接続が失敗した場合、DTS はエラーを報告し、すぐに接続のリトライを開始します。デフォルトのリトライ期間は 720 分です。また、10 分から 1,440 分までのカスタムリトライ期間を指定することもできます。当社では、リトライ期間を 30 分以上に設定することを推奨しています。指定された期間内に DTS がデータベースに正常に再接続できた場合、同期タスクは自動的に再開されます。それ以外の場合、タスクが失敗します。
説明複数の DTS インスタンス (例: インスタンス A とインスタンス B) が同じソースまたはターゲットを共有しており、インスタンス A のネットワークリトライ時間を 30 分、インスタンス B のネットワークリトライ時間を 60 分に設定した場合、短い方の 30 分が両方に適用されます。
DTS は接続リトライ期間中のタスク実行時間に対して課金されるため、ビジネスニーズに基づいてリトライ期間をカスタマイズするか、ソースおよびターゲットデータベースインスタンスがリリースされた後、できるだけ早く DTS インスタンスをリリースすることを推奨します。
移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。
同期タスクの開始後、ソースまたはターゲットデータベースで接続性以外の問題 (DDL または DML の実行例外など) が発生した場合、DTS はエラーを報告し、ただちに継続的なリトライ操作を開始します。デフォルトのリトライ期間は 10 分です。また、リトライ期間を 1~1,440 分の範囲内でカスタマイズすることもできます。10 分以上に設定することを推奨します。設定されたリトライ期間内に関連する操作が成功した場合、同期タスクは自動的に再開します。そうでない場合、タスクは失敗します。
重要移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。 に設定する値は、失敗した接続の再試行時間 に設定する値より小さくする必要があります。
完全同期レートを制限するかどうか
完全同期の段階では、DTS はソースデータベースとターゲットデータベースの読み取りおよび書き込みリソースを消費するため、データベースの負荷が増加する可能性があります。ソースデータベースとターゲットデータベースの負荷を軽減するには、1 秒あたりのソースデータベースのクエリ率 QPS、1 秒あたりの完全移行の行数 RPS、および 1 秒あたりの完全移行データ量 (MB) BPS パラメーターを設定することで、完全同期タスクにレート制限を設定できます。
説明この設定項目は、同期タイプ が 完全データ同期 に設定されている場合にのみ利用可能です。
また、同期インスタンスの実行後に 完全同期速度を調整することもできます。
増分同期率を制限するかどうか
増分同期タスクにもレート制限を設定できます。ターゲットデータベースへの圧力を軽減するために、1 秒あたりの増分同期の行数 RPS と 1 秒あたりの増分同期データ量 (MB) BPS を設定します。
シャード構成
宛先の Elasticsearch クラスターのインデックスで許可されている最大シャード設定に基づいて、インデックスのプライマリシャードとレプリカシャードの数を設定します。
文字列インデックス
宛先の Elasticsearch クラスターに同期される文字列のインデックス作成方法。
-
analyzed:文字列はインデックスされる前に分析されます。特定のアナライザーを選択する必要もあります。アナライザーの種類とその機能については、「Analyzers」をご参照ください。
-
not analyzed:文字列は分析されません。元の値が直接インデックスされます。
-
no:文字列はインデックスされません。
タイムゾーン
DATETIME または TIMESTAMP 型のデータが宛先の Elasticsearch クラスターに同期される際に、含めるタイムゾーンを選択できます。
説明宛先インスタンスのこれらの時間型のデータにタイムゾーンを含める必要がない場合は、事前に宛先インスタンスでこの時間型データのドキュメントタイプを設定する必要があります。
DOCID
これを設定する必要はありません。DOCID はデフォルトでテーブルのプライマリキーになります。テーブルにプライマリキーがない場合、DOCID は Elasticsearch によって自動生成される ID 列になります。
環境タグ
必要に応じて、インスタンスを識別するための環境タグを選択できます。この例では選択は不要です。
ETL 機能の設定
抽出・変換・書き出し (ETL) 機能を有効にするかどうかを選択します。詳細については、「ETL とは」をご参照ください。有効な値:
-
○:ETL 機能を有効にします。コードエディタにデータ処理文を入力します。詳細については、「データ移行またはデータ同期タスクで ETL を設定する」をご参照ください。
-
×:ETL 機能を無効にします。
順方向および逆方向タスクのハートビートテーブル SQL を削除
DTS インスタンスの実行中にハートビート SQL 情報をソースデータベースに書き込むかどうかを選択します。
○:ハートビート SQL 情報はソースデータベースに書き込まれません。これにより、DTS インスタンスが遅延を報告する可能性があります。
×:ハートビート SQL 情報をソースデータベースに書き込みます。これにより、ソースデータベースの物理バックアップやクローニングなどの機能に干渉する可能性があります。
監視アラート
アラートを設定するかどうかを指定します。同期が失敗した場合や、遅延が指定されたしきい値を超えた場合に、アラート連絡先に通知が送信されます。
×:アラートは設定されません。
○:アラートしきい値を設定し、アラート通知を指定してアラートを設定します。詳細については、「タスク設定中のモニタリングとアラートの設定」をご参照ください。
-
上記の設定が完了したら、ページ下部の [次へ:テーブルとフィールドのマッピングを設定] をクリックして、宛先の Elasticsearch クラスターで同期するテーブルの _routing ポリシーと _id 値を設定します。
タイプ
説明
_routing の設定
_routing を設定すると、宛先 Elasticsearch クラスターの特定のシャードにドキュメントをルーティングして保存できます。詳細については、「_routing」をご参照ください。
-
○ を選択した場合、ルーティングにカスタム列を使用できます。
-
× を選択した場合、_id がルーティングに使用されます。
説明宛先 Elasticsearch クラスターがバージョン 7.x の場合、× を選択する必要があります。
_routing 列
ルーティングに使用する列を選択します。
説明このパラメーターは、_routing の設定 に ○ を選択した場合にのみ設定する必要があります。
_id の値
ドキュメント ID として使用する列を選択します。
-
-
タスクを保存し、事前チェックを実行します。
このインスタンスを設定するための API パラメーターを表示するには、次:タスク設定の保存と事前チェック ボタンにカーソルを合わせ、バブル内の OpenAPI パラメーターのプレビュー をクリックします。
API パラメーターの表示が完了したら、ページ下部の 次:タスク設定の保存と事前チェック をクリックします。
説明同期タスクが開始される前に、DTS は事前チェックを実行します。タスクは、すべての事前チェック項目が合格した後にのみ開始できます。
事前チェックが失敗した場合は、失敗した項目の 詳細を表示 をクリックします。プロンプトに従って問題を修正し、再度事前チェックを実行します。
事前チェックが警告を返した場合:
チェック項目が失敗し、無視できない場合は、項目の横にある 詳細を表示 をクリックします。指示に従って問題を修正し、再度事前チェックを実行します。
無視できるチェック項目については、アラートの詳細を確認、無視、OK、再度事前チェックを実行 を順にクリックして警告をスキップし、事前チェックを再実行できます。警告項目を無視することを選択した場合、データの不整合などの問題が発生し、ビジネスにリスクをもたらす可能性があります。
-
インスタンスを購入します。
成功率 が 100% になったら、次:インスタンスの購入 をクリックします。
購入 ページで、データ同期インスタンスの課金方法とリンク仕様を選択します。次の表に、これらのパラメーターの詳細を示します。
カテゴリ
パラメーター
説明
新しいインスタンスクラス
課金方法
サブスクリプション:インスタンス作成時にお支払いいただきます。長期的なニーズに適しており、従量課金よりもコスト効率が高いです。サブスクリプション期間が長いほど、割引率が高くなります。
従量課金:時間単位で課金されます。短期的なニーズに適しています。使用後すぐにインスタンスをリリースしてコストを節約できます。
リソースグループの設定
インスタンスが属するリソースグループ。デフォルトはデフォルトリソースグループです。詳細については、「Resource Management とは」をご参照ください。
リンク仕様
DTS は、さまざまなパフォーマンスレベルの同期仕様を提供します。同期リンク仕様は同期レートに影響します。ビジネスシナリオに基づいて仕様を選択できます。詳細については、「データ同期リンクの仕様」をご参照ください。
サブスクリプション期間
サブスクリプションモードでは、サブスクリプションインスタンスの期間と数量を選択します。1 か月から 9 か月までの月次サブスクリプション、または 1、2、3、5 年の年次サブスクリプションを選択できます。
説明このオプションは、課金方法が サブスクリプション の場合にのみ利用可能です。
設定が完了したら、Data Transmission Service (従量課金) 利用規約 を読み、選択します。
購入して起動 をクリックします。OK ダイアログボックスで、[OK] をクリックします。
[データ同期] ページでタスクの進捗状況を確認できます。