Alibaba Cloud Elasticsearch (ES) を使用して、MaxCompute (ODPS) の大量のデータに対して、情報の取得、多次元クエリの実行、統計分析を行うことができます。このトピックでは、DataWorks のデータ統合サービスを使用して、大量の MaxCompute データをオフラインモードで Alibaba Cloud ES インスタンスに同期する方法について説明します。このプロセスは通常、数分しかかかりません。
背景情報
DataWorks は、データ開発、タスクスケジューリング、データ管理などの機能を統合した、ビッグデータ開発とガバナンスのための包括的なプラットフォームです。DataWorks の同期タスクを使用すると、さまざまなデータソースから Alibaba Cloud ES にデータを迅速に移動できます。
サポートされているデータソースは次のとおりです。
Alibaba Cloud データベース: ApsaraDB for RDS (MySQL、PostgreSQL、SQL Server)、ApsaraDB for MongoDB、および ApsaraDB for HBase
Alibaba Cloud PolarDB-X (DRDS からアップグレード)
Alibaba Cloud MaxCompute
Alibaba Cloud Object Storage Service (OSS)
Alibaba Cloud Tablestore
HDFS、Oracle、FTP、DB2 などの自己ホスト型データソース。
シナリオ:
データベースまたはテーブルから Alibaba Cloud Elasticsearch にビッグデータをオフラインモードで同期します。詳細については、「バッチ同期タスクを作成してデータベース内のすべてのデータを Elasticsearch に同期する」をご参照ください。
完全なビッグデータと増分ビッグデータをリアルタイムで Alibaba Cloud Elasticsearch に同期します。詳細については、「MySQL データベース全体をリアルタイムで Elasticsearch に同期する」をご参照ください。
前提条件
MaxCompute プロジェクトが作成されていること。詳細については、「MaxCompute プロジェクトの作成」をご参照ください。
Alibaba Cloud Elasticsearch クラスターが作成され、クラスターの自動インデックス作成機能が有効になっていること。詳細については、「Alibaba Cloud Elasticsearch クラスターの作成」および「YML ファイルの設定」をご参照ください。
DataWorks ワークスペースが作成されていること。詳細については、「ワークスペースの作成」をご参照ください。
データ同期は Alibaba Cloud ES インスタンスでのみサポートされています。セルフマネージド Elasticsearch クラスターはサポートされていません。
MaxCompute プロジェクト、ES インスタンス、および DataWorks ワークスペースは、同じリージョンにある必要があります。
ES インスタンス、MaxCompute プロジェクト、および DataWorks ワークスペースは、同じタイムゾーンにある必要があります。そうでない場合、時間関連のデータが同期された後、ソースデータと宛先データの間でタイムゾーンの差が生じる可能性があります。
課金
ES インスタンス料金の詳細については、「ES 課金項目」をご参照ください。
データ統合専用リソースグループの課金の詳細については、「データ統合専用リソースグループの課金 (サブスクリプション)」をご参照ください。
手順
ステップ 1: ソースデータの準備
MaxCompute でテーブルを作成し、そのテーブルにデータをインポートします。詳細については、「テーブルの作成」および「テーブルへのデータのインポート」をご参照ください。
このトピックでは、次のテーブルスキーマとデータを使用します。
テーブルスキーマ

テーブルデータの一部

ステップ 2: 専用リソースグループの購入と設定
データ統合専用リソースグループを購入します。次に、VPC とワークスペースをリソースグループにアタッチします。専用リソースグループは、高速で安定したデータ伝送を保証します。
DataWorks コンソールにログインします。
上部のナビゲーションバーでリージョンを選択します。左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。
[専用リソースグループ] タブで、 をクリックします。
[DataWorks 専用リソース (サブスクリプション)] 購入ページで、[専用リソースタイプ] を [データ統合専用リソース] に設定し、リソースグループの名前を入力してから、[今すぐ購入] をクリックして専用リソースグループを購入します。
詳細については、「ステップ 1: データ統合専用リソースグループの作成」をご参照ください。
作成した専用リソースグループを見つけ、[アクション] 列で [ネットワーク設定] をクリックして VPC をアタッチします。詳細については、「VPC のアタッチ」をご参照ください。
説明この例では、データ統合専用リソースグループを使用して VPC 経由でデータを同期します。データ統合専用リソースグループを使用してインターネット経由でデータを同期する方法の詳細については、「IP アドレスホワイトリストの設定」をご参照ください。
専用リソースグループは、Elasticsearch クラスターが存在する VPC に接続する必要があります。これにより、専用リソースグループを使用してデータを同期できます。したがって、専用リソースグループを Elasticsearch クラスターの [VPC]、[ゾーン]、および [vSwitch] に関連付ける必要があります。Elasticsearch クラスターの VPC、ゾーン、および vSwitch を表示するには、「クラスターの基本情報の表示」をご参照ください。
重要VPC を関連付けた後、VPC の [vSwitch CIDR ブロック] を Elasticsearch インスタンスの VPC 内部アクセスホワイトリストに追加する必要があります。詳細については、「Elasticsearch インスタンスのパブリックまたは内部アクセスホワイトリストの設定」をご参照ください。
ページの左上隅にある戻るアイコンをクリックして、[リソースグループリスト] ページに戻ります。
作成した専用リソースグループの [操作] 列で、[ワークスペースのアタッチ] をクリックして、ターゲットワークスペースをリソースグループにアタッチします。
詳細については、「ステップ 2: データ統合専用リソースグループとワークスペースの関連付け」をご参照ください。
ステップ 3: データソースの追加
MaxCompute と Elasticsearch をデータソースとして DataWorks のデータ統合サービスに追加します。
DataWorks の [データ統合] ページに移動します。
DataWorks コンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。
ターゲットワークスペースの [操作] 列で、 を選択します。
左側のナビゲーションウィンドウで、[データソース] をクリックします。
MaxCompute データソースを追加します。
[データソースリスト] ページで、[データソースの追加] をクリックします。
[データソースの追加] ページで、[MaxCompute] を検索して選択します。
[MaxCompute データソースの追加] ダイアログボックスで、[基本情報] セクションのデータソースパラメーターを設定します。
詳細については、「MaxCompute データソースの追加」をご参照ください。
[接続設定] セクションで、[接続性テスト] をクリックします。接続ステータスが [接続済み] の場合、接続は成功です。
[完了] をクリックします。
同様に Elasticsearch データソースを追加します。詳細については、「Elasticsearch データソースの追加」をご参照ください。
ステップ 4: データ同期タスクの設定と実行
データ同期タスクは、専用リソースグループを使用して実行されます。リソースグループは、データ統合のデータソースからデータを取得し、Elasticsearch にデータを書き込みます。
コードレス UI またはコードエディタを使用してバッチ同期タスクを設定できます。この例では、コードレス UI を使用します。コードエディタを使用してバッチ同期タスクを設定する方法の詳細については、「コードエディタを使用したバッチ同期タスクの設定」および「Elasticsearch Writer」をご参照ください。
このトピックでは、レガシーデータ開発 (DataStudio) ページを例として、オフライン同期タスクの作成方法を説明します。
DataWorks の [データ開発] ページに移動します。
DataWorks コンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。
ターゲットワークスペースの [操作] 列で、 を選択します。
オフライン同期タスクを作成します。
左側のナビゲーションウィンドウの [データ開発] (
アイコン) タブで、 を選択し、画面の指示に従ってワークフローを作成します。作成したワークフローを右クリックし、 を選択します。
[ノードの作成] ダイアログボックスで、ノード名を入力し、[確認] をクリックします。
ネットワークとリソースグループを設定します。
[データソース] セクションで、[ソース] を MaxCompute (ODPS) に、[データソース名] をソースデータソースの名前に設定します。
[マイリソースグループ] セクションで、専用リソースグループを選択します。
[データ宛先] セクションで、[宛先] を Elasticsearch に、[データソース名] を宛先データソースの名前に設定します。
[次へ] をクリックします。
タスクを設定します。
[データソース] セクションで、ソーステーブルを選択します。
[データ宛先] セクションで、パラメーターを設定します。
[フィールドマッピング] セクションで、[ソースフィールド] と [宛先フィールド] の間のマッピングを設定します。
[チャネルコントロール] セクションで、チャネルパラメーターを設定します。
詳細については、「コードレス UI を使用したバッチ同期タスクの設定」をご参照ください。
タスクを実行します。
(オプション) タスクのスケジューリングプロパティを設定します。右側のナビゲーションウィンドウで、[プロパティ] をクリックします。[プロパティ] タブで、必要に応じてパラメーターを設定します。パラメーターの詳細については、「スケジューリング設定」をご参照ください。
ノード設定タブの右上隅にある保存アイコンをクリックして、タスクを保存します。
ノード設定タブの右上隅にある送信アイコンをクリックして、タスクを送信します。
スケジューリングプロパティを設定した場合、タスクはスケジュールに従って自動的に実行されます。ノード設定タブの右上隅にある実行アイコンをクリックして、タスクをすぐに実行することもできます。
ログに
Shell run successfully!が含まれている場合、タスクは正常に実行されています。次のコードはサンプルログを示しています。2023-10-31 16:52:35 INFO Exit code of the Shell command 0 2023-10-31 16:52:35 INFO --- Invocation of Shell command completed --- 2023-10-31 16:52:35 INFO Shell run successfully! 2023-10-31 16:52:35 INFO Current task status: FINISH 2023-10-31 16:52:35 INFO Cost time is: 33.106s
ステップ 5: データ同期結果の確認
Kibana コンソールで、同期されたデータを表示し、指定された条件に基づいてデータをクエリできます。
ターゲットの Alibaba Cloud ES インスタンスの Kibana コンソールにログインします。
詳細については、「Kibana コンソールへのログイン」をご参照ください。
Kibana ページの左上隅にある
アイコンをクリックし、[Dev Tools] を選択します。[コンソール] で、次のコマンドを実行して同期されたデータを表示します。
POST /odps_index/_search?pretty { "query": { "match_all": {}} }説明odps_indexは、データ同期スクリプトで設定したindexフィールドの値です。データが同期されると、次のような結果が返されます。

次のコマンドを実行して、ドキュメント内の
categoryフィールドとbrandフィールドを検索します。POST /odps_index/_search?pretty { "query": { "match_all": {} }, "_source": ["category", "brand"] }次のコマンドを実行して、
categoryがfresh produceであるドキュメントを検索します。POST /odps_index/_search?pretty { "query": { "match": {"category":"fresh produce"} } }次のコマンドを実行して、
trans_numフィールドでドキュメントをソートします。POST /odps_index/_search?pretty { "query": { "match_all": {} }, "sort": { "trans_num": { "order": "desc" } } }コマンドとアクセス方法の詳細については、「Elastic.co ヘルプセンター」をご参照ください。