DataWorks で Hologres から MaxCompute へのデータパイプラインを構築 - DataWorks

DataWorks の「MaxCompute へのデータ同期ノード」を使用すると、単一の Hologres テーブルから MaxCompute へデータを移行し、大規模データの効率的なストレージを実現できます。本トピックでは、構成手順について説明し、データ移行を容易に実行するとともに、MaxCompute の高性能処理機能を最大限に活用する方法を解説します。

前提条件

MaxCompute プロジェクトの作成およびHologres インスタンスの作成が完了していること。
MaxCompute プロジェクトと Hologres インスタンスを DataWorks のコンピューティングリソースとしてバインドし、接続性テストを完了していること。
MaxCompute へのデータ同期ノードの作成が完了していること。

制限事項

Hologres の内部テーブルからのみ、MaxCompute へのデータ同期が可能です。
MaxCompute における Hologres 外部テーブルの使用に関する制限については、「Hologres 外部テーブル」をご参照ください。
MaxCompute と Hologres 間のデータ型マッピングが異なるため、一部の Hologres データ型は MaxCompute へ同期できません。

同期ノードを構成する

ノードの編集ページで、以下の通り構成してください。

Hologres ソースの構成

以下のパラメーター説明を参考に、Hologres ソーステーブルを選択・構成します。

パラメーター	説明
ソースオブジェクトタイプ	デフォルト値は `Hologres Table` です。
データソース	ソースデータを含む Hologres コンピューティングリソースを選択します。
インスタンス	Hologres インスタンスの ID です。システムが自動的にこの値を入力します。
データベース	同期対象の Hologres データベースを選択します。
スキーマ	同期対象のスキーマを選択します。
テーブル	同期対象のテーブル名を選択します。
フィルター	パーティションテーブルの場合、システムが自動的にフィルターを生成します。必要に応じて調整可能です。フィルター条件を満たすデータのみが同期されます。説明フィルターは SQL 文の `WHERE` 句に対応します。

MaxCompute 宛先の構成

以下のパラメーター説明を参考に、MaxCompute 宛先テーブルを構成します。

パラメーター		説明
データソース		同期先の MaxCompute コンピューティングリソースを選択します。
プロジェクト		データソースに対応する MaxCompute プロジェクトです。システムが自動的にこの値を入力します。
スキーマ		データを格納するスキーマを選択します。これは、三層モデルが有効化された MaxCompute プロジェクトに対して必須のパラメーターです。三層モデルが無効化されたプロジェクトでは、このパラメーターは利用できません。
テーブル		MaxCompute 内部テーブルのカスタム名を指定します。
ライフサイクル		テーブルのライフサイクルを設定します。指定した期間内にテーブル内のデータが変更されない場合、MaxCompute が自動的にテーブルを再利用します。
フィールド	同期対象フィールド	同期対象のフィールドを選択し、MaxCompute 宛先テーブルにおけるデータ型を設定します。
	パーティション設定	MaxCompute 内部テーブルのパーティションキーをカスタマイズできます。パーティションデータの取得元は以下のとおりです： Hologres フィールド: Hologres ソーステーブルからパーティションキーとして使用するフィールドを選択します。スケジューリングパラメーター: スケジューリングパラメーターを用いてパーティションキーを定義します。

同期設定の構成

データ同期設定 セクションで、インポート方法および Hologres インスタンスへのアクセス権限を構成します。以下の表にパラメーターを示します。

パラメーター	説明
インポート方法	データをインポートするには、以下のいずれかの方法を選択します：上書き: 既存のデータを削除し、新しいデータを宛先テーブルに書き込みます。追加: 既存のデータを保持したまま、新しいデータを宛先テーブルに追加します。
Hologres アクセス権限	Hologres インスタンスにアクセスするには、以下のいずれかの方法を選択します：二重署名アクセスモード: 現在の ID を用いて Hologres 権限を検証します。 MaxCompute テーブルに対する読み取り権限および、MaxCompute プロジェクト内における対応する Hologres ソーステーブルに対する権限が必要です。MaxCompute 側の権限制御について詳しくは、「Data Lakehouse Solution 2.0 ユーザーガイド」をご参照ください。Hologres 側の権限制御について詳しくは、「権限管理の概要」をご参照ください。 RAM ロールベースのアクセスモード: 指定された RAM ロールを用いてアクセス ID を検証します。 RAM ロールに AliyunSTSAssumeRoleAccess 権限ポリシーを付与してください。詳細については、「RAM ロールによる権限付与モード」をご参照ください。権限を付与した後、RAM ロールフィールドに RAM ロールを指定します。
場所	同期処理中に、システムが Hologres 外部ストレージパスに基づいて MaxCompute テーブルを自動的に作成します。システムが生成したデフォルトのストレージパスを利用するか、またはカスタムの Hologres 外部ストレージパスを指定できます。

同期ノードをデバッグする

ノードのデバッグおよび実行を行うには、必要に応じてデバッグ情報を構成します。

ノードのデバッグプロパティを構成します。

ノードエディターの右側ペインにある Run Configuration で、コンピューティングリソース および リソースグループ の情報を構成します。以下の表にパラメーターを示します。

パラメーター	説明
コンピューティングリソース	バインド済みの MaxCompute コンピューティングリソースを選択します。
計算クォータ	MaxCompute プロジェクト作成時に生成されたコンピューティングクォータを選択するか、ドロップダウンリストの下部にあるコンピューティングクォータの作成をクリックして新規作成します。詳細については、「コンピューティングクォータの管理」をご参照ください。
リソースグループ	MaxCompute コンピューティングリソースをバインドする際に、接続性テストが成功したリソースグループを選択します。
Compute CU	ノードはデフォルトの CU 値を使用します。変更の必要はありません。
スケジューリングパラメーター	フィルター内で `${パラメーター名}` 形式で変数を定義した場合、パラメーター名およびパラメーター値をスケジューリングパラメーターセクションで構成する必要があります。実行時に、これらの変数は実際の値に動的に置き換えられます。詳細については、「ノードのスケジューリング構成」をご参照ください。

ノードタスクのデバッグおよび実行を行うには、保存をクリックし、その後実行をクリックします。

次のステップ

ノードのスケジューリング構成：プロジェクトディレクトリ内のノードを定期的に実行する必要がある場合は、ノードエディター右側の スケジューリングポリシー および関連するスケジューリングプロパティを スケジュール ペインで構成する必要があります。詳細については、
ノードの公開：ノードを公開するには、アイコンをクリックして公開プロセスを開始します。プロジェクトディレクトリ内のノードを本番環境に公開すると、そのスケジューリング構成に基づいて定期的に実行されます。詳細については、

よくある質問

フィールド型の不一致: 構成時にデータ型の不一致が発生した場合、同期タスクは失敗します。MaxCompute テーブルのフィールドデータ型構成が正しいことを確認してください。
単一パーティションにおけるデータの不整合: 単一パーティションの同期データが実際のデータと一致しない場合、ソースに対して構成したフィルターが正しいかどうかを確認してください。