DataWorks の「MaxCompute へのデータ同期ノード」を使用すると、単一の Hologres テーブルから MaxCompute へデータを移行し、大規模データの効率的なストレージを実現できます。本トピックでは、構成手順について説明し、データ移行を容易に実行するとともに、MaxCompute の高性能処理機能を最大限に活用する方法を解説します。
前提条件
MaxCompute プロジェクトの作成およびHologres インスタンスの作成が完了していること。
MaxCompute プロジェクトと Hologres インスタンスを DataWorks のコンピューティングリソースとしてバインドし、接続性テストを完了していること。
MaxCompute へのデータ同期ノードの作成が完了していること。
制限事項
Hologres の内部テーブルからのみ、MaxCompute へのデータ同期が可能です。
MaxCompute における Hologres 外部テーブルの使用に関する制限については、「Hologres 外部テーブル」をご参照ください。
MaxCompute と Hologres 間のデータ型マッピングが異なるため、一部の Hologres データ型は MaxCompute へ同期できません。
同期ノードを構成する
ノードの編集ページで、以下の通り構成してください。
Hologres ソースの構成
以下のパラメーター説明を参考に、Hologres ソーステーブルを選択・構成します。
パラメーター | 説明 |
ソースオブジェクトタイプ | デフォルト値は |
データソース | ソースデータを含む Hologres コンピューティングリソースを選択します。 |
インスタンス | Hologres インスタンスの ID です。システムが自動的にこの値を入力します。 |
データベース | 同期対象の Hologres データベースを選択します。 |
スキーマ | 同期対象のスキーマを選択します。 |
テーブル | 同期対象のテーブル名を選択します。 |
フィルター | パーティションテーブルの場合、システムが自動的にフィルターを生成します。必要に応じて調整可能です。フィルター条件を満たすデータのみが同期されます。 説明 フィルターは SQL 文の |
MaxCompute 宛先の構成
以下のパラメーター説明を参考に、MaxCompute 宛先テーブルを構成します。
パラメーター | 説明 | |
データソース | 同期先の MaxCompute コンピューティングリソースを選択します。 | |
プロジェクト | データソースに対応する MaxCompute プロジェクトです。システムが自動的にこの値を入力します。 | |
スキーマ | データを格納するスキーマを選択します。これは、三層モデルが有効化された MaxCompute プロジェクトに対して必須のパラメーターです。三層モデルが無効化されたプロジェクトでは、このパラメーターは利用できません。 | |
テーブル | MaxCompute 内部テーブルのカスタム名を指定します。 | |
ライフサイクル | テーブルのライフサイクルを設定します。指定した期間内にテーブル内のデータが変更されない場合、MaxCompute が自動的にテーブルを再利用します。 | |
フィールド | 同期対象フィールド | 同期対象のフィールドを選択し、MaxCompute 宛先テーブルにおけるデータ型を設定します。 |
パーティション設定 | MaxCompute 内部テーブルのパーティションキーをカスタマイズできます。パーティションデータの取得元は以下のとおりです:
| |
同期設定の構成
データ同期設定 セクションで、インポート方法および Hologres インスタンスへのアクセス権限を構成します。以下の表にパラメーターを示します。
パラメーター | 説明 |
インポート方法 | データをインポートするには、以下のいずれかの方法を選択します:
|
Hologres アクセス権限 | Hologres インスタンスにアクセスするには、以下のいずれかの方法を選択します:
|
場所 | 同期処理中に、システムが Hologres 外部ストレージパスに基づいて MaxCompute テーブルを自動的に作成します。システムが生成したデフォルトのストレージパスを利用するか、またはカスタムの Hologres 外部ストレージパスを指定できます。 |
同期ノードをデバッグする
ノードのデバッグおよび実行を行うには、必要に応じてデバッグ情報を構成します。
ノードのデバッグプロパティを構成します。
ノードエディターの右側ペインにある Run Configuration で、コンピューティングリソース および リソースグループ の情報を構成します。以下の表にパラメーターを示します。
パラメーター
説明
コンピューティングリソース
バインド済みの MaxCompute コンピューティングリソースを選択します。
計算クォータ
MaxCompute プロジェクト作成時に生成されたコンピューティングクォータを選択するか、ドロップダウンリストの下部にある コンピューティングクォータの作成 をクリックして新規作成します。詳細については、「コンピューティングクォータの管理」をご参照ください。
リソースグループ
MaxCompute コンピューティングリソースをバインドする際に、接続性テストが成功したリソースグループを選択します。
Compute CU
ノードはデフォルトの CU 値を使用します。変更の必要はありません。
スケジューリングパラメーター
フィルター内で
${パラメーター名}形式で変数を定義した場合、パラメーター名 および パラメーター値 を スケジューリングパラメーター セクションで構成する必要があります。実行時に、これらの変数は実際の値に動的に置き換えられます。詳細については、「ノードのスケジューリング構成」をご参照ください。ノードタスクのデバッグおよび実行を行うには、保存 をクリックし、その後 実行 をクリックします。
次のステップ
ノードのスケジューリング構成:プロジェクトディレクトリ内のノードを定期的に実行する必要がある場合は、ノードエディター右側の スケジューリングポリシー および関連するスケジューリングプロパティを スケジュール ペインで構成する必要があります。詳細については、
ノードの公開:ノードを公開するには、
アイコンをクリックして公開プロセスを開始します。プロジェクトディレクトリ内のノードを本番環境に公開すると、そのスケジューリング構成に基づいて定期的に実行されます。詳細については、
よくある質問
フィールド型の不一致: 構成時にデータ型の不一致が発生した場合、同期タスクは失敗します。MaxCompute テーブルのフィールドデータ型構成が正しいことを確認してください。
単一パーティションにおけるデータの不整合: 単一パーティションの同期データが実際のデータと一致しない場合、ソースに対して構成したフィルターが正しいかどうかを確認してください。