DataStudio でタスクを開発して本番環境に公開した後、オペレーションセンターに移動し、バッチ同期タスクの管理、ステータスの監視、リソースグループの変更、実行ログの表示を行います。このトピックでは、バッチ同期タスクの一般的な O&M 操作について説明します。
概要
-
バッチ同期タスクの O&M は、他の定期タスクと同様です。このトピックでは、バッチ同期タスクを例に説明します。定期タスクの O&M の詳細については、「定期タスクの基本的な O&M 操作の実行」をご参照ください。
-
標準モードのワークスペースは、データソース環境の分離に対応しています。同じ名前のデータソースでも、開発環境と本番環境で個別の設定を持つことができます。これにより、2 つの異なるデータベースまたはインスタンスを設定できます。この設定により、テスト中および本番スケジューリング中のデータ操作が分離され、本番データのセキュリティが確保されます。
オペレーションセンターへのアクセス
DataWorks コンソールにログインして対象のリージョンに切り替え、左側のナビゲーションペインで を選択します。ドロップダウンリストからお使いのワークスペースを選択し、オペレーションセンター をクリックします。
タスクのスケジューリングと管理
バッチ同期では、DataWorks の強力なスケジューリング機能を利用して、タスクを定期的に自動実行します。DataWorks のスケジューリングパラメーターを使用して、増分データと全量データの両方を宛先テーブルの特定のパーティションに書き込むことができます。バッチ同期タスクの O&M は、他の定期タスクと同様です。手動で実行することも、スケジュールに基づいて自動的にトリガーすることもできます。
|
アクション |
説明 |
|
バッチ同期タスクの実行 |
タスクをデプロイした後、 の Auto Triggered Task ページで表示できます。スケジューリングシステムは、そのスケジュール設定に基づいてタスクを自動的に実行します。タスクを手動でトリガーすることもできます。
|
|
バッチ同期タスクの一時停止 |
Auto Triggered Task ページで、タスクを一時停止できます。これにより、自動トリガータスクは一定期間実行されなくなり、その下流ノードの実行もブロックされます。 説明
定期タスクを実行するとインスタンスが生成されます。インスタンスとその下流インスタンスを実行する必要がない場合は、インスタンスを一時停止できます。 |
|
バッチ同期タスクの再開 |
Auto Triggered Task ページで、一時停止中のタスクを再開できます。再開後、タスクは通常のスケジュールで実行されます。 説明
一時停止中の定期タスクから生成されたインスタンスも、一時停止状態になります。一時停止中のインスタンスとその下流インスタンスを実行する必要がある場合は、インスタンスを再開できます。 |
履歴データのバックフィル
スケジューリングパラメーターとデータバックフィル機能を組み合わせることで、単一の DataWorks タスク設定を使用して、宛先のデータベースまたはデータウェアハウスの指定されたテーブルまたはパーティションに履歴データを一括同期できます。タスクが増分同期用に設定されていて、ターゲットパーティションに履歴データをバックフィルする必要がある場合は、データバックフィル機能を使用できます。スケジューリングパラメーターは、データバックフィル用に設定された業務日に基づいて、特定の値に自動的に置き換えられます。データバックフィル機能の使用方法の詳細については、「データバックフィルインスタンスの管理」をご参照ください。
タスクステータスの監視
に移動して、タスクのステータスに関する監視ルールを設定できます。 ステータスには、完了、未完了、エラー、タイムアウトが含まれます。 詳細については、「インテリジェントモニタリングの概要」をご参照ください。
リソースグループの O&M
-
リソースグループの監視:オペレーションセンターで、タスクの実行に使用されるリソースグループの使用状況を監視できます。詳細については、「リソース O&M」をご参照ください。
-
リソースグループの切り替え:次の方法でタスクのリソースグループを切り替えることができます。
説明リソースグループを切り替える前に、新しいリソースグループがデータソースに接続できることを確認してください。これにより、ネットワークの問題によるタスクの失敗を防ぎます。
環境
サポートされる操作
UI エントリポイント
本番環境でのリソースグループの切り替え
一括切り替え
ページに移動します。
リソースグループを変更するタスクを選択し、下部のツールバーにあるChange Resource Group for Data Integrationをクリックして一括で変更します。
開発環境でのリソースグループの切り替え
説明開発環境でリソースグループを切り替えた後、タスクを再度コミットして本番環境に公開する必要があります。
-
単一タスクの切り替え
-
一括切り替え
[DataStudio] ページに移動します。
-
単一タスクの切り替え
対象ノードのエディターページに移動してリソースグループを変更します。[リソースグループ設定] セクションで、[リソースグループ] を [dwGroup] (10 CU、サブスクリプション) に設定し、[リソース使用量 (CU)] を
1 CUに設定します。[接続テスト] をクリックし、[ソース] と [宛先] の両方で MaxCompute のステータスが [接続済み] と表示されることを確認します。 -
一括切り替え
アイコンをクリックし、リソースグループを変更するタスクを選択し、下部のツールバーにあるChange Resource Group for Data Integrationをクリックして一括変更を実行します。
-
テーブルのデータ品質の監視
一部の宛先データソースでは、Data Integration は出力テーブルの Data Quality 監視の設定に対応しています。データ品質ルールのページに移動して、データが書き込まれるターゲットテーブルのデータ品質チェックルールを設定できます。監視ルールが設定されたテーブルでは、関連するスケジューリングノードの実行完了後にデータ品質チェックがトリガーされます。ルールの重要度とチェック結果に基づいて、DataWorks プラットフォームはタスクを失敗させるか、下流ノードをブロックするかを決定します。これにより、ダーティデータが下流のプロセスに影響を与えるのを防ぎます。宛先データソースが Data Quality 監視をサポートしているかどうか、およびその使用方法の詳細については、「Data Quality の概要」をご参照ください。
バッチ同期タスクで生成されるテーブルの Data Quality ルールを設定する際は、タスクが使用するスケジューリングリソースグループがターゲットデータソースに接続できることを確認してください。
実行ログの表示
オペレーションセンターに移動します。 自動トリガーインスタンス、データバックフィルインスタンス、またはテストインスタンスが完了すると、インスタンスの DAG パネルでタスクの Operational Logs を表示できます。 詳細については、「付録: DAG の機能」をご参照ください。
ログ内のパラメーターの詳細については、「バッチ同期タスクのログ分析」をご参照ください。
バッチ同期ダッシュボードの表示
また、 ページで、実行ステータス分布、データ同期の進捗、同期されたデータ量の統計、同期タスクの詳細などのメトリックを表示することもできます。 ソース、宛先、およびパブリックネットワークトラフィックの生成有無によってタスクを絞り込むことができます。 詳細については、「O&M ダッシュボードを表示する」をご参照ください。
LogView の使用
Data Integration の LogView は、同期レートやログなど、同期タスクに関する詳細な情報を収集、分析、可視化することで、同期プロセスをより詳細に分析できます。
-
Operation Center で、オフラインタスクの実行中のインスタンスを見つけ、Perform Diagnosis をクリックします。[インスタンスビュー] ページで、インスタンスリストから対象のタスクを見つけ、[操作] 列の [診断の実行] をクリックします。
-
[インテリジェント診断] ページで、 タブをクリックすると、トラブルシューティングに役立つ大規模言語モデルによるエラーログ分析を表示できます。
インテリジェント診断の結果エリアでは、[Qwen]、[DeepSeek]、[DataWorks ナレッジベース] の 3 つの大規模モデルによる分析が表示されます。[主要なエラーログ]、[エラー分析]、[推奨ソリューション]、および [クイックアクション] ([コードの編集]、[再実行]、[データマップへ移動] を含む) が表示されます。ページ上部のステータスフローインジケーターは、[上流依存関係]、[スケジュール時刻]、[スケジューリングリソース]、[タスク実行] の各段階のステータスを示します。
パラメーター
説明
[Logs]
Logs ページで、Data Integration 同期タスクの詳細なログを表示できます。
[Progress]
Progress ページでは、データ統合同期タスクの詳細な進捗情報を表示できます。これには Synchronized Data Records、Synchronized Bytes、Synchronization Rate for Synchronized Data Records、および Synchronization Rate for Synchronized Bytes が含まれます。
このページでは、次の操作も実行できます:
-
時間フィルターを使用して、特定の期間の同期情報を表示します。
説明最大で過去 15 日間の詳細を表示できます。
-
プロセスリストの右側にある
アイコンをクリックして、より多くの列を表示します。列設定ダイアログで、[サブタスク ID]、[開始時刻]、[同期済みレコード]、[平均レコード同期レート]、[平均バイト同期レート]、[実行マシン]、[平均 GC 時間]、[GC カウント]、[ステータス]、[終了時刻]、[実行時間]、[リーダー待機時間]、[ライター待機時間]、および [ダーティレコード数] を含む表示する監視メトリクスを選択できます。 -
プロセスリストで、特定のメトリクスをクリックしてそのトレンドチャートを表示します。
[Instance Overview]
インスタンスが自動トリガーインスタンスの場合、Instance Overview ページで、さまざまなサイクルとディメンションにわたってその詳細を比較できます。
-
Task List 一覧で、タスクのステータスと対応する Instance ID を確認できます。Instance ID をクリックすると、タスクの詳細を表示できます。
-
また、棒グラフを使用して、インスタンス間のSync Rate、Synchronized Data Records、Waiting time、およびSynchronization Durationの差異を比較することもできます。
-
次のステップ:データ品質とパフォーマンスチューニング
0% でスタックするタスクのトラブルシューティング
データベース全体の同期タスクの進捗が 0% のままである場合は、考えられる以下の原因を 1 つずつ確認してください。
-
タスクが WAIT 状態であるかどうかの確認
オペレーションセンターでインスタンスのステータスを確認してください。WAIT 状態は、タスクが上流の依存関係の完了を待っているか、スケジューリングリソースが利用可能になるのを待っていることを意味します。この状態では進捗は進みません。依存関係が満たされ、リソースが利用可能になると、タスクは自動的に開始されます。
-
リソースグループに十分な CU があるかどうかの確認
リソースグループのコンピューティングユニット (CU) が不足していると、タスクがキューに入れられる可能性があります。リソースグループの監視ページで CU の使用率を確認してください。常に 100% に近い場合は、リソースグループをスケールアップするか、同時実行タスクの数を減らす必要があります。
-
ネットワーク接続の確認
リソースグループとデータソース間のネットワークの問題により、同期タスクがデータの読み取りまたは書き込みを妨げられることがあります。データソース設定ページで接続テストを実行して、ソースと宛先の両方が接続されていることを確認してください。
-
サブタスクが生成されて実行されているかどうかの確認
データベース全体の同期タスクは、複数のサブタスクで構成されます。LogView の進捗ページでサブタスクリストを確認し、サブタスクが生成されて実行状態にあることを確認してください。サブタスクが生成されない場合は、タスク設定のテーブル選択ルールがソーステーブルと一致していることを確認してください。