すべてのプロダクト
Search
ドキュメントセンター

DataWorks:タスクのモニタリング

最終更新日:Jun 04, 2026

カスタムルールを設定してタスクのステータスとリソース使用量をモニタリングし、インテリジェントベースラインを使用して複雑な依存関係のシナリオでタイムリーなデータ生成を確保し、O&M ルールを作成してリソースグループの操作を自動化します。

機能

次の表に、モニタリング機能の説明を示します。

機能

説明

インテリジェントベースライン

インテリジェントベースラインは、タスク完了を遅延させる可能性のある例外を検出して早期に警告を発し、複雑な依存関係のシナリオでタイムリーなデータ生成を保証します。

ルール管理

Monitoring and Alerting > Rule Management ページでグローバルルールを管理できます。 ビジネス要件に基づいてカスタムモニタリングルールを作成することもできます。

アラート

Monitoring and Alerting > Alerts ページで、カスタムルール、グローバルルール、インテリジェントベースラインからのアラートを表示します。

シフトスケジュール

Monitoring and Alerting > Shift Schedule ページでシフトスケジュールを定義します。 モニタリングルール設定時にスケジュールを選択すると、アラートが担当エンジニアに転送されます。

説明

シフトスケジュールでは、主担当と副担当のエンジニアを定義します。 デフォルトでは、アラートは主担当エンジニアに送信されます。 同一の問題についてアラートが 2 回送信された後、3 回目以降のアラートは両方のエンジニアに送信されます。

自動 O&M

専用リソースグループの O&M ルールを作成し、モニタリングルールに関連付けます。 ルールがトリガーされると、システムは Filter Conditions に一致するターゲットリソースグループで実行されているタスクに対して自動的に O&M を実行します。

説明

現在、O&M ルールは、スケジューリングリソースのモニタリングルールにのみ関連付けることができます。

タスクステータスのモニタリング

監視対象

モニタリングルール (カスタムルールとインテリジェントベースライン) は、自動トリガーノードのステータス、自動トリガーノードインスタンスのステータス、リアルタイムコンピューティングタスクのステータス、およびリソース使用量を監視します。

  • 自動トリガーノードのステータスのモニタリング

    毎晩、DataWorks は 定期的なタスク に基づいて、翌日の Scheduled Instance を生成します。これらのインスタンスが期待どおりに生成および実行されることを保証するために、DataWorks には 定期的なタスク のステータスを監視するための、組み込みのグローバルアラートルール (ワークスペースレベルではない) が用意されています。例外が発生した場合、システムは自動的にアラートを送信します。アラートは 分離ノードNode Dependency Loop に対してトリガーされます。

    ルールタイプ

    監視対象

    トリガー条件

    説明

    グローバルルール

    孤立ノード:親の依存関係がないノード。

    孤立ノードが検出されると、アラートが自動的にトリガーされます。 すぐに問題を解決してください。

    説明

    ワークスペースのルートノードを除くすべての自動トリガーノードは、スケジューリングおよび実行されるには親の依存関係が必要です。 孤立ノードは自動的に実行されず、下流の依存関係が多い場合、深刻な問題を引き起こす可能性があります。

    • DataWorks は、毎日 09:00、12:00、16:00 に自動トリガーノードのステータスをスキャンします。 孤立ノードや依存関係のループなどの異常が検出された場合、システムはアラートを送信します。 スキャンの 10 分前に発生した例外は、次のサイクルで処理されます。

    • グローバルルールは組み込まれています。 デフォルトでは、アラートは SMS とメールでノードの所有者に送信されます。 Rule Management ページでアラート受信者を変更してください。

    • Rule Management ページでグローバルアラートルールを無効にできます。

    ノード依存関係のループ:自身が上流タスクでありながら、自身の下流タスクの 1 つに依存しているノード。これにより循環依存が発生します。

    依存関係のループが検出されると、アラートが自動的にトリガーされます。 すぐに問題を解決してください。

    説明

    自動スケジューラは、依存関係のループ内のノードを実行しません。

  • 自動トリガーノードインスタンスの実行ステータスのモニタリング

    自動トリガーノードは、定期的にスケジューリングされるとインスタンスを生成します。定期的なタスク のカスタム監視ルールを設定して、その Scheduled Instance の実行ステータスを監視します。これには、特定のオブジェクトに対するカスタムルールベースのアラートや、重要なタスクに関する事前警告のためのインテリジェントベースラインアラートが含まれます。

    ルールタイプ

    監視対象

    トリガー条件

    カスタムルール

    指定された NodeBaselineWorkspace、または ビジネスプロセス 内のタスク。

    • アラートは、タスクが完了IncompleteErrorIncomplete in CycleTimeout、またはError Persisting After Automatic Rerun of Nodeの場合にトリガーされます。

    • オブジェクトタイプがWorkspaceの場合、追加のトリガー条件にはInstance GeneratedFluctuation of Instance Countが含まれます。

    インテリジェントベースライン

    モニタリング範囲には、ベースライン内のタスクと、そのすべての上流依存関係が含まれます。

    説明
    • ベースラインに優先度を設定して、ベースライン内のタスクが時間どおりに実行され、期待どおりにデータを生成するようにできます。

    • タスクが重要で、複雑な上流依存関係を持つ場合は、ベースラインに追加してその安定性を確保できます。

    • ベースラインアラート

      システムがベースラインタスクが約束時間内に完了しないと予測した場合、設定された通知方法に基づいてベースラインアラートを送信します。 コアロジック:ベースラインアラート

    • イベントアラート

      ベースラインタスクまたは上流タスクが失敗した場合、またはクリティカルパスタスクが遅延した場合にイベントが生成され、アラートが送信されます。 イベントの管理

  • リアルタイムコンピューティングタスクの実行ステータスのモニタリング

    • ルールタイプ:カスタムルール。

    • 監視対象:リアルタイムコンピューティングタスク。

    • トリガー条件: タスクで Error が発生すると、アラートがトリガーされます。

  • リソース使用量のモニタリング

    • ルールタイプ:カスタムルール。

    • 監視対象:スケジューリング専用リソースグループ、データ統合専用リソースグループ。

    • トリガー条件:

      • リソースグループの Usage が指定された期間、指定された値を超えた場合にアラートがトリガーされます。

      • リソースグループ内の Number of Instances Waiting for Resources in Resource Group が指定された期間、指定された値を超えた場合にアラートがトリガーされます。

通知方法

モニタリングルールがトリガーされると、プラットフォームはメール、SMS、電話、または DingTalk グループメッセージで通知を送信します。

ルールタイプ

通知方法

アラート頻度制御

カスタムルール、グローバルルール、インテリジェントベースライン

  • 特定のユーザーへの通知:[メール]、[Sms]、[電話]で、ノードの所有者、指定した他のユーザー、またはシフトスケジュールの担当者にアラートを送信できます。電話通知は、中国本土の携帯電話番号でのみご利用いただけます。

  • グループへの通知:[DingTalk Chatbot] と [Webhook] をサポートします。

    説明
    • DataWorks Basic Edition では、グループ Webhook を使用して DingTalk、Feishu、WeCom グループにアラートを送信できます。

    • DataWorks Enterprise Edition では、Basic Edition で利用可能な機能に加えて、カスタム Webhook を設定してアラートを受信できます。

    • カスタム Webhook を使用する必要がある場合は、申請リンクをクリックして Alibaba Cloud Big Data & AI Platform コミュニケーショングループにご参加ください。 その後、QRコードをスキャンしてDataWorks製品のDingTalkグループに参加すると、製品導入前後のご相談が可能です。 グループ内では、インテリジェントチャットボットにメンションするか、サービス時間中に担当者にご連絡いただけます。技术支持二维码

Maximum AlertsMinimum Alert IntervalAlerting Do-Not-Disturb Period を設定することで、アラートの頻度を制御できます。

説明
  • 最大アラート数:送信可能なアラートの最大数。 この制限に達すると、それ以上のアラートは生成されません。

  • 最小通知間隔:連続する 2 つのアラート間の最小時間。 この間隔中にタスクが正常状態に戻った場合、残りのアラートはトリガーされません。

  • 非通知期間:指定された期間中、システムはアラートを送信しません。

    例えば、タスクが TimeoutError、または Incomplete の場合にアラートがトリガーされるように設定し、サイレント期間を 00:00 から 08:00 までに設定すると、この期間中はアラートは送信されません。08:00 の時点でタスクがまだ異常な状態である場合、アラートが送信されます。

リソースの自動 O&M

自動 O&M は、事前に設定されたモニタリングルールと O&M ルールを使用してタスクを自動的に管理します。

  • トリガー条件:関連付けられたモニタリングルールがトリガーされます。

    説明
    • 現在、モニタリングは Resource Group Usage[リソースグループ内でリソースを待機しているインスタンス数] で利用できます。

    • 現在、自動 O&M はスケジューリング専用リソースグループでのみ利用できます。

  • 対象インスタンス: 自動 O&M は、Filter Conditions (インスタンスType、インスタンススケジューリングサイクル、インスタンス優先順位、インスタンスStatus、インスタンスのWorkspaceなど) に一致するインスタンスで実行されます。

  • O&M アクション:実行中のインスタンスを終了します。

    説明

    一度に最大 2,000 インスタンスを終了できます。

タスクアラートの診断

DAG または [実行診断] ページでタスクアラート情報を表示できます。

  • タスク DAG での表示

    インスタンスが過去 24 時間以内にモニタリングアラートをトリガーした場合、Auto Triggered Task O&M > Scheduled Instance ページに移動します。 インスタンスの DAG を開き、インスタンスの右上隅にある赤いアラートアイコン (図のエリア②) をクリックします。 モニタリングの詳細 パネルが表示され、タスクをモニタリングするルールまたはベースラインのリストと、それらのトリガーステータスが表示されます。 右上隅の View Alert Content をクリックして [アラート] ページでアラートの詳細を表示するか、ルール/ベースライン名 をクリックしてその設定詳細を表示できます。

    説明

    過去24時間にアラームを生成したノード チェックボックス (図のエリア①) を選択して、インスタンスを絞り込むことができます。

    Alert information

  • [実行診断] ページでの表示

    モニタリングアラートが設定されているタスクの場合、Intelligent Diagnostics ページの通知エリアで View Details をクリックすることもできます。 表示される モニタリングの詳細 ウィンドウに、現在のタスクをモニタリングするルールまたはベースラインのリストが、それぞれのトリガーステータスとともに表示されます。 右上隅の View Alert Content をクリックして [アラート] ページでアラートの詳細を表示するか、ルール/ベースライン名 をクリックしてその設定詳細を表示できます。Run Diagnosis

  • [アラート] ページでの表示

    [アラート] ページで、インテリジェントモニタリングモジュールからのすべてのアラートを表示できます。 アラート詳細には、ルール、条件、アラートの理由など、トリガーのプロセスが表示されます。