自動運用・保守(O&M)では、インシデント対応のプレイブックをルールとして定義し、条件が満たされた際に自動で実行できます。たとえば、スケジューリング用の専用リソースグループのリソース使用量がしきい値に達した場合や、ノードインスタンスが障害を起こした場合など、事前に設定した条件が成立すると、DataWorks が手動介入なしに自動的に対応します。これにより、夜間や休日におけるアラート通知(ページ)を削減し、パイプラインの信頼性を向上させることができます。
仕組み
DataWorks の自動運用・保守(O&M)は、以下の 2 つのシナリオに対応しています:
実行中のインスタンスの終了:スケジューリング用の専用リソースグループに対してカスタムアラートルールが発火した場合、DataWorks は該当するノードインスタンスを終了します。たとえば、リソース使用量が 80 % に達してから 10 分間継続した場合、そのリソースグループ上で優先度 1 または 3 の非自動トリガーインスタンスが自動的に停止されます。
[自動再実行]: ノードインスタンスが自動再実行プロパティを設定せずに失敗した場合、またはタイムアウトした場合、DataWorks は自動再実行ルールに基づいてそのノードインスタンスを再実行します。この再実行ルールは、サーバーレスリソースグループ上で実行されるノードにのみ適用されます。
これらの 2 種類のルールは独立しており、終了ルールはリソース圧迫への対応を目的とし、再実行ルールは個別のインスタンス障害への対応を目的としています。両方の動作を有効化したい場合は、それぞれ別々にルールを設定してください。
制限事項
権限:自動運用・保守(O&M)ルールの管理は、Alibaba Cloud アカウント (root ユーザー)、AliyunDataWorksFullAccess ポリシーがアタッチされた RAM ユーザー、およびワークスペース管理者のみが実行できます。
リソースグループに関する制約:
終了ルールは、リソース使用量アラートルールが設定されたスケジューリング用の専用リソースグループ上で実行されるノードにのみ適用されます。
自動再実行ルールは、サーバーレスリソースグループ上で実行されるノードにのみ適用されます。
機能に関する制約:
1 つのアラートルールに複数の終了ルールを関連付けることができます。
ワークスペースあたり 1 つの自動再実行ルールのみ作成可能です。
実行記録は過去 30 日分まで確認できます。
「自動」ページへ移動
DataWorks コンソールにログインします。上部のナビゲーションバーから対象のリージョンを選択します。左側のナビゲーションウィンドウで、データ開発および O&M > オペレーションセンター を選択します。ドロップダウンリストからご利用のワークスペースを選択し、オペレーションセンターへ移動 をクリックします。
左側のナビゲーションウィンドウで、O&M アシスタント > 自動 を選択します。
ルールの作成
自動運用・保守(O&M) > ルール管理 ページでは、以下の 2 種類の自動運用・保守(O&M)ルールを作成できます:
| ルールタイプ | トリガー | 適用対象 |
|---|---|---|
| 実行中のインスタンスの終了 | リソースグループ使用量に対するアラートルールの発火 | スケジューリング用の専用リソースグループ上で実行されるノード |
| 自動再実行 | ノードインスタンスの失敗またはタイムアウト | サーバーレスリソースグループ上で実行されるノード |
各ルールには、ルールが発火するタイミングを決定する「トリガー条件」、影響を受けるインスタンスの範囲を絞り込む「フィルター条件」、および実行頻度を制限する「制約」が設定されます。ブラックリストに登録されたノードは、他のすべての条件を満たしていても除外されます。
終了ルールの作成
終了ルールは、カスタムアラートルールが発火した際に、該当するインスタンスを停止します。対応するインスタンスタイプは、定期インスタンス、データバックフィルインスタンス、テストインスタンス、ワンタイムタスクインスタンス、および手動トリガーワークフローインスタンスです。
| セクション | パラメーター | 説明 |
|---|---|---|
| トリガー条件 | 関連付けられたモニタリングルール | この運用・保守(O&M)ルールをトリガーするアラートルールです。関連付け可能なのは、オブジェクトタイプ が スケジュールリソース に設定され、トリガー条件 が リソースグループ使用量 に設定されたアラートルールのみです。モニタリングルールの作成方法については、「モニタリングルールの作成方法」をご参照ください。 |
| フィルター条件 | ワークスペース | このルールが適用されるワークスペースです。 |
| インスタンスタイプ | 対象となるインスタンスタイプです。 | |
| スケジューリング周期 | 一致させるスケジューリング頻度です。インスタンスタイプ が 定期インスタンス または データバックフィルインスタンス の場合に必須です。 | |
| 優先度 | 対象となるインスタンスの優先度です。数値が大きいほど優先度が高くなります。 | |
| ステータス | 対象となるインスタンスのステータスです。 | |
| ブラックリスト | ブラックリスト | すべての条件を満たすものの、除外対象とするノードです。ノード名または ID を入力して追加します。 |
| ルールの制約 | 有効期間 | ルールが実行可能な時間帯です。この期間外のインスタンスは、条件をすべて満たしていても影響を受けません。 |
| 最大実行回数 | ルールが実行できる最大回数です。各実行前には、トリガー条件が再検証されます。 | |
| 最小実行間隔 | 連続する実行の間に必要な最短時間です。 |
自動再実行ルールの作成
自動再実行ルールは、失敗したインスタンスを自動で再実行します。以下のいずれかの条件が成立した際にルールが発火します:
ノードインスタンスが失敗し、ノードの プロパティ タブで「自動再実行」プロパティが設定されていない場合。
ノードインスタンスがタイムアウトした場合。
対応するインスタンスタイプは、定期インスタンス、データバックフィルインスタンス、テストインスタンス、ワンタイムタスクインスタンス、および手動トリガーワークフローインスタンスです。
チェック対象となるインスタンスの範囲:
定期インスタンス:データタイムスタンプが昨日であるインスタンスのみがチェック対象です。たとえば、本日が 2025 年 6 月 5 日の場合、データタイムスタンプが 2025 年 6 月 4 日のインスタンスがチェックされます。
その他のインスタンスタイプ(データバックフィル、テスト、ワンタイムタスク、手動トリガーワークフロー):本日、昨日、一昨日に作成されたインスタンスがチェック対象です。たとえば、本日が 2025 年 6 月 5 日の場合、6 月 3 日、4 日、5 日に作成されたインスタンスが対象となります。
| セクション | パラメーター | 説明 |
|---|---|---|
| トリガー条件 | 実行ステータス | ノードインスタンスが「自動再実行」プロパティを設定せずに失敗した場合、またはタイムアウトした場合に発火します。 |
| フィルター条件 | ワークスペース | このルールが適用されるワークスペースです。 |
| インスタンスタイプ | 対象となるインスタンスタイプです。 | |
| スケジューリング周期 | 一致させるスケジューリング頻度です。インスタンスタイプ が 定期インスタンス または データバックフィルインスタンス の場合に利用可能です。 | |
| 優先度 | 対象となるインスタンスの優先度です。数値が大きいほど優先度が高くなります。 | |
| ログにキーワードが含まれる | 操作ログに特定のキーワードが含まれている場合に再実行をトリガーします。有効な値は、abnormal exit(ノードプロセスの起動失敗または予期せぬ終了)および out of memory(メモリ不足によるノード終了)です。out of memory キーワードは、サーバーレスリソースグループ上で実行されるノードでのみサポートされます。 | |
| ブラックリスト | ブラックリスト | すべての条件を満たすものの、除外対象とするノードです。ノード名または ID を入力して追加します。 |
| 再実行 | 準備 | ノードがサーバーレスリソースグループ上のコンピューティングノードである場合、再実行時に追加の計算容量を割り当てるために、コンピューティングタスク用 CUs の追加 を選択します。 |
| 追加する CUs 数 | 元のインスタンスの割り当てに追加するコンピューティングユニット(CU)数です。追加された CU は再実行インスタンス専用であり、他の実行中のノードとのリソース競合を回避するために設定します。 | |
| 再実行回数 | 最大リトライ回数です。有効な値は 1~10 です。 | |
| 再実行間隔 | リトライ間の待機時間です。有効な値は 3~30 分です。 | |
| ルールの制約 | 有効期間 | ルールが実行可能な時間帯です。この期間外のインスタンスは、条件をすべて満たしていても再実行されません。 |
ルールの有効化/無効化
ルールは作成後直ちに有効になります。ルールを無効にするには、[アクション] 列の
アイコンをクリックします。
その他の操作
ルールの管理
ルールを表示するには、[ルール管理] タブでルールを見つけ、[アクション] 列の [表示] をクリックします。
ルールを編集するには、表示 でルールを開き、ルールの表示 ダイアログボックスの下部にある 変更 をクリックします。
ルールを削除するには、操作 列の 削除 をクリックし、削除を確認します。
ルール名で検索するには、ルール管理 ページの左上隅にある検索ボックスをご利用ください。
実行記録の表示
実行記録 タブでは、各ルールの実行時刻、ルール所有者、および影響を受けたノードインスタンス数を確認できます。操作 列の 詳細の表示 をクリックすると、実行ログ全体を確認できます。
運用・保守(O&M)操作は、ルール所有者の ID で実行されます。ルールをトリガーしたノードインスタンスの操作ログから、各自動操作をトレースできます。
終了ルールの実行記録 には以下が含まれます:
リソース待ち中/リソース使用量のインスタンス:時間経過に伴うリソース待ち中のインスタンス数とリソースグループの使用量を示すチャートです。任意のポイントにマウスを合わせると、その時点の値を確認できます。
終了されたノードインスタンス:実行が停止されたインスタンスの完全な一覧です。
自動再実行の実行記録 には以下が含まれます:
自動再実行されたインスタンス:各再実行インスタンスについて、ノード名、データタイムスタンプ、インスタンスタイプ、ノードタイプ、所有者 などの詳細情報が記載された一覧です。
リソースグループのモニタリング
自動運用・保守(O&M)ルールを作成後、DataWorks は関連付けられたリソースグループのリソース使用量を自動的にモニターします。詳細については、「リソース運用・保守(O&M)」をご参照ください。