自動運用保守 (O&M) は、システムの継続的かつ安定した運用を保証するために DataWorks が提供する高度な機能です。データ障害の処理における以前の緊急対応経験を自動 O&M ルールに構成できます。自動 O&M ルールで指定された条件が満たされると、システムは自動的に O&M 操作を実行します。これにより、夜間のメンテナンスの頻度を減らしながら、サービスの安定性と O&M 効率が向上します。
背景
DataWorks では、自動 O&M 機能は実行中のノードインスタンスの自動終了と自動再実行で構成されます。
実行中のノードインスタンスの自動終了
専用スケジューリングリソースグループで実行されるノードがリソースグループに関するカスタムアラートルールをトリガーした場合、システムは指定された自動 O&M ルールを使用して、ノードに対して生成された特定のインスタンスを終了します。たとえば、専用スケジューリングリソースグループのリソース使用率が 80% に達し、10 分間持続した場合、システムは専用スケジューリングリソースグループ上の優先度 1 と 3 の自動トリガーではないノードインスタンスの実行を自動的に終了します。
自動再実行
ノードは、次のシナリオで自動再実行ルールに基づいて自動的に再実行されます: 1. ノードのステータスが失敗であり、ノードに自動再実行プロパティが構成されていない場合。2. ノードの実行がタイムアウトしたためにノードが失敗した場合。
制限事項
権限の制限: Alibaba Cloud アカウント、AliyunDataWorksFullAccess ポリシーがアタッチされた RAM ユーザー、およびワークスペース管理者のみが自動 O&M ルールを管理できます。
リソースグループの制限:
実行中のノードインスタンスの自動終了に関する自動 O&M ルールは、専用スケジューリングリソースグループで実行されるノードにのみ有効であり、専用スケジューリングリソースグループのリソース使用率に関するアラートルールが構成されているノードに有効です。
自動再実行ルールの作成に関する自動 O&M ルールは、サーバーレスリソースグループで実行されるノードにのみ有効です。
機能の制限:
実行中のノードインスタンスの自動終了に関する複数の自動 O&M ルールを、同じアラートルールに関連付けることができます。
各ワークスペースでは、自動再実行ルールの作成のための自動 O&M ルールは 1 つしか作成できません。
過去 30 日以内に自動 O&M ルールに対して生成された実行レコードを表示できます。
[自動] ページに移動
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[オペレーションセンターへ移動] をクリックします。
左側のナビゲーションウィンドウで、 を選択します。
ルールの作成
ページで、[実行中のインスタンスの終了] と [自動再実行] のための自動 O&M ルールを作成できます。DataWorks は、自動 O&M ルールで指定されたトリガー条件とフィルター条件を満たすノードに対してのみ O&M 操作を実行します。ブラックリストを構成して、O&M 操作を実行したくないノードを除外できます。自動 O&M ルールが有効になるロジックは、ルールで指定された制約に依存します。O&M の要件に基づいて、さまざまな自動 O&M ルールを作成して有効にすることができます。
実行中のインスタンスを終了するルールの作成
[自動 O&M] では、カスタムルールに合致するインスタンスを終了するための自動 O&M 操作を構成できます。サポートされるインスタンスには、定期インスタンス、データバックフィルインスタンス、テストインスタンス、ワンタイムタスクインスタンス、手動トリガーワークフローインスタンスが含まれます。実行中のインスタンスを終了するルールの主な構成パラメーターは次のとおりです:
セクション | パラメーター | 説明 |
トリガー条件 | 関連する監視ルール | 自動 O&M ルールに関連付けるアラートルール。アラートルールがトリガーされると、ノードインスタンスは自動的に終了します。 説明
|
フィルター条件 | ワークスペース | 自動 O&M ルールが適用されるワークスペースの名前。 |
インスタンスタイプ | 自動 O&M ルールが適用されるノードインスタンスのタイプ。 | |
スケジューリング周期 | 自動 O&M ルールが適用されるノードインスタンスのスケジューリング頻度。[インスタンスタイプ] を [定期インスタンス] または [データバックフィルインスタンス] に設定した場合、[スケジューリング周期] パラメーターを構成する必要があります。 | |
優先度 | 自動 O&M ルールが適用されるノードインスタンスの優先度。値が大きいほど、優先度が高くなります。 | |
ステータス | 自動 O&M ルールが適用されるノードインスタンスのステータス。 | |
ブラックリスト | 自動 O&M ルールで指定された条件を満たすが、O&M 操作を実行したくないノード。ノードをブラックリストに追加するには、検索ボックスにノードの名前または ID を入力します。 | |
ルールの制約 | 有効期間 | 自動 O&M ルールが有効な時間範囲。自動 O&M 操作は、自動 O&M ルールで指定された条件が満たされ、有効期間中にルールがトリガーされた場合にのみ実行されます。自動 O&M ルールが有効期間外にトリガーされた場合、ルールで指定された条件が満たされていても、自動 O&M 操作は実行されません。 |
最大有効回数 | 自動 O&M ルールがトリガーされる最大回数。これは、ルールが実行される最大回数です。 説明 自動 O&M ルールが実行されるたびに、システムはトリガー条件が満たされているかどうかをチェックします。トリガー条件が満たされていない場合、自動 O&M ルールは実行されません。 | |
最小有効間隔 | 自動 O&M ルールがトリガーされる最小間隔。 | |
自動再実行ルールの作成
[自動 O&M] では、[トリガー条件] を満たすタスクに対して [自動再実行] を構成できます。自動的に再実行されるインスタンスには、定期インスタンス、データバックフィルインスタンス、テストインスタンス、ワンタイムタスクインスタンス、手動トリガーワークフローインスタンスが含まれます。
インスタンスが定期インスタンスの場合、自動再実行は昨日のデータタイムスタンプを持つインスタンスのみをチェックします。
たとえば、現在の日付が 2025 年 6 月 5 日の場合、2025 年 6 月 4 日のデータタイムスタンプを持つ定期インスタンスのみが、自動再実行のトリガー条件を満たした後に自動的に再実行されます。
インスタンスがデータバックフィルインスタンス、テストインスタンス、ワンタイムタスクインスタンス、または手動トリガーワークフローインスタンスの場合、自動再実行は今日、昨日、および一昨日に作成されたインスタンスをチェックします。
たとえば、現在の日付が 2025 年 6 月 5 日の場合、6 月 5 日、6 月 4 日、および 6 月 3 日に作成されたデータバックフィルインスタンス、テストインスタンス、ワンタイムタスクインスタンス、および手動トリガーワークフローインスタンスは、自動再実行のトリガー条件を満たした後に自動的に再実行されます。
自動再実行ルールの主な構成パラメーターは次のとおりです:
セクション | パラメーター | 説明 |
トリガー条件 | 実行ステータス | 指定されたインスタンスは、次の条件を満たし、実行に失敗した場合に自動的に再実行されます:
|
フィルター条件 | ワークスペース | 自動 O&M ルールが適用されるワークスペースの名前。 |
インスタンスタイプ | 自動 O&M ルールが適用されるノードインスタンスのタイプ。 | |
スケジューリング周期 | 自動 O&M ルールが適用されるノードインスタンスのスケジューリング頻度。[インスタンスタイプ] を [定期インスタンス] または [データバックフィルインスタンス] に設定した場合、[スケジューリング周期] パラメーターを構成できます。 | |
優先度 | 自動 O&M ルールが適用されるノードインスタンスの優先度。値が大きいほど、優先度が高くなります。 | |
ログに含まれるキーワード | ノードインスタンスの操作ログで識別したいキーワード。ノードインスタンスの操作ログにキーワードが含まれている場合、自動再実行ルールが自動的にトリガーされます。 有効な値は 説明 自動再実行ルールは、操作ログに | |
ブラックリスト | ブラックリスト | 自動 O&M ルールで指定された条件を満たすが、O&M 操作を実行したくないノード。ノードをブラックリストに追加するには、検索ボックスにノードの名前または ID を入力します。 |
再実行 | 準備 | ノードがサーバーレスリソースグループで実行されるコンピューティングノードである場合は、[コンピューティングタスクに CU を追加] を選択します。 説明 リソースの競合により他のノードの実行がブロックされるのを防ぐために、再実行ごとに追加される CU の数を指定します。 |
追加する CU | 元のノードインスタンスによって消費される CU に加えて、再実行インスタンスに指定された CU を追加します。追加された CU は、インスタンスの再実行にのみ使用されます。 | |
再実行回数 | 自動再実行がトリガーされる最大回数。有効な値: 1 から 10。単位: 回。 | |
再実行間隔 | 再実行の間隔。有効な値: 3 から 30。単位: 分。 | |
ルールの制約 | 有効期間 | 自動 O&M ルールが有効な時間範囲。自動 O&M 操作は、自動 O&M ルールで指定された条件が満たされ、有効期間中にルールがトリガーされた場合にのみ実行されます。自動 O&M ルールが有効期間外にトリガーされた場合、ルールで指定された条件が満たされていても、自動 O&M 操作は実行されません。 |
ルールの有効化または無効化
デフォルトでは、自動 O&M ルールは作成直後に有効になります。ルールを無効にするには、ルールの [アクション] 列にある
アイコンをクリックします。
その他の操作
ルールの管理
自動 O&M ルールに関する情報を表示する場合は、[ルール管理] タブの自動 O&M ルールリストで目的のルールを見つけ、[アクション] 列の [表示] をクリックします。
自動 O&M ルールの定義を変更する場合は、[ルールを表示] ダイアログボックスの下部にある [変更] をクリックします。
自動 O&M ルールを削除する場合は、自動 O&M ルールリストで目的のルールを見つけ、[アクション] 列の [削除] をクリックします。表示されるダイアログボックスで、[OK] をクリックします。
[ルール管理] ページの左上隅にある検索ボックスに、自動 O&M ルールの名前を入力してルールを検索できます。
ルールの実行レコードの表示
[実行レコード] ページには、ルールが実行された時間、ルールのオーナー、ルールが適用されたノードインスタンスの数など、自動 O&M ルールの実行情報が表示されます。ルールの詳細な実行情報を表示する場合は、ルールの [アクション] 列にある [詳細を表示] をクリックします。
自動 O&M ルールで指定された条件が満たされると、O&M 操作はルールオーナーの ID で実行されます。自動 O&M ルールをトリガーしたノードインスタンスの操作ログで O&M 操作を表示できます。
実行中のノードインスタンスの自動終了に関する自動 O&M ルールの実行レコードには、次の情報が含まれます:
リソースを待機しているインスタンス/リソース使用量: このセクションでは、リソースを待機しているノードインスタンスの数と、目的のリソースグループのリソース使用量を表示するチャートが提供されます。チャート内の点にポインターを合わせると、関連する時点でのリソースを待機しているノードインスタンスの数と、目的のリソースグループのリソース使用量を表示できます。
終了したノードインスタンス: このセクションには、実行が終了したすべてのノードインスタンスが表示されます。
ノードインスタンスの自動再実行に関する自動 O&M ルールの実行レコードには、次の情報が含まれます:
自動的に再実行されるインスタンス: このセクションには、自動的に再実行されるノードインスタンスの数、および各インスタンスの [ノード名]、[データタイムスタンプ]、[インスタンスタイプ]、[ノードタイプ]、[オーナー]、およびその他の情報が表示されます。
リソースグループの監視
自動 O&M ルールを作成すると、システムは自動 O&M ルールで指定されたリソースグループのリソース使用量を自動的に監視します。リソースグループの監視に関する詳細については、「リソース O&M」をご参照ください。