ECS システムイベントは、O&M タスク、リソース例外、ステータス変更 (インスタンスの移行、メンテナンス再起動など) を通知するため、お客様は可用性に影響が及ぶ前に対応できます。
ECS イベントコードと CloudMonitor イベント名の形式
ECS システムイベントは CloudMonitor に同期され、自動化された O&M ワークフローを実現します。イベントコードと CloudMonitor イベント名は、次の形式に従います。
-
ECS イベントコード:
<イベントの原因>.<リソースへの影響> -
CloudMonitor イベント名:
<リソースタイプ>:<イベントの原因>.<リソースへの影響>:<イベントステータス>
すべてのイベントコードに、すべてのフィールドが含まれているわけではありません。例えば、Disk:ErrorDetected:Executingは、ディスクの損傷自体が影響であるため、影響フィールドを省略します。
次の表は、ECS イベントコードと CloudMonitor イベント名の例を示しています。
ECS イベントコードが Undefined の場合、そのイベントは ECS コンソールに表示されず、コンソールまたは OpenAPI では処理できません。
|
カテゴリ |
ECS イベントコードの例 |
CloudMonitor イベント名の例 |
説明 |
|
スケジュールされた O&M イベント |
SystemMaintenance.Reboot |
Instance:SystemMaintenance.Reboot:Inquiring |
|
|
予期しない O&M イベント |
ErrorDetected |
Disk:ErrorDetected:Executing |
|
|
ライフサイクル変更イベント |
CreateSnapshotCompleted |
Snapshot:CreateSnapshotCompleted |
|
定期 O&M イベント
OS 内からインスタンスを再起動しても、メンテナンスアクションは適用されません。本トピックで説明するすべての再起動操作は、ECS コンソールで実行するか、OpenAPI オペレーションを呼び出すことによる再起動を指します。詳細については、「インスタンスの再起動」または「RebootInstance」をご参照ください。
|
イベントコード |
イベント名 |
イベントの重要度レベル |
CloudMonitor イベント名 |
イベントの説明と影響 |
ユーザーへの推奨事項 |
|
SystemMaintenance.Reboot |
システムメンテナンスに伴うインスタンスの再起動 |
クリティカル |
|
Alibaba Cloud が、インスタンスを再起動させる可能性のあるホストの障害リスクを検出した際に送信されます。リスクはまだ実際の障害にはなっていません。このイベントは、スケジュールされたメンテナンスの 24~48 時間前に送信されます。 説明
障害リスクには以下が含まれます。
|
対応オプション:
説明
|
|
SystemMaintenance.Stop |
システムメンテナンスに伴うインスタンスの停止 |
クリティカル |
|
Alibaba Cloud が、インスタンスのシャットダウンにつながる可能性のあるホスト障害リスクを検出した場合、スケジュールされたメンテナンスの 24~48 時間前にこのイベントが送信されます。リスクはまだ実際の障害にはなっていません。 |
対応オプション:
説明
インスタンスのメンテナンスプロパティを変更して、O&M イベントのデフォルトアクションを指定できます。詳細については、「インスタンスのメンテナンスプロパティの変更」をご参照ください。 |
|
SystemMaintenance.Redeploy |
システムメンテナンスに伴うインスタンスの再デプロイ |
クリティカル |
|
Alibaba Cloud が、インスタンスの再デプロイが必要になる可能性のあるホスト障害リスクを検出した場合、スケジュールされたメンテナンスの 24~48 時間前にこのイベントが送信されます。リスクはまだ実際の障害にはなっていません。 重要
ローカル SSD またはローカル HDD を使用するインスタンスの場合、データディスクが再初期化され、ローカルディスク上のデータは消去されます。 |
データをバックアップし、/etc/fstab を変更します。その後、必要に応じて対応してください。
説明
|
|
SystemMaintenance.IsolateErrorDisk |
システムメンテナンスに伴う破損したディスクの隔離 |
クリティカル |
|
Alibaba Cloud が ECS インスタンスのローカルディスクにソフトウェアまたはハードウェアの破損を検出した際、直ちに送信されます。 重要
破損したローカルディスクを処理する手順は、インスタンスタイプによって異なります。一部のインスタンスタイプでは、破損したディスクを隔離するためにインスタンスを再起動する必要があります。他のインスタンスタイプでは、破損したディスクをオンラインで隔離して修復できます。 |
データをバックアップし、/etc/fstab を変更します。その後、適切な時間にディスクの隔離を承認してください。ディスクはインスタンスを再起動せずにオンラインで隔離されます。 説明
詳細については、「ローカルディスクを搭載したインスタンスのシナリオ ③」をご参照ください。 |
|
SystemMaintenance.ReInitErrorDisk |
システムメンテナンスに伴う破損したディスクの再初期化 |
クリティカル |
|
Alibaba Cloud がローカルディスクにソフトウェアまたはハードウェアの破損を検出し、ディスクを交換した後、直ちに送信されます。これは通常、ディスクの隔離を承認してから 5 営業日以内に発生します。 重要
破損したローカルディスクを処理する手順は、インスタンスタイプによって異なります。一部のインスタンスタイプでは、破損したディスクを隔離するためにインスタンスを再起動する必要があります。他のインスタンスタイプでは、破損したディスクをオンラインで隔離して修復できます。 |
適切な時間にディスクの復元を承認してください。ディスクはインスタンスを再起動せずにオンラインで復元されます。 説明
詳細については、「ローカルディスクを搭載したインスタンスのシナリオ ③」をご参照ください。 |
|
SystemMaintenance.RebootAndIsolateErrorDisk |
システムメンテナンスに伴うインスタンスの再起動と破損したディスクの隔離 |
クリティカル |
|
Alibaba Cloud がローカルディスクにソフトウェアまたはハードウェアの破損を検出し、ディスクをオンラインで隔離できなかった際、直ちに送信されます。 重要
破損したローカルディスクを処理する手順は、インスタンスタイプによって異なります。一部のインスタンスタイプでは、破損したディスクを隔離するためにインスタンスを再起動する必要があります。他のインスタンスタイプでは、破損したディスクをオンラインで隔離して修復できます。 |
適切な時間にディスクの隔離を承認し、インスタンスを再起動してください。ディスクはオフラインで隔離されるため、再起動が必要です。 説明
詳細については、「ローカルディスクを搭載したインスタンスのシナリオ ③」をご参照ください。 |
|
SystemMaintenance.RebootAndReInitErrorDisk |
システムメンテナンスに伴うインスタンスの再起動と破損したディスクの再初期化 |
クリティカル |
|
Alibaba Cloud がローカルディスクにソフトウェアまたはハードウェアの破損を検出し、ディスクをオンラインで復元できなかった際、直ちに送信されます。 重要
破損したローカルディスクを処理する手順は、インスタンスタイプによって異なります。一部のインスタンスタイプでは、破損したディスクを隔離するためにインスタンスを再起動する必要があります。他のインスタンスタイプでは、破損したディスクをオンラインで隔離して修復できます。 |
適切な時間にディスクの復元を承認し、インスタンスを再起動してください。ディスクはオフラインで復元されるため、再起動が必要です。 説明
詳細については、「ローカルディスクを搭載したインスタンスのシナリオ ③」をご参照ください。 |
|
SystemMaintenance.StopAndRepair |
ローカルディスクを搭載したインスタンスのインプレース修復イベント |
クリティカル |
|
Alibaba Cloud がホスト上のハードウェア障害リスクを検出した際、スケジュールされたメンテナンスの 48~168 時間前に送信されます。 |
適切な時間に、ローカルディスクを搭載したインスタンスの修復または再デプロイを承認してください。 説明
詳細については、「ローカルディスクを搭載したインスタンスの O&M シナリオとシステムイベント」をご参照ください。 |
|
SystemMaintenance.CleanReleasedDisks |
EBS ホットプラグ失敗後のクリーンアップイベント |
警告 |
|
Alibaba Cloud が ECS インスタンスの OS 内に、リリースされたクラウドディスク (料金滞納によりリリースされた) の設定情報を検出した際に送信されます。 |
適切な時間に、Alibaba Cloud によるリリース済みクラウドディスクの設定情報のクリアを承認してください。 重要
Alibaba Cloud は、お客様が指定した時間にインスタンスをシャットダウンし、ディスクをクリーンアップした後、インスタンスを再度起動します。 |
予期しない O&M イベント
|
イベントコード |
イベント名 |
イベントの重大度レベル |
Cloud Monitor イベント名 |
イベントの説明と影響 |
対処方法 |
|
SystemFailure.Reboot |
システムエラーによるインスタンスの再起動 |
クリティカル |
|
ECS インスタンスが、ホスト上で発生した予期しないソフトウェアまたはハードウェアの障害が原因で再起動しました。一般的な原因は次のとおりです。
|
インスタンスが自動的に再起動するのをお待ちください。その後、インスタンスとそのアプリケーションが正常に動作することを確認してください。 再起動中に、Alibaba Cloud はインスタンスを正常なホストに移行します。 説明
インスタンスのメンテナンスプロパティを変更して、O&M イベントのデフォルトアクションを指定できます。詳細については、「インスタンスのメンテナンスプロパティの変更」をご参照ください。 |
|
InstanceFailure.Reboot |
オペレーティングシステムエラーによるインスタンスの再起動 |
クリティカル |
|
メモリ不足 (OOM) エラー、ブルー スクリーン、フリーズ、継続的なシリアルポートのログ出力、カーネルパニックなどの内部 OS の問題により ECS インスタンスがダウンしたことを Alibaba Cloud が検出した場合に、ただちに送信されます。 |
インスタンスが自動的に再起動するのをお待ちください。その後、インスタンスとそのアプリケーションが正常に動作することを確認してください。 オペレーティングシステムの Kdump サービスを有効にして、クラッシュの原因を特定し、同様の問題の再発を防ぐことができます。詳細については、「Linux インスタンスの Kdump サービスの有効化」または「Windows インスタンスのカーネルメモリダンプの有効化」をご参照ください。 |
|
SystemFailure.Stop |
システムエラーによるインスタンスの停止 |
クリティカル |
|
CPU やメモリのハードウェア損傷などのホスト障害により ECS インスタンスがシャットダウンしたことを Alibaba Cloud が検出した場合に、ただちに送信されます。 |
インスタンスが停止するのを待ってから、インスタンスを起動してください。 インスタンスを起動すると、Alibaba Cloud はインスタンスを正常なホストに移行します。 説明
インスタンスのメンテナンスプロパティを変更して、O&M イベントのデフォルトアクションを指定できます。詳細については、「インスタンスのメンテナンスプロパティの変更」をご参照ください。 |
|
SystemFailure.Redeploy |
システムエラーによるインスタンスの再デプロイ |
クリティカル |
|
ホスト障害によりローカルディスクを持つインスタンスの再デプロイが必要になったと Alibaba Cloud が検出した場合に、ただちに送信されます。 説明
このタイプのイベントは、ローカルディスクがアタッチされているインスタンスや、SGX ベースのコンフィデンシャルコンピューティングをサポートするインスタンスなど、ホストハードウェアに依存するインスタンスでのみサポートされます。 |
データをバックアップし、/etc/fstab を変更します。その後、必要に応じて対応してください。
説明
インスタンスのメンテナンスプロパティを変更して、O&M イベントのデフォルトアクションを指定できます。詳細については、「インスタンスのメンテナンスプロパティの変更」をご参照ください。 |
|
SystemFailure.Delete |
インスタンス作成の失敗による請求の自動キャンセル |
クリティカル |
|
インスタンス作成の注文は成功したものの、インスタンスの作成に失敗した場合に、ただちに送信されます。 |
システムがインスタンスをリリースするのをお待ちください。インスタンスは通常、作成失敗後 5 分以内にリリースされます。 説明
注文の支払いがお済みの場合は、インスタンスがリリースされた後に返金されます。 インスタンス作成の成功率を高めるには、次のようにします。
|
|
ErrorDetected |
ローカルディスクの損傷に関するアラート |
クリティカル |
|
ローカルディスクで読み書きを妨げる予期しないソフトウェアまたはハードウェアの損傷を Alibaba Cloud が検出した場合に、ただちに送信されます。 |
データをバックアップし、/etc/fstab を変更します。その後、適切なタイミングで損傷したディスクを隔離し、復元してください。 サポートされる操作はインスタンスタイプによって異なります。
説明
詳細については、「ローカルディスクを持つインスタンスのシナリオ ③」をご参照ください。 |
|
Stalled |
ディスクパフォーマンスに深刻な影響あり |
クリティカル |
|
Alibaba Cloud が、ECS インスタンスにアタッチされたクラウドディスクで I/O ハングを検出し、それがディスクパフォーマンスに深刻な影響を与え、読み書きを妨げている場合に、ただちに送信されます。 |
アプリケーション層でクラウドディスクの読み書き操作を隔離するか、一時的にインスタンスを SLB から削除してください。 |
基盤アップグレードに伴うインスタンス移行イベント
|
イベントコード |
イベント名 |
イベントの重大度レベル |
Cloud Monitor イベント名 |
イベントの説明と影響 |
対処方法 |
|
SystemUpgrade.Migrate |
基盤アップグレードに伴うインスタンス移行 |
クリティカル |
未定義 |
Alibaba Cloud が物理インフラストラクチャをアップグレードする際、影響を受けるリージョンおよびゾーンのインスタンスは移行が必要になる場合があります。このイベントは事前に送信されます。 |
ECS コンソールでイベントの詳細を表示し、プロンプトに従ってインスタンスを移行してください。「基盤アップグレードに伴うインスタンス移行」をご参照ください。 |
バーストパフォーマンスインスタンスのパフォーマンス制限イベント
|
イベントコード |
イベント名 |
イベントの重要度 |
CloudMonitor イベント名 |
イベントの説明と影響 |
推奨される対応 |
|
Instance:BurstablePerformanceRestricted |
バーストパフォーマンスインスタンスのパフォーマンスが制限されています |
警告 |
Instance:BurstablePerformanceRestricted:バーストパフォーマンスインスタンスのパフォーマンスが制限されています |
バーストパフォーマンスインスタンスで蓄積された CPU クレジットが枯渇した場合に、ただちに送信されます。 |
対応オプション:
通知のしきい値をカスタマイズする (たとえば、CPU クレジットが 10 分間連続して 10 未満になった場合にアラートを発生させる) には、CloudMonitor でしきい値ベースのアラートルールを設定してください。詳細については、「バーストパフォーマンスインスタンスの監視」をご参照ください。 |
状態変更イベント
|
イベントコード |
イベント名 |
イベントの重大度レベル |
CloudMonitor イベント名 |
イベントの説明と影響 |
推奨される対応 |
|
Instance:PreemptibleInstanceInterruption |
スポットインスタンスの中断通知 |
警告 |
Instance:PreemptibleInstanceInterruption : スポットインスタンスの中断通知 |
スポットインスタンスが回収される 5 分前に送信されます。 |
推奨事項:
|
|
Instance:ModifyInstanceSpec.Reboot |
インスタンスタイプ変更を有効にするためのインスタンス再起動 |
クリティカル |
|
インスタンスタイプの変更後、新しい構成を適用するためにインスタンスを再起動する必要があります。7 日以内に再起動しない場合、システムがインスタンスを強制再起動します。 |
推奨事項:
|
|
Instance:PerformanceModeChange |
バースト可能インスタンスのパフォーマンスモード切り替え |
警告 |
Instance:PerformanceModeChange : バースト可能インスタンスのパフォーマンスモード切り替え |
バースト可能インスタンスが無制限モードと標準モードの間で切り替わると生成されます。 |
このイベントの通知を受け取るには、CloudMonitor でシステムイベント通知をサブスクライブしてください。 |
|
Instance:StateChange |
インスタンスステータス変更通知 |
情報 |
Instance:StateChange : インスタンスステータス変更通知 |
インスタンスステータスが変更されると生成されます。例えば、実行中から停止中へ、または停止中から停止済みへの変更などです。 |
このイベントの通知を受け取るには、CloudMonitor でシステムイベント通知をサブスクライブしてください。 |
|
Instance:AutoReactivateCompleted |
自動再アクティブ化の完了 |
情報 |
Instance:AutoReactivateCompleted : 自動再アクティブ化が完了 |
延滞料金を支払い、インスタンスが自動的に起動されると生成されます。 |
このイベントの通知を受け取るには、CloudMonitor でシステムイベント通知をサブスクライブしてください。 |
|
Instance:LiveMigrationAcrossDDH |
専有ホスト間でのインスタンスのライブマイグレーション |
情報 |
Instance:LiveMigrationAcrossDDH : 専有ホスト間でのインスタンスのライブマイグレーション |
インスタンスがライブマイグレーションされると生成されます。 |
このイベントの通知を受け取るには、CloudMonitor でシステムイベント通知をサブスクライブしてください。 |
|
Disk:DiskOperationCompleted |
ディスク操作の完了 |
情報 |
Disk:DiskOperationCompleted : ディスク操作の完了 |
従量課金ディスクが手動でアタッチまたはデタッチされると生成されます。 |
このイベントの通知を受け取るには、CloudMonitor でシステムイベント通知をサブスクライブしてください。 |
|
Disk:ConvertToPostpaidCompleted |
ディスクの従量課金への変換完了 |
情報 |
Disk:ConvertToPostpaidCompleted : ディスクが従量課金に変換された |
サブスクリプションディスクが従量課金に変換されると生成されます。 |
このイベントの通知を受け取るには、CloudMonitor でシステムイベント通知をサブスクライブしてください。 |
|
Snapshot:CreateSnapshotCompleted |
ディスクスナップショットの作成完了 |
情報 |
Snapshot:CreateSnapshotCompleted : ディスクスナップショットが作成された |
ディスクスナップショットが作成されると生成されます。 |
このイベントの通知を受け取るには、CloudMonitor でシステムイベント通知をサブスクライブしてください。 |
|
Snapshot:SnapshotDeleted |
スナップショット削除完了イベント |
情報 |
Snapshot:SnapshotDeleted : スナップショット削除完了イベント |
手動スナップショットまたは自動スナップショットが削除されると生成されます。 |
なし |
インスタンスパフォーマンスリスクイベント
|
イベントコード |
イベント名 |
イベントの重要度 |
Cloud Monitor イベント名 |
イベントの説明と影響 |
推奨される対応 |
|
Instance:CPUPerformanceReachLimit |
インスタンスの CPU パフォーマンスがインスタンスタイプの上限に達する |
警告 |
Instance:CPUPerformanceReachLimit:Executed:インスタンスの CPU パフォーマンスがインスタンスタイプの上限に達しました |
Alibaba Cloud は、インスタンスの CPU 使用率が 100% またはインスタンスタイプの上限に達したことを検出します。 説明
このイベントは、インスタンスタイプに定義された CPU 上限に過去 3 分以内に 2 回達した場合に送信されます。 |
CPU 使用率がインスタンスタイプの上限に達した状態が続くと、ビジネスに影響を与える可能性があります。必要に応じて設定を調整してください。「インスタンスの問題の検出とトラブルシューティング」をご参照ください。 |
|
Instance:StoragePerformanceReachLimit |
インスタンスのストレージパフォーマンスがインスタンスタイプの上限に達する |
警告 |
Instance:StoragePerformanceReachLimit:Executed:インスタンスのストレージパフォーマンスがインスタンスタイプの上限に達しました |
Alibaba Cloud は、インスタンスのディスク帯域幅または IOPS がインスタンスタイプの上限に達したことを検出します。例:
説明
このイベントは、第 6 世代より前の ECS インスタンスではサポートされていません。このイベントは、インスタンスタイプに定義されたストレージパフォーマンスの上限に過去 3 分以内に 2 回達した場合に送信されます。 |
ストレージパフォーマンスがインスタンスタイプの上限に達した状態が続くと、ビジネスに影響を与える可能性があります。必要に応じて設定を調整してください。「インスタンスの問題の検出とトラブルシューティング」をご参照ください。 |
|
Instance:NetworkPerformanceReachLimit |
インスタンスのネットワークパフォーマンスがインスタンスタイプの上限に達する |
警告 |
Instance:NetworkPerformanceReachLimit:Executed:インスタンスのネットワークパフォーマンスがインスタンスタイプの上限に達しました |
Alibaba Cloud は、インスタンスのネットワークパフォーマンスがインスタンスタイプの上限に達したことを検出します。例:
説明
このイベントは、インスタンスタイプに定義されたネットワークパフォーマンスの上限に過去 3 分以内に 2 回達した場合に送信されます。 |
ネットワークパフォーマンスがインスタンスタイプの上限に達した状態が続くと、ビジネスに影響を与える可能性があります。必要に応じて設定を調整してください。「インスタンスの問題の検出とトラブルシューティング」をご参照ください。 |
|
Instance:StatusCheckFailed |
インスタンスのステータスチェックの失敗 |
警告 |
|
Alibaba Cloud は、インスタンスの接続例外を検出します。例:
|
接続例外が検出されました。速やかにトラブルシューティングを行ってください。「ネットワーク接続の診断」をご参照ください。 |