システムイベントは、O&M タスクの実行、リソースの例外、リソースの状態変更など、クラウドリソース情報を記録し、通知するために使用されます。 システムイベントを使用すると、Elastic Compute Service (ECS) リソースのリスクと異常に関する情報を取得できます。たとえば基盤のアップグレードのためにインスタンスを移行する必要がある場合、またはシステムメンテナンスのためにインスタンスを再起動する場合に、システムイベントが生成されます。 システムイベントにできるだけ早く対応して処理することで、ECS リソースの可用性低下やパフォーマンス低下によるビジネスへの影響を防ぐことができます。 このトピックでは、定期 O&M イベント、予期しない O&M イベント、インスタンスの請求イベント、インスタンスの状態変更イベントなど、ECS でサポートされているシステムイベントの概要について説明します。 また、システムイベントの処理方法についても提案します。
ECS イベントコードと CloudMonitor イベント名の形式
ECS システムイベントは CloudMonitor と同期されます。 これにより、システムイベントに基づいて自動 O&M メカニズムを設定できます。 ECS イベントコードと CloudMonitor イベントは、特定の命名規則に従います。
ECS イベントコードは、イベントの原因とリソースへの影響を示し、
<Event cause>.<Event impact>
形式です。CloudMonitor イベント名は、リソースタイプ、イベントの原因、リソースへのイベントの影響、イベントの状態を示し、
<Resource type>:<Event cause>.<Event impact>:<Event status>
形式です。
ECS イベントコードと CloudMonitor イベント名には、上記の情報の一部のみが含まれる場合があります。 たとえば、Disk:ErrorDetected:Executing
という CloudMonitor イベント名は、ディスクが破損していることを示し、リソースへの影響に関する情報は除外されています。
次の表に、ECS イベントコードと CloudMonitor イベント名の例をいくつか示します。
未定義の ECS イベントコードは、ECS イベントが [ECS コンソール] に表示されず、[ECS コンソール] で、または API オペレーションを呼び出すことによって処理できないことを示します。
カテゴリ | ECS イベントコードの例 | CloudMonitor イベント名の例 | 説明 |
定期 O&M イベント | SystemMaintenance.Reboot | Instance:SystemMaintenance.Reboot:Inquiring |
|
予期しない O&M イベント | ErrorDetected | Disk:ErrorDetected:Executing |
|
ライフサイクル状態変更イベント | Snapshot:CreateSnapshotCompleted | Snapshot:CreateSnapshotCompleted |
|
定期 O&M イベント
システムイベントが発生したインスタンスのオペレーティングシステム内で再起動操作を実行した場合、イベントに対応するメンテナンス操作は有効になりません。 このトピックのすべてのインスタンス再起動操作は、[ECS コンソール] で、または API オペレーションを呼び出すことによって実行されます。 詳細については、「インスタンスを再起動する」または「RebootInstance」をご参照ください。
イベントコード | イベント名 | イベントの重大度レベル | CloudMonitor イベント名 | イベントの説明と影響 | 処理に関する推奨事項 |
SystemMaintenance.Reboot | システムメンテナンスによるインスタンスの再起動 | 致命的 |
| このシステムイベントは、Alibaba Cloud がインスタンスの基盤となるホストのハードウェアまたはソフトウェアの障害の潜在的なリスクを検出し、そのリスクがインスタンスの再起動を引き起こす可能性がある場合、システムメンテナンスの予定時刻の 24 ~ 48 時間前にトリガーされます。 説明 以下のリスクに注意してください。
| イベントを処理するために、次のいずれかの操作を実行することをお勧めします。
説明
|
SystemMaintenance.Stop | システムメンテナンスによるインスタンスの停止 | 致命的 |
| このシステムイベントは、Alibaba Cloud がインスタンスの基盤となるホストのハードウェアまたはソフトウェアの障害の潜在的なリスクを検出し、そのリスクがインスタンスの停止を引き起こす可能性がある場合、システムメンテナンスの予定時刻の 24 ~ 48 時間前にトリガーされます。 | イベントを処理するために、次のいずれかの操作を実行することをお勧めします。
説明 インスタンスのメンテナンス属性を変更して、インスタンスで O&M イベントが発生したときに実行するデフォルトのアクションを指定できます。 詳細については、「インスタンスのメンテナンス属性を変更する」をご参照ください。 |
SystemMaintenance.Redeploy | システムメンテナンスによるインスタンスの再デプロイ | 致命的 |
| このシステムイベントは、Alibaba Cloud がインスタンスの基盤となるホストのハードウェアまたはソフトウェアの障害の潜在的なリスクを検出し、そのリスクがインスタンスの再デプロイを引き起こす可能性がある場合、システムメンテナンスの予定時刻の 24 ~ 48 時間前にトリガーされます。 重要 インスタンスにローカル SSD またはローカル HDD が搭載されている場合、インスタンス上のデータディスクは再初期化され、ローカルディスクに保存されているデータは消去されます。 | /etc/fstab 構成 ファイルの変更やデータのバックアップなどの準備を行ってから、次のいずれかの操作を実行してイベントを処理することをお勧めします。
説明
|
SystemMaintenance.IsolateErrorDisk | システムメンテナンスによる破損ディスクの隔離 | 致命的 |
| このシステムイベントは、Alibaba Cloud がインスタンスのローカルディスクのハードウェアまたはソフトウェアの破損を検出したときにすぐにトリガーされます。 重要 インスタンスの破損したローカルディスクを処理する手順は、インスタンスタイプによって異なります。 特定のインスタンスタイプでは、インスタンスを再起動し、破損したローカルディスクを隔離する必要があります。 その他のインスタンスタイプでは、破損したローカルディスクをオンラインで隔離してから修復できます。 | /etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を行い、損傷したディスクを隔離することを承認する適切な時点を選択することをお勧めします。その後、関連付けられているインスタンスを再起動する必要なく、ローカルディスクはオンラインで隔離されます。 説明 詳細については、「インスタンスの O&M シナリオとシステムイベント equipped with local disks」トピックの「シナリオ ③」セクションをご参照ください。 |
SystemMaintenance.ReInitErrorDisk | システムメンテナンスによる破損ディスクの再初期化 | 致命的 |
| このシステムイベントは、Alibaba Cloud がインスタンスのホストのローカルディスクのハードウェアまたはソフトウェアの破損を検出した後、ローカルディスクを隔離して交換したときにすぐにトリガーされます。 ほとんどの場合、Alibaba Cloud は、ローカルディスクの隔離を承認してから 5 営業日以内に、破損したローカルディスクを隔離して交換します。 重要 インスタンスの破損したローカルディスクを処理する手順は、インスタンスタイプによって異なります。 特定のインスタンスタイプでは、インスタンスを再起動し、破損したローカルディスクを隔離する必要があります。 その他のインスタンスタイプでは、破損したローカルディスクをオンラインで隔離してから修復できます。 | 適切な時点を選択して、ローカルディスクの修復を承認することをお勧めします。 その後、関連付けられているインスタンスを再起動する必要なく、ローカルディスクはオンラインで修復されます。 説明 詳細については、「インスタンスの O&M シナリオとシステムイベント equipped with local disks」トピックの「シナリオ ③」セクションをご参照ください。 |
SystemMaintenance.RebootAndIsolateErrorDisk | システムメンテナンスによる破損ディスクの隔離とインスタンスの再起動 | 致命的 |
| このシステムイベントは、Alibaba Cloud がインスタンスのローカルディスクのハードウェアまたはソフトウェアの破損を検出し、ローカルディスクをオンラインで隔離できなかったときにすぐにトリガーされます。 重要 インスタンスの破損したローカルディスクを処理する手順は、インスタンスタイプによって異なります。 特定のインスタンスタイプでは、インスタンスを再起動し、破損したローカルディスクを隔離する必要があります。 その他のインスタンスタイプでは、破損したローカルディスクをオンラインで隔離してから修復できます。 | 適切な時点を選択して、破損したディスクの隔離を承認し、ディスクが隔離された後に関連付けられているインスタンスを再起動することをお勧めします。 この場合、ローカルディスクはオフラインで隔離されます。 隔離操作を有効にするには、関連付けられているインスタンスを再起動する必要があります。 説明 詳細については、「インスタンスの O&M シナリオとシステムイベント equipped with local disks」トピックの「シナリオ ③」セクションをご参照ください。 |
SystemMaintenance.RebootAndReInitErrorDisk | システムメンテナンスによる破損ディスクの再初期化とインスタンスの再起動 | 致命的 |
| このシステムイベントは、Alibaba Cloud がインスタンスのローカルディスクのハードウェアまたはソフトウェアの破損を検出し、ローカルディスクをオンラインで修復できなかったときにすぐにトリガーされます。 重要 インスタンスの破損したローカルディスクを処理する手順は、インスタンスタイプによって異なります。 特定のインスタンスタイプでは、インスタンスを再起動し、破損したローカルディスクを隔離する必要があります。 その他のインスタンスタイプでは、破損したローカルディスクをオンラインで隔離してから修復できます。 | 適切な時点を選択して、ローカルディスクの修復を承認し、ディスクが修復された後に関連付けられているインスタンスを再起動することをお勧めします。 この場合、ローカルディスクはオフラインで修復されます。 復元操作を有効にするには、関連付けられているインスタンスを再起動する必要があります。 説明 詳細については、「インスタンスの O&M シナリオとシステムイベント equipped with local disks」トピックの「シナリオ ③」セクションをご参照ください。 |
SystemMaintenance.StopAndRepair | ローカルディスクを搭載したインスタンスのインプレース修復 | 致命的 |
| このシステムイベントは、Alibaba Cloud がインスタンスの基盤となるホストのハードウェア障害のリスクを検出したときに、システムメンテナンスの予定時刻の 48 ~ 168 時間前にトリガーされます。 | 適切な時点を選択して、ローカルディスクを搭載したインスタンスの修復または再デプロイを Alibaba Cloud に承認することをお勧めします。 説明 詳細については、「ローカルディスクを搭載したインスタンスの O&M シナリオとシステムイベント」をご参照ください。 |
SystemMaintenance.CleanReleasedDisks | EBS ディスクのホットスワップ失敗後のディスククリーンアップ | 警告 |
| このシステムイベントは、Alibaba Cloud が、インスタンスのオペレーティングシステムで支払い遅延のために解放された 1 つ以上のクラウドディスクの構成を検出したときにトリガーされます。 | 適切な時点を選択して、解放されたクラウドディスクの構成をクリアすることを Alibaba Cloud に承認することをお勧めします。 重要 Alibaba Cloud は、指定された時点でインスタンスを停止し、クラウドディスクの構成をクリアします。 クラウドディスクの構成がクリアされると、インスタンスが再起動されます。 |
予期しない O&M イベント
イベントコード | イベント名 | イベントの重大度レベル | CloudMonitor イベント名 | イベントの説明と影響 | 処理に関する推奨事項 |
SystemFailure.Reboot | システムエラーによるインスタンスの再起動 | 致命的 |
| このシステムイベントは、CPU やメモリのハードウェアの破損など、基盤となるホストのハードウェアまたはソフトウェアの障害が原因でインスタンスが再起動されたことを Alibaba Cloud が検出したときにすぐにトリガーされます。 | インスタンスが自動的に再起動されるまで待ってから、インスタンスとアプリケーションが期待どおりに動作するかどうかを確認することをお勧めします。 インスタンスが再起動されている間、Alibaba Cloud はインスタンスを正常なホストに移行します。 説明 インスタンスのメンテナンス属性を変更して、インスタンスで O&M イベントが発生したときに実行するデフォルトのアクションを指定できます。 詳細については、「インスタンスのメンテナンス属性を変更する」をご参照ください。 |
InstanceFailure.Reboot | OS エラーによるインスタンスの再起動 | 致命的 |
| このシステムイベントは、メモリ不足 (OOM)、ブルースクリーン、フリーズ、シリアルポートログの連続印刷、カーネルパニックなどの問題が原因でインスタンスのオペレーティングシステムがダウンしたことを Alibaba Cloud が検出したときにすぐにトリガーされます。 | インスタンスが自動的に再起動されるまで待ってから、インスタンスとアプリケーションが期待どおりに動作するかどうかを確認することをお勧めします。 オペレーティングシステムの kdump サービスを有効にして、問題のトラブルシューティングを行い、問題の再発を防ぐことができます。 詳細については、「Linux インスタンスの Kdump サービスを有効にする方法」および「Windows インスタンスのカーネルメモリダンプ機能を有効にする」をご参照ください。 |
SystemFailure.Stop | システムエラーによるインスタンスの停止 | 致命的 |
| このシステムイベントは、CPU やメモリのハードウェアの破損など、基盤となるホストのハードウェアまたはソフトウェアの障害が原因でインスタンスが停止されたことを Alibaba Cloud が検出したときにすぐにトリガーされます。 | インスタンスが自動的に再起動されるまで待ってから、インスタンスを起動することをお勧めします。 インスタンスが起動されている間、Alibaba Cloud はインスタンスを正常なホストに移行します。 説明 インスタンスのメンテナンス属性を変更して、インスタンスで O&M イベントが発生したときに実行するデフォルトのアクションを指定できます。 詳細については、「インスタンスのメンテナンス属性を変更する」をご参照ください。 |
SystemFailure.Redeploy | システムエラーによるインスタンスの再デプロイ | 致命的 |
| このシステムイベントは、ローカルディスクを搭載したインスタンスの基盤となるホストのハードウェアまたはソフトウェアの障害を Alibaba Cloud が検出し、インスタンスを再デプロイする必要があるときにすぐにトリガーされます。 説明 ローカルディスクを搭載しているインスタンスや、Software Guard Extensions (SGX) 機密コンピューティングをサポートしているインスタンスなど、ホストハードウェアに依存するインスタンスのみがこのイベントをサポートしています。 | /etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を行い、イベントを処理するために、次のいずれかの操作を実行することをお勧めします。
説明 インスタンスのメンテナンス属性を変更して、インスタンスで O&M イベントが発生したときに実行するデフォルトのアクションを指定できます。 詳細については、「インスタンスのメンテナンス属性を変更する」をご参照ください。 |
SystemFailure.Delete | インスタンス作成エラーによる請求の自動キャンセル | 致命的 |
| このシステムイベントは、インスタンス作成注文が行われたが、インスタンスの作成に失敗したことを Alibaba Cloud が検出したときにすぐにトリガーされます。 | インスタンスが自動的に解放されるまで待つことをお勧めします。 ほとんどの場合、インスタンスは作成に失敗してから 5 分以内に自動的に解放されます。 説明 注文の支払いが済んでいる場合、インスタンスが解放された後に支払いが払い戻されます。 インスタンスを作成できるようにするには、次の操作を実行することをお勧めします。
|
ErrorDetected | ローカルディスクの破損 | 致命的 |
| このシステムイベントは、Alibaba Cloud がインスタンスのローカルディスクのハードウェアまたはソフトウェアの障害を検出し、ディスクからデータを読み取ったり、ディスクにデータを書き込んだりできないときにすぐにトリガーされます。 | /etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を行うことをお勧めします。その後、破損したローカルディスクを隔離および修復する時点を選択します。 サポートされている操作は、インスタンスタイプによって異なります。
説明 詳細については、「インスタンスの O&M シナリオとシステムイベント equipped with local disks」トピックの「シナリオ ③」セクションをご参照ください。 |
Stalled | ブロックストレージのパフォーマンスへの重大な影響 | 致命的 |
| このシステムイベントは、インスタンスのクラウドディスクで I/O ハングが発生したことを Alibaba Cloud が検出したときにすぐにトリガーされます。 これはディスクのパフォーマンスに大きな影響を与え、ディスクが読み取りおよび書き込みリクエストを処理できなくなります。 | アプリケーション層でクラウドディスクの読み取りと書き込みを分離するか、関連付けられている Server Load Balancer (SLB) インスタンスから ECS インスタンスの関連付けを解除することをお勧めします。 |
基盤レイヤーでのアップグレードによるインスタンス移行イベント
イベントコード | イベント名 | イベントの重大度レベル | CloudMonitor イベント名 | イベントの説明と影響 | 処理に関する推奨事項 |
SystemUpgrade.Migrate | 基盤レイヤーでのアップグレードによるインスタンス移行 | 致命的 | 未定義 | このシステムイベントは、インスタンスが存在するリージョンとゾーンの物理インフラストラクチャのアップグレードと改善の影響を受けるインスタンスがある場合にトリガーされます。 | [ECS コンソール] でイベントの詳細を表示し、プロンプトに従って影響を受けるインスタンスを移行することをお勧めします。 詳細については、「基盤レイヤーでのアップグレードによるインスタンス移行」をご参照ください。 |
バースト可能インスタンスのパフォーマンス低下イベント
イベントコード | イベント名 | イベントの重大度レベル | CloudMonitor イベント名 | イベントの説明と影響 | 処理に関する推奨事項 |
Instance:BurstablePerformanceRestricted | バースト可能インスタンスのパフォーマンス低下 | 警告 | Instance:BurstablePerformanceRestricted | このシステムイベントは、バースト可能インスタンスの蓄積された CPU クレジットがすべて消費されたときにトリガーされます。 | イベントを処理するために、次のいずれかの操作を実行することをお勧めします。
このイベントに関する通知をトリガーするためのしきい値を指定する場合 (たとえば、蓄積された CPU クレジットが 10 分連続で 10 未満になったときにイベント通知を送信する場合など)、[CloudMonitor コンソール] でイベントトリガーアラートルールを構成できます。 詳細については、「バースト可能インスタンスを監視する」をご参照ください。 |
状態変更イベント
イベントコード | イベント名 | イベントの重大度レベル | CloudMonitor イベント名 | イベントの説明と影響 | 処理に関する推奨事項 |
Instance:PreemptibleInstanceInterruption | プリエンプティブルインスタンスの中断 | 警告 | Instance:PreemptibleInstanceInterruption | このシステムイベントは、プリエンプティブルインスタンスが解放される 5 分前にトリガーされます。 | 次のいずれかの操作を実行することをお勧めします。
|
Instance:ModifyInstanceSpec.Reboot | インスタンスタイプの変更によるインスタンスの再起動 | 致命的 |
| インスタンスのインスタンスタイプを変更した後、新しいインスタンスタイプを有効にするには、インスタンスを再起動します。 新しい注文が有効になってから 7 日以内にインスタンスを再起動しない場合、システムは新しいインスタンスタイプを有効にするためにインスタンスを強制的に再起動します。 | 次のいずれかの操作を実行することをお勧めします。
|
Instance:PerformanceModeChange | バースト可能インスタンスのパフォーマンスモードの切り替え | 警告 | Instance:PerformanceModeChange | このシステムイベントは、バースト可能インスタンスが無制限モードと標準モードを切り替えたときにトリガーされます。 | イベントを監視するかどうかを判断することをお勧めします。 イベントを監視する場合は、[CloudMonitor コンソール] でイベントの通知を構成できます。 詳細については、「ECS システムイベント通知をサブスクライブする」をご参照ください。 |
Instance:StateChange | インスタンスの状態変更 | 通知 | Instance:StateChange | このシステムイベントは、インスタンスの状態が変更されたときにトリガーされます (例:実行中から停止中、または停止中から停止済み)。 | イベントを監視するかどうかを判断することをお勧めします。 イベントを監視する場合は、[CloudMonitor コンソール] でイベントの通知を構成できます。 詳細については、「ECS システムイベント通知をサブスクライブする」をご参照ください。 |
Instance:AutoReactivateCompleted | 自動再アクティブ化完了 | 通知 | Instance:AutoReactivateCompleted | このシステムイベントは、アカウントの支払い遅延を完了し、インスタンスが自動的に再アクティブ化されたときにトリガーされます。 | イベントを監視するかどうかを判断することをお勧めします。 イベントを監視する場合は、[CloudMonitor コンソール] でイベントの通知を構成できます。 詳細については、「ECS システムイベント通知をサブスクライブする」をご参照ください。 |
Instance:LiveMigrationAcrossDDH | 専用ホスト間のインスタンスホットマイグレーション | 通知 | Instance:LiveMigrationAcrossDDH | このシステムイベントは、インスタンスが専用ホスト間でホットマイグレーションされたときにトリガーされます。 | イベントを監視するかどうかを判断することをお勧めします。 イベントを監視する場合は、[CloudMonitor コンソール] でイベントの通知を構成できます。 詳細については、「ECS システムイベント通知をサブスクライブする」をご参照ください。 |
Disk:DiskOperationCompleted | ディスク操作完了 | 通知 | Disk:DiskOperationCompleted | このシステムイベントは、従量課金ディスクが手動でアタッチまたはデタッチされたときにトリガーされます。 | イベントを監視するかどうかを判断することをお勧めします。 イベントを監視する場合は、[CloudMonitor コンソール] でイベントの通知を構成できます。 詳細については、「ECS システムイベント通知をサブスクライブする」をご参照ください。 |
Disk:ConvertToPostpaidCompleted | ディスクの請求方法が従量課金に切り替えられました | 通知 | Disk:ConvertToPostpaidCompleted | このシステムイベントは、サブスクリプションディスクが従量課金ディスクに変更されたときにトリガーされます。 | イベントを監視するかどうかを判断することをお勧めします。 イベントを監視する場合は、[CloudMonitor コンソール] でイベントの通知を構成できます。 詳細については、「ECS システムイベント通知をサブスクライブする」をご参照ください。 |
Snapshot:CreateSnapshotCompleted | ディスクスナップショットが作成されました | 通知 | Snapshot:CreateSnapshotCompleted | このシステムイベントは、ディスクのスナップショットが作成されたときにトリガーされます。 | イベントを監視するかどうかを判断することをお勧めします。 イベントを監視する場合は、[CloudMonitor コンソール] でイベントの通知を構成できます。 詳細については、「ECS システムイベント通知をサブスクライブする」をご参照ください。 |
Snapshot:SnapshotDeleted | スナップショットの削除完了 | 通知 | Snapshot:SnapshotDeleted | このシステムイベントは、手動または自動スナップショットが削除されたときに生成されます。 | なし。 |