システムイベントは、リソース情報 (O&M タスクの実行状態、リソースの例外、リソースの状態の変化など) を記録し、通知するために Alibaba Cloud によって定義されています。
このトピックでは、Elastic Compute Service (ECS) のシステムイベントについてのみ説明します。他の Alibaba Cloud サービスのシステムイベントについては、関連ドキュメントをご参照ください。
システムイベントのユースケース
リスクと例外の通知
ECS コンソールに表示されないシステムイベントがトリガーされると、Alibaba Cloud はイベントを ECS コンソールにプッシュします。イベントには、システムメンテナンスによるインスタンスの再起動やインスタンスの有効期限切れなど、ECS リソースの可用性とパフォーマンスに影響を与える可能性のあるイベントが含まれます。特定の重要なシステムイベントについては、Alibaba Cloud は追加の SMS メッセージ、メール、または内部メッセージを送信します。イベントは、ECS コンソールで、または API オペレーションを呼び出すことによって処理できます。イベントがビジネスに影響を与えないように、できるだけ早くシステムイベントを処理することをお勧めします。詳細については、「ECS システムイベントのクエリと処理」をご参照ください。
たとえば、サブスクリプションインスタンスの有効期限が近づくと、ECS コンソールはサービスの継続性を確保するために一定期間内にインスタンスを更新するように促します。
O&M の自動化
ECS コンソールに表示されるシステムイベントの状態は、システム O&M タスクの実行状態を理解するのに役立つように定義されています。システムイベントの状態の変化は CloudMonitor と同期され、自動化された O&M メカニズムの構築に役立ちます。システムイベントの状態の詳細については、このトピックの「システムイベントの状態とウィンドウ」セクションをご参照ください。
説明各イベント状態は CloudMonitor イベントに対応しています。たとえば、InstanceFailure.Reboot ECS イベントコードがサポートする「実行中」状態と「実行済み」状態は、Instance:InstanceFailure.Reboot:Executing CloudMonitor イベントと Instance:InstanceFailure.Reboot:Executed CloudMonitor イベントに対応しています。
特定の状態変更イベントは ECS コンソールに表示されず、ECS コンソールまたは API オペレーションの呼び出しで処理することはできません。イベントの例としては、インスタンスの状態の変化やプリエンプティブルインスタンスの中断を示すイベントなどがあります。システムイベントの状態は ECS では定義されていません。ただし、イベントがトリガーされると、イベントは引き続き CloudMonitor に報告されます。これにより、ビジネス要件に基づいてイベントトリガー型の自動 O&M システムを構築できます。
たとえば、ECS インスタンスを開始または停止すると、状態変更イベントがトリガーされます。イベントはリスクや例外を示すものではありません。操作をシステムに記録する場合は、状態変更イベントのイベント通知を設定し、アラートコールバック機能を使用してインスタンスの起動および停止情報を操作ログに書き込むことができます。
システムイベントのカテゴリ
システムイベントは、イベントの原因に基づいて、次の表に示すカテゴリに分類できます。
ECS でサポートされているシステムイベントカテゴリと ECS システムイベントの処理方法については、「概要」をご参照ください。
カテゴリ | 説明 | ECS コンソールに表示される |
スケジュールされた O&M イベント | Alibaba Cloud は、セキュリティ上の理由から、または基盤となるホストのハードウェアおよびソフトウェアに潜む障害リスクを予測して処理するために、ホストソフトウェアをアップグレードする必要がある場合があります。このような場合、Alibaba Cloud によって実行される O&M タスクが ECS リソースの可用性またはパフォーマンスに影響を与える可能性がある場合、Alibaba Cloud は事前にスケジュールされた O&M イベントをトリガーして送信し、実行時間、オブジェクト、影響などのタスクの詳細を通知します。スケジュールされた O&M イベントを受信した後、イベント実行ウィンドウ内のオフピーク時に O&M イベントを処理して、ビジネスへの影響を最小限に抑えることができます。 説明 プロアクティブ O&M イベントとも呼ばれるスケジュールされた O&M イベントは、数百万台のサーバーにおける Alibaba Cloud の O&M 経験、数万の大企業顧客にサービスを提供する能力、および Alibaba DAMO Academy の最先端の機械学習アルゴリズムに基づいて、基盤となるホストのハードウェアまたはソフトウェアに潜む障害リスクを予測して処理します。ホストの障害リスクを防ぐことができない場合、Alibaba Cloud はスケジュールされた O&M イベントを使用して事前に通知します。これにより、障害が発生する前にビジネスを切り替えることができます。スケジュールされた O&M イベントにできるだけ早く対応しないと、障害が発生したときに ECS インスタンスが停止または再起動する可能性があります。 | はい 説明 ビッグデータインスタンスファミリまたはローカル SSD を搭載したインスタンスファミリ (i4p インスタンスファミリを除く) のインスタンスに対してスケジュールされた O&M イベントがトリガーされると、イベントは [ローカルディスクベースのインスタンスイベント] ページに表示されます。ローカルディスクベースのインスタンスイベントについては、「ローカルディスクを搭載したインスタンスの O&M シナリオとシステムイベント」をご参照ください。 |
予期しない O&M イベント | このカテゴリのシステムイベントは、カーネルパニック、メモリ不足 (OOM) エラー、基盤となるホストのハードウェアまたはソフトウェアの障害など、予期しない問題が原因で ECS インスタンスが再起動または停止した場合にトリガーされます。Alibaba Cloud は、イベントがトリガーされた後にイベントを送信し、影響を受けた ECS リソースをできるだけ早く復元します。また、Alibaba Cloud は、イベントに関連するシステム O&M タスクの実行状態についても通知します。 説明 ほとんどの場合、予期しない O&M イベントは、基盤となるホストの予期しない障害または ECS インスタンスのオペレーティングシステムのカーネルエラーが原因で ECS インスタンスが突然ダウンタイムまたは再起動することを指します。
| はい 説明 ビッグデータインスタンスファミリまたはローカル SSD を搭載したインスタンスファミリ (i4p インスタンスファミリを除く) のインスタンスに対して予期しない O&M イベントがトリガーされると、イベントは [ローカルディスクベースのインスタンスイベント] ページに表示されます。ローカルディスクベースのインスタンスイベントについては、「ローカルディスクを搭載したインスタンスの O&M シナリオとシステムイベント」をご参照ください。 |
ローカルディスクベースのインスタンスイベント | このカテゴリのシステムイベントには、ローカルディスクおよびローカルディスクを搭載したインスタンスに対してトリガーされるシステムイベントが含まれます。ローカルディスクに対してトリガーされるシステムイベントには、ローカルディスクが破損したときにトリガーされるシステムイベントが含まれます。ローカルディスクを搭載したインスタンスに対してトリガーされるシステムイベントには、ローカルディスクの破損が原因でローカルディスクを搭載したインスタンスに障害が発生したとき、またはローカルディスクを搭載したインスタンスの基盤となるホストのハードウェアまたはソフトウェアに障害が発生したときにトリガーされるシステムイベントが含まれます。 説明 [ローカルディスクベースのインスタンスイベント] はシステムイベントカテゴリではなく、ビッグデータインスタンスファミリまたはローカル SSD を搭載したインスタンスファミリ (i4p インスタンスファミリを除く) のインスタンスのスケジュールされた O&M イベントまたは予期しない O&M イベントを表示し、イベントを簡単に処理するためだけに使用されます。ローカルディスクベースのインスタンスイベントの詳細については、「ローカルディスクを搭載したインスタンスの O&M シナリオとシステムイベント」をご参照ください。 | はい |
バースト可能インスタンスのパフォーマンス制限イベント | このカテゴリのシステムイベントは、バースト可能インスタンスの CPU クレジットが使い果たされ、ベースライン CPU 使用率で、またはベースライン CPU 使用率近くで実行を開始したときにトリガーされます。システムイベントは、インスタンス管理、インスタンス O&M、およびアプリケーションの動作に影響を与え、アクセス速度の低下やレイテンシなどの問題を引き起こす可能性があります。 | はい |
インスタンスセキュリティイベント | このカテゴリのシステムイベントは、インスタンスがセキュリティ上の脅威に直面したときにトリガーされます。たとえば、インスタンスが DDoS 攻撃を受けているとき、またはインスタンスに対してブラックホールフィルタリングがトリガーされたときに、インスタンスセキュリティイベントがトリガーされます。 | はい |
基盤レイヤーのアップグレードによるインスタンス移行イベント | このカテゴリのシステムイベントは、Alibaba Cloud のインフラストラクチャアップグレード計画により、特定のリージョンおよびゾーンからインスタンスを移行する必要があるときにトリガーされます。システムイベントに基づいてインスタンスを移行できます。 | はい |
状態変更イベント | このカテゴリのシステムイベントは、インスタンスに対する起動や停止などの操作によってインスタンスライフサイクルの状態が変化したとき、またはインスタンス属性の変更によってインスタンスライフサイクルの状態が変化したとき、またはその他の状態が変化したときにトリガーされます。状態変更イベントは、次のカテゴリに分類されます。
|
|
システムイベントの重大度
システムイベントがインスタンスの通常の動作に与える影響に基づいて、次の重大度がシステムイベントに割り当てられます。
致命的: 致命的なシステムイベントはインスタンスを使用できなくする可能性があり、できるだけ早く処理する必要があります。たとえば、支払い遅延が原因でリソースが解放されたとき、またはインスタンスエラーが原因でインスタンスが再デプロイされたときに、致命的なシステムイベントがトリガーされます。
警告: 警告システムイベントはビジネスに影響を与えます。たとえば、バースト可能インスタンスがパフォーマンスベースラインを超えてバーストできないときに、警告システムイベントがトリガーされます。イベントに注意するか、適切なときにイベントを処理する必要があります。
通知: 通知システムイベントはビジネスに影響を与えません。たとえば、ディスクのスナップショットが作成されたときに、通知システムイベントがトリガーされます。通知システムイベントに注意を払うかどうかを選択できます。
システムイベントの状態とウィンドウ
次の表に、ECS コンソールに表示されるシステムイベントに定義されている状態を示します。
さまざまなシステムイベントのサポートされている状態については、「概要」の表の「CloudMonitor イベント」列をご参照ください。
イベント状態 | 属性 | 説明 |
問い合わせ中 | 中間 | システムイベントに関連する O&M タスクは承認待ちです。タスクの実行を承認すると、イベントは 実行中 状態になります。 |
スケジュール済み | 中間 | システムイベントに関連する O&M タスクはスケジュールされており、実行待ちです。O&M タスクが実行されると、イベントは 実行中 状態になります。 |
実行中 | 中間 | システムイベントに関連する O&M タスクが実行されています。 |
実行済み | 安定 | システムイベントに関連する O&M タスクは完了しました。 |
回避済み | 安定 | 影響を受けたインスタンスがユーザー操作ウィンドウ内で移行されたため、システムイベントの影響は回避されました。 |
失敗 | 安定 | システムイベントに関連する O&M タスクは失敗しました。 |
キャンセル済み | 安定 | システムイベントに関連する O&M タスクは自動的にキャンセルされました。 |
次の図は、イベント状態間の典型的な遷移を示しています。
システムイベントには、次のウィンドウがあります。
ユーザー操作ウィンドウ
システムイベントのユーザー操作ウィンドウは、イベントが送信されたときに開始し、関連する O&M タスクがスケジュールどおりに実行されたときに終了します。ユーザー操作ウィンドウ内で O&M タスクを手動で実行するか、システムがタスクを自動的に実行するのを待つことができます。ユーザー操作ウィンドウの長さについては、次の点に注意してください。
ほとんどの場合、スケジュールされた O&M イベントのユーザー操作ウィンドウは 24 ~ 48 時間です。
説明問い合わせ中状態のシステムイベントの場合、ユーザー操作ウィンドウの長さに制限はありません。イベントに関連する O&M タスクは、タスクの実行を承認した後でのみ開始できます。
ほとんどの場合、障害または不正な操作によって発生する予期しない O&M システムイベントには、ユーザー操作ウィンドウがありません。
サブスクリプションインスタンスの有効期限が近づいていることを示すシステムイベントの場合、ウィンドウは 3 日間です。
従量課金インスタンスが支払い遅延のために停止されることを示すシステムイベントの場合、ウィンドウは 1 時間未満です。
イベント実行ウィンドウ
システムイベントの実行ウィンドウは、関連する O&M タスクが実行されたときに開始し、タスクが完了したときに終了します。イベント実行ウィンドウの長さについては、次の点に注意してください。
障害復旧イベントなどのシステムイベントの場合、ウィンドウは 10 分以内です。
障害または不正な操作によって発生する予期しない O&M イベントのイベント実行ウィンドウは短いです。
システムイベントで実行できる操作
操作 | 説明と参照 |
システムイベントについて理解する | システムイベントについて学習し、イベント名、重大度、ユースケース、制限、状態、および名前形式を理解するには、このトピックをご参照ください。 |
システムイベントを表示する | システムイベントは、ECS コンソール、CloudMonitor コンソール、または Alibaba Cloud CLI を使用して表示できます。
|
システムイベントを処理する | ECS リソースの可用性とパフォーマンスに影響を与えるシステムイベントなど、特定の重要なシステムイベントについては、サービスの可用性を確保するために、ECS コンソールまたは CloudMonitor コンソールで提案されているとおりに、または API オペレーションを呼び出すことによって、できるだけ早くイベントを処理することをお勧めします。
|
システムイベントを監視する | ECS インスタンスで実行されているサービスの安定性を確保し、O&M を自動化するために、基盤となる環境の変化を通知するようにイベント通知を設定することをお勧めします。イベント通知を設定すると、システムは指定した通知方法を使用して通知を送信します。
|
システムイベント関連の設定を変更する | ビジネス要件に基づいて、システムイベント関連の設定を変更できます。
|