システムイベントの説明と処理の提案および推奨事項 - RDS

このトピックでは、RDS Custom でサポートされているシステムイベント (スケジュールされたメンテナンスイベントや予期しないメンテナンスイベントなど) をまとめ、各システムイベントの対処方法を提案します。

RDS Custom のイベントコードと CloudMonitor のイベント名のフォーマット

システムイベントを通じて自動メンテナンスメカニズムを確立できるように、RDS Custom のシステムイベントは CloudMonitor に同期されます。同じイベントに対する RDS Custom のイベントコードと CloudMonitor のイベント名は、特定の命名フォーマットに従います。

RDS Custom イベントコード: イベントの原因とリソースへの影響に関する情報を含み、<イベントの原因>.<リソースへの影響> というフォーマットになります。
CloudMonitor イベント名: リソースタイプ、イベントの原因、リソースへの影響、イベントステータスに関する情報を含み、<リソースタイプ>:<イベントの原因>.<リソースへの影響>:<イベントステータス> というフォーマットになります。

説明

すべての RDS Custom イベントコードと CloudMonitor イベント名に、すべての情報が含まれているわけではありません。たとえば、CloudMonitor イベント名 Disk:ErrorDetected:Executing は、ディスクの破損が検出されたことを示しているため、その後のリソースへの影響に関する情報は不要です。

スケジュールされた O&M イベント

重要

オペレーティングシステム内からインスタンスを再起動すると、イベントに対応するメンテナンス操作は有効になりません。したがって、このトピックで言及されているインスタンスの再起動操作は、RDS Custom コンソールまたは API 操作の呼び出しによって実行される操作を指します。詳細については、「インスタンスの再起動」または「RebootRCInstance」をご参照ください。

イベントコード	イベント名	イベントレベル	CloudMonitor イベント名	イベントの説明と影響	対処方法の提案
SystemMaintenance.Reboot	システムメンテナンスによるインスタンスの再起動	クリティカル	Instance:SystemMaintenance.Reboot:Inquiring: システムメンテナンスによるインスタンスの再起動の照会中 Instance:SystemMaintenance.Reboot:Scheduled: システムメンテナンスによるインスタンスの再起動がスケジュール済み Instance:SystemMaintenance.Reboot:Executing: システムメンテナンスによるインスタンスの再起動が実行中 Instance:SystemMaintenance.Reboot:Executed: システムメンテナンスによるインスタンスの再起動が完了 Instance:SystemMaintenance.Reboot:Avoided: システムメンテナンスによるインスタンスの再起動が回避済み Instance:SystemMaintenance.Reboot:Failed: システムメンテナンスによるインスタンスの再起動が失敗 Instance:SystemMaintenance.Reboot:Canceled: システムメンテナンスによるインスタンスの再起動がキャンセル済み	Alibaba Cloud は、RDS Custom インスタンスがデプロイされているホストで、潜在的なソフトウェアまたはハードウェアの障害リスクを検出します。これらのリスクにより、RDS Custom インスタンスが再起動する可能性があります。このリスクはまだ直接的な障害にはなっていません。このシステムイベントは、スケジュールされたシステムメンテナンス時刻の 24～48 時間前に送信されます。説明障害リスクには以下が含まれます: タイプ 1: ホストに潜在的なリスクがあるタイプ 2: インスタンスの GPU デバイスが利用できない	インスタンスを手動で再起動します。説明イベントのステータスの変化に注意を払うことを推奨します。インスタンスを再起動してもイベントのステータスが変わらない場合、イベントへの応答が失敗し、リスクは解消されていません。リスクを回避するために、後で適切な時間 (この操作から 12 時間以上経過後が望ましい) にインスタンスを再起動することを推奨します。
SystemMaintenance.Stop	システムメンテナンスによるインスタンスの停止	クリティカル	Instance:SystemMaintenance.Stop:Scheduled: システムメンテナンスによるインスタンスの停止がスケジュール済み Instance:SystemMaintenance.Stop:Executing: システムメンテナンスによるインスタンスの停止が実行中 Instance:SystemMaintenance.Stop:Executed: システムメンテナンスによるインスタンスの停止が完了 Instance:SystemMaintenance.Stop:Avoided: システムメンテナンスによるインスタンスの停止が回避済み Instance:SystemMaintenance.Stop:Failed: システムメンテナンスによるインスタンスの停止が失敗 Instance:SystemMaintenance.Stop:Canceled: システムメンテナンスによるインスタンスの停止がキャンセル済み	Alibaba Cloud は、RDS Custom インスタンスがデプロイされているホストで、潜在的なソフトウェアまたはハードウェアの障害リスクを検出します。これらのリスクにより、RDS Custom インスタンスがシャットダウンして停止する可能性があります。このリスクはまだ直接的な障害にはなっていません。このシステムイベントは、スケジュールされたシステムメンテナンス時刻の 24～48 時間前に送信されます。	インスタンスを手動で再起動します。
SystemMaintenance.Redeploy	システムメンテナンスによるインスタンスの再デプロイ	クリティカル	Instance:SystemMaintenance.Redeploy:Inquiring: システムメンテナンスによるインスタンスの再デプロイの照会中 Instance:SystemMaintenance.Redeploy:Scheduled: システムメンテナンスによるインスタンスの再デプロイがスケジュール済み Instance:SystemMaintenance.Redeploy:Executing: システムメンテナンスによるインスタンスの再デプロイが実行中 Instance:SystemMaintenance.Redeploy:Executed: システムメンテナンスによるインスタンスの再デプロイが完了 Instance:SystemMaintenance.Redeploy:Avoided: システムメンテナンスによるインスタンスの再デプロイが回避済み Instance:SystemMaintenance.Redeploy:Canceled: システムメンテナンスによるインスタンスの再デプロイがキャンセル済み	Alibaba Cloud は、RDS Custom インスタンスがデプロイされているホストで、潜在的なソフトウェアまたはハードウェアの障害リスクを検出します。これらのリスクにより、RDS Custom インスタンスが再デプロイされる可能性があります。このリスクはまだ直接的な障害にはなっていません。このシステムイベントは、スケジュールされたシステムメンテナンス時刻の 24～48 時間前に送信されます。重要ローカル SSD ディスクまたはローカル HDD ディスクを使用するインスタンスでは、データディスクが再初期化され、ローカルディスク上のデータは削除されます。	/etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を完了することを推奨します。その後、ニーズに応じて以下のいずれかの応答方法を選択します。インスタンスを手動で再起動します。インスタンスを手動で再デプロイします。説明イベントのステータスの変化に注意を払うことを推奨します。インスタンスを再デプロイしてもイベントのステータスが変わらない場合、イベントへの応答が失敗し、リスクは解消されていません。リスクを回避するために、後で適切な時間 (この操作から 12 時間以上経過後が望ましい) にインスタンスを再デプロイすることを推奨します。
SystemFailure.Redeploy	システムエラーによるインスタンスの再デプロイ	クリティカル	Instance:SystemFailure.Redeploy:Inquiring: システムエラーによるインスタンスの再デプロイの照会中 Instance:SystemFailure.Redeploy:Executing: システムエラーによるインスタンスの再デプロイが実行中 Instance:SystemFailure.Redeploy:Executed: システムエラーによるインスタンスの再デプロイが完了 Instance:SystemFailure.Redeploy:Avoided: システムエラーによるインスタンスの再デプロイが回避済み Instance:SystemFailure.Redeploy:Canceled: システムエラーによるインスタンスの再デプロイがキャンセル済み	Alibaba Cloud が、基盤となるホストのソフトウェアまたはハードウェアの障害により RDS Custom インスタンスを再デプロイする必要があると判断した場合、このシステムイベントは即座に送信されます。説明ローカルディスクがアタッチされたインスタンスや SGX 暗号化コンピューティングをサポートするインスタンスなど、ホストのハードウェアに依存するインスタンスのみがこのタイプのイベントをサポートします。	/etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を完了することを推奨します。その後、ニーズに応じて以下のいずれかの応答方法を選択します。インスタンスを手動で再起動します。インスタンスを手動で再デプロイします。
SystemMaintenance.CleanReleasedDisks	インスタンスはリリースされたディスクの構成情報をクリーンアップする必要があります	警告	Instance:SystemMaintenance.CleanReleasedDisks.Inquiring: リリースされたディスクの構成情報のクリーンアップの照会中 Instance:SystemMaintenance.CleanReleasedDisks.Executing: リリースされたディスクの構成情報のクリーンアップが実行中 Instance:SystemMaintenance.CleanReleasedDisks.Executed: リリースされたディスクの構成情報のクリーンアップが完了 Instance:SystemMaintenance.CleanReleasedDisks.Failed: リリースされたディスクの構成情報のクリーンアップが失敗	Alibaba Cloud が、RDS Custom インスタンスのオペレーティングシステムに、支払い遅延のためにリリースされた 1 つ以上のディスクの構成情報が含まれていると判断した場合、このシステムイベントが送信されます。	適切な時間を選択して、Alibaba Cloud がリリースされたディスクの構成情報をクリーンアップすることを承認することを推奨します。重要 Alibaba Cloud は、お客様が承認した指定時刻にインスタンスをシャットダウンし、ディスクをクリーンアップしてから、インスタンスを再度起動します。

予期しない O&M イベント

イベントコード	イベント名	イベントレベル	CloudMonitor イベント名	イベントの説明と影響	対処方法の提案
SystemFailure.Reboot	システムエラーによるインスタンスの再起動	クリティカル	Instance:SystemFailure.Reboot:Executing: システムエラーによるインスタンスの再起動が開始 Instance:SystemFailure.Reboot:Executed: システムエラーによるインスタンスの再起動が終了 Instance:SystemFailure.Reboot:Failed: システムエラーによるインスタンスの再起動が失敗	Alibaba Cloud が、基盤となるホストの予期しないソフトウェアまたはハードウェアの障害 (CPU またはメモリのハードウェア損傷など) により RDS Custom インスタンスが再起動されたと判断した場合、このシステムイベントは即座に送信されます。	インスタンスが自動的に再起動するのを待ってから、インスタンスとアプリケーションが正常に機能しているか確認することを推奨します。再起動プロセス中に、Alibaba Cloud はインスタンスを別の正常なホストに移行します。
InstanceFailure.Reboot	オペレーティングシステムエラーによるインスタンスの再起動が必要	クリティカル	Instance:InstanceFailure.Reboot:Scheduled: オペレーティングシステムエラーによるインスタンスの再起動がスケジュール済み Instance:InstanceFailure.Reboot:Executing: オペレーティングシステムエラーによるインスタンスの再起動が開始 Instance:InstanceFailure.Reboot:Executed: オペレーティングシステムエラーによるインスタンスの再起動が終了 Instance:InstanceFailure.Reboot:Avoided: オペレーティングシステムエラーによるインスタンスの再起動が回避済み	Alibaba Cloud が、メモリ不足、ブルースクリーン、フリーズ、継続的なシリアルポートのログ出力、またはカーネルパニックなど、内部のオペレーティングシステムの問題により RDS Custom インスタンスがクラッシュしたと判断した場合、このシステムイベントは即座に送信されます。	インスタンスが自動的に再起動するのを待ってから、インスタンスとアプリケーションが正常に機能しているか確認することを推奨します。オペレーティングシステムで Kdump サービスを有効にすると、クラッシュの原因をトラブルシューティングし、将来同様の問題を回避できます。詳細については、「Linux インスタンスで Kdump サービスを有効にする方法」をご参照ください。
SystemFailure.Stop	システムエラーによるインスタンスの停止	クリティカル	Instance:SystemFailure.Stop:Executing: システムエラーによるインスタンスの停止が開始 Instance:SystemFailure.Stop:Executed: システムエラーによりインスタンスが停止	Alibaba Cloud が、基盤となるホストのソフトウェアまたはハードウェアの障害 (CPU またはメモリのハードウェア損傷など) により RDS Custom インスタンスがシャットダウンされたと判断した場合、このシステムイベントは即座に送信されます。	インスタンスが自動的に停止するのを待ってから、インスタンスを起動することを推奨します。インスタンスを起動すると、Alibaba Cloud はそれを別の正常なホストに移行します。
SystemFailure.Delete	インスタンス作成失敗による請求の自動キャンセル	クリティカル	Instance:SystemFailure.Delete:Executing: インスタンス作成失敗による請求の自動キャンセルが開始 Instance:SystemFailure.Delete:Executed: インスタンス作成失敗により請求が自動的にキャンセルされました Instance:SystemFailure.Delete:Avoided: インスタンス作成失敗による請求の自動キャンセルが回避済み	Alibaba Cloud が、RDS Custom インスタンスの注文は成功したものの作成に失敗したと判断した場合、このシステムイベントは即座に送信されます。	システムがインスタンスを自動的にリリースするのを待つことを推奨します。これは通常、作成失敗後 5 分以内に発生します。説明注文の支払いが済んでいる場合、インスタンスがリリースされた後に返金されます。
InstanceFailure.PerformanceImpact	インスタンスエラーによるインスタンスのパフォーマンス低下	警告	Instance:InstanceFailure.PerformanceImpact:Executing Instance:InstanceFailure.PerformanceImpact:Executed	インスタンス内で予期しない例外 (GuestOS カーネルのハングなど) が発生し、インスタンスのパフォーマンスが低下した場合、このシステムイベントは即座に送信されます。	インスタンスにログインして例外を特定して解決し、このシステムイベントのステータスを監視することを推奨します。システムイベントが報告されなくなった場合、パフォーマンスの低下が解決されたことを示します。

:RDS Custom のシステムイベントの概要

RDS Custom のイベントコードと CloudMonitor のイベント名のフォーマット

スケジュールされた O&M イベント

予期しない O&M イベント

関連ドキュメント