サーバーのダウンタイムは、ソフトウェアとハードウェアの異常によって発生する一般的な問題であり、事実上避けられません。 このトピックでは、Elastic Compute Service (ECS) インスタンスでカーネルエラーをシミュレートしてダウンタイムを発生させ、ダウンタイムに対する業務システムの応答をテストし、システムの回復機能を検査し、監視およびアラートメカニズムの有効性を検証する方法について説明します。 その後、訓練結果に基づいて対応戦略を開発できます。 これにより、本番環境でダウンタイムが発生した後、システムが通常の動作を迅速に再開できるようになり、業務中断のリスクが軽減されます。
実装
ダウンタイム訓練では、ecs-fault-oscrash クラウドアシスタントプラグインを使用して、sysrq モジュールを使用してカーネルパニックをトリガーします。 その後、システムは自動的に再起動し、通常の動作を再開します。
訓練は業務に影響を与える可能性があります。 業務システムに高可用性 (HA) 機能があり、kdump が有効になっていることを確認してください。 kdump を有効にする方法については、「Linux インスタンスで kdump サービスを有効にする方法」をご参照ください。
手順
前提条件
クラウドアシスタントクライアント が、訓練を実行する ECS インスタンスにインストールされています。 [クラウドアシスタント] のステータスは、インスタンス上で [正常] です。 詳細については、「クラウドアシスタントのステータスを表示し、異常を処理する」をご参照ください。
エラーを挿入する
sudo 権限を持つユーザーとして ECS インスタンスに接続します。
詳細については、「Workbench を使用して SSH 経由で Linux インスタンスに接続する」をご参照ください。
ecs-fault-oscrashクラウドアシスタントプラグインを実行します。sudo acs-plugin-manager --exec --plugin ecs-fault-oscrash --params inject次のコマンド出力は、
ecs-fault-oscrashプラグインが実行されていることを示しています。
エラーが挿入されたかどうかを確認します。
[インスタンスエラーによるインスタンスの再起動] タイプのイベントが予期しない O&M イベントに表示された場合は、エラーが挿入されています。

ECS インスタンスで、
uptimeコマンドを実行してシステムの実行時間を確認し、ECS インスタンスが再起動したかどうかを判断します。次のコマンド出力は、ECS インスタンスが 18:21:46 に再起動したことを示しており、エラーが挿入されたことを示しています。

エラーから回復する
この訓練では、ECS インスタンスは自動的に再起動し、通常の動作を再開します。 ECS インスタンスが再起動に失敗した場合は、ECS コンソールで強制的に再起動できます。 詳細については、「インスタンスを再起動する」をご参照ください。