すべてのプロダクト
Search
ドキュメントセンター

Elastic Compute Service:ダウンタイム訓練

最終更新日:Apr 12, 2025

サーバーのダウンタイムは、ソフトウェアとハードウェアの異常によって発生する一般的な問題であり、事実上避けられません。 このトピックでは、Elastic Compute Service (ECS) インスタンスでカーネルエラーをシミュレートしてダウンタイムを発生させ、ダウンタイムに対する業務システムの応答をテストし、システムの回復機能を検査し、監視およびアラートメカニズムの有効性を検証する方法について説明します。 その後、訓練結果に基づいて対応戦略を開発できます。 これにより、本番環境でダウンタイムが発生した後、システムが通常の動作を迅速に再開できるようになり、業務中断のリスクが軽減されます。

実装

ダウンタイム訓練では、ecs-fault-oscrash クラウドアシスタントプラグインを使用して、sysrq モジュールを使用してカーネルパニックをトリガーします。 その後、システムは自動的に再起動し、通常の動作を再開します。

重要

訓練は業務に影響を与える可能性があります。 業務システムに高可用性 (HA) 機能があり、kdump が有効になっていることを確認してください。 kdump を有効にする方法については、「Linux インスタンスで kdump サービスを有効にする方法」をご参照ください。

手順

前提条件

クラウドアシスタントクライアント が、訓練を実行する ECS インスタンスにインストールされています。 [クラウドアシスタント] のステータスは、インスタンス上で [正常] です。 詳細については、「クラウドアシスタントのステータスを表示し、異常を処理する」をご参照ください。

エラーを挿入する

  1. sudo 権限を持つユーザーとして ECS インスタンスに接続します。

    詳細については、「Workbench を使用して SSH 経由で Linux インスタンスに接続する」をご参照ください。

  2. ecs-fault-oscrash クラウドアシスタントプラグインを実行します。

    sudo acs-plugin-manager --exec --plugin ecs-fault-oscrash --params inject

    次のコマンド出力は、ecs-fault-oscrash プラグインが実行されていることを示しています。

    image

  3. エラーが挿入されたかどうかを確認します。

    • [インスタンスエラーによるインスタンスの再起動] タイプのイベントが予期しない O&M イベントに表示された場合は、エラーが挿入されています。

      image

    • ECS インスタンスで、uptime コマンドを実行してシステムの実行時間を確認し、ECS インスタンスが再起動したかどうかを判断します。

      次のコマンド出力は、ECS インスタンスが 18:21:46 に再起動したことを示しており、エラーが挿入されたことを示しています。

      image

エラーから回復する

この訓練では、ECS インスタンスは自動的に再起動し、通常の動作を再開します。 ECS インスタンスが再起動に失敗した場合は、ECS コンソールで強制的に再起動できます。 詳細については、「インスタンスを再起動する」をご参照ください。