全部产品
Search
文档中心

CloudOps Orchestration Service:Pemicu restart otomatis untuk instance ECS sebagai respons terhadap peringatan utilisasi CPU tinggi

更新时间:Jul 02, 2025

Peningkatan abnormal dalam utilisasi CPU pada suatu instance Elastic Compute Service (ECS) dapat memengaruhi kinerja aplikasi yang berjalan di instance tersebut. Akibatnya, aplikasi menjadi lambat atau tidak merespons. Untuk menyelesaikan masalah ini dengan cepat, Anda dapat me-restart instance ECS guna mengurangi utilisasi CPU dan dampaknya terhadap aplikasi. CloudOps Orchestration Service (OOS) menyediakan fitur peringatan untuk secara otomatis me-restart instance ketika utilisasi CPU terdeteksi terlalu tinggi, memungkinkan pemrosesan tanpa intervensi manual. Topik ini menjelaskan cara mengonfigurasi peringatan utilisasi CPU untuk secara otomatis me-restart instance ECS ketika utilisasi CPU melebihi ambang batas, sehingga memulihkan kinerja layanan dengan cepat.

Persiapan

Anda harus membuat RAM role yang memiliki izin untuk me-restart instance ECS untuk CloudOps Orchestration Service.

  1. Buat kebijakan kustom yang mencakup izin ecs:RebootInstance dan ecs:DescribeInstances. Untuk informasi lebih lanjut, lihat Buat Kebijakan Kustom.

    Izin yang Diperlukan untuk Restart Otomatis

    {
      "Version": "1",
      "Statement": [
        {
          "Action": [
            "ecs:RebootInstance",
            "ecs:DescribeInstances"
          ],
          "Resource": "*",
          "Effect": "Allow"
        }
      ]
    }
  2. Buat role layanan reguler dan konfigurasikan CloudOps Orchestration Service sebagai layanan tepercaya. Untuk informasi lebih lanjut tentang cara memilih layanan tepercaya, lihat Buat RAM Role untuk Layanan Tepercaya Alibaba Cloud.

  3. Lampirkan kebijakan kustom ke RAM role yang telah dibuat. Dengan cara ini, RAM role memiliki izin yang diperlukan. Untuk informasi lebih lanjut, lihat Berikan Izin kepada RAM Role.

Prosedur

  1. Masuk ke konsol CloudOps Orchestration Service. Di panel navigasi kiri, pilih Automated Task > Alert and Event O&M.

  2. Di halaman Peringatan dan Pemeliharaan Peristiwa, klik Create. Di halaman Buat Peringatan dan Pemeliharaan Peristiwa, pilih Threshold Alert.image

  3. Di bagian Aturan Pemicu, konfigurasikan parameter terkait aturan dan pilih instance yang diinginkan.image

  4. Di bagian Pilih Template, pilih Template Publik dari daftar drop-down di sebelah kotak pencarian dan pilih template ACS-ECS-BulkyRebootInstances.image

  5. Simpan konfigurasi default untuk parameter RegionId, TargetInstance, dan RateConsole, serta pilih RAM role yang memiliki izin untuk me-restart instance ECS dari daftar drop-down Izin.image

  6. Klik Create. Di kotak dialog yang muncul, klik OK.

Verifikasi hasil

Dalam contoh ini, alat uji stres open source stress-ng digunakan untuk mensimulasikan utilisasi CPU tinggi.

  1. Hubungkan ke instance ECS yang dipantau. Untuk informasi lebih lanjut, lihat Metode untuk Menghubungkan ke Instance ECS.

  2. Instal alat stress-ng.

    Alibaba Cloud Linux, CentOS, dan RHEL

    yum install stress-ng -y

    Ubuntu dan Debian

    apt-get install stress-ng -y
  3. # Dalam contoh ini, alat stress-ng digunakan untuk melakukan uji stres pada dua core CPU, beban CPU diatur menjadi 85%, dan uji stres berlangsung selama 5 menit.

    stress-ng --cpu 2 --cpu-load 85 --timeout 5m
  4. Amati utilisasi CPU. Setelah instance di-restart, utilisasi CPU akan menurun.image