Maintenance dan system events umum untuk instans disk lokal - Elastic Compute Service

Identifikasi dan tanggapi skenario maintenance serta system events untuk Instance ECS dengan disk lokal.

Lihat dan pantau system events

Lihat peristiwa sistem:

Lihat event di Konsol ECS atau dengan menggunakan Alibaba Cloud CLI. Lihat Kueri dan tangani event.
Lihat event di konsol CloudMonitor. Lihat Lihat system events.

Pantau system events:

Konfigurasikan notifikasi event untuk memantau perubahan lingkungan dasar dan mengotomatiskan respons maintenance.

Konfigurasikan aturan alert di CloudMonitor. Lihat Berlangganan notifikasi system event.
Gunakan chatbot DingTalk. Lihat Kirim notifikasi event dengan chatbot DingTalk.
Untuk Instans Mesin Fisik ECS, instal plug-in xdragon_hardware_detect_plugin untuk memeriksa kesehatan disk lokal secara berkala. Lihat Instal plug-in pemantauan.

Skenario maintenance umum dan system events terkait

Gambar berikut menunjukkan skenario maintenance umum dan system events terkait untuk instans disk lokal.

Catatan

Sesuaikan metode pemulihan otomatis dengan mengubah atribut maintenance instans. Misalnya, jika diatur ke redeployment otomatis, instans akan masuk ke skenario redeployment secara default selama pemulihan otomatis. Lihat Ubah atribut maintenance instans.

Lihat bagian berikut untuk detail setiap skenario:

Skenario ①: SystemMaintenance.Reboot
Skenario ②: SystemMaintenance.Redeploy
Skenario ③: SystemFailure.Reboot
Skenario ④: SystemFailure.Redeploy
Skenario ⑤: Disk:ErrorDetected, SystemMaintenance.IsolateErrorDisk, SystemMaintenance.ReInitErrorDisk, SystemMaintenance.RebootAndIsolateErrorDisk, atau SystemMaintenance.RebootAndReInitErrorDisk
Skenario ⑥: SystemMaintenance.StopAndRepair

Catatan

Sebelum maintenance, pastikan ketersediaan layanan dan backup data Anda. Misalnya, alihkan traffic pada lapisan aplikasi, hapus Instance ECS dari instance Server Load Balancer (SLB), dan backup data disk.

Skenario ①

Tangani event SystemMaintenance.Reboot:

Terima notifikasi bahwa instans Anda dijadwalkan untuk restart.
Tanggapi event sesuai kebutuhan.
- Untuk mengubah jendela waktu terjadwal, lihat Ubah waktu restart terjadwal.
- Restart instans dalam jendela operasi pengguna. Lihat Restart instans.
  
  Catatan
  Restart instans dari Konsol ECS atau dengan memanggil API RebootInstance. Melakukan restart dari dalam sistem operasi tidak berpengaruh.
- Tunggu sistem melakukan restart instans secara otomatis.
Verifikasi bahwa instans dan aplikasi Anda berfungsi sebagaimana mestinya.

Untuk status event SystemMaintenance.Reboot, lihat Ringkasan system event. Untuk diagram transisi status, lihat Status dan jendela system events.

Skenario ②

Tangani event SystemMaintenance.Redeploy:

Terima notifikasi bahwa instans disk lokal Anda dijadwalkan untuk redeployment.
Selesaikan tugas prasyarat, seperti mengubah file /etc/fstab dan melakukan backup data.

Lihat bagian Prasyarat di Redeploy instans.
Tanggapi event tersebut.

Setelah melakukan backup data, tanggapi event untuk memicu migrasi instans dan penggantian disk lokal. Lihat Redeploy instans.

Catatan
Redeployment instans disk lokal akan memigrasikannya ke host baru dan menginisialisasi ulang disk lokal. Semua data pada disk lokal akan dihapus.
Verifikasi bahwa instans dan aplikasi Anda berfungsi sebagaimana mestinya, serta sinkronkan data jika diperlukan.

Untuk status event SystemMaintenance.Redeploy, lihat Ringkasan system event. Untuk diagram transisi status, lihat Status dan jendela system events.

Skenario ③

Tangani event SystemFailure.Reboot:

Sistem secara otomatis melakukan restart instans.
Anda menerima notifikasi bahwa instans sedang melakukan restart.

Instans sedang melakukan restart secara otomatis. Tidak diperlukan tindakan apa pun.
Verifikasi bahwa instans dan aplikasi Anda berfungsi sebagaimana mestinya.

Untuk status event SystemFailure.Reboot, lihat Ringkasan system event. Untuk diagram transisi status, lihat Status dan jendela system events.

Skenario ④

Tangani event SystemFailure.Redeploy:

Terima notifikasi bahwa instans disk lokal Anda dijadwalkan untuk redeployment.
Selesaikan tugas prasyarat, seperti mengubah file /etc/fstab dan melakukan backup data.

Lihat bagian Prasyarat di Redeploy instans.
Tanggapi event sesuai kebutuhan.

Setelah melakukan backup data, tanggapi event untuk memicu migrasi instans dan penggantian disk lokal. Lihat Redeploy instans.

Catatan
Redeployment instans disk lokal akan memigrasikannya ke host baru dan menginisialisasi ulang disk lokal. Semua data pada disk lokal akan dihapus.
Verifikasi bahwa instans dan aplikasi Anda berfungsi sebagaimana mestinya, serta sinkronkan data jika diperlukan.

Untuk status event SystemFailure.Redeploy, lihat Ringkasan system event. Untuk diagram transisi status, lihat Status dan jendela system events.

Skenario ⑤

Pada Skenario ⑤, Anda dapat melakukan redeployment instans ke host lain atau hanya mengganti disk yang rusak. Saat mengganti disk yang rusak:

Tidak semua disk dapat diisolasi. Isolasi hanya dimungkinkan ketika operasi system event mencakup isolasi disk.
Isolasi dan perbaikan disk merupakan operasi independen. Isolasi merupakan prasyarat untuk perbaikan, tetapi tidak menjamin perbaikan dapat dilakukan. Tidak semua instans mendukung perbaikan disk lokal. Anda hanya dapat memulai perbaikan setelah menerima notifikasi pemulihan disk dari Alibaba Cloud.

Redeployment dapat memulihkan ketersediaan disk lokal dengan cepat tetapi menghapus semua data pada disk lokal. Lihat Redeploy instans.
Mengganti disk yang rusak mempertahankan data pada disk lokal lainnya. Alur kerja:
1. Terima notifikasi tentang kegagalan disk dan isolasi terjadwal.
2. Selesaikan tugas prasyarat, seperti mengubah file /etc/fstab dan melakukan backup data.
3. Jika system event mencakup event isolasi disk, tanggapi untuk mengizinkan isolasi tersebut.
4. Jika system event mencakup event Reboot, restart instans.
5. Alibaba Cloud menghapus disk yang rusak, memasukkan disk baru, dan mengirimkan notifikasi pemulihan disk.
6. Jika system event mencakup event pemulihan disk, tanggapi untuk mengizinkan pemulihan tersebut.
7. Jika system event mencakup event Reboot, restart instans.
Catatan
Penggantian disk yang rusak memerlukan kerja sama antara Anda dan Alibaba Cloud. Lihat Isolasi/perbaikan disk lokal dan Isolasi disk lokal yang rusak (CLI).

Gambar berikut menunjukkan status event dan transisi yang didukung untuk penggantian disk yang rusak.

Skenario ⑥

Pada Skenario ⑥, Anda dapat melakukan redeployment instans ke host lain atau melakukan perbaikan in-place. Saat melakukan perbaikan in-place:

Perbaikan in-place tidak dapat menjamin integritas data atau tingkat keberhasilan 100%. Backup data kritis sebelum mengizinkan perbaikan.
Stop-and-repair tidak didukung pada semua instans dengan disk lokal.
Selama perbaikan, instans tidak dapat dijalankan, tetapi penagihan tetap berlangsung.
Siklus perbaikan in-place adalah 14 hari kerja. Anda dapat menghentikan perbaikan dengan melakukan redeployment atau melepas instans.

Redeployment dapat memulihkan ketersediaan disk lokal dengan cepat tetapi menghapus semua data pada disk lokal. Lihat Redeploy instans.
Alur kerja perbaikan in-place:
1. Terima notifikasi system event tentang perbaikan in-place untuk instans disk lokal Anda.
2. Tanggapi event sesuai kebutuhan.
  - Dalam jendela operasi pengguna, hentikan instans dan izinkan perbaikan.
  - Tunggu sistem menghentikan instans secara otomatis dan melakukan perbaikan.
3. Alibaba Cloud memperbaiki perangkat keras host dan mengirimkan event penyelesaian perbaikan.
4. Verifikasi bahwa instans dan aplikasi Anda berfungsi sebagaimana mestinya, serta sinkronkan data jika diperlukan.

Untuk status event SystemMaintenance.StopAndRepair, lihat Ringkasan system event. Untuk diagram transisi status, lihat Status dan jendela system events.

Referensi

Panggil API AcceptInquiredSystemEvent untuk menerima operasi default untuk system event dan mengizinkan eksekusi.