Pahami event sistem untuk O&M dan monitoring instans - Elastic Compute Service

Peristiwa sistem didefinisikan oleh Alibaba Cloud untuk mencatat dan memberi tahu Anda tentang informasi sumber daya, seperti status eksekusi tugas O&M, pengecualian sumber daya, dan perubahan status sumber daya.

Catatan

Topik ini hanya menjelaskan peristiwa sistem dari Elastic Compute Service (ECS). Untuk informasi tentang peristiwa sistem layanan Alibaba Cloud lainnya, lihat dokumentasi terkait.

Skenario penggunaan peristiwa sistem

Pemberitahuan untuk Risiko dan Pengecualian
Setelah peristiwa sistem yang tidak ditampilkan di Konsol ECS dipicu, Alibaba Cloud mendorong peristiwa tersebut ke Konsol ECS. Peristiwa ini mencakup hal-hal yang dapat memengaruhi ketersediaan dan kinerja sumber daya ECS, seperti restart instance karena pemeliharaan sistem dan kedaluwarsa instance. Untuk peristiwa sistem kritis tertentu, Alibaba Cloud mengirimkan pesan tambahan melalui SMS, email, atau pesan internal. Anda dapat menangani peristiwa ini di Konsol ECS atau dengan memanggil operasi API. Kami menyarankan Anda menangani peristiwa sistem secepat mungkin untuk mencegah dampak pada bisnis Anda. Untuk informasi lebih lanjut, lihat Kueri dan Tangani Peristiwa Sistem ECS.
Sebagai contoh, ketika instance berlangganan akan segera kedaluwarsa, Konsol ECS meminta Anda untuk memperpanjang instance dalam periode waktu tertentu guna memastikan kelangsungan layanan.
Otomatisasi O&M
Status peristiwa sistem yang ditampilkan di Konsol ECS didefinisikan untuk membantu Anda memahami status eksekusi tugas O&M sistem. Perubahan status peristiwa sistem disinkronkan ke CloudMonitor untuk membantu Anda membangun mekanisme O&M otomatis. Untuk informasi lebih lanjut tentang status peristiwa sistem, lihat bagian Status dan Jendela Peristiwa Sistem dari topik ini.
Catatan
- Setiap status peristiwa sesuai dengan peristiwa CloudMonitor. Sebagai contoh, status Executing dan Executed yang didukung oleh kode peristiwa InstanceFailure.Reboot ECS sesuai dengan peristiwa CloudMonitor Instance:InstanceFailure.Reboot:Executing dan Instance:InstanceFailure.Reboot:Executed.
Beberapa peristiwa perubahan status tidak ditampilkan di Konsol ECS dan tidak dapat ditangani di Konsol ECS atau dengan memanggil operasi API. Contohnya termasuk peristiwa yang menunjukkan perubahan status instance dan gangguan instance spot. Status peristiwa sistem tidak didefinisikan di ECS. Namun, peristiwa tersebut tetap dilaporkan ke CloudMonitor saat dipicu. Dengan cara ini, Anda dapat membangun sistem O&M otomatis berbasis peristiwa sesuai dengan kebutuhan bisnis Anda.
Sebagai contoh, peristiwa perubahan status dipicu ketika Anda memulai atau menghentikan instance ECS. Peristiwa ini tidak menunjukkan risiko atau pengecualian. Jika Anda ingin mencatat operasi Anda ke sistem Anda, Anda dapat mengonfigurasi pemberitahuan peristiwa untuk peristiwa perubahan status dan menggunakan fitur panggilan balik peringatan untuk menulis informasi startup dan stop instance ke log operasi.

Kategori peristiwa sistem

Peristiwa sistem dapat diklasifikasikan ke dalam kategori berikut berdasarkan penyebab peristiwa:

Catatan

Untuk informasi tentang kategori peristiwa sistem yang didukung oleh ECS dan cara menangani peristiwa sistem ECS, lihat Ringkasan.

Kategori	Deskripsi	Ditampilkan di konsol ECS
Peristiwa pemeliharaan terjadwal	Alibaba Cloud mungkin perlu meningkatkan perangkat lunak host karena alasan keamanan atau untuk memprediksi dan menangani risiko kegagalan yang ada pada perangkat keras dan perangkat lunak host bawah. Dalam kasus-kasus ini, jika tugas O&M yang akan dieksekusi oleh Alibaba Cloud dapat memengaruhi ketersediaan atau kinerja sumber daya ECS Anda, Alibaba Cloud memicu dan mengirimkan peristiwa pemeliharaan terjadwal terlebih dahulu untuk memberi tahu Anda tentang detail tugas, seperti waktu eksekusi, objek, dan dampak. Setelah Anda menerima peristiwa pemeliharaan terjadwal, Anda dapat menangani peristiwa O&M selama periode off-peak dalam jendela eksekusi peristiwa untuk meminimalkan dampak bisnis. Catatan Peristiwa pemeliharaan terjadwal, juga dikenal sebagai peristiwa pemeliharaan proaktif, didasarkan pada pengalaman O&M Alibaba Cloud pada jutaan server, kemampuan untuk melayani puluhan ribu pelanggan perusahaan besar, dan algoritma pembelajaran mesin mutakhir dari Akademi DAMO Alibaba untuk memprediksi dan menangani risiko kegagalan yang ada pada perangkat keras atau perangkat lunak host bawah. Ketika risiko kegagalan pada host tidak dapat dicegah, Alibaba Cloud memberi tahu Anda terlebih dahulu menggunakan peristiwa pemeliharaan terjadwal. Dengan cara ini, Anda dapat memindahkan bisnis Anda sebelum kegagalan terjadi. Jika Anda tidak merespons peristiwa pemeliharaan terjadwal secepat mungkin, instance ECS Anda mungkin rusak atau restart ketika kegagalan terjadi.	Ya Catatan Ketika peristiwa pemeliharaan terjadwal dipicu untuk instance keluarga instans big data atau keluarga instans yang dilengkapi dengan SSD lokal (tidak termasuk keluarga instans i4p), peristiwa tersebut ditampilkan di halaman Local Disk-based Instance Events. Untuk informasi tentang peristiwa instance berbasis disk lokal, lihat Skenario O&M dan peristiwa sistem untuk instance yang dilengkapi dengan disk lokal.
Peristiwa O&M tak terduga	Kategori peristiwa sistem ini dipicu ketika instance ECS restart atau rusak karena masalah tak terduga, seperti kernel panic, kesalahan out-of-memory (OOM), atau kegagalan perangkat keras atau perangkat lunak pada host bawah. Alibaba Cloud mengirimkan peristiwa setelah peristiwa tersebut dipicu dan memulihkan sumber daya ECS yang terpengaruh secepat mungkin. Alibaba Cloud juga memberi tahu Anda tentang status eksekusi tugas O&M sistem terkait peristiwa tersebut. Catatan Dalam kebanyakan kasus, peristiwa O&M tak terduga mengacu pada downtime mendadak atau restart instance ECS karena kegagalan tak terduga host bawah atau kesalahan kernel pada sistem operasi instance ECS. Peristiwa downtime atau restart instance ECS yang disebabkan oleh kegagalan host (SystemFailure.Reboot) bersifat sesekali dan tidak dapat dihindari. Jika Service Level Agreement (SLA) untuk instance tunggal dilanggar, Alibaba Cloud membayar kompensasi berdasarkan SLA layanan terkait. Dalam kebanyakan kasus, peristiwa restart instance ECS yang disebabkan oleh kesalahan kernel sistem operasi (InstanceFailure.Reboot) disebabkan oleh aplikasi. Anda dapat menangkap file dump untuk menganalisis penyebabnya. Untuk informasi lebih lanjut, lihat Bagaimana cara mengaktifkan layanan kdump pada instance Linux?.	Ya Catatan Ketika peristiwa O&M tak terduga dipicu untuk instance keluarga instans big data atau keluarga instans yang dilengkapi dengan SSD lokal (tidak termasuk keluarga instans i4p), peristiwa tersebut ditampilkan di halaman Local Disk-based Instance Events. Untuk informasi tentang peristiwa instance berbasis disk lokal, lihat Skenario O&M dan peristiwa sistem untuk instance yang dilengkapi dengan disk lokal.
Peristiwa instance berbasis disk lokal	Kategori peristiwa sistem ini mencakup peristiwa sistem yang dipicu untuk disk lokal dan instance yang dilengkapi dengan disk lokal. Peristiwa sistem yang dipicu untuk disk lokal mencakup peristiwa sistem yang dipicu ketika disk lokal rusak. Peristiwa sistem yang dipicu untuk instance yang dilengkapi dengan disk lokal mencakup peristiwa sistem yang dipicu ketika instance yang dilengkapi dengan disk lokal gagal karena kerusakan disk lokal atau ketika perangkat keras atau perangkat lunak host bawah gagal untuk instance yang dilengkapi dengan disk lokal. Catatan Local Disk-based Instance Events bukanlah kategori peristiwa sistem dan hanya digunakan untuk menampilkan peristiwa pemeliharaan terjadwal atau tak terduga untuk instance keluarga instans big data atau keluarga instans yang dilengkapi dengan SSD lokal (tidak termasuk keluarga instans i4p) dan membuat peristiwa mudah ditangani. Untuk informasi lebih lanjut tentang peristiwa instance berbasis disk lokal, lihat Skenario O&M dan peristiwa sistem untuk instance yang dilengkapi dengan disk lokal.	Ya
Peristiwa batas kinerja instance burstable	Kategori peristiwa sistem ini dipicu ketika instance burstable kehabisan kredit CPU mereka dan mulai beroperasi pada atau mendekati utilitas CPU dasar. Peristiwa sistem dapat memengaruhi manajemen instance, O&M instance, dan operasi aplikasi serta mengakibatkan masalah seperti akses lambat dan latensi.	Ya
Peristiwa keamanan instance	Kategori peristiwa sistem ini dipicu ketika instance menghadapi ancaman keamanan. Sebagai contoh, peristiwa keamanan instance dipicu ketika instance sedang mengalami serangan DDoS atau ketika penyaringan blackhole dipicu untuk instance.	Ya
Peristiwa migrasi instance karena peningkatan di lapisan bawah	Kategori peristiwa sistem ini dipicu ketika instance perlu dimigrasi dari wilayah dan zona tertentu karena rencana peningkatan infrastruktur Alibaba Cloud. Anda dapat memigrasi instance berdasarkan peristiwa sistem.	Ya
Peristiwa perubahan status	Kategori peristiwa sistem ini dipicu ketika operasi, seperti Mulai dan Hentikan, pada instance menyebabkan perubahan dalam status siklus hidup instance atau ketika perubahan atribut instance menyebabkan perubahan dalam status siklus hidup instance atau perubahan status lainnya. Peristiwa perubahan status diklasifikasikan menjadi kategori berikut: Peristiwa perubahan status siklus hidup: Sebagai contoh, peristiwa perubahan status siklus hidup dipicu ketika instance memasuki status yang berbeda, ketika instance spot terganggu, dan ketika snapshot dibuat. Peristiwa perubahan atribut lainnya: Sebagai contoh, peristiwa perubahan atribut lainnya dipicu ketika mode kinerja instance burstable diubah atau ketika disk berlangganan diubah menjadi disk bayar sesuai pemakaian.	Peristiwa perubahan status siklus hidup tidak ditampilkan di konsol ECS. Peristiwa perubahan atribut lainnya tertentu ditampilkan di konsol ECS.

Tingkat keparahan peristiwa sistem

Berikut adalah tingkat keparahan yang ditetapkan untuk peristiwa sistem berdasarkan dampaknya terhadap operasi normal instance:

Kritis: Peristiwa sistem kritis dapat mengakibatkan instance tidak tersedia dan harus ditangani secepat mungkin. Sebagai contoh, peristiwa sistem kritis dipicu ketika sumber daya dilepaskan karena pembayaran tertunda atau ketika instance diterapkan ulang karena kesalahan instance.
Peringatan: Peristiwa sistem peringatan memengaruhi bisnis Anda. Sebagai contoh, peristiwa sistem peringatan dipicu ketika instance burstable tidak dapat melebihi ambang batas kinerja dasarnya. Anda harus mencatat peristiwa ini atau menanganinya jika sesuai.
Pemberitahuan: Peristiwa sistem pemberitahuan tidak memengaruhi bisnis Anda. Sebagai contoh, peristiwa sistem pemberitahuan dipicu ketika snapshot dibuat untuk disk. Anda dapat memilih apakah akan memperhatikan peristiwa sistem pemberitahuan.

Status dan jendela peristiwa sistem

Tabel berikut menjelaskan status yang didefinisikan untuk peristiwa sistem yang ditampilkan di Konsol ECS.

Catatan

Untuk informasi tentang status yang didukung untuk peristiwa sistem yang berbeda, lihat kolom "Peristiwa CloudMonitor" dari tabel dalam Ringkasan.

Status peristiwa	Atribut	Deskripsi
Menanyakan	Antara	Tugas O&M terkait peristiwa sistem menunggu otorisasi. Setelah Anda mengotorisasi tugas untuk dieksekusi, peristiwa memasuki status Menjalankan.
Dijadwalkan	Antara	Tugas O&M terkait peristiwa sistem dijadwalkan dan menunggu eksekusi. Ketika tugas O&M dieksekusi, peristiwa memasuki status Menjalankan.
Menjalankan	Antara	Tugas O&M terkait peristiwa sistem sedang dieksekusi.
Telah dijalankan	Stabil	Tugas O&M terkait peristiwa sistem selesai.
Dihindari	Stabil	Dampak peristiwa sistem dicegah karena instance yang terpengaruh dipindahkan dalam jendela operasi pengguna.
Gagal	Stabil	Tugas O&M terkait peristiwa sistem gagal.
Dibatalkan	Stabil	Tugas O&M terkait peristiwa sistem dibatalkan secara otomatis.

Gambar berikut menunjukkan transisi tipikal antara status peristiwa.

Peristiwa sistem memiliki jendela berikut:

Jendela Operasi Pengguna
Jendela operasi pengguna peristiwa sistem dimulai ketika peristiwa dikirim dan berakhir pada saat tugas O&M terkait dijadwalkan dieksekusi. Anda dapat mengeksekusi tugas O&M secara manual dalam jendela operasi pengguna atau menunggu sistem secara otomatis mengeksekusi tugas. Perhatikan hal berikut tentang panjang jendela operasi pengguna:
- Dalam kebanyakan kasus, jendela operasi pengguna untuk peristiwa pemeliharaan terjadwal berkisar antara 24 hingga 48 jam.
  Catatan
  Panjang jendela operasi pengguna tidak terbatas untuk peristiwa sistem dalam status Mengonfirmasi. Tugas O&M terkait peristiwa dapat dimulai hanya setelah Anda mengotorisasi tugas untuk dieksekusi.
- Dalam kebanyakan kasus, peristiwa O&M tak terduga yang disebabkan oleh kegagalan atau operasi tidak sah tidak memiliki jendela operasi pengguna.
- Untuk peristiwa sistem yang menunjukkan bahwa instance berlangganan akan segera kedaluwarsa, jendela adalah 3 hari.
- Untuk peristiwa sistem yang menunjukkan bahwa instance bayar sesuai pemakaian akan segera dihentikan karena pembayaran tertunda, jendela kurang dari 1 jam.
Jendela Eksekusi Peristiwa
Jendela eksekusi peristiwa sistem dimulai ketika tugas O&M terkait dieksekusi dan berakhir ketika tugas selesai. Perhatikan hal berikut tentang panjang jendela eksekusi peristiwa:
- Untuk peristiwa sistem seperti peristiwa pemulihan kegagalan, jendela dalam 10 menit.
- Peristiwa O&M tak terduga yang disebabkan oleh kegagalan atau operasi tidak sah memiliki jendela eksekusi peristiwa yang singkat.

Operasi yang dapat dilakukan pada peristiwa sistem

Operasi	Deskripsi dan referensi
Memahami peristiwa sistem	Untuk mempelajari tentang peristiwa sistem dan memahami nama peristiwa, tingkat keparahan, skenario penggunaan, batasan, status, dan format nama, lihat topik ini.
Lihat peristiwa sistem	Anda dapat melihat peristiwa sistem di konsol ECS atau CloudMonitor atau dengan menggunakan CLI Alibaba Cloud. Untuk informasi tentang cara melihat peristiwa sistem di konsol ECS atau dengan menggunakan CLI Alibaba Cloud, lihat Kueri dan tangani peristiwa sistem ECS. Untuk informasi tentang cara melihat peristiwa sistem di konsol CloudMonitor, lihat Lihat peristiwa sistem.
Tangani peristiwa sistem	Untuk peristiwa sistem kritis tertentu, seperti peristiwa sistem yang memengaruhi ketersediaan dan kinerja sumber daya ECS, kami menyarankan Anda menangani peristiwa tersebut sesuai saran di konsol ECS atau CloudMonitor atau dengan memanggil operasi API secepat mungkin untuk memastikan ketersediaan layanan. Untuk informasi tentang saran tentang cara menangani semua peristiwa sistem, lihat Ringkasan. Untuk informasi tentang cara melihat dan menangani peristiwa sistem tertunda, lihat Kueri dan tangani peristiwa sistem ECS. Untuk informasi tentang cara menangani peristiwa sistem terkait disk lokal, lihat Skenario O&M dan peristiwa sistem untuk instance yang dilengkapi dengan disk lokal.
Monitor peristiwa sistem	Untuk memastikan stabilitas layanan yang berjalan pada instance ECS dan mengotomatiskan O&M, kami menyarankan Anda mengonfigurasi pemberitahuan peristiwa untuk diberi tahu tentang perubahan lingkungan bawah. Setelah Anda mengonfigurasi pemberitahuan peristiwa, sistem menggunakan metode pemberitahuan yang Anda tentukan untuk mengirimkan pemberitahuan kepada Anda. Untuk informasi tentang cara mengonfigurasi aturan peringatan di konsol CloudMonitor untuk mendorong pemberitahuan peristiwa, lihat Berlangganan pemberitahuan peristiwa sistem ECS. Untuk informasi tentang cara menggunakan chatbot DingTalk untuk mengirim pemberitahuan peristiwa ke grup DingTalk, lihat Kirim pemberitahuan peristiwa menggunakan chatbot DingTalk.
Modifikasi pengaturan terkait peristiwa sistem	Anda dapat memodifikasi pengaturan terkait peristiwa sistem berdasarkan kebutuhan bisnis Anda. Anda dapat memodifikasi atribut pemeliharaan instance ECS untuk mengonfigurasi apakah akan me-restart atau menerapkan ulang instance setelah peristiwa sistem ditangani. Untuk informasi lebih lanjut, lihat Modifikasi atribut pemeliharaan instance. Untuk peristiwa sistem terjadwal yang memerlukan instance ECS untuk direstart, Anda dapat mengonfigurasi tugas O&M untuk menangani peristiwa sistem dan menentukan waktu restart instance. Untuk informasi lebih lanjut, lihat Modifikasi waktu restart terjadwal.