Gunakan Event Center untuk melihat event O&M sistem Alibaba Cloud Elasticsearch (ES), mendeteksi anomali layanan secara cepat, dan mengidentifikasi masalah.
Kategori event
Event ES dikelompokkan ke dalam kategori berikut berdasarkan penyebab dan dampaknya.
Untuk informasi selengkapnya, lihat Lampiran: Detail event.
|
Event category |
Definition |
Cause and impact |
Examples |
|
System change |
Alibaba Cloud memulai event perubahan sistem dan memberi tahu Anda. Periksa apakah kluster Anda terpengaruh. |
Perubahan infrastruktur atau gangguan dapat memengaruhi akses kluster. Saat event semacam ini terjadi, sistem mengirim notifikasi. Segera periksa notifikasi dan status kluster Anda. |
|
|
Cluster health |
Sistem secara berkala memeriksa dan memantau kesehatan kluster berdasarkan penggunaan aktual, serta melaporkan hasil diagnostik yang tidak terduga sebagai event. |
Untuk memastikan kelangsungan layanan, sistem secara otomatis memicu event kesehatan kluster saat mendeteksi anomali atau risiko pada resource kluster. Catatan
Selama eksekusi event O&M, kluster mungkin mengalami jitter singkat tanpa memengaruhi akses normal. Jika eksekusi otomatis gagal, Anda dapat memicu restart node secara manual di halaman Event Center. Anda memiliki waktu |
Pemeriksaan menemukan bahwa node ES sedang offline. |
|
Cluster change |
Event ini sesuai dengan perubahan kluster yang Anda inisiasi. Kegagalan atau pemblokiran mungkin terjadi selama proses perubahan. |
Perubahan tipe instans atau peningkatan kernel memicu restart node yang bersangkutan. Selama restart, kluster mungkin mengalami jitter singkat tanpa memengaruhi akses normal. |
|
Lihat dan tangani event
Di halaman Event Center, Anda dapat melihat dan merespons event untuk akun Anda.
-
Buka Event Center.
-
Login ke Konsol Alibaba Cloud Elasticsearch.
-
Di panel navigasi, klik Event Center.
-
-
Lihat informasi event.
Di halaman Event Center, Anda dapat memfilter event berdasarkan jenis untuk melihat semua event pada instans tertentu dalam periode waktu yang ditentukan, lalu merespons berdasarkan detail event tersebut. Halaman ini berisi tiga tab: System Change, Cluster Health, dan Cluster Changes. Di bagian atas halaman, gunakan pemilih rentang waktu atau cari berdasarkan ID instans untuk memfilter event. Di pojok kanan atas, klik Event Subscription atau Manage Notifications. Di daftar event, klik Restart atau Schedule Restart di kolom Suggestion untuk menangani event yang tertunda.
CatatanAnda dapat melihat semua informasi event di Event Center. Anda juga dapat berlangganan event dan mengatur notifikasi untuk alert kritis. Saat alert dipicu, sistem mengirim notifikasi ke kontak yang ditentukan melalui panggilan telepon, pesan teks, atau email.
Tabel berikut menjelaskan informasi event dan tindakan terkait.
Event information
Description
Cluster ID
ID instans Alibaba Cloud ES tempat event terjadi.
Node ID
ID node dalam instans tempat event terjadi.
Event Level
Tingkat keparahan event. Nilai yang valid:
-
Info: Mencatat operasi dan status sistem rutin. Berguna untuk pemantauan atau debugging.
-
Warning: Menunjukkan potensi masalah yang saat ini tidak memengaruhi operasi tetapi perlu dipantau.
-
Critical: Terjadi error atau gangguan serius. Tindakan segera diperlukan untuk mencegah gangguan layanan atau kehilangan data.
Event Status
Status eksekusi event. Nilai yang valid mencakup To Be Handled, In Progress, Handled, Handling Failed, Handling Interrupted, Canceled, Execution to be confirmed, Ready to continue, Occurred, In Progress, dan Recovered. Berikut ini penjelasan status utama:
-
To Be Handled: Event menunggu untuk dieksekusi pada waktu yang ditentukan sistem atau pada waktu yang telah Anda jadwalkan.
-
Execution to be confirmed: Berdasarkan detail event, Anda dapat memutuskan apakah akan segera mengeksekusi event atau membuat cadangan snapshot.
Catatan-
Status ini hanya didukung untuk beberapa event yang terkait dengan disk lokal di tab System Change.
-
Cadangan snapshot hanya tersedia untuk event penerapan, seperti peningkatan kluster Alibaba Cloud ES atau penerapan versi baru ke node tertentu.
-
-
Ready to continue: Perubahan grayscale telah selesai. Anda harus mengonfirmasi stabilitas node dan kluster yang terpengaruh sebelum melanjutkan. Misalnya, setelah perubahan diuji dan diverifikasi pada beberapa node, perubahan tersebut kemudian diterapkan ke semua node yang tersisa.
Untuk event dengan status Handling Failed atau Handling Interrupted, identifikasi penyebab dan selesaikan masalah tersebut segera untuk menghindari dampak pada operasi bisnis Anda.
Event Description
Penyebab dan dampak event.
Occurred At dan Ended At
Waktu mulai dan waktu berakhir event.
Scheduled Handling Time dan Execution End Time
Waktu mulai yang dijadwalkan dan perkiraan waktu berakhir penanganan event.
CatatanInformasi ini hanya tersedia untuk event perubahan sistem.
Source
Sumber event. Nilai yang valid:
-
Proactive Notification: Alibaba Cloud ES secara otomatis mengirim event yang dihasilkan ke Event Center.
-
Event Subscription: Anda berlangganan event tertentu. Saat event yang dilanggankan terjadi, Anda menerima notifikasi.
Suggestion
Tangani event berdasarkan saran yang diberikan. Tindakan yang didukung bervariasi tergantung event. Lihat UI untuk detailnya.
-
Contact Technical Support: Hubungi Technical Support jika Anda memiliki pertanyaan tentang suatu event.
-
Restart: Segera me-restart node yang ditentukan.
-
Schedule Restart: Tentukan waktu restart. Waktu yang dijadwalkan harus setidaknya
5menit ke depan. Sistem akan me-restart node yang ditentukan dalam waktu5menit setelah waktu yang dijadwalkan.
CatatanSaat Anda melakukan restart, forced restart, atau grayscale restart pada instans atau node, sistem memicu event restart yang sesuai. Untuk event redeployment, seperti peningkatan versi Alibaba Cloud ES, kirim tiket ke Technical Support.
-
Lampiran: Detail event
|
Jenis event |
Kode dan nama event |
Nama event CloudMonitor |
Kategori penyebab |
Tingkat event |
Deskripsi dan dampak |
|
System change event |
|
|
Critical |
Kegagalan infrastruktur menyebabkan disk lokal tidak tersedia. Event ini memerlukan redeployment backend. Untuk mengatasinya, kirimkan tiket ke dukungan teknis. |
|
|
|
Critical |
Kegagalan infrastruktur menurunkan performa cloud disk. |
||
|
|
Critical |
Instans mungkin berhenti karena potensi kegagalan infrastruktur. |
||
|
|
Critical |
|
||
|
|
Warning |
|
||
|
Cluster health event |
|
|
Critical |
Instans restart akibat status kluster abnormal. |
|
|
|
Cluster.StatusRed: Status kesehatan kluster berubah menjadi Red. |
Critical |
Status kluster adalah Red, menunjukkan adanya shard utama yang tidak ditugaskan. Data tidak tersedia. |
|
|
Cluster.StatusYellow: Status kesehatan kluster berubah menjadi Yellow. |
Warning |
Status kluster adalah Yellow, menunjukkan adanya shard replika yang tidak ditugaskan. Hal ini mengurangi redundansi data. |
|||
|
Node.Disconnected: Sebuah node kluster offline atau terputus. |
Critical |
Sebuah node offline atau terputus, yang dapat menyebabkan data tidak tersedia atau degradasi performa. |
|||
|
|
JVMMemory.HeapMemoryHigh: Penggunaan memori heap tinggi |
Warning |
Penggunaan memori heap tinggi dapat memicu full GC. |
|
|
JVMMemory.HeapMemoryCritical: Penggunaan memori heap sangat tinggi |
Critical |
Memori heap hampir mencapai batasnya dan sangat berpotensi menyebabkan error OutOfMemory (OOM). |
|||
|
JVMMemory.GCRateTooHigh: Old GC sering terjadi |
Warning |
Old GC yang sering terjadi memengaruhi performa. |
|||
|
|
CPU.PersistUsageHigh: Beban CPU tinggi berkelanjutan |
Warning |
Beban CPU tinggi berkelanjutan memperlambat respons sistem. |
|
|
CPU.PersistUsageCritical: Beban CPU tinggi berkelanjutan |
Critical |
Beban CPU tinggi berkelanjutan memperlambat respons sistem. |
|||
|
|
Disk.UsageHigh: Peringatan penggunaan disk |
Warning |
Disk space yang tidak mencukupi mencegah pembuatan shard baru. Kosongkan ruang atau tingkatkan kapasitas penyimpanan. |
|
|
Disk.UsageCritical: Penggunaan disk kritis |
Critical |
Penggunaan disk mendekati ambang batas otomatis Elasticsearch read-only (95%). Hal ini memengaruhi penulisan data normal dan memerlukan tindakan segera. |
|||
|
Disk.IndexReadOnly: Indeks memasuki status read-only. |
Critical |
Elasticsearch secara otomatis mengatur indeks menjadi read-only, biasanya saat disk penuh. Tindakan ini memblokir semua operasi tulis. |
|||
|
|
Disk.IOUtilizationHigh: Utilisasi I/O disk tinggi |
Critical |
Utilisasi I/O disk tinggi meningkatkan latensi baca/tulis. Tingkatkan kapasitas disk atau ganti ke tipe disk berperforma lebih tinggi untuk mengatasi masalah ini. |
|
|
|
ThreadPool.SearchQueueHigh: Antrian kolam thread pencarian mengalami kemacetan. |
Warning |
Kemacetan pada antrian kolam thread pencarian memperlambat tanggapan kueri. |
|
|
ThreadPool.SearchRejected: Permintaan pencarian ditolak. |
Critical |
Sistem menolak permintaan pencarian, menyebabkan kueri pengguna gagal. |
|||
|
ThreadPool.WriteQueueHigh: Antrian kolam thread penulisan mengalami kemacetan. |
Warning |
Kemacetan pada antrian kolam thread penulisan memperlambat tanggapan penulisan. |
|||
|
ThreadPool.WriteRejected: Permintaan penulisan ditolak. |
Critical |
Sistem menolak permintaan penulisan, menyebabkan penulisan data gagal. |
|||
|
Cluster change event |
|
|
Info |
|
|
|
|
Info |
|
||
|
|
Info |
Instans restart akibat pembaruan versi kernel. |