Lihat dan kelola event operasional Alibaba Cloud Elasticsearch - Elasticsearch

Gunakan Event Center untuk melihat event O&M sistem Alibaba Cloud Elasticsearch (ES), mendeteksi anomali layanan secara cepat, dan mengidentifikasi masalah.

Kategori event

Event ES dikelompokkan ke dalam kategori berikut berdasarkan penyebab dan dampaknya.

Catatan

Untuk informasi selengkapnya, lihat Lampiran: Detail event.

Event category	Definition	Cause and impact	Examples
System change	Alibaba Cloud memulai event perubahan sistem dan memberi tahu Anda. Periksa apakah kluster Anda terpengaruh.	Perubahan infrastruktur atau gangguan dapat memengaruhi akses kluster. Saat event semacam ini terjadi, sistem mengirim notifikasi. Segera periksa notifikasi dan status kluster Anda.	Peningkatan fitur Kibana menyebabkan penangguhan layanan singkat. Alibaba Cloud meningkatkan keluarga instans AMD ke generasi terbaru.
Cluster health	Sistem secara berkala memeriksa dan memantau kesehatan kluster berdasarkan penggunaan aktual, serta melaporkan hasil diagnostik yang tidak terduga sebagai event.	Untuk memastikan kelangsungan layanan, sistem secara otomatis memicu event kesehatan kluster saat mendeteksi anomali atau risiko pada resource kluster. Catatan Selama eksekusi event O&M, kluster mungkin mengalami jitter singkat tanpa memengaruhi akses normal. Jika eksekusi otomatis gagal, Anda dapat memicu restart node secara manual di halaman Event Center. Anda memiliki waktu `24 hingga 48` jam untuk melakukan intervensi manual. Untuk waktu eksekusi spesifik, lihat Lihat dan tangani event.	Pemeriksaan menemukan bahwa node ES sedang offline.
Cluster change	Event ini sesuai dengan perubahan kluster yang Anda inisiasi. Kegagalan atau pemblokiran mungkin terjadi selama proses perubahan.	Perubahan tipe instans atau peningkatan kernel memicu restart node yang bersangkutan. Selama restart, kluster mungkin mengalami jitter singkat tanpa memengaruhi akses normal.	Scale-in Restart a node

Lihat dan tangani event

Di halaman Event Center, Anda dapat melihat dan merespons event untuk akun Anda.

Buka Event Center.
1. Login ke Konsol Alibaba Cloud Elasticsearch.
2. Di panel navigasi, klik Event Center.

Lihat informasi event.

Di halaman Event Center, Anda dapat memfilter event berdasarkan jenis untuk melihat semua event pada instans tertentu dalam periode waktu yang ditentukan, lalu merespons berdasarkan detail event tersebut. Halaman ini berisi tiga tab: System Change, Cluster Health, dan Cluster Changes. Di bagian atas halaman, gunakan pemilih rentang waktu atau cari berdasarkan ID instans untuk memfilter event. Di pojok kanan atas, klik Event Subscription atau Manage Notifications. Di daftar event, klik Restart atau Schedule Restart di kolom Suggestion untuk menangani event yang tertunda.

Catatan

Anda dapat melihat semua informasi event di Event Center. Anda juga dapat berlangganan event dan mengatur notifikasi untuk alert kritis. Saat alert dipicu, sistem mengirim notifikasi ke kontak yang ditentukan melalui panggilan telepon, pesan teks, atau email.

Tabel berikut menjelaskan informasi event dan tindakan terkait.

Event information	Description
Cluster ID	ID instans Alibaba Cloud ES tempat event terjadi.
Node ID	ID node dalam instans tempat event terjadi.
Event Level	Tingkat keparahan event. Nilai yang valid: Info: Mencatat operasi dan status sistem rutin. Berguna untuk pemantauan atau debugging. Warning: Menunjukkan potensi masalah yang saat ini tidak memengaruhi operasi tetapi perlu dipantau. Critical: Terjadi error atau gangguan serius. Tindakan segera diperlukan untuk mencegah gangguan layanan atau kehilangan data.
Event Status	Status eksekusi event. Nilai yang valid mencakup To Be Handled, In Progress, Handled, Handling Failed, Handling Interrupted, Canceled, Execution to be confirmed, Ready to continue, Occurred, In Progress, dan Recovered. Berikut ini penjelasan status utama: To Be Handled: Event menunggu untuk dieksekusi pada waktu yang ditentukan sistem atau pada waktu yang telah Anda jadwalkan. Execution to be confirmed: Berdasarkan detail event, Anda dapat memutuskan apakah akan segera mengeksekusi event atau membuat cadangan snapshot. Catatan Status ini hanya didukung untuk beberapa event yang terkait dengan disk lokal di tab System Change. Cadangan snapshot hanya tersedia untuk event penerapan, seperti peningkatan kluster Alibaba Cloud ES atau penerapan versi baru ke node tertentu. Ready to continue: Perubahan grayscale telah selesai. Anda harus mengonfirmasi stabilitas node dan kluster yang terpengaruh sebelum melanjutkan. Misalnya, setelah perubahan diuji dan diverifikasi pada beberapa node, perubahan tersebut kemudian diterapkan ke semua node yang tersisa. Untuk event dengan status Handling Failed atau Handling Interrupted, identifikasi penyebab dan selesaikan masalah tersebut segera untuk menghindari dampak pada operasi bisnis Anda.
Event Description	Penyebab dan dampak event.
Occurred At dan Ended At	Waktu mulai dan waktu berakhir event.
Scheduled Handling Time dan Execution End Time	Waktu mulai yang dijadwalkan dan perkiraan waktu berakhir penanganan event. Catatan Informasi ini hanya tersedia untuk event perubahan sistem.
Scheduled Handling Time dan Execution End Time
Source	Sumber event. Nilai yang valid: Proactive Notification: Alibaba Cloud ES secara otomatis mengirim event yang dihasilkan ke Event Center. Event Subscription: Anda berlangganan event tertentu. Saat event yang dilanggankan terjadi, Anda menerima notifikasi.
Suggestion	Tangani event berdasarkan saran yang diberikan. Tindakan yang didukung bervariasi tergantung event. Lihat UI untuk detailnya. Contact Technical Support: Hubungi Technical Support jika Anda memiliki pertanyaan tentang suatu event. Restart: Segera me-restart node yang ditentukan. Schedule Restart: Tentukan waktu restart. Waktu yang dijadwalkan harus setidaknya `5` menit ke depan. Sistem akan me-restart node yang ditentukan dalam waktu `5` menit setelah waktu yang dijadwalkan. Catatan Saat Anda melakukan restart, forced restart, atau grayscale restart pada instans atau node, sistem memicu event restart yang sesuai. Untuk event redeployment, seperti peningkatan versi Alibaba Cloud ES, kirim tiket ke Technical Support.

Lampiran: Detail event

Jenis event	Kode dan nama event	Nama event CloudMonitor	Kategori penyebab	Tingkat event	Deskripsi dan dampak
System change event	SystemUpdate.InfraDiskError System change event due to an infrastructure disk failure	`Instance:SystemUpdate.InfraDiskError:Executing`: System change event in progress due to an infrastructure disk failure `Instance:SystemUpdate.InfraDiskError:Executed`: System change event completed due to an infrastructure disk failure		Critical	Kegagalan infrastruktur menyebabkan disk lokal tidak tersedia. Event ini memerlukan redeployment backend. Untuk mengatasinya, kirimkan tiket ke dukungan teknis.
	SystemUpdate.InfraDiskStalled System change event due to infrastructure disk performance issues	`Instance:SystemUpdate.InfraDiskstalled:Executing`: System change event in progress due to infrastructure disk performance issues `Instance:SystemUpdate.InfraDiskstalled:Executed`: System change event completed due to infrastructure disk performance issues		Critical	Kegagalan infrastruktur menurunkan performa cloud disk.
	SystemUpdate.InfraFailureStop System change event due to an instance stop caused by an infrastructure failure	`Instance:SystemUpdate.InfraFailureStop:Scheduled`: System change event scheduled to stop the instance due to an infrastructure failure `Instance:SystemUpdate.InfraFailureStop:Executing`: System change event in progress to stop the instance due to an infrastructure failure `Instance:SystemUpdate.InfraFailureStop:Executed`: System change event completed to stop the instance due to an infrastructure failure `Instance:SystemUpdate.InfraFailureStop:Failed`: System change event failed to stop the instance due to an infrastructure failure		Critical	Instans mungkin berhenti karena potensi kegagalan infrastruktur.


	SystemUpdate.InfraMigrate System change event due to an infrastructure migration or upgrade	`Instance:SystemUpdate.InfraMigrate:Scheduled`: System change event scheduled for an infrastructure migration or upgrade `Instance:SystemUpdate.InfraMigrate:Executing`: System change event in progress for an infrastructure migration or upgrade `Instance:SystemUpdate.InfraMigrate:Executed`: System change event completed for an infrastructure migration or upgrade `Instance:SystemUpdate.InfraMigrate:Failed`: System change event failed for an infrastructure migration or upgrade		Critical	Node instans restart akibat maintenance infrastruktur. Node instans diredploy akibat maintenance infrastruktur.
	SystemUpdate.SoftwareRepair System change event due to a control system software update	`Instance:SystemUpdate.SoftwareRepair:Scheduled`: System change event scheduled for a software update `Instance:SystemUpdate.SoftwareRepair:Executing`: System change event in progress for a software update `Instance:SystemUpdate.SoftwareRepair:Executed`: System change event completed for a software update		Warning	Description: Sistem kontrol kluster restart akibat peningkatan. Peningkatan ini melibatkan perubahan pada arsitektur instans Alibaba Cloud, yang meningkatkan mode penyebaran kontrol dari Basic Control (v2) ke Cloud-native Control (v3). Catatan Anda dapat melihat mode penyebaran kontrol pada halaman Basic Information instans. Impact: Peningkatan menggunakan penyebaran biru-hijau dalam periode terjadwal. Selama proses ini, jumlah node kluster menjadi dua kali lipat, tetapi tidak dikenakan biaya tambahan. Peningkatan memerlukan waktu beberapa jam, tergantung pada volume data. Sistem mengambil node lama offline selama jendela O&M yang Anda konfigurasi, menyebabkan gangguan layanan sekitar `1 hingga 2` detik. Operasi perubahan instans tidak tersedia selama peningkatan. Persiapkan layanan Anda terlebih dahulu. Kluster ditingkatkan dari versi `6.8.6` ke `6.8.23`. Mesin sepenuhnya kompatibel, dan layanan Anda tidak terpengaruh. Setelah peningkatan, jaringan pribadi Kibana dinonaktifkan. Anda perlu login ke Konsol Kibana untuk mengaktifkannya.
Cluster health event	HealthCheck.ClusterAbnormal Cluster health event due to an abnormal cluster status	`Instance:HealthCheck.ClusterAbnormal:Executed`: Cluster health event completed due to an abnormal cluster status `Instance:HealthCheck.ClusterAbnormal:Failed`: Peristiwa kesehatan klaster gagal karena status klaster tidak normal.		Critical	Instans restart akibat status kluster abnormal.
				Critical	Instans restart akibat status kluster abnormal.
	HealthCheck.ClusterUnhealthy Cluster health event due to an unhealthy cluster status	`Instance:HealthCheck:ClusterUnhealthy:Occurred`: A health check event for an unhealthy cluster has occurred. `Instance:HealthCheck:ClusterUnhealthy:Persistent`: A health check event for an unhealthy cluster is ongoing. `Instance:HealthCheck:ClusterUnhealthy:Recovered`: A health check event for an unhealthy cluster has been resolved.	Cluster.StatusRed: Status kesehatan kluster berubah menjadi Red.	Critical	Status kluster adalah Red, menunjukkan adanya shard utama yang tidak ditugaskan. Data tidak tersedia.
			Cluster.StatusYellow: Status kesehatan kluster berubah menjadi Yellow.	Warning	Status kluster adalah Yellow, menunjukkan adanya shard replika yang tidak ditugaskan. Hal ini mengurangi redundansi data.
			Node.Disconnected: Sebuah node kluster offline atau terputus.	Critical	Sebuah node offline atau terputus, yang dapat menyebabkan data tidak tersedia atau degradasi performa.
	HealthCheck.JVMMemoryPressure Resource anomaly event due to JVM memory pressure	`Instance:HealthCheck:JVMMemoryPressure:Occurred` `Instance:HealthCheck:JVMMemoryPressure:Persistent` `Instance:HealthCheck:JVMMemoryPressure:Recovered`	JVMMemory.HeapMemoryHigh: Penggunaan memori heap tinggi	Warning	Penggunaan memori heap tinggi dapat memicu full GC.
			JVMMemory.HeapMemoryCritical: Penggunaan memori heap sangat tinggi	Critical	Memori heap hampir mencapai batasnya dan sangat berpotensi menyebabkan error OutOfMemory (OOM).
			JVMMemory.GCRateTooHigh: Old GC sering terjadi	Warning	Old GC yang sering terjadi memengaruhi performa.
	HealthCheck.CPULoadHigh Resource anomaly event due to high CPU load	`Instance:HealthCheck:CPULoadHigh:Occurred` `Instance:HealthCheck:CPULoadHigh:Persistent` `Instance:HealthCheck:CPULoadHigh:Recovered`	CPU.PersistUsageHigh: Beban CPU tinggi berkelanjutan	Warning	Beban CPU tinggi berkelanjutan memperlambat respons sistem.
			CPU.PersistUsageCritical: Beban CPU tinggi berkelanjutan	Critical	Beban CPU tinggi berkelanjutan memperlambat respons sistem.
	HealthCheck.DiskUsageHigh Resource anomaly event due to high disk usage	`Instance:HealthCheck:DiskUsageHigh:Occurred` `Instance:HealthCheck:DiskUsageHigh:Persistent` `Instance:HealthCheck:DiskUsageHigh:Recovered`	Disk.UsageHigh: Peringatan penggunaan disk	Warning	Disk space yang tidak mencukupi mencegah pembuatan shard baru. Kosongkan ruang atau tingkatkan kapasitas penyimpanan.
			Disk.UsageCritical: Penggunaan disk kritis	Critical	Penggunaan disk mendekati ambang batas otomatis Elasticsearch read-only (95%). Hal ini memengaruhi penulisan data normal dan memerlukan tindakan segera.
			Disk.IndexReadOnly: Indeks memasuki status read-only.	Critical	Elasticsearch secara otomatis mengatur indeks menjadi read-only, biasanya saat disk penuh. Tindakan ini memblokir semua operasi tulis.
	HealthCheck.DiskIOBottleneck Resource anomaly event due to a disk I/O bottleneck	`Instance:HealthCheck:DiskIOBottleneck:Occurred` `Instance:HealthCheck:DiskIOBottleneck:Persistent` `Instance:HealthCheck:DiskIOBottleneck:Recovered`	Disk.IOUtilizationHigh: Utilisasi I/O disk tinggi	Critical	Utilisasi I/O disk tinggi meningkatkan latensi baca/tulis. Tingkatkan kapasitas disk atau ganti ke tipe disk berperforma lebih tinggi untuk mengatasi masalah ini.
	HealthCheck.ThreadPoolSaturation Performance bottleneck event due to thread pool saturation	`Instance:HealthCheck:ThreadPoolSaturation:Occurred` `Instance:HealthCheck:ThreadPoolSaturation:Persistent` `Instance:HealthCheck:ThreadPoolSaturation:Recovered`	ThreadPool.SearchQueueHigh: Antrian kolam thread pencarian mengalami kemacetan.	Warning	Kemacetan pada antrian kolam thread pencarian memperlambat tanggapan kueri.
			ThreadPool.SearchRejected: Permintaan pencarian ditolak.	Critical	Sistem menolak permintaan pencarian, menyebabkan kueri pengguna gagal.
			ThreadPool.WriteQueueHigh: Antrian kolam thread penulisan mengalami kemacetan.	Warning	Kemacetan pada antrian kolam thread penulisan memperlambat tanggapan penulisan.
			ThreadPool.WriteRejected: Permintaan penulisan ditolak.	Critical	Sistem menolak permintaan penulisan, menyebabkan penulisan data gagal.
Cluster change event	UserOperator.InstanceSpecModify Cluster change event due to an instance type change	`Instance:UserOperator.InstanceSpecModify:Executing`: Cluster change event in progress due to an instance type change `Instance:UserOperator.InstanceSpecModify:Executed`: Cluster change event completed due to an instance type change		Info	Instans restart akibat perubahan tipe instans. Node instans restart akibat perubahan node instans.
				Info
	UserOperator.InstanceUpdate Cluster change event due to an instance change operation	`Instance:UserOperator.InstanceUpdate:Executing`: Cluster change event in progress due to an instance change operation `Instance:UserOperator.InstanceUpdate:Executed`: Cluster change event completed due to an instance change operation		Info	Instans restart akibat perubahan konfigurasi. Plugin instans diperbarui. Kamus IK instans diperbarui secara hot.




	UserOperator.InstanceCoreUpdate Cluster change event due to an instance kernel upgrade	`Instance:UserOperator.InstanceCoreUpdate:Executing`: Cluster change event in progress due to an instance kernel upgrade `Instance:UserOperator.InstanceCoreUpdate:Executed`: Cluster change event completed due to an instance kernel upgrade		Info	Instans restart akibat pembaruan versi kernel.