Anda dapat menggunakan Event Center untuk melihat event operasi dan pemeliharaan (O&M) sistem Alibaba Cloud Elasticsearch (ES). Fitur ini membantu Anda mendeteksi anomali layanan secara cepat serta menganalisis dan mengidentifikasi masalah dengan segera. Topik ini menjelaskan kategori event ES serta cara melihat dan menanganinya.
Kategori event
Event ES dikategorikan berdasarkan penyebab dan dampaknya sebagai berikut.
Untuk informasi selengkapnya, lihat Lampiran: Detail event.
Event category | Definition | Penyebab dan dampak | Examples |
Perubahan Sistem | Event perubahan sistem diprakarsai oleh Alibaba Cloud. Anda akan diberi tahu mengenai event tersebut dan harus memeriksa apakah kluster Anda terpengaruh. | Event perubahan sistem yang disebabkan oleh perubahan infrastruktur atau faults dapat memengaruhi akses kluster. Saat jenis event ini dipicu, sistem mengirimkan notifikasi. Segera periksa notifikasi dan status kluster Anda. |
|
Kesehatan Kluster | Sistem secara berkala memeriksa kesehatan kluster berdasarkan penggunaan aktual. Hasil diagnosis yang tidak terduga ditampilkan sebagai event. | Untuk memastikan keberlanjutan layanan Alibaba Cloud, sistem secara otomatis memicu event kesehatan kluster saat mendeteksi anomali atau risiko pada resource kluster. Hal ini bertujuan meminimalkan dampak. Catatan Saat eksekusi event O&M, kluster mungkin mengalami jitter singkat tetapi akses normal tidak terpengaruh. Jika eksekusi otomatis gagal, Anda dapat memicu restart node secara manual di halaman Event Center. Jendela intervensi manual adalah 24 hingga | Pemeriksaan menemukan bahwa sebuah node ES sedang offline. |
Perubahan Kluster | Ini adalah event operasi yang Anda inisiasi untuk mengubah kluster. Kegagalan atau pemblokiran dapat terjadi selama proses perubahan. | Event perubahan kluster yang disebabkan oleh perubahan instance type atau peningkatan kernel memicu restart node yang bersangkutan. Selama eksekusi event O&M, kluster mungkin mengalami jitter singkat tetapi akses normal tidak terpengaruh. |
|
Melihat dan menangani event
Di halaman Event Center, Anda dapat melihat informasi tentang event yang dihasilkan di bawah akun saat ini dan menanganinya sesuai kebutuhan.
Buka Event Center.
Login ke Konsol Alibaba Cloud Elasticsearch.
Di panel navigasi sebelah kiri, klik Event Center.
Lihat informasi event.
Di halaman Event Center, Anda dapat memfilter berdasarkan kondisi untuk melihat semua event pada instans target dari tipe tertentu dalam periode waktu yang ditentukan. Selanjutnya, Anda dapat melakukan operasi berdasarkan detail event.
CatatanAnda dapat melihat semua informasi event di Event Center. Anda juga dapat berlangganan event dan mengatur notifikasi untuk alert kritis yang memerlukan penanganan segera. Saat alert dipicu, sistem secara otomatis mengirim pemberitahuan peringatan kepada kontak peringatan yang ditentukan melalui telepon, pesan teks, atau email.
Informasi event dan operasi penanganan terkait dijelaskan dalam tabel berikut.
Informasi event
Deskripsi
Cluster ID
ID instans Alibaba Cloud ES yang menghasilkan event tersebut.
Node ID
ID node instans yang menghasilkan event tersebut.
Event Level
Tingkat keparahan event. Level-level tersebut meliputi:
Info: Mencatat status atau operasi sistem selama operasi normal. Sering digunakan untuk pengamatan status sistem atau debugging.
Warning: Terdapat potensi masalah atau anomali dalam sistem tetapi tidak memengaruhi operasi saat ini. Diperlukan pemantauan berkelanjutan.
Critical: Terjadi error serius atau fault pada sistem. Penanganan segera diperlukan. Jika tidak, dapat menyebabkan ketidaktersediaan layanan atau kehilangan data.
Event Status
Status eksekusi event. Status-status tersebut meliputi To Be Handled, In Progress, Handled, Handling Failed, Handling Interrupted, Canceled, Execution to be confirmed, dan Ready to continue. Di antaranya:
To Be Handled: Event menunggu untuk dieksekusi pada waktu yang ditetapkan sistem atau waktu yang Anda jadwalkan.
Execution to be confirmed: Anda dapat memutuskan apakah akan segera mengeksekusi event tersebut atau membuat cadangan snapshot untuk event tersebut berdasarkan detail event.
CatatanHanya beberapa event terkait disk lokal dalam event perubahan sistem yang mendukung status ini.
Hanya event penerapan, seperti peningkatan kluster ES atau menerapkan versi baru ke node tertentu, yang mendukung cadangan snapshot.
Ready to continue: Tugas perubahan saat ini telah menyelesaikan perubahan grayscale. Anda perlu mengonfirmasi stabilitas node dan kluster yang telah diubah serta memutuskan apakah akan mengeksekusi tugas berikutnya. Misalnya, operasi perubahan perlu diuji terlebih dahulu pada beberapa node. Setelah perubahan diverifikasi dalam cakupan kecil, perubahan tersebut kemudian dieksekusi pada semua node.
Untuk event dalam status Handling Failed or Handling Interrupted, temukan penyebabnya dan tangani segera untuk menghindari dampak pada operasi bisnis normal.
Event Description
Penyebab dan dampak event.
Occurred At dan Ended At
Waktu mulai dan akhir eksekusi event.
Scheduled Handling Time dan Execution End Time
Waktu mulai yang dijadwalkan dan perkiraan waktu akhir event.
CatatanHanya event perubahan sistem yang mendukung pengaturan ini.
Source
Sumber event tersebut. Sumber-sumber tersebut meliputi:
Proactive Notification: ES secara proaktif mendorong event ke Event Center setelah event tersebut dihasilkan.
Event Subscription: Anda berlangganan untuk mendengarkan event tertentu. Saat event terjadi, sistem menerima notifikasi yang sesuai.
Suggestion
Anda dapat menangani event terkait berdasarkan operasi yang direkomendasikan. Operasi penanganan yang didukung bervariasi untuk event yang berbeda. Antarmuka aktual yang berlaku.
Contact Technical Support: Jika Anda memiliki pertanyaan mengenai suatu event, Anda dapat menghubungi dukungan teknis untuk konsultasi.
Restart: Segera restart node tertentu dari instans terkait.
Schedule Restart: Anda harus menentukan waktu restart. Sistem akan me-restart node tertentu dari instans terkait pada waktu yang dijadwalkan. Waktu restart node harus setidaknya
5menit lebih lambat dari waktu yang dijadwalkan. Sistem akan me-restart node tersebut dalam waktu5menit dari waktu yang dijadwalkan.
CatatanSaat Anda me-restart, me-restart paksa, atau melakukan restart grayscale pada instans atau node saat ini, sistem secara otomatis memicu eksekusi event restart untuk instans atau node tersebut. Namun, untuk event redeployment, seperti peningkatan versi ES, Anda tetap perlu mengajukan tiket untuk menghubungi personel dukungan teknis.
Lampiran: Detail event
Jenis Peristiwa | Kode dan nama event | Tingkat Peristiwa | CloudMonitor event name | Description and impact |
System change event |
| Critical |
| An infrastructure failure makes the local disk unavailable. |
| Critical |
| The performance of the cloud disk is degraded due to an infrastructure failure. | |
| Critical |
| The instance may stop due to a potential infrastructure failure. | |
| Critical |
|
| |
| Warning |
|
| |
Cluster health event |
| Critical |
| The instance restarts due to an abnormal cluster status. |
Cluster change event |
| Info |
|
|
| Info |
|
| |
| Info |
| The instance restarts due to a kernel version update. |