全部产品
Search
文档中心

Elasticsearch:Event Hub

更新时间:Nov 25, 2025

Anda dapat menggunakan Event Center untuk melihat event operasi dan pemeliharaan (O&M) sistem Alibaba Cloud Elasticsearch (ES). Fitur ini membantu Anda mendeteksi anomali layanan secara cepat serta menganalisis dan mengidentifikasi masalah dengan segera. Topik ini menjelaskan kategori event ES serta cara melihat dan menanganinya.

Kategori event

Event ES dikategorikan berdasarkan penyebab dan dampaknya sebagai berikut.

Catatan

Untuk informasi selengkapnya, lihat Lampiran: Detail event.

Event category

Definition

Penyebab dan dampak

Examples

Perubahan Sistem

Event perubahan sistem diprakarsai oleh Alibaba Cloud. Anda akan diberi tahu mengenai event tersebut dan harus memeriksa apakah kluster Anda terpengaruh.

Event perubahan sistem yang disebabkan oleh perubahan infrastruktur atau faults dapat memengaruhi akses kluster. Saat jenis event ini dipicu, sistem mengirimkan notifikasi. Segera periksa notifikasi dan status kluster Anda.

  • Peningkatan fitur Kibana menyebabkan gangguan layanan singkat.

  • Famili instans AMD di-upgrade ke generasi terbaru.

Kesehatan Kluster

Sistem secara berkala memeriksa kesehatan kluster berdasarkan penggunaan aktual. Hasil diagnosis yang tidak terduga ditampilkan sebagai event.

Untuk memastikan keberlanjutan layanan Alibaba Cloud, sistem secara otomatis memicu event kesehatan kluster saat mendeteksi anomali atau risiko pada resource kluster. Hal ini bertujuan meminimalkan dampak.

Catatan

Saat eksekusi event O&M, kluster mungkin mengalami jitter singkat tetapi akses normal tidak terpengaruh. Jika eksekusi otomatis gagal, Anda dapat memicu restart node secara manual di halaman Event Center. Jendela intervensi manual adalah 24 hingga 48 jam. Untuk waktu eksekusi spesifik, lihat Melihat dan menangani event.

Pemeriksaan menemukan bahwa sebuah node ES sedang offline.

Perubahan Kluster

Ini adalah event operasi yang Anda inisiasi untuk mengubah kluster. Kegagalan atau pemblokiran dapat terjadi selama proses perubahan.

Event perubahan kluster yang disebabkan oleh perubahan instance type atau peningkatan kernel memicu restart node yang bersangkutan. Selama eksekusi event O&M, kluster mungkin mengalami jitter singkat tetapi akses normal tidak terpengaruh.

  • Penskalaan masuk

  • Restart sebuah node

Melihat dan menangani event

Di halaman Event Center, Anda dapat melihat informasi tentang event yang dihasilkan di bawah akun saat ini dan menanganinya sesuai kebutuhan.

  1. Buka Event Center.

    1. Login ke Konsol Alibaba Cloud Elasticsearch.

    2. Di panel navigasi sebelah kiri, klik Event Center.

  2. Lihat informasi event.

    Di halaman Event Center, Anda dapat memfilter berdasarkan kondisi untuk melihat semua event pada instans target dari tipe tertentu dalam periode waktu yang ditentukan. Selanjutnya, Anda dapat melakukan operasi berdasarkan detail event.image

    Catatan

    Anda dapat melihat semua informasi event di Event Center. Anda juga dapat berlangganan event dan mengatur notifikasi untuk alert kritis yang memerlukan penanganan segera. Saat alert dipicu, sistem secara otomatis mengirim pemberitahuan peringatan kepada kontak peringatan yang ditentukan melalui telepon, pesan teks, atau email.

    Informasi event dan operasi penanganan terkait dijelaskan dalam tabel berikut.

    Informasi event

    Deskripsi

    Cluster ID

    ID instans Alibaba Cloud ES yang menghasilkan event tersebut.

    Node ID

    ID node instans yang menghasilkan event tersebut.

    Event Level

    Tingkat keparahan event. Level-level tersebut meliputi:

    • Info: Mencatat status atau operasi sistem selama operasi normal. Sering digunakan untuk pengamatan status sistem atau debugging.

    • Warning: Terdapat potensi masalah atau anomali dalam sistem tetapi tidak memengaruhi operasi saat ini. Diperlukan pemantauan berkelanjutan.

    • Critical: Terjadi error serius atau fault pada sistem. Penanganan segera diperlukan. Jika tidak, dapat menyebabkan ketidaktersediaan layanan atau kehilangan data.

    Event Status

    Status eksekusi event. Status-status tersebut meliputi To Be Handled, In Progress, Handled, Handling Failed, Handling Interrupted, Canceled, Execution to be confirmed, dan Ready to continue. Di antaranya:

    • To Be Handled: Event menunggu untuk dieksekusi pada waktu yang ditetapkan sistem atau waktu yang Anda jadwalkan.

    • Execution to be confirmed: Anda dapat memutuskan apakah akan segera mengeksekusi event tersebut atau membuat cadangan snapshot untuk event tersebut berdasarkan detail event.

      Catatan
      • Hanya beberapa event terkait disk lokal dalam event perubahan sistem yang mendukung status ini.

      • Hanya event penerapan, seperti peningkatan kluster ES atau menerapkan versi baru ke node tertentu, yang mendukung cadangan snapshot.

    • Ready to continue: Tugas perubahan saat ini telah menyelesaikan perubahan grayscale. Anda perlu mengonfirmasi stabilitas node dan kluster yang telah diubah serta memutuskan apakah akan mengeksekusi tugas berikutnya. Misalnya, operasi perubahan perlu diuji terlebih dahulu pada beberapa node. Setelah perubahan diverifikasi dalam cakupan kecil, perubahan tersebut kemudian dieksekusi pada semua node.

    Untuk event dalam status Handling Failed or Handling Interrupted, temukan penyebabnya dan tangani segera untuk menghindari dampak pada operasi bisnis normal.

    Event Description

    Penyebab dan dampak event.

    Occurred At dan Ended At

    Waktu mulai dan akhir eksekusi event.

    Scheduled Handling Time dan Execution End Time

    Waktu mulai yang dijadwalkan dan perkiraan waktu akhir event.

    Catatan

    Hanya event perubahan sistem yang mendukung pengaturan ini.

    Source

    Sumber event tersebut. Sumber-sumber tersebut meliputi:

    • Proactive Notification: ES secara proaktif mendorong event ke Event Center setelah event tersebut dihasilkan.

    • Event Subscription: Anda berlangganan untuk mendengarkan event tertentu. Saat event terjadi, sistem menerima notifikasi yang sesuai.

    Suggestion

    Anda dapat menangani event terkait berdasarkan operasi yang direkomendasikan. Operasi penanganan yang didukung bervariasi untuk event yang berbeda. Antarmuka aktual yang berlaku.

    • Contact Technical Support: Jika Anda memiliki pertanyaan mengenai suatu event, Anda dapat menghubungi dukungan teknis untuk konsultasi.

    • Restart: Segera restart node tertentu dari instans terkait.

    • Schedule Restart: Anda harus menentukan waktu restart. Sistem akan me-restart node tertentu dari instans terkait pada waktu yang dijadwalkan. Waktu restart node harus setidaknya 5 menit lebih lambat dari waktu yang dijadwalkan. Sistem akan me-restart node tersebut dalam waktu 5 menit dari waktu yang dijadwalkan.

    Catatan

    Saat Anda me-restart, me-restart paksa, atau melakukan restart grayscale pada instans atau node saat ini, sistem secara otomatis memicu eksekusi event restart untuk instans atau node tersebut. Namun, untuk event redeployment, seperti peningkatan versi ES, Anda tetap perlu mengajukan tiket untuk menghubungi personel dukungan teknis.

Lampiran: Detail event

Jenis Peristiwa

Kode dan nama event

Tingkat Peristiwa

CloudMonitor event name

Description and impact

System change event

  • SystemUpdate.InfraDiskError

  • System change event due to infrastructure disk failure

Critical

  • Instance:SystemUpdate.InfraDiskError:Executing: System change event in progress due to infrastructure disk failure

  • Instance:SystemUpdate.InfraDiskError:Executed: System change event completed due to infrastructure disk failure

An infrastructure failure makes the local disk unavailable.

  • SystemUpdate.InfraDiskStalled

  • System change event due to infrastructure disk performance issues

Critical

  • Instance:SystemUpdate.InfraDiskstalled:Executing: System change event in progress due to infrastructure disk performance issues

  • Instance:SystemUpdate.InfraDiskstalled:Executed: System change event completed due to infrastructure disk performance issues

The performance of the cloud disk is degraded due to an infrastructure failure.

  • SystemUpdate.InfraFailureStop

  • System change event due to an infrastructure-related instance stop

Critical

  • Instance:SystemUpdate.InfraFailureStop:Scheduled: Scheduled system change event due to an infrastructure-related instance stop

  • Instance:SystemUpdate.InfraFailureStop:Executing: System change event in progress due to an infrastructure-related instance stop

  • Instance:SystemUpdate.InfraFailureStop:Executed: System change event completed due to an infrastructure-related instance stop

  • Instance:SystemUpdate.InfraFailureStop:Failed: System change event failed due to an infrastructure-related instance stop

The instance may stop due to a potential infrastructure failure.

  • SystemUpdate.InfraMigrate

  • System change event due to infrastructure maintenance

Critical

  • Instance:SystemUpdate.InfraMigrate:Scheduled: Scheduled system change event due to infrastructure maintenance

  • Instance:SystemUpdate.InfraMigrate:Executing: System change event in progress due to infrastructure maintenance

  • Instance:SystemUpdate.InfraMigrate:Executed: System change event completed due to infrastructure maintenance

  • Instance:SystemUpdate.InfraMigrate:Failed: System change event failed due to infrastructure maintenance

  • The instance node restarts due to infrastructure maintenance.

  • The instance node is redeployed due to infrastructure maintenance.

  • SystemUpdate.SoftwareRepair

  • System change event due to a software update

Warning

  • Instance:SystemUpdate.SoftwareRepair:Scheduled: Scheduled system change event due to a software update

  • Instance:SystemUpdate.SoftwareRepair:Executing: System change event in progress due to a software update

  • Instance:SystemUpdate.SoftwareRepair:Executed: System change event completed due to a software update

  • Description: The cluster control system restarts due to an upgrade. This upgrade involves changes to the Alibaba Cloud instance architecture, where the control deployment mode is upgraded from Basic Control (v2) to Cloud-native Control (v3).

    Catatan

    You can view the control deployment mode on the instance's Basic Information page.

  • Impact:

    • The upgrade is performed through a blue-green deployment within a scheduled time period. During this process, the number of cluster nodes doubles, but no extra fees are incurred.

    • The upgrade process takes several hours, depending on the data volume. The old nodes are taken offline during the O&M window you set. This process involves a service interruption of about 1 to 2 seconds. Instance change operations are not supported during the upgrade. Please make the necessary business preparations in advance.

    • Clusters of version 6.8.6 are upgraded to version 6.8.23. The engine is fully compatible, and your services are not affected.

    • Setelah peningkatan, jaringan pribadi Kibana dinonaktifkan. Anda perlu login ke konsol Kibana untuk mengaktifkannya.

Cluster health event

  • HealthCheck.ClusterAbnormal

  • Cluster health event due to an abnormal cluster status

Critical

  • Instance:HealthCheck.ClusterAbnormal:Executed: Cluster health event completed due to an abnormal cluster status

  • Instance:HealthCheck.ClusterAbnormal:Failed: Cluster health event failed due to an abnormal cluster status

The instance restarts due to an abnormal cluster status.

Cluster change event

  • UserOperator.InstanceSpecModify

  • Cluster change event due to an instance type change

Info

  • Instance:UserOperator.InstanceSpecModify:Executing: Cluster change event in progress due to an instance type change

  • Instance:UserOperator.InstanceSpecModify:Executed: Cluster change event completed due to an instance type change

  • The instance restarts due to an instance type change.

  • The instance node restarts due to an instance node change.

  • UserOperator.InstanceUpdate

  • Cluster change event due to an instance change operation

Info

  • Instance:UserOperator.InstanceUpdate:Executing: Cluster change event in progress due to an instance change operation

  • Instance:UserOperator.InstanceUpdate:Executed: Cluster change event completed due to an instance change operation

  • The instance restarts due to an instance configuration change.

  • The instance plugin is updated.

  • The IK dictionary plugin for the instance is hot-updated.

  • UserOperator.InstanceCoreUpdate

  • Cluster change event due to an instance kernel upgrade

Info

  • Instance:UserOperator.InstanceCoreUpdate:Executing: Cluster change event in progress due to an instance kernel upgrade

  • Instance:UserOperator.InstanceCoreUpdate:Executed: Cluster change event completed due to an instance kernel upgrade

The instance restarts due to a kernel version update.