All Products
Search
Document Center

Elasticsearch:Metrik dan penanganan pengecualian

Last Updated:Apr 25, 2026

Alibaba Cloud Elasticsearch menyediakan metrik pemantauan dasar untuk kluster yang sedang berjalan—seperti kesehatan kluster, QPS kueri kluster, pemanfaatan CPU node, dan pemanfaatan disk node—. Gunakan metrik ini untuk memantau kesehatan kluster secara real-time, mengatasi potensi risiko, dan memastikan stabilitas kluster. Topik ini menjelaskan cara melihat detail pemantauan kluster serta memberikan definisi setiap metrik pemantauan, penyebab umum pengecualian, dan solusi yang direkomendasikan.

Perbedaan pemantauan

Metrik dari pemantauan kluster Alibaba Cloud Elasticsearch mungkin berbeda dengan metrik yang disediakan oleh Kibana atau alat pemantauan pihak ketiga karena alasan berikut:

  • Perbedaan periode sampling: Layanan pemantauan kluster menggunakan periode sampling yang berbeda dibandingkan Kibana dan alat lainnya, sehingga menghasilkan variasi data.

  • Perbedaan algoritma kueri: Ketidakstabilan kluster memengaruhi pemantauan kluster Alibaba Cloud Elasticsearch dan Kibana selama pengumpulan data. Misalnya, jitter kluster dapat menyebabkan metrik QPS pada pemantauan kluster menunjukkan lonjakan, nilai negatif, atau tidak ada data. Sebaliknya, Kibana mungkin menampilkan nilai kosong untuk periode yang sama.

    Catatan

    Jika pemantauan kluster menyediakan lebih banyak metrik daripada Kibana, kami merekomendasikan menggunakan kedua alat tersebut untuk memantau performa kluster secara komprehensif.

  • Perbedaan sumber data: Kibana mengambil metrik dari API Elasticsearch. Sebaliknya, pemantauan kluster mengumpulkan beberapa metrik tingkat node—seperti pemanfaatan CPU, load_1m, dan penggunaan disk—dari antarmuka sistem dasar Alibaba Cloud Elasticsearch. Oleh karena itu, metrik ini mencerminkan penggunaan sumber daya seluruh sistem, bukan hanya proses Elasticsearch.

Pemantauan kluster

  1. Masuk ke Konsol Alibaba Cloud Elasticsearch.

  2. Di bilah navigasi kiri, pilih Elasticsearch Clusters.

  3. Navigasi ke kluster target.

    1. Di bilah navigasi atas, pilih kelompok sumber daya tempat kluster berada dan wilayah tempat kluster di-deploy.

    2. Di halaman Elasticsearch Clusters, temukan kluster dan klik ID-nya.

  4. Di panel navigasi sebelah kiri, pilih Monitoring and Logs > Cluster Monitoring.

  5. Lihat detail pemantauan.

    • Lihat detail Basic Monitoring

      Di tab Basic Monitoring, pilih Group Name dan rentang waktu untuk melihat detail pemantauan yang sesuai.

      Catatan
      • Klik Custom untuk melihat detail pemantauan dalam rentang waktu kustom.

      • Pemantauan dan alerting diaktifkan secara default untuk instans Elasticsearch. Anda dapat melihat data pemantauan historis di halaman Cluster Monitoring. Data memiliki granularitas satu menit dan disimpan selama 30 hari.

      • Untuk informasi lebih lanjut tentang metrik pemantauan dasar, lihat Ikhtisar metrik pemantauan dasar.

Metrik pemantauan dasar

Tabel berikut menjelaskan metrik pemantauan dasar untuk sebuah kluster.

Catatan

UI aktual mungkin berbeda.

Ikhtisar

Nama metrik

Deskripsi

Cluster Status (value)

Menunjukkan kesehatan kluster. Nilai 0.00 menandakan kondisi sehat.

Snapshot Status (value)

Status snapshot dari fitur automatic backup.

Nilai 0 menunjukkan bahwa snapshot tersedia.

Total Number of Nodes in Cluster (count)

Jumlah total node dalam kluster.

Total Number of Unreachable Nodes in Cluster (count)

Jumlah total node yang tidak dapat dijangkau dalam kluster.

Number of Cluster Indices (count)

Jumlah indeks dalam kluster.

Number of Cluster Shards (count)

Jumlah shard dalam kluster.

Number of Cluster Primary Shards (count)

Jumlah shard utama dalam kluster.

Number of Slow Queries in Cluster (count)

Jumlah kueri lambat dalam kluster.

Cluster Write QPS (count/s)

Jumlah dokumen yang ditulis ke kluster per detik.

Cluster Query QPS (count/s)

Jumlah kueri per detik (QPS) yang dieksekusi oleh kluster. QPS kueri bergantung pada jumlah shard utama dalam indeks yang dikueri.

Node CPU Utilization_ES Service (%)

Pemanfaatan CPU setiap node.

Node Heap Memory Utilization_ES Service (%)

Pemanfaatan memori heap setiap node.

Node Disk Utilization (%)

Pemanfaatan disk setiap node. Kami merekomendasikan mengatur ambang alarm pemanfaatan disk pada 75%. Pemanfaatan tidak boleh melebihi 85%.

Node Load_1m (value)

Beban sistem rata-rata selama 1 menit terakhir untuk setiap node, yang mencerminkan beban kerja sistem. Nilai sehat untuk metrik ini biasanya kurang dari jumlah core CPU pada node tersebut.

Node Network Bandwidth_In (KiB/s)

Laju data masuk untuk setiap node. Periode pemantauan: 1 menit. Satuan: KiB/s.

Node Network Bandwidth_Out (KiB/s)

Laju data keluar untuk setiap node. Periode pemantauan: 1 menit. Satuan: KiB/s.

Node Network Packets_In (count)

Jumlah paket jaringan masuk untuk setiap node. Periode pemantauan: 1 menit.

Node Network Packets_Out (count)

Jumlah paket jaringan keluar dari setiap node. Periode pemantauan: 1 menit.

Node TCP Connections (count)

Jumlah koneksi TCP yang dimulai oleh klien ke setiap node.

IOUtil (%)

Pemanfaatan I/O untuk setiap node.

Disk Bandwidth_Read (MiB/s)

Jumlah data yang dibaca per detik dari setiap node dalam kluster.

Disk Bandwidth_Write (MiB/s)

Jumlah data yang ditulis per detik ke setiap node dalam kluster.

Disk IOPS_Read (count)

Jumlah permintaan baca yang diselesaikan per detik pada setiap node dalam kluster.

Disk IOPS_Write (count)

Jumlah permintaan tulis yang diselesaikan per detik pada setiap node dalam kluster.

Metrik kluster

Nama metrik

Deskripsi

Cluster Status (value)

Menunjukkan kesehatan kluster. Nilai 0.00 menandakan kondisi sehat.

Total Number of Nodes in Cluster (count)

Jumlah total node dalam kluster.

Total Number of Unreachable Nodes in Cluster (count)

Jumlah total node yang tidak dapat dijangkau dalam kluster.

Number of Cluster Indices (count)

Jumlah indeks dalam kluster.

Number of Cluster Shards (count)

Jumlah shard dalam kluster.

Number of Cluster Primary Shards (count)

Jumlah shard utama dalam kluster.

Number of Slow Queries in Cluster (count)

Jumlah kueri lambat dalam kluster.

Cluster Slow Query Time Distribution

Metrik ini berdasarkan log dari index.search.slowlog.query dan index.search.slowlog.fetch. Metrik ini mengagregasi data berdasarkan waktu eksekusi (took_millis) dan menampilkan distribusinya dalam interval 1 detik (misalnya, 0–1d, 1–2d, hingga 10d).

Snapshot Status (value)

Status snapshot dari fitur automatic backup. Nilai 0 menunjukkan bahwa snapshot tersedia.

Cluster Write QPS (count/s)

Jumlah dokumen yang ditulis ke kluster per detik.

Cluster Query QPS (count/s)

Jumlah kueri per detik (QPS) yang dieksekusi oleh kluster. QPS kueri bergantung pada jumlah shard utama dalam indeks yang dikueri.

Cluster Fielddata Memory Usage (B)

Jumlah memori heap yang digunakan oleh fielddata dalam kluster. Penggunaan tinggi dapat memicu pemutus sirkuit fielddata dan memengaruhi stabilitas kluster.

Metrik indeks

Nama metrik

Deskripsi

Index Bulk Write TPS (count/s)

Jumlah permintaan bulk per detik untuk indeks.

Index Query QPS (count/s)

Jumlah kueri per detik (QPS) untuk suatu indeks. QPS bergantung pada jumlah shard utama dalam indeks yang dikueri.

Index End-to-End Query Latency_max (ms)

Waktu permintaan kueri maksimum untuk suatu indeks, dalam milidetik.

Metrik sumber daya node

Nama metrik

Deskripsi

Node CPU Utilization_ES Service (%)

Pemanfaatan CPU setiap node. Pemanfaatan CPU tinggi, atau mendekati 100%, dapat memengaruhi layanan kluster.

Node Heap Memory Utilization_ES Service (%)

Pemanfaatan memori heap setiap node. Pemanfaatan memori heap tinggi atau keberadaan objek memori besar dapat memengaruhi layanan kluster dan secara otomatis memicu operasi GC.

Node Disk Utilization (%)

Pemanfaatan disk setiap node. Kami merekomendasikan mengatur ambang alarm pemanfaatan disk pada 75%. Pemanfaatan tidak boleh melebihi 85%.

Node Memory Utilization_Total (%)

Pemanfaatan memori sistem node.

Catatan

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

Node CPU I/O Wait Percentage (%)

Persentase waktu CPU menunggu operasi I/O.

Catatan

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

Node Load_1m (value)

Beban sistem rata-rata selama 1 menit terakhir untuk setiap node, yang mencerminkan beban kerja sistem. Nilai sehat untuk metrik ini biasanya kurang dari jumlah core CPU pada node tersebut.

Node CPU Utilization_Total (%)

Pemanfaatan CPU total sebuah node, tidak termasuk waktu idle. Ini adalah jumlah pemanfaatan CPU dalam mode kernel, mode user, dan status I/O wait.

Catatan

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

Metrik jaringan node

Nama metrik

Deskripsi

Keterangan

Node Network Bandwidth_In (KiB/s)

Laju data masuk untuk setiap node dalam kluster. Periode pemantauan: 1 menit. Satuan: KiB/s.

N/A

Node Network Bandwidth_Out (KiB/s)

Laju data keluar untuk setiap node dalam kluster. Periode pemantauan: 1 menit. Satuan: KiB/s.

N/A

Node Network Bandwidth (KiB/s)

Node Network Bandwidth (KiB/s) = Node Network Bandwidth_In (KiB/s) + Node Network Bandwidth_Out (KiB/s).

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

Node Network Bandwidth Utilization (%)

Penggunaan bandwidth jaringan node (%) = (Node network bandwidth_Input (KiB/s) + Node network bandwidth_Output (KiB/s)) / bandwidth dasar jaringan node (Gbit/s).

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

Node TCP Connections (count)

Jumlah koneksi TCP yang dimulai oleh klien ke setiap node.

N/A

Node Network Retransmission Rate (%)

Laju pengiriman ulang paket jaringan node.

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

Node Network Packets_In (count)

Jumlah paket jaringan masuk untuk setiap node. Periode pemantauan: 1 menit.

N/A

Node Network Packets_Out (count)

Jumlah paket jaringan keluar dari setiap node. Periode pemantauan: 1 menit.

N/A

Node Network Packets (count)

Node Network Packets (count) = Node Network Packets_Out (count) + Node Network Packets_In (count).

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

Node Network Packet Utilization (%)

Penggunaan paket jaringan node (%) = (Node Network Packets_Out (count) + Node Network Packets_In (count)) / transmisi dan penerimaan PPS paket jaringan node.

N/A

Metrik disk node

Nama metrik

Deskripsi

Keterangan

Disk Bandwidth_Read (MiB/s)

Jumlah data yang dibaca per detik dari setiap node dalam kluster.

N/A

Disk Bandwidth_Write (MiB/s)

Jumlah data yang ditulis per detik ke setiap node dalam kluster.

N/A

Disk Bandwidth (MiB/s)

Disk Bandwidth (MiB/s) = Disk Bandwidth_Read (MiB/s) + Disk Bandwidth_Write (MiB/s).

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

Disk Bandwidth Utilization_Cloud Disk (%)

Disk Bandwidth Utilization_Cloud Disk (%) = (Disk Bandwidth_Read (MiB/s) + Disk Bandwidth_Write (MiB/s)) / throughput single-disk ESSD (MiB/s).

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3). Untuk informasi tentang throughput single-disk ESSD, lihat ESSD.

Disk Bandwidth Utilization_Node (%)

Disk Bandwidth Utilization_Node (%) = (Disk Bandwidth_Read (MiB/s) + Disk Bandwidth_Write (MiB/s)) / bandwidth dasar disk cloud node (Gbit/s).

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

IOUtil (%)

Pemanfaatan I/O untuk setiap node.

N/A

Disk IOPS_Read (count)

Jumlah permintaan baca yang diselesaikan per detik pada setiap node dalam kluster.

N/A

Disk IOPS_Write (count)

Jumlah permintaan tulis yang diselesaikan per detik pada setiap node dalam kluster.

N/A

Disk IOPS (count)

Disk IOPS (count) = Disk IOPS_Read (count) + Disk IOPS_Write (count).

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

Disk IOPS Utilization_Cloud Disk (%)

Disk IOPS Utilization_Cloud Disk (%) = (Disk IOPS_Read (count) + Disk IOPS_Write (count)) / IOPS single-disk ESSD.

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3). Untuk informasi tentang throughput single-disk ESSD, lihat ESSD.

Disk IOPS Utilization_Node (%)

Disk IOPS Utilization_Node (%) = (Disk IOPS_Read (count) + Disk IOPS_Write (count)) / IOPS dasar disk cloud node.

Metrik ini hanya didukung oleh lapisan kontrol cloud-native baru (v3).

Average request queue length

Panjang rata-rata antrian permintaan.

N/A

Metrik JVM node

Nama metrik

Deskripsi

Node Old Generation Usage (B)

Memori yang digunakan oleh Old Generation heap pada setiap node. Penggunaan tinggi atau objek besar dapat memengaruhi performa dan memicu garbage collection (GC), berpotensi menyebabkan jeda GC panjang atau Full GC.

Full GC Count (count)

Jumlah total kejadian Full GC dalam kluster dalam periode 1 menit.

Node Old Generation GC Frequency (count)

Jumlah kejadian GC Old Generation pada setiap node. Penggunaan tinggi atau objek besar di Old Generation dapat memengaruhi performa kluster dan secara otomatis memicu GC. Pengumpulan objek besar dapat menyebabkan jeda GC panjang atau Full GC.

Node Old Generation GC Time (ms)

Waktu rata-rata yang dihabiskan untuk GC Old Generation pada setiap node. Penggunaan tinggi atau objek besar di Old Generation dapat secara otomatis memicu GC. Pengumpulan objek besar dapat menyebabkan jeda GC panjang atau Full GC.

Metrik kolam thread

Nama metrik

Deskripsi

Search Thread Pool Active Threads (count)

Jumlah thread dalam kolam thread pencarian yang sedang mengeksekusi tugas.

Search Thread Pool Rejected Requests (New) (count)

Jumlah permintaan yang ditolak dalam kolam thread pencarian kluster.

Metrik lainnya

Nama metrik

Deskripsi

Exception Count (count)

Jumlah total entri log tingkat WARNING yang muncul dalam log utama kluster dalam periode satu menit.

Metrik usang

Nama metrik

Deskripsi

Search Thread Pool Rejected Requests (count)

Menunjukkan jumlah permintaan yang ditolak dalam kolam thread kueri. Metrik ini dihitung berbeda dari metrik SearchThreadpoolRejectedV2 dan kini telah usang. Gunakan SearchThreadpoolRejectedV2 sebagai gantinya.

Cluster status (value)

Deskripsi metrik

Metrik ini menunjukkan status kesehatan kluster Anda. Nilai 0.00 berarti kluster sehat. Kami sangat menyarankan Anda mengonfigurasi peringatan untuk metrik ini. Untuk informasi lebih lanjut, lihat Konfigurasi peringatan kluster. Tabel ini mencantumkan nilai-nilai yang mungkin.

Nilai

Warna

Status

Deskripsi

0.00

Green

Semua shard utama dan replika telah dialokasikan.

Semua indeks dalam kluster sehat dan tidak memiliki shard yang tidak ditugaskan.

1.00

Yellow

Semua shard utama telah dialokasikan, tetapi satu atau lebih shard replika belum dialokasikan.

Setidaknya satu indeks memiliki shard replika yang tidak ditugaskan.

2.00

Red

Setidaknya satu shard utama belum dialokasikan.

Setidaknya satu indeks memiliki shard utama yang tidak ditugaskan, artinya sebagian data tidak tersedia.

Catatan

Warna dalam tabel ini sesuai dengan status kluster yang ditampilkan di halaman Basic Information instans Anda.

Penyebab status abnormal

Nilai selain 0.00 menunjukkan status kluster abnormal. Penyebab umum meliputi:

  • Pemanfaatan CPU atau penggunaan memori heap tinggi pada satu atau beberapa node, berpotensi mencapai 100%.

  • Penggunaan disk tinggi pada satu atau beberapa node, misalnya melebihi 85%.

  • Load_1m tinggi pada satu atau beberapa node.

  • Status kesehatan satu atau beberapa indeks berwarna kuning atau merah.

Rekomendasi pemecahan masalah

  • Lihat informasi pemantauan di halaman Monitoring Konsol Kibana, atau lihat log instans untuk detail spesifik tentang masalah tersebut. Misalnya, jika suatu indeks mengonsumsi terlalu banyak memori, Anda dapat menghapus indeks yang tidak diperlukan.

  • Jika status kluster abnormal karena penggunaan disk tinggi, lihat Pemecahan dan penyelesaian masalah penggunaan disk kluster tinggi dan isu read-only.

  • Untuk instans dengan tipe instans kecil, seperti CPU 1-core dan memori 2 GB, status kluster dapat menjadi abnormal. Dalam kasus ini, pertama-tama tingkatkan kluster ke tipe instans dengan rasio CPU-memori 1:4. Jika status kluster tetap abnormal setelah peningkatan, pecahkan masalah dengan mengikuti dua rekomendasi di atas.

Snapshot status

Deskripsi

Metrik ini menunjukkan status snapshot untuk fitur automatic backup di konsol Elasticsearch. Nilai 0 menunjukkan bahwa snapshot tersedia. Nilai metrik ini didefinisikan sebagai berikut.

Nilai

Deskripsi

0

Snapshot tersedia.

-1

Tidak ada snapshot.

1

Snapshot sedang berlangsung.

2

Tugas snapshot gagal.

Penyebab status abnormal

Nilai 2 menunjukkan kegagalan. Penyebab umum meliputi:

  • Penggunaan disk pada satu atau beberapa node tinggi atau mendekati 100%.

  • Kluster tidak sehat.

Jumlah node kluster

Metrik ini menunjukkan jumlah total node dalam kluster. Gunakan untuk memastikan skala node sesuai ekspektasi.

Jumlah node terputus

Jumlah total node yang terputus dalam kluster. Node yang terputus dapat menyebabkan penugasan ulang shard atau meningkatkan latensi kueri.

Jumlah indeks kluster

Metrik ini menunjukkan jumlah indeks dalam kluster. Terlalu banyak indeks dapat menyebabkan konflik sumber daya (misalnya, memori dan CPU).

Jumlah shard kluster (count)

Metrik ini menunjukkan jumlah shard dalam kluster. Terlalu banyak shard dapat meningkatkan overhead manajemen, seperti operasi metadata, sedangkan terlalu sedikit dapat menurunkan performa kueri karena beban tidak merata.

Jumlah shard utama kluster

Metrik ini menunjukkan jumlah shard utama dalam kluster. Terlalu sedikit shard utama dapat menyebabkan bottleneck penulisan.

Kueri lambat kluster

Metrik ini menunjukkan jumlah kueri lambat dalam kluster. Gunakan untuk mengidentifikasi bottleneck performa, seperti kueri kompleks atau masalah desain indeks.

Cluster write QPS (count/s)

Penting

Lonjakan tiba-tiba pada write QPS dapat menyebabkan pemanfaatan CPU tinggi, penggunaan memori heap, atau beban rata-rata per menit pada node, yang dapat menurunkan performa kluster. Hindari lonjakan ini untuk menjaga stabilitas kluster.

Metrik ini menunjukkan jumlah dokumen yang ditulis ke kluster per detik. Nilai ini dihitung sebagai berikut:

  • Permintaan penulisan untuk satu dokumen dihitung sebagai 1 terhadap write QPS. Jika beberapa permintaan dikirim dalam satu detik, jumlahnya dijumlahkan.

  • Untuk permintaan API _bulk, write QPS sama dengan jumlah total dokumen dalam permintaan tersebut. Jika beberapa permintaan API _bulk dikirim dalam satu detik, jumlah dokumen dari semua permintaan dijumlahkan.

Cluster query QPS (count/s)

Penting

Hindari lonjakan tiba-tiba pada query QPS. Lonjakan ini dapat menyebabkan pemanfaatan CPU tinggi, penggunaan memori heap, atau beban rata-rata 1 menit tinggi, yang dapat menurunkan performa kluster.

Metrik ini melacak query QPS untuk kluster. Nilai ini ditentukan oleh jumlah shard utama dalam indeks yang dikueri.

Misalnya, jika suatu indeks memiliki lima shard utama, kueri ke indeks tersebut dihitung sebagai lima kueri terpisah—satu untuk setiap shard utama.

Distribusi latensi kueri lambat kluster

Deskripsi metrik

Metrik ini mengagregasi data dari entri index.search.slowlog.query dan index.search.slowlog.fetch dalam log kueri lambat. Metrik ini mengelompokkan kueri berdasarkan waktu eksekusi (took_millis) dan menampilkan distribusinya dalam interval 1 detik, seperti 0–1d dan 1–2d, hingga maksimal 10d. Anda dapat menentukan ambang batas sendiri untuk apa yang dianggap kueri lambat dengan menggunakan parameter index.search.slowlog.threshold.xxx. Untuk informasi lebih lanjut, lihat konfigurasi templat indeks.

Penyebab umum nilai abnormal

Saat pemantauan, jika jumlah kueri lambat dalam rentang waktu tertentu meningkat, ini mungkin menunjukkan masalah layanan. Penyebab umum meliputi:

Penyebab

Deskripsi

QPS tinggi

Lonjakan tiba-tiba atau fluktuasi signifikan pada Query QPS atau write QPS dapat meningkatkan beban kluster, menyebabkan waktu eksekusi lebih lama untuk kueri individual.

Kueri agregasi atau skrip

Kueri agregasi bersifat intensif sumber daya, mengonsumsi daya komputasi dan memori yang signifikan untuk melakukan agregasi data. Gunakan dengan hati-hati.

Kueri term pada field numerik

Menjalankan banyak kueri term pada field numerik, seperti byte, short, integer, atau long, bisa lambat. Hal ini karena pembuatan bitset untuk koleksi ID dokumen memakan waktu. Jika Anda tidak perlu melakukan kueri rentang atau agregasi pada field numerik, pertimbangkan untuk mengubah tipenya menjadi field tipe keyword.

Pencocokan kabur

Kueri yang menggunakan karakter wildcard, ekspresi reguler, atau pencocokan kabur dapat mengonsumsi sumber daya komputasi yang besar. Kueri ini harus memindai daftar term dalam indeks terbalik untuk menemukan semua term yang cocok, lalu mengumpulkan ID dokumen yang sesuai. Tanpa uji stres yang tepat, menjalankan kueri ini dalam skala besar dapat membebani sistem Anda. Lakukan uji stres berdasarkan kasus penggunaan Anda untuk menentukan volume kueri yang sesuai.

Beberapa permintaan kueri atau tulis lambat individual

Dalam skenario ini, fluktuasi QPS kueri dan tulis secara keseluruhan mungkin kecil atau tidak terlihat. Untuk menyelidiki, buka halaman Query Logs di konsol Alibaba Cloud Elasticsearch dan klik Search Slow Log untuk menganalisis detailnya.

Jumlah indeks atau shard yang berlebihan dalam kluster

Elasticsearch memantau semua indeks dalam kluster dan menulis log yang sesuai. Jumlah indeks atau shard yang berlebihan dapat menyebabkan pemanfaatan CPU tinggi, penggunaan HeapMemory, atau beban rata-rata 1 menit (load_1m) tinggi. Overhead ini dapat menurunkan performa kueri seluruh kluster.

Operasi merge

Operasi merge bersifat intensif CPU dan dapat menyebabkan penurunan tajam pada jumlah segmen di node yang terpengaruh. Anda dapat memantau jumlah segmen di halaman Overview untuk setiap node di Konsol Kibana.

Operasi garbage collection (GC)

Operasi garbage collection (GC), terutama full GC, membebaskan memori tetapi mengonsumsi sumber daya CPU. Hal ini dapat menyebabkan lonjakan tiba-tiba pada pemanfaatan CPU dan memperlambat performa kueri.

Tugas terjadwal

Tugas terjadwal, seperti pencadangan data atau pekerjaan kustom lainnya, dapat mengonsumsi banyak sumber daya IO, yang mungkin memengaruhi kecepatan kueri.

Cluster Fielddata Memory Usage (B)

Deskripsi

Metrik ini menunjukkan jumlah memori heap yang digunakan oleh Fielddata dalam kluster. Nilai tinggi menunjukkan bahwa banyak Fielddata di-cache dalam memori heap. Penggunaan Fielddata berlebihan dapat memicu pemutusan sirkuit Fielddata dan memengaruhi stabilitas kluster.

Penyebab umum

Penggunaan Fielddata tinggi mengonsumsi banyak memori heap dan dapat menyebabkan pengecualian layanan. Penyebab umum meliputi:

  • Operasi sort atau agregasi yang sering pada field string (Text). Secara default, Fielddata untuk kueri ini tidak dihapus. Gunakan tipe field numerik sebagai gantinya.

  • Lonjakan tiba-tiba atau fluktuasi signifikan pada lalu lintas Query QPS atau write QPS. Hal ini menyebabkan Fielddata sering dimuat ke cache.

  • Jumlah indeks yang besar atau jumlah total shard yang tinggi dalam kluster. Karena Elasticsearch memantau indeks dan menulis log, jumlah indeks atau shard yang berlebihan dapat menyebabkan pemanfaatan CPU atau HeapMemory tinggi, atau Load_1m tinggi.

Bulk write TPS

Deskripsi

Metrik ini menunjukkan jumlah permintaan bulk per detik untuk suatu indeks.

Penyebab umum pengecualian

Metrik ini mungkin tidak menampilkan data karena alasan berikut:

  • Tekanan kluster tinggi mengganggu pengumpulan data pemantauan.

  • Pengiriman data pemantauan gagal.

IndexSearchQPS (count/s)

Deskripsi

Metrik ini mengukur jumlah kueri per detik (QPS) untuk suatu indeks. Nilai QPS bergantung pada jumlah shard utama dalam indeks yang dikueri.

Misalnya, jika suatu indeks memiliki lima shard utama, satu permintaan kueri ke indeks tersebut dihitung sebagai 5 QPS.

Penyebab nilai abnormal

Metrik ini mungkin tidak menampilkan data. Alasan umum meliputi:

  • Beban kluster tinggi dapat mengganggu pengumpulan data pemantauan.

  • Pengiriman data pemantauan gagal.

Penting

Lonjakan tiba-tiba pada IndexSearchQPS dapat menunjukkan bahwa suatu indeks menyebabkan pemanfaatan CPU tinggi, penggunaan memori heap, atau Load_1m, yang dapat memengaruhi stabilitas seluruh kluster. Untuk mengatasi hal ini, pertimbangkan untuk mengoptimalkan indeks tersebut.

IndexSearchDelayMax (ms)

Metrik ini adalah latensi kueri maksimum pada suatu indeks, dalam milidetik.

Pemanfaatan CPU node (%)

Deskripsi metrik

Metrik ini menunjukkan persentase pemanfaatan CPU untuk setiap node dalam kluster. Pemanfaatan CPU tinggi, terutama saat mendekati 100%, dapat memengaruhi layanan kluster.

Penyebab umum pengecualian

Lonjakan atau fluktuasi signifikan pada metrik ini menunjukkan masalah layanan. Berikut adalah penyebab umum:

Penyebab

Deskripsi

QPS

Lonjakan tiba-tiba atau fluktuasi besar pada lalu lintas Query QPS atau write QPS.

Kueri atau permintaan tulis lambat

Dalam skenario ini, fluktuasi lalu lintas Query QPS dan write QPS kecil atau tidak terlihat. Untuk menyelidiki, buka halaman LogSearch di konsol Alibaba Cloud Elasticsearch dan klik Search Slow Log untuk melihat dan menganalisis log.

Indeks atau shard berlebihan

Elasticsearch memantau indeks dan menulis log. Jumlah indeks atau shard yang berlebihan meningkatkan overhead manajemen, yang dapat menyebabkan pemanfaatan CPU tinggi, pemanfaatan HeapMemory tinggi, atau Load_1m tinggi.

Operasi merge kluster

Operasi merge mengonsumsi sumber daya CPU dan dapat menyebabkan penurunan tajam pada Segment Count di node yang sesuai. Anda dapat melihat Segment Count di halaman Overview node di Konsol Kibana.

Operasi GC

Operasi GC, terutama full gc, membebaskan memori tetapi bersifat intensif CPU. Hal ini dapat menyebabkan lonjakan pemanfaatan CPU.

Tugas terjadwal

Menjalankan tugas terjadwal, seperti pencadangan data atau pekerjaan kustom lainnya, dapat bersifat intensif sumber daya.

Catatan

Pemanfaatan CPU node mencakup konsumsi sumber daya dari proses tingkat sistem dan tugas Elasticsearch.

Penggunaan disk node (%)

Metrik ini menunjukkan penggunaan disk setiap node dalam kluster. Kami merekomendasikan menjaga penggunaan disk di bawah 75% dan tidak melebihi 85%. Jika penggunaan disk node data melebihi ambang batas ini, layanan kluster Anda mungkin terpengaruh.

Disk usage

Deskripsi

>85%

Kluster mencegah shard baru dialokasikan ke node tersebut.

>90%

Kluster mencoba memindahkan shard dari node tersebut ke node data lain dengan penggunaan disk lebih rendah.

>95%

Elasticsearch menerapkan pengaturan read_only_allow_delete ke semua indeks pada node tersebut. Tindakan ini memblokir operasi tulis. Anda hanya dapat membaca data dari atau menghapus indeks yang terpengaruh.

Penting
  • Kami merekomendasikan mengonfigurasi pemantauan untuk metrik ini. Jika peringatan dipicu, segera tingkatkan disk dan node Anda atau hapus data indeks untuk mencegah gangguan layanan.

  • Metrik penggunaan disk node mencakup sumber daya yang digunakan oleh proses tingkat sistem dan tugas Elasticsearch.

Penggunaan memori heap node (layanan ES) (%)

Deskripsi

Metrik ini menunjukkan persentase penggunaan memori heap untuk setiap node dalam kluster. Penggunaan memori heap tinggi atau objek memori besar dapat memengaruhi performa kluster dan secara otomatis memicu operasi GC.

Penyebab nilai abnormal

Lonjakan tiba-tiba atau fluktuasi signifikan pada metrik ini sering menunjukkan anomali layanan. Penyebab umum meliputi:

Penyebab

Deskripsi

QPS

Lonjakan tiba-tiba atau fluktuasi besar pada Query QPS atau write QPS.

Beberapa permintaan kueri lambat

Dalam skenario ini, fluktuasi query QPS dan write QPS kecil atau tidak terlihat. Untuk menyelidiki, analisis Search Slow Log di halaman LogSearch di konsol Alibaba Cloud Elasticsearch.

Banyak permintaan tulis lambat

Dalam kasus ini, query QPS dan write QPS menunjukkan fluktuasi signifikan atau terlihat jelas. Untuk menyelidiki, analisis Indexing Slow Log di halaman LogSearch di konsol Alibaba Cloud Elasticsearch.

Kluster memiliki terlalu banyak indeks atau jumlah total shard yang tinggi

Terlalu banyak indeks atau shard meningkatkan overhead manajemen, yang dapat menyebabkan penggunaan CPU tinggi, penggunaan memori heap tinggi, atau Load_1m tinggi.

Operasi merge

Operasi merge bersifat intensif CPU dan menyebabkan penurunan tajam pada Segment Count node. Penurunan ini terlihat di halaman Overview node di Konsol Kibana.

Operasi GC

Operasi GC, seperti Full GC, membebaskan memori tetapi mengonsumsi sumber daya CPU. Hal ini dapat menyebabkan penurunan tajam pada penggunaan memori heap.

Tugas terjadwal

Misalnya, pencadangan data atau tugas kustom lainnya.

Node Load_1m

Deskripsi

Metrik ini merepresentasikan beban rata-rata 1 menit untuk setiap node dalam kluster, menunjukkan beban kerja sistem saat ini. Nilai normal kurang dari jumlah core CPU pada node tersebut. Tabel berikut menjelaskan nilai-nilai ini untuk node Elasticsearch single-core.

Node Load_1m

Deskripsi

<1

Tidak ada proses yang menunggu sumber daya.

=1

Sistem sepenuhnya dimanfaatkan, tanpa kapasitas untuk proses tambahan.

>1

Proses dalam antrian, menunggu sumber daya.

Catatan
  • Metrik Node Workload Within One Minute mencakup konsumsi sumber daya dari proses tingkat sistem dan tugas Elasticsearch.

  • Fluktuasi pada metrik Node Workload Within One Minute adalah hal yang wajar. Untuk analisis yang lebih akurat, fokuslah pada metrik Node CPU usage.

Penyebab abnormal

Nilai yang melebihi jumlah core CPU pada node menunjukkan bahwa sistem kelebihan beban. Penyebab umum meliputi:

  • Pemanfaatan CPU atau penggunaan memori heap pada node sangat tinggi, berpotensi mencapai 100%.

  • Lonjakan tiba-tiba atau peningkatan signifikan pada Query QPS atau write QPS.

  • Kueri lambat yang mahal.

    Di konsol Alibaba Cloud Elasticsearch, gunakan halaman Log Query untuk melihat dan menganalisis log tersebut.

Catatan

Metrik Node Load_1m mencakup konsumsi sumber daya dari proses tingkat sistem dan tugas Elasticsearch.

Penggunaan memori node_total (%)

Menunjukkan penggunaan memori sistem node.

Persentase waktu tunggu I/O CPU node (%)

Metrik ini mengukur persentase waktu CPU node menunggu operasi I/O.

Paket masuk node (count)

Metrik ini menunjukkan jumlah paket jaringan masuk untuk setiap node dalam kluster. Siklus pemantauan: 1 menit.

Paket jaringan keluar node (count)

Metrik ini mengukur jumlah paket yang dikirim dari setiap node dalam kluster per menit.

Bandwidth masuk node (KiB/s)

Metrik ini menunjukkan laju data masuk untuk setiap node dalam kluster. Siklus pemantauan: 1 menit. Satuan: KiB/s.

Bandwidth jaringan keluar node (KiB/s)

Metrik ini mengukur bandwidth jaringan arah keluar (dalam KiB/s) untuk setiap node dalam kluster. Diperbarui setiap menit.

Koneksi TCP node

Deskripsi

Metrik ini menunjukkan jumlah koneksi TCP yang terbentuk dari klien ke setiap node dalam kluster.

Penyebab abnormal

Lonjakan atau fluktuasi signifikan pada metrik ini mungkin menunjukkan kesalahan layanan. Masalah ini sering terjadi ketika klien gagal melepaskan koneksi TCP secara tepat waktu, menyebabkan peningkatan tiba-tiba pada jumlah koneksi di node. Konfigurasikan kebijakan sisi klien untuk melepaskan koneksi ini.

IOUtil (%)

Deskripsi

Metrik ini menunjukkan persentase pemanfaatan I/O untuk setiap node dalam kluster.

Penyebab abnormal

Lonjakan atau fluktuasi signifikan pada metrik ini dapat menunjukkan kesalahan layanan. Penggunaan disk tinggi adalah penyebab umum, karena meningkatkan waktu tunggu rata-rata untuk operasi baca dan tulis serta dapat menyebabkan lonjakan pemanfaatan I/O hingga 100%. Untuk mengatasi hal ini, analisis beban kerja kluster dan metrik relevan lainnya. Misalnya, Anda mungkin perlu meningkatkan konfigurasi kluster.

Laju pengiriman ulang jaringan node (%)

Persentase paket jaringan yang dikirim ulang oleh node.

Bandwidth jaringan node (KiB/s)

Bandwidth jaringan node adalah jumlah dari bandwidth jaringan node_Input dan bandwidth jaringan node_Output.

Penggunaan bandwidth jaringan node (%)

Penggunaan bandwidth jaringan node (%) = (Bandwidth Jaringan Node_Input (KiB/s) + Bandwidth Jaringan Node_Output (KiB/s)) / bandwidth dasar jaringan node (KiB/s).

Paket jaringan node (count)

Paket jaringan node (count) adalah jumlah dari paket jaringan node_output dan paket jaringan node_input.

Penggunaan paket jaringan node (%)

Penggunaan paket jaringan node (%) = (paket jaringan node_arah keluar (PPS) + paket jaringan node_arah masuk (PPS)) / paket jaringan maksimum per detik (PPS).

Bandwidth baca disk (MiB/s)

Jumlah data yang dibaca dari setiap node dalam kluster per detik.

Bandwidth tulis disk (MiB/s)

Metrik ini menunjukkan bandwidth tulis untuk setiap node dalam kluster.

IOPS baca disk

Jumlah permintaan baca yang diselesaikan per detik pada setiap node dalam kluster.

IOPS tulis disk

Jumlah permintaan tulis yang diselesaikan per detik oleh setiap node dalam kluster.

Panjang rata-rata antrian permintaan

Panjang rata-rata antrian permintaan.

Bandwidth disk (MiB/s)

Bandwidth disk (MiB/s) = bandwidth baca disk (MiB/s) + bandwidth tulis disk (MiB/s).

Penggunaan bandwidth disk_cloud (%)

Penggunaan Bandwidth Disk_Disk Cloud (%) = (Bandwidth Baca Disk (MB/s) + Bandwidth Tulis Disk (MB/s)) / Throughput Single Disk (MB/s).

Penggunaan bandwidth disk_node (%)

Metrik ini dihitung sebagai (bandwidth baca disk (MiB/s) + bandwidth tulis disk (MiB/s)) / bandwidth dasar disk (Gbit/s). Perhatikan bahwa semua nilai harus dikonversi ke satuan yang sama agar perhitungan valid.

IOPS disk (count)

IOPS disk (count) = IOPS baca disk (count) + IOPS tulis disk (count).

Penggunaan IOPS disk (Cloud) (%)

Penggunaan IOPS disk_disk (%) = (IOPS Baca Disk (count) + IOPS Tulis Disk (count)) / kapasitas IOPS single disk.

Penggunaan IOPS disk_node (%)

penggunaan IOPS disk_node (%) = (IOPS baca disk (count) + IOPS tulis disk (count)) / IOPS dasar disk cloud

Penggunaan generasi lama node (B)

Deskripsi metrik

Metrik ini menunjukkan jumlah memori heap generasi lama yang digunakan oleh setiap node dalam kluster. Penggunaan tinggi atau objek besar di generasi lama dapat memengaruhi performa kluster dan memicu operasi GC otomatis. Mengumpulkan objek besar dapat menyebabkan jeda GC panjang atau full GC.

Penyebab anomali metrik

Saat pemantauan, lonjakan tiba-tiba atau fluktuasi signifikan pada metrik ini sering menunjukkan pengecualian layanan. Penyebab umum meliputi:

Penyebab

Deskripsi

QPS

Lonjakan tiba-tiba atau fluktuasi signifikan pada Query QPS atau write QPS.

Kueri agregasi atau skrip

Kueri agregasi bersifat intensif sumber daya, mengonsumsi sumber daya komputasi dan memori yang signifikan. Gunakan dengan hati-hati.

Kueri term pada field numerik

Menjalankan banyak kueri term pada field numerik, seperti byte, short, integer, atau long, bisa lambat. Hal ini karena pembuatan bitset untuk koleksi ID dokumen memakan waktu. Jika Anda tidak perlu melakukan kueri rentang atau agregasi pada field numerik, pertimbangkan untuk mengubah tipenya menjadi field tipe keyword.

Pencocokan kabur

Kueri yang menggunakan karakter wildcard, ekspresi reguler, atau pencocokan kabur mengonsumsi sumber daya komputasi yang besar. Kueri ini harus memindai daftar term dalam indeks terbalik untuk menemukan semua term yang cocok, lalu mengumpulkan ID dokumen yang sesuai. Tanpa uji stres yang tepat, menjalankan kueri ini dalam skala besar dapat membebani sistem Anda. Lakukan uji stres berdasarkan kasus penggunaan Anda untuk menentukan volume kueri yang sesuai.

Beberapa kueri lambat

Dalam skenario ini, fluktuasi query dan write QPS mungkin kecil atau tidak terlihat. Untuk menyelidiki, buka halaman query log di konsol Alibaba Cloud Elasticsearch dan klik Search Slow Log.

Beberapa permintaan tulis lambat

Dalam skenario ini, fluktuasi query dan write QPS kecil atau tidak terlihat. Untuk menyelidiki, buka halaman query log di konsol Alibaba Cloud Elasticsearch dan klik Indexing Slow Log.

Jumlah indeks atau shard yang berlebihan dalam kluster

Jumlah indeks atau shard yang berlebihan dapat menyebabkan penggunaan CPU tinggi, penggunaan memori heap tinggi, atau load_1m tinggi.

Operasi merge

Operasi merge bersifat intensif CPU dan dapat menyebabkan penurunan tajam pada Segment Count di node yang terpengaruh. Anda dapat memantau hal ini di halaman Overview untuk setiap node di Konsol Kibana.

Operasi GC

Operasi GC, seperti full GC, membebaskan memori tetapi mengonsumsi sumber daya CPU. Hal ini dapat menyebabkan penurunan tiba-tiba pada penggunaan memori heap.

Tugas terjadwal

Pencadangan data atau tugas kustom lainnya.

Jumlah Full GC

Penting

Kejadian Full GC yang sering dapat menurunkan performa kluster.

Deskripsi

Metrik ini mengukur jumlah kejadian Full GC dalam kluster per menit.

Penyebab abnormalitas

Nilai lebih dari nol menunjukkan pengecualian layanan. Penyebab umum meliputi:

  • Penggunaan memori heap tinggi.

  • Objek memori besar.

Jumlah GC generasi lama node

Deskripsi

Metrik ini menghitung pengumpulan sampah Generasi Lama pada setiap node dalam kluster. Penggunaan tinggi atau objek memori besar di Generasi Lama dapat memicu pengumpulan sampah otomatis, yang mungkin memengaruhi layanan kluster. Mengumpulkan objek besar dapat menyebabkan jeda GC panjang atau Full GC.

Catatan

Metrik Full GC untuk pemantauan dasar bersumber dari log, sedangkan metrik memori dalam pemantauan lanjutan dikumpulkan oleh mesin ES. Untuk memperhitungkan perbedaan sumber data ini, evaluasi performa kluster dengan menggabungkan semua metrik yang tersedia.

Penyebab umum

Untuk informasi lebih lanjut, lihat Penggunaan Area Lama Node (B).

Durasi GC generasi lama node (ms)

Metrik

Metrik ini menunjukkan durasi rata-rata pengumpulan sampah di generasi lama untuk setiap node dalam kluster. Saat penggunaan generasi lama tinggi atau terdapat objek besar, operasi GC dipicu secara otomatis. Mengumpulkan objek besar dapat menyebabkan durasi GC lebih lama atau Full GC.

Penyebab nilai abnormal

Untuk informasi lebih lanjut, lihat penyebab umum nilai abnormal dari JVMMemoryOldUsedBytes.

Thread aktif kolam thread pencarian (count)

Jumlah thread aktif dalam kolam thread kueri kluster.

Permintaan yang ditolak dalam kolam thread kueri (count)

Metrik usang ini menghitung permintaan yang ditolak dalam kolam thread kueri kluster. Gunakan SearchThreadpoolRejectedV2 sebagai gantinya.

Permintaan kueri yang ditolak

Metrik ini menghitung permintaan yang ditolak dalam kolam thread kueri kluster. Saat kolam thread penuh, kluster menolak permintaan kueri baru dan melemparkan pengecualian.

Jumlah pengecualian

Deskripsi metrik

Metrik ini menunjukkan jumlah total entri log tingkat peringatan dalam Log Kluster dalam periode satu menit.

Penyebab nilai abnormal

Nilai selain 0 menunjukkan pengecualian layanan. Penyebab umum meliputi:

  • Permintaan kueri abnormal.

  • Permintaan tulis abnormal.

  • Kesalahan dalam tugas Elasticsearch.

  • Operasi garbage collection.

Pemecahan masalah

Di konsol Alibaba Cloud Elasticsearch, buka halaman Query logs dan klik Cluster Log. Di halaman Cluster Log, tinjau detail pengecualian untuk waktu yang sesuai guna menemukan akar penyebabnya.

Catatan

Jika Cluster Log berisi catatan GC, catatan tersebut juga termasuk dalam metrik NodeStatsExceptionLogCount.