Alibaba Cloud Elasticsearch menyediakan berbagai metrik pemantauan dasar seperti status kluster, query QPS kluster, utilisasi CPU node, dan penggunaan disk node. Metrik ini memungkinkan Anda untuk memantau status operasional kluster secara real-time, mengidentifikasi risiko potensial dengan cepat, serta memastikan stabilitas operasional kluster. Topik ini menjelaskan cara melihat detail pemantauan kluster, termasuk arti dari berbagai metrik pemantauan, penyebab pengecualian, dan saran penanganannya.
Perbedaan dengan fitur pemantauan lainnya
Fitur pemantauan kluster yang disediakan oleh Alibaba Cloud Elasticsearch mungkin berbeda dari fitur pemantauan Kibana atau layanan pihak ketiga dalam beberapa aspek berikut:
Perbedaan Periode Sampling: Periode sampling berbeda antara Kibana, pemantauan pihak ketiga, dan Alibaba Cloud Elasticsearch, sehingga menghasilkan data yang dikumpulkan berbeda dan menyebabkan variasi hasil.
Perbedaan Algoritma Query: Baik pemantauan kluster Alibaba Cloud Elasticsearch maupun Kibana dipengaruhi oleh stabilitas kluster saat mengumpulkan data. Metrik QPS dalam pemantauan kluster dapat menunjukkan lonjakan mendadak, nilai negatif, atau tidak ada data pemantauan karena jitter kluster, sedangkan pemantauan Kibana dapat menampilkan nilai kosong.
CatatanJika fitur pemantauan kluster menyediakan lebih banyak metrik dibandingkan Kibana, kami sarankan menggunakan kedua fitur tersebut secara bersamaan untuk pemantauan bisnis Anda.
Perbedaan Antarmuka Pengumpulan Data: Metrik pemantauan Kibana bergantung pada API Elasticsearch, sedangkan beberapa metrik tingkat node dalam pemantauan kluster (seperti utilisasi CPU, load_1m, dan penggunaan disk) memanggil antarmuka sistem bawah dari Alibaba Cloud Elasticsearch. Oleh karena itu, pemantauan mencakup tidak hanya proses Elasticsearch tetapi juga penggunaan sumber daya tingkat sistem.
Lihat data pemantauan kluster
Masuk ke Konsol Alibaba Cloud Elasticsearch.
Di panel navigasi sebelah kiri, klik Elasticsearch Clusters.
Navigasikan ke kluster yang diinginkan.
Di bilah navigasi atas, pilih grup sumber daya dan wilayah tempat kluster berada.
Pada halaman Elasticsearch Clusters, temukan kluster dan klik ID-nya.
Di panel navigasi sebelah kiri, pilih .
Lihat detail pemantauan.
Lihat detail Infrastructure Monitoring
Pada tab Infrastructure Monitoring, pilih kategori Group dan periode pemantauan sesuai kebutuhan untuk melihat detail pemantauan sumber daya terkait selama periode tertentu.
CatatanKlik Custom untuk melihat detail pemantauan dalam periode waktu kustom.
Fitur pemantauan dan peringatan untuk instance Elasticsearch diaktifkan secara default. Anda dapat melihat data pemantauan historis pada halaman Cluster Monitoring. Data pemantauan tersedia per menit dan disimpan selama 30 hari.
Untuk informasi lebih lanjut tentang metrik pemantauan infrastruktur, lihat Ikhtisar Metrik Pemantauan Infrastruktur.
Ikhtisar metrik pemantauan infrastruktur
Tabel berikut menjelaskan kategori dan ikhtisar metrik pemantauan infrastruktur untuk kluster.
Anda dapat melihat pengaturan parameter di konsol DataWorks.
Ikhtisar
Metrik | Deskripsi |
Menunjukkan status kesehatan kluster. Nilai | |
Menunjukkan status snapshot dari fitur Auto Snapshot di konsol Elasticsearch. Nilai | |
Menunjukkan jumlah total node dalam kluster. | |
Menunjukkan jumlah total node yang terputus dalam kluster. | |
Menunjukkan jumlah indeks dalam kluster. | |
Menunjukkan jumlah shard dalam kluster. | |
Menunjukkan jumlah shard utama dalam kluster. | |
Menunjukkan jumlah query lambat dalam kluster. | |
Menunjukkan jumlah dokumen yang ditulis ke kluster per detik. | |
Menunjukkan jumlah query yang dieksekusi per detik dalam kluster. Jumlah query QPS berkaitan dengan jumlah shard utama dalam indeks yang akan diquery. | |
Menunjukkan utilisasi CPU setiap node dalam kluster. | |
Menunjukkan penggunaan heap memory setiap node dalam kluster. | |
Menunjukkan penggunaan disk setiap node dalam kluster. Kami menyarankan Anda menetapkan ambang batas kurang dari | |
Menunjukkan beban setiap node dalam kluster dalam | |
Menunjukkan laju lalu lintas masuk setiap node dalam kluster. Siklus pemantauan metrik ini adalah 1 menit. Satuan: KB/s. | |
Menunjukkan laju lalu lintas keluar setiap node dalam kluster. Siklus pemantauan metrik ini adalah 1 menit. Satuan: KB/s. | |
Menunjukkan jumlah paket masuk untuk setiap node dalam kluster. Siklus pemantauan metrik ini adalah 1 menit. | |
Menunjukkan jumlah paket keluar untuk setiap node dalam kluster. Siklus pemantauan metrik ini adalah 1 menit. | |
Menunjukkan jumlah permintaan koneksi TCP yang diterima oleh setiap node dalam kluster dari klien. | |
Menunjukkan penggunaan I/O setiap node dalam kluster. | |
Menunjukkan jumlah data yang dibaca dari setiap node dalam kluster per detik. | |
Menunjukkan jumlah data yang ditulis ke setiap node dalam kluster per detik. | |
Menunjukkan jumlah permintaan baca yang selesai per detik untuk setiap node dalam kluster. | |
Menunjukkan jumlah permintaan tulis yang selesai per detik untuk setiap node dalam kluster. |
Metrik kluster
Metrik | Deskripsi |
Menunjukkan status kesehatan kluster. Nilai | |
Menunjukkan jumlah total node dalam kluster. | |
Menunjukkan jumlah total node yang terputus dalam kluster. | |
Menunjukkan jumlah indeks dalam kluster. | |
Menunjukkan jumlah shard dalam kluster. | |
Menunjukkan jumlah shard utama dalam kluster. | |
Menunjukkan jumlah query lambat dalam kluster. | |
Metrik ini didasarkan pada log | |
Menunjukkan status snapshot dari fitur Auto Snapshot di konsol Elasticsearch. Nilai | |
Menunjukkan jumlah dokumen yang ditulis ke kluster per detik. | |
Menunjukkan jumlah query yang dieksekusi per detik dalam kluster. Jumlah query QPS berkaitan dengan jumlah shard utama dalam indeks yang akan diquery. | |
Menunjukkan penggunaan memori Fielddata dalam kluster. Kurva pemantauan yang lebih tinggi menunjukkan bahwa sejumlah besar data Fielddata disimpan dalam heap memory. Penggunaan memori Fielddata yang berlebihan memicu pemutusan sirkuit memori Fielddata, yang memengaruhi stabilitas kluster. |
Metrik indeks
Metrik | Deskripsi |
Menunjukkan jumlah permintaan bulk per detik untuk indeks. | |
Menunjukkan jumlah query yang dieksekusi per detik untuk indeks. Jumlah query QPS berkaitan dengan jumlah shard utama dalam indeks yang akan diquery. | |
Menunjukkan waktu maksimum yang diambil untuk permintaan query pada indeks. Satuan: milidetik. |
Metrik sumber daya node
Metrik | Deskripsi |
Menunjukkan utilisasi CPU setiap node dalam kluster. Jika utilisasi CPU tinggi atau mendekati 100%, layanan yang berjalan di kluster terpengaruh. | |
Menunjukkan penggunaan heap memory setiap node dalam kluster. Jika penggunaan heap memory tinggi atau objek besar disimpan dalam memori, layanan yang berjalan di kluster terpengaruh dan operasi GC dipicu secara otomatis. | |
Menunjukkan penggunaan disk setiap node dalam kluster. Kami menyarankan Anda menetapkan ambang batas kurang dari | |
Menunjukkan penggunaan memori sistem suatu node. Catatan Metrik ini hanya didukung oleh versi kontrol baru cloud-native (v3). | |
Menunjukkan persentase tunggu I/O CPU suatu node. Catatan Metrik ini hanya didukung oleh versi kontrol baru cloud-native (v3). | |
Menunjukkan beban setiap node dalam kluster dalam |
Metrik jaringan node
Metrik | Deskripsi | Catatan |
Menunjukkan laju lalu lintas masuk setiap node dalam kluster. Siklus pemantauan metrik ini adalah 1 menit. Satuan: KiB/s. | Tidak ada. | |
Menunjukkan laju lalu lintas keluar setiap node dalam kluster. Siklus pemantauan metrik ini adalah 1 menit. Satuan: KiB/s. | Tidak ada. | |
NodeNetworkTraffic(KiB/s) = NodeNetworkInTraffic(KiB/s) + NodeNetworkOutTraffic(KiB/s). | Metrik ini hanya didukung oleh versi kontrol baru cloud-native (v3). | |
NodeNetworkTrafficUtilization(%) = (NodeNetworkInTraffic(KiB/s) + NodeNetworkOutTraffic(KiB/s)) / Lebar pita dasar jaringan node (Gbit/s). | Metrik ini hanya didukung oleh versi kontrol baru cloud-native (v3). | |
Menunjukkan jumlah permintaan koneksi TCP yang diterima oleh setiap node dalam kluster dari klien. | Tidak ada. | |
Menunjukkan tingkat retransmisi jaringan suatu node. | Metrik ini hanya didukung oleh versi kontrol baru cloud-native (v3). | |
Menunjukkan jumlah paket masuk untuk setiap node dalam kluster. Siklus pemantauan metrik ini adalah 1 menit. | Tidak ada. | |
Menunjukkan jumlah paket keluar untuk setiap node dalam kluster. Siklus pemantauan metrik ini adalah 1 menit. | Tidak ada. | |
NodeNetworkPackets(count) = NodeNetworkOutPackets(count) + NodeNetworkInPackets(count). | Metrik ini hanya didukung oleh versi kontrol baru cloud-native (v3). | |
NodeNetworkPacketsUtilization(%) = (NodeNetworkOutPackets(count) + NodeNetworkInPackets(count)) / PPS forwarding paket jaringan node. | Tidak ada. |
Metrik disk node
Metrik | Deskripsi | Catatan |
Menunjukkan jumlah data yang dibaca dari node dalam kluster sekunder per detik. | Tidak ada. | |
Menunjukkan jumlah data yang ditulis ke setiap node dalam kluster per detik. | Tidak ada. | |
Bandwidth Disk (MB/s) = Bandwidth Baca Disk (MiB/s) + Bandwidth Tulis Disk (MiB/s). | Hanya didukung oleh versi kontrol baru cloud-native (v3). | |
Penggunaan Bandwidth Disk_Disk (%) = (Bandwidth Baca Disk (MiB/s) + Bandwidth Tulis Disk (MiB/s)) / Throughput single disk ESSD (MB/s). | Hanya didukung oleh versi kontrol baru cloud-native (v3). Untuk throughput single disk ESSD, lihat Pengenalan ESSD. | |
Penggunaan Bandwidth Disk_Node (%) = (Bandwidth Baca Disk (MiB/s) + Bandwidth Tulis Disk (MiB/s)) / Lebar pita dasar disk node (Gbit/s). | Hanya didukung oleh versi kontrol baru cloud-native (v3). | |
Menunjukkan persentase utilisasi IO setiap node dalam kluster. | Tidak ada. | |
Menunjukkan jumlah permintaan baca yang selesai per detik oleh setiap node dalam kluster. | Tidak ada. | |
Menunjukkan jumlah permintaan tulis yang selesai per detik oleh setiap node dalam kluster. | Tidak ada. | |
Disk IOPS (count) = Disk IOPS_Read (count) + Disk IOPS_Write (count). | Hanya didukung oleh versi kontrol baru cloud-native (v3). | |
Penggunaan Disk IOPS_Disk (%) = (Disk IOPS_Read (count) + Disk IOPS_Write (count)) / Single disk IOPS ESSD. | Hanya didukung oleh versi kontrol baru cloud-native (v3). Untuk throughput single disk ESSD, lihat Pengenalan ESSD. | |
Penggunaan Disk IOPS_Node (%) = (Disk IOPS_Read (count) + Disk IOPS_Write (count)) / IOPS dasar disk node. | Hanya didukung oleh versi kontrol baru cloud-native (v3). | |
Menunjukkan panjang rata-rata antrian permintaan. | Tidak berlaku. |
Metrik JVM node
Nama metrik | Deskripsi metrik |
Menunjukkan ukuran penggunaan heap memory generasi Old pada setiap node dalam kluster. Saat penggunaan generasi Old tinggi atau objek memori besar disimpan, layanan kluster terpengaruh dan operasi GC dipicu secara otomatis. Pengumpulan objek besar dapat mengakibatkan durasi GC yang lama atau Full GC. | |
Menunjukkan total jumlah operasi GC dalam | |
Menunjukkan jumlah koleksi GC di generasi Old dari setiap node dalam kluster. Saat penggunaan generasi Old tinggi atau objek memori besar disimpan, layanan kluster terpengaruh dan operasi GC dipicu secara otomatis. Pengumpulan objek besar dapat mengakibatkan durasi GC yang lama atau Full GC. | |
Menunjukkan durasi rata-rata koleksi GC generasi Old untuk setiap node dalam kluster. Saat penggunaan generasi Old tinggi atau objek memori besar disimpan, operasi GC dipicu secara otomatis. Pengumpulan objek besar dapat mengakibatkan durasi GC yang lama atau Full GC. |
Metrik thread pool
Nama metrik | Deskripsi metrik |
Menunjukkan jumlah thread dalam thread pool query yang saat ini sedang mengeksekusi tugas di kluster. | |
Permintaan ditolak dalam thread pool query (versi baru) (count) | Menunjukkan jumlah permintaan yang ditolak dalam thread pool query di dalam kluster. |
Metrik lainnya
Nama metrik | Deskripsi metrik |
Menunjukkan jumlah total log tingkat peringatan yang muncul dalam log utama kluster dalam satu menit. |
Metrik yang tidak digunakan lagi
Nama metrik | Deskripsi metrik |
Jumlah permintaan yang ditolak dalam thread pool query (count) | Menunjukkan jumlah permintaan yang ditolak dalam thread pool query. Metrik ini berbeda dalam metode perhitungan dibandingkan dengan metrik Number Of Rejected Requests In The Query Thread Pool (new Version) (count). Metrik ini sudah tidak digunakan lagi. Silakan gunakan Jumlah Permintaan yang Ditolak dalam Thread Pool Query (Versi Baru) (count) sebagai gantinya. |
ClusterStatus(value)
Deskripsi
Metrik ini menunjukkan status kesehatan kluster. Nilai 0,00 menunjukkan bahwa kluster dalam kondisi normal. Anda perlu mengonfigurasi metrik ini. Untuk informasi lebih lanjut tentang cara mengonfigurasinya, lihat Konfigurasi peringatan kluster. Tabel berikut menjelaskan nilai-nilai dari metrik ini.
Nilai | Warna | Status | Deskripsi |
0.00 | Hijau | Semua shard utama dan replika tersedia. | Semua indeks yang disimpan di kluster sehat dan tidak memiliki shard yang belum ditetapkan. |
1.00 | Kuning | Semua shard utama tersedia, tetapi tidak semua shard replika tersedia. | Satu atau lebih indeks memiliki shard replika yang belum ditetapkan. |
2.00 | Merah | Tidak semua shard utama tersedia. | Satu atau lebih indeks memiliki shard utama yang belum ditetapkan. |
Warna dalam tabel merujuk pada warna status kluster yang ditampilkan di halaman Informasi Dasar instance.
Penyebab pengecualian
Selama pemantauan, jika nilai metrik bukan 0,00, itu menunjukkan bahwa status kluster tidak normal. Penyebab umum meliputi:
Utilisasi CPU atau penggunaan heap memory node dalam kluster terlalu tinggi atau mencapai 100%.
Penggunaan disk node dalam kluster terlalu tinggi. Misalnya, penggunaan disk lebih tinggi dari 85% atau mencapai 100%.
Load_1m node terlalu tinggi.
Status indeks yang disimpan di kluster tidak normal (bukan hijau).
Saran penanganan pengecualian
Lihat informasi pemantauan di halaman Pemantauan Konsol Kibana, atau lihat log instance untuk mendapatkan informasi spesifik tentang masalah dan memperbaikinya (misalnya, jika suatu indeks menggunakan terlalu banyak memori, Anda bisa menghapus beberapa indeks).
Untuk pengecualian kluster yang disebabkan oleh penggunaan disk tinggi, kami sarankan Anda menangani masalah berdasarkan Metode untuk menangani penggunaan disk tinggi dan masalah read_only.
Untuk instance dengan 1 core dan 2 GB memori, jika status instance tidak normal, kami sarankan Anda pertama-tama tingkatkan kluster ke spesifikasi dengan rasio CPU-memori 1:4 untuk meningkatkan spesifikasi instance. Jika kluster masih tidak normal setelah Anda meningkatkan spesifikasi, kami sarankan Anda menangani masalah berdasarkan dua solusi sebelumnya.
Status snapshot (value)
Deskripsi
Metrik ini menampilkan status snapshot dari fitur backup otomatis di konsol Elasticsearch. Jika nilai metrik adalah 0, itu menunjukkan bahwa snapshot telah berhasil dibuat. Tabel berikut menjelaskan nilai-nilai dari metrik ini.
Status Snapshot | Deskripsi |
0 | Snapshot telah dibuat. |
-1 | Tidak ada snapshot yang dibuat. |
1 | Sistem sedang membuat snapshot. |
2 | Sistem gagal membuat snapshot. |
Penyebab pengecualian
Jika nilai metrik adalah 2, layanan tidak berjalan normal. Penyebab umum meliputi:
Penggunaan disk node dalam kluster terlalu tinggi atau mendekati 100%.
Kluster tidak normal.
Total jumlah node dalam kluster (count)
Metrik ini menunjukkan total jumlah node dalam kluster dan digunakan untuk memantau apakah skala node sesuai dengan harapan.
Total jumlah node yang terputus dalam kluster (count)
Metrik ini menunjukkan total jumlah node yang terputus dalam kluster. Node yang terputus dapat menyebabkan shard di-reassign atau meningkatkan latensi query.
Jumlah indeks kluster (count)
Metrik ini menunjukkan jumlah indeks dalam kluster. Terlalu banyak indeks dapat menyebabkan perebutan sumber daya, seperti memori dan CPU.
Jumlah shard kluster (count)
Metrik ini menunjukkan jumlah shard dalam kluster. Terlalu banyak shard dapat meningkatkan biaya manajemen, seperti operasi metadata, sementara terlalu sedikit shard dapat memengaruhi kinerja query, misalnya beban yang tidak merata.
Jumlah shard utama kluster
Metrik ini menunjukkan jumlah shard utama dalam kluster. Jumlah shard utama yang tidak mencukupi dapat menyebabkan bottleneck tulis.
Jumlah query lambat dalam kluster (count)
Metrik ini menunjukkan jumlah query lambat di dalam kluster dan dapat digunakan untuk mengidentifikasi hambatan kinerja, seperti query kompleks atau masalah desain indeks.
Cluster write QPS (count/s)
Jika write QPS kluster melonjak, utilisasi CPU, penggunaan heap memory, atau beban rata-rata per menit kluster dapat mencapai level tinggi, yang dapat memengaruhi layanan Anda di kluster. Hindari situasi ini.
Metrik ini menunjukkan jumlah dokumen yang ditulis ke kluster per detik dengan detail sebagai berikut:
Jika kluster menerima permintaan tulis yang hanya berisi satu dokumen dalam 1 detik, nilai metrik ini adalah 1. Nilai tersebut meningkat sesuai dengan jumlah permintaan tulis yang diterima per detik.
Jika beberapa dokumen ditulis ke kluster secara batch menggunakan API _bulk dalam 1 detik, write QPS dihitung berdasarkan jumlah total dokumen dalam permintaan. Jika beberapa permintaan batch dikirim menggunakan API _bulk dalam 1 detik, nilainya akan diakumulasikan.
Cluster query QPS (count/s)
Jika query QPS kluster melonjak, utilisasi CPU, penggunaan heap memory, atau beban rata-rata per menit kluster dapat mencapai level tinggi, yang dapat memengaruhi layanan Anda di kluster tersebut. Hindari situasi ini jika memungkinkan.
Metrik ini menunjukkan jumlah query per detik (QPS) yang dieksekusi pada kluster. Jumlah query per detik berkaitan dengan jumlah shard utama dalam indeks yang akan di-query.
Sebagai contoh, jika indeks yang akan di-query memiliki lima shard utama, kluster Anda dapat memproses hingga lima query per detik.
Distribusi waktu query lambat kluster
Deskripsi
Metrik ini didasarkan pada log index.search.slowlog.query dan index.search.slowlog.fetch dalam log query lambat. Metrik ini mengumpulkan waktu yang diambil (took_millis) dan menampilkan distribusinya dalam interval 1 detik (0~1s, 1~2s, hingga 10s). Anda dapat mengonfigurasi ambang batas untuk log lambat. Untuk parameter terkait, lihat parameter index.search.slowlog.threshold.xxx dalam Konfigurasi Template Indeks.
Penyebab pengecualian
Selama periode pemantauan, ketika interval waktu query lambat meningkat dan jumlah query bertambah, pengecualian layanan mungkin terjadi. Penyebab umum meliputi:
Penyebab Pengecualian | Deskripsi |
QPS | Lalu lintas Query QPS atau Write QPS melonjak atau berfluktuasi signifikan, menyebabkan tekanan tinggi pada kluster dan waktu respons query lebih lama. |
Query Agregat atau Query Skrip | Skenario query agregat memerlukan banyak sumber daya komputasi untuk agregasi data, terutama memori. Harap berhati-hati saat menggunakannya. |
Query Term pada Field Numerik | Saat melakukan query term pada banyak field numerik (byte, short, integer, long), pembuatan bitset untuk koleksi ID dokumen memakan waktu dan memengaruhi kecepatan query. Jika field numerik tidak memerlukan query rentang atau agregat, kami sarankan untuk mengubahnya menjadi tipe field kata kunci. |
Pencocokan Fuzzy | Karakter wildcard, ekspresi reguler, dan query fuzzy perlu menjelajahi daftar term dalam indeks terbalik untuk menemukan semua term yang cocok, lalu mengumpulkan ID dokumen yang sesuai untuk setiap term. Terutama tanpa uji stres sebelumnya, query berskala besar akan mengonsumsi banyak sumber daya komputasi. Kami sarankan untuk melakukan uji stres berdasarkan skenario Anda sebelum menggunakan fitur-fitur ini dan memilih skala yang sesuai. |
Kluster Menerima Beberapa Permintaan Query Lambat atau Tulis | Dalam kasus ini, fluktuasi lalu lintas QPS untuk query dan penulisan kecil atau tidak terlalu jelas. Anda dapat melihat dan menganalisis dengan mengklik Searching Slow Log pada halaman Query Logs di konsol Alibaba Cloud Elasticsearch. |
Kluster Menyimpan Banyak Indeks atau Shard | Karena Elasticsearch memantau indeks dalam kluster dan menulis log, ketika jumlah total indeks atau shard berlebihan, ini dapat dengan mudah menyebabkan utilisasi CPU atau HeapMemory tinggi, atau Load_1m tinggi, yang memengaruhi kecepatan query seluruh kluster. |
Operasi Merge Dilakukan pada Kluster | Operasi penggabungan mengonsumsi sumber daya CPU, dan Jumlah Segmen dari node yang bersangkutan akan turun secara drastis. Anda dapat memeriksa ini di halaman Overview node tersebut di Kibana Console. |
Operasi Garbage Collection (GC) Dilakukan pada Kluster | Operasi GC mencoba melepaskan memori (seperti full GC) dan mengonsumsi sumber daya CPU. Akibatnya, utilisasi CPU dapat melonjak. |
Tugas Terjadwal Dilakukan pada Kluster | Cadangan data atau tugas kustom lainnya memerlukan banyak sumber daya I/O, yang memengaruhi kecepatan query. |
Penggunaan memori Fielddata kluster (B)
Deskripsi
Metrik ini menunjukkan penggunaan memori Fielddata dalam kluster. Semakin tinggi kurva pemantauan, semakin banyak data Fielddata yang disimpan di heap memory. Penggunaan memori Fielddata yang berlebihan dapat memicu pemutusan sirkuit memori Fielddata, yang memengaruhi stabilitas kluster.
Penyebab pengecualian
Selama periode pemantauan, ketika metrik ini menggunakan sejumlah besar heap memory, pengecualian layanan mungkin terjadi. Penyebab umum meliputi:
Query mengandung banyak operasi sortir atau agregasi pada field string (Text). Fielddata untuk query tersebut tidak dilepaskan secara default. Disarankan untuk menggunakan tipe field numerik.
Lalu lintas Query QPS atau Write QPS melonjak atau berfluktuasi secara signifikan, menyebabkan Fielddata sering di-cache.
Kluster menyimpan sejumlah besar indeks atau shard. Karena Elasticsearch memantau indeks dalam kluster dan menulis log, jumlah indeks atau shard yang berlebihan dapat dengan mudah menyebabkan utilisasi CPU atau HeapMemory yang tinggi, atau payload Load_1m yang tinggi.
Index Bulk write TPS (count/s)
Deskripsi
Metrik ini menunjukkan jumlah permintaan Bulk per detik untuk indeks.
Penyebab pengecualian
Selama periode pemantauan, metrik ini mungkin tidak memiliki data. Penyebab umum meliputi:
Tekanan tinggi pada kluster mengganggu pengumpulan data pemantauan secara normal.
Data pemantauan gagal dikirim.
Index query QPS (count/s)
Deskripsi
Metrik ini menunjukkan jumlah query per detik (QPS) yang dieksekusi pada indeks. Nilai QPS berkaitan dengan jumlah shard utama dalam indeks yang di-query.
Sebagai contoh, jika indeks tempat Anda mengambil data memiliki lima shard utama, kluster Anda dapat memproses hingga lima query per detik.
Penyebab pengecualian
Selama periode pemantauan, metrik ini mungkin tidak memiliki data. Penyebab umum meliputi:
Tekanan tinggi pada kluster mengganggu pengumpulan data pemantauan secara normal.
Data pemantauan gagal dikirim.
Peningkatan mendadak dalam query QPS indeks dapat menyebabkan utilisasi CPU tinggi, penggunaan HeapMemory tinggi, atau Load_1m tinggi pada kluster, yang berdampak pada keseluruhan layanan kluster. Optimalkan indeks untuk mengatasi masalah ini.
Latensi end-to-end query indeks_max (ms)
Metrik ini menunjukkan waktu maksimum yang digunakan oleh permintaan query ke indeks, diukur dalam milidetik.
Utilisasi CPU node_ES service (%)
Deskripsi
Metrik ini menunjukkan persentase utilisasi CPU setiap node dalam kluster. Jika utilisasi CPU tinggi atau mendekati 100%, layanan yang berjalan di kluster akan terpengaruh.
Penyebab pengecualian
Jika nilai metrik melonjak atau berfluktuasi secara signifikan, kesalahan dapat terjadi. Masalah ini dapat disebabkan oleh satu atau lebih alasan yang dijelaskan dalam tabel berikut.
Penyebab Pengecualian | Deskripsi |
QPS | Query QPS atau Write QPS mengalami lonjakan lalu lintas atau fluktuasi signifikan. |
Cluster menerima beberapa permintaan query lambat atau penulisan | Dalam kasus ini, lalu lintas QPS untuk query dan write hanya sedikit berfluktuasi atau tidak terlalu terlihat. Anda dapat mengklik Searching Slow Logs di halaman LogSearch pada konsol Alibaba Cloud Elasticsearch untuk melihat dan menganalisis. |
Cluster menyimpan banyak indeks atau shard | Karena Elasticsearch memantau indeks dalam kluster dan menulis log, jumlah total indeks atau shard yang terlalu banyak dapat dengan mudah menyebabkan pemanfaatan CPU atau HeapMemory yang tinggi, atau Load_1m yang tinggi. |
Operasi penggabungan dilakukan pada kluster | Operasi penggabungan mengonsumsi sumber daya CPU. Jumlah Segmen dari node yang bersangkutan turun secara drastis. Hal ini dapat dilihat di halaman Ikhtisar node di Kibana console. |
Operasi GC dilakukan | Operasi GC mencoba membebaskan memori (seperti full gc) dan mengonsumsi sumber daya CPU. Akibatnya, utilisasi CPU dapat meningkat tajam. |
Tugas terjadwal dilakukan pada kluster | Tugas terjadwal, seperti cadangan data atau tugas kustom, dilakukan pada kluster. |
Metrik NodeCPUUtilization(%) memantau penggunaan sumber daya sistem dari Alibaba Cloud Elasticsearch dan penggunaan sumber daya tugas yang berjalan pada kluster Elasticsearch.
Penggunaan disk node (%)
Metrik ini menunjukkan persentase penggunaan disk pada setiap node dalam kluster. Disarankan untuk menetapkan ambang batas di bawah 75%. Hindari mengatur ambang batas lebih dari 85%, karena dapat menyebabkan situasi yang memengaruhi layanan Anda di kluster.
Penggunaan disk node | Deskripsi |
>85% | Shard baru tidak dapat ditetapkan. |
>90% | Kluster mencoba memigrasikan shard dari node ke node data lain dengan penggunaan disk lebih rendah. |
>95% | Elasticsearch secara paksa menetapkan properti |
Anda disarankan untuk mengonfigurasi metrik ini. Saat peringatan dipicu, segera sesuaikan ukuran disk, tambahkan node, atau hapus data indeks guna memastikan layanan tetap berjalan tanpa gangguan.
Metrik NodeDiskUtilization(%) memantau penggunaan sumber daya sistem Alibaba Cloud Elasticsearch dan tugas-tugas yang berjalan pada kluster Elasticsearch.
Penggunaan memori heap node_ES service (%)
Deskripsi
Metrik ini menunjukkan persentase penggunaan memori heap pada setiap node dalam kluster. Ketika penggunaan memori heap tinggi atau terdapat objek memori besar, layanan kluster terpengaruh dan operasi garbage collection (GC) dipicu secara otomatis.
Penyebab pengecualian
Jika nilai metrik melonjak atau berfluktuasi secara signifikan, kesalahan dapat terjadi. Masalah ini dapat disebabkan oleh satu atau lebih alasan yang dijelaskan dalam tabel berikut.
Penyebab Pengecualian | Deskripsi |
QPS | Query QPS atau Write QPS mengalami lonjakan lalu lintas atau berfluktuasi secara signifikan. |
Cluster menerima beberapa permintaan query atau write yang lambat | Dalam kasus ini, lalu lintas QPS untuk query dan write berfluktuasi sedikit atau tidak terlihat. Anda dapat mengklik Searching Slow Logs di halaman LogSearch pada konsol Alibaba Cloud Elasticsearch untuk melihat dan menganalisis log. |
Cluster menerima banyak permintaan query lambat atau penulisan | Dalam kasus ini, lalu lintas QPS untuk query dan penulisan berfluktuasi secara signifikan atau terlihat jelas. Anda dapat mengklik Indexing Slow Logs di halaman LogSearch pada konsol Alibaba Cloud Elasticsearch untuk melihat dan menganalisis log. |
Cluster menyimpan banyak indeks atau shard | Karena Elasticsearch memantau indeks dalam cluster dan menulis log, ketika jumlah total indeks atau shard terlalu banyak, penggunaan CPU atau memori heap, atau Load_1m bisa menjadi terlalu tinggi. |
Operasi penggabungan dilakukan pada kluster | Operasi penggabungan menggunakan sumber daya CPU, dan Jumlah Segmen dari node yang bersangkutan turun secara drastis. Anda dapat melihat ini di halaman Overview dari node di Kibana console. |
Operasi GC dilakukan | Operasi GC mencoba membebaskan memori (misalnya, Full GC) dan menggunakan sumber daya CPU. Hal ini dapat menyebabkan penggunaan memori heap turun secara tajam. |
Tugas terjadwal dilakukan pada kluster | Cadangan data atau tugas kustom lainnya. |
Node Load_1m (nilai)
Deskripsi
Metrik ini menunjukkan beban setiap node dalam kluster selama 1 menit, yang mencerminkan seberapa sibuk sistem pada setiap node. Dalam kondisi normal, nilai metrik ini lebih kecil dari jumlah vCPU pada node. Tabel berikut menjelaskan nilai-nilai metrik untuk node dengan satu vCPU.
Node Load_1m | Deskripsi |
< 1 | Tidak ada proses yang tertunda. |
= 1 | Sistem tidak memiliki sumber daya idle untuk menjalankan lebih banyak proses. |
> 1 | Proses sedang mengantri untuk mendapatkan sumber daya. |
Metrik Node Load_1m mencakup penggunaan sumber daya di tingkat sistem Alibaba Cloud Elasticsearch serta penggunaan sumber daya tugas Elasticsearch.
Fluktuasi dalam metrik Node Load_1m dapat bersifat normal. Kami menyarankan Anda untuk fokus menganalisis metrik Node CPU Utilization.
Penyebab pengecualian
Jika nilai metrik melebihi jumlah vCPU pada suatu node, terjadi kesalahan. Masalah ini dapat disebabkan oleh satu atau lebih alasan berikut:
Penggunaan CPU atau heap memori pada node dalam kluster terlalu tinggi atau mencapai 100%.
Trafik Query QPS atau Write QPS mengalami lonjakan atau peningkatan signifikan.
Kluster menerima permintaan kueri lambat.
Anda dapat membuka halaman LogSearch di konsol Alibaba Cloud Elasticsearch untuk melihat dan menganalisis log terkait.
Node Load_1m mencakup penggunaan sumber daya di tingkat sistem Alibaba Cloud Elasticsearch serta penggunaan sumber daya tugas Elasticsearch.
Penggunaan memori node_total (%)
Metrik ini menunjukkan penggunaan memori sistem pada node.
Persentase tunggu CPU IO node (%)
Metrik ini menunjukkan persentase waktu tunggu CPU IO pada node.
Paket jaringan node_input (jumlah)
Metrik ini menunjukkan jumlah paket lalu lintas arah masuk untuk setiap node dalam kluster. Siklus pemantauan metrik ini adalah 1 menit.
Node network plan_Outputs (jumlah)
Data deret waktu ini menunjukkan jumlah lalu lintas arah keluar dari rencana transfer data untuk setiap node dalam kluster. Siklus pemantauan data deret waktu adalah 1 menit.
Lebar pita jaringan node_input (KiB/s)
Data deret waktu ini menunjukkan laju arah masuk Paket data per detik untuk setiap node dalam kluster. Siklus pemantauan data deret waktu adalah 1 menit. Satuan: KB/s.
Lebar Pita Jaringan Node_Outputs (KiB/s)
Data deret waktu ini menunjukkan laju paket data arah keluar per detik untuk setiap node dalam kluster. Siklus pemantauan data deret waktu adalah 1 menit. Satuan: KB/s.
Koneksi TCP Node (jumlah)
Deskripsi
Metrik ini menunjukkan jumlah permintaan koneksi TCP yang diinisiasi oleh klien ke setiap node dalam kluster.
Penyebab pengecualian
Selama pemantauan, lonjakan atau fluktuasi signifikan pada nilai metrik dapat mengindikasikan terjadinya kesalahan layanan. Penyebab umumnya adalah koneksi TCP yang diinisiasi oleh klien tidak dilepaskan dalam waktu lama, sehingga menyebabkan peningkatan mendadak jumlah koneksi TCP pada node. Disarankan untuk mengonfigurasi kebijakan terkait pada klien guna melepaskan koneksi secara efektif.
IOUtil (%)
Deskripsi
Metrik ini menunjukkan persentase penggunaan IO pada setiap node dalam kluster.
Penyebab pengecualian
Jika nilai metrik mengalami lonjakan atau fluktuasi signifikan selama pemantauan, kemungkinan terjadi kesalahan layanan. Masalah ini dapat disebabkan oleh tingginya penggunaan disk. Penggunaan disk yang tinggi meningkatkan waktu tunggu rata-rata untuk operasi baca dan tulis data, sehingga menyebabkan lonjakan penggunaan IO, bahkan hingga mencapai 100%. Disarankan untuk menganalisis masalah ini berdasarkan konfigurasi kluster dan metrik lainnya. Sebagai contoh, Anda dapat mempertimbangkan peningkatan konfigurasi kluster.
Laju retransmisi jaringan node (%)
Metrik ini menunjukkan laju retransmisi jaringan dari node.
Lebar pita jaringan Node (KiB/s)
Lebar Pita Jaringan Node (KiB/s) = Lebar Pita Jaringan_Input Node (KiB/s) + Lebar Pita Jaringan_Output Node (KiB/s).
Penggunaan lebar pita jaringan Node (%)
Penggunaan lebar pita jaringan Node (%) = (Lebar pita jaringan Node_input (KiB/s) + Lebar pita jaringan Node_Output (KiB/s)) / Lebar pita dasar jaringan Node (Gbit/s).
Rencana jaringan node (jumlah)
Rencana Jaringan Node (Jumlah) = Rencana Jaringan Node_Output (Jumlah) + Rencana Jaringan Node_Input (Jumlah).
Penggunaan paket jaringan node (%)
Penggunaan Paket Jaringan Node (%) = (Node network packet_Output (jumlah) + Node network packet_Input (jumlah)) / packet forwarding PPS.
Disk bandwidth_read (MiB/s)
Metrik ini menunjukkan jumlah data yang dibaca dari node dalam kluster sekunder per detik.
Disk bandwidth_write (MiB/s)
Metrik ini menunjukkan jumlah data yang ditulis ke setiap node dalam kluster per detik.
Disk IOPS_read (jumlah)
Metrik ini menunjukkan jumlah permintaan baca yang diselesaikan per detik pada setiap node di dalam kluster.
Disk IOPS_write (jumlah)
Metrik ini menunjukkan jumlah permintaan tulis yang diproses per detik oleh setiap node dalam kluster.
Panjang rata-rata antrian permintaan
Metrik ini menunjukkan panjang rata-rata antrian permintaan.
Bandwidth disk (MiB/s)
Bandwidth Disk (MiB/s) = Bandwidth disk_read (MiB/s) + Bandwidth disk_write (MiB/s).
Penggunaan bandwidth disk_disk (%)
Penggunaan Bandwidth Disk (%) = (Bandwidth disk_read (MiB/s) + Bandwidth disk_write (MiB/s)) / Rumus untuk menghitung performa throughput disk tunggal (MB/s).
Penggunaan bandwidth disk_node (%)
Penggunaan Bandwidth disk_node (%) dihitung sebagai (Bandwidth disk_read (MiB/s) + Bandwidth disk_write (MiB/s)) / Bandwidth dasar disk (Gbit/s).
Disk IOPS (jumlah)
Disk IOPS (Jumlah) = Disk IOPS_read (Jumlah) + Disk IOPS_write (Jumlah).
Penggunaan Disk IOPS_disk (%)
Penggunaan Disk IOPS_disk (%) dihitung dengan rumus: (Disk IOPS_read (jumlah) + Disk IOPS_write (jumlah)) / Rumus perhitungan performa IOPS disk tunggal.
Penggunaan Disk IOPS_node (%)
Penggunaan Disk IOPS_node (%) = (Disk IOPS_read (jumlah) + Disk IOPS_write (jumlah)) / Disk IOPS dasar.
Penggunaan generasi lama node (B)
Deskripsi
Metrik ini menunjukkan ukuran penggunaan memori heap generasi lama untuk setiap node dalam kluster. Ketika generasi lama mencapai persentase tinggi atau berisi objek memori besar, hal tersebut dapat memengaruhi layanan kluster dan secara otomatis memicu operasi pengumpulan sampah (GC). Pengumpulan objek besar dapat mengakibatkan durasi GC yang lama atau Full GC.
Penyebab pengecualian
Jika nilai metrik melonjak atau berfluktuasi secara signifikan, terjadi kesalahan. Masalah ini dapat disebabkan oleh satu atau lebih alasan yang dijelaskan dalam tabel berikut.
Penyebab Pengecualian | Deskripsi |
QPS | Lalu lintas Query QPS atau Write QPS melonjak atau berfluktuasi secara signifikan. |
Kueri agregasi atau kueri skrip | Skenario kueri agregasi memerlukan banyak sumber daya komputasi untuk agregasi data, terutama memori. Harap berhati-hati saat menggunakannya. |
Kueri istilah pada bidang numerik | Saat melakukan kueri istilah pada banyak bidang numerik (byte, short, integer, long), pembuatan bitset untuk koleksi ID dokumen memakan waktu dan memengaruhi kecepatan kueri. Jika bidang numerik tidak memerlukan operasi rentang atau agregasi, kami sarankan Anda mengubahnya menjadi tipe bidang kata kunci. |
Pencocokan kabur | Karakter wildcard, ekspresi reguler, dan kueri kabur perlu menjelajahi daftar istilah dalam indeks terbalik untuk menemukan semua istilah yang cocok, lalu mengumpulkan ID dokumen yang sesuai untuk setiap istilah. Terutama tanpa uji stres sebelumnya, kueri skala besar akan mengonsumsi banyak sumber daya komputasi. Disarankan untuk melakukan uji stres berdasarkan skenario Anda sebelum menggunakan fitur-fitur ini dan memilih skala yang sesuai. |
Kluster menerima beberapa permintaan kueri lambat atau tulis | Dalam kasus ini, fluktuasi lalu lintas QPS kueri dan tulis kecil atau tidak jelas. Anda dapat pergi ke halaman Log Kueri di konsol Alibaba Cloud Elasticsearch dan klik Searching Slow Logs untuk melihat dan menganalisis log. |
Kluster menerima banyak permintaan kueri lambat atau tulis | Dalam kasus ini, fluktuasi lalu lintas QPS kueri dan tulis kecil atau tidak jelas. Anda dapat pergi ke halaman Log Kueri di konsol Alibaba Cloud Elasticsearch dan klik Indexing Slow Logs untuk melihat dan menganalisis log. |
Kluster menyimpan banyak indeks atau shard | Sistem memantau indeks yang disimpan di kluster dan mencatat perubahan indeks. Jika kluster menyimpan indeks atau shard yang berlebihan, pemanfaatan CPU, penggunaan memori heap, atau beban rata-rata per menit node dapat mencapai level tinggi. |
Operasi penggabungan dilakukan pada kluster | Operasi penggabungan mengonsumsi sumber daya CPU, dan Segment Count dari node yang bersangkutan akan turun tajam. Anda dapat memeriksanya di halaman Overview node di Konsol Kibana. |
Operasi GC dilakukan | Operasi GC mencoba membebaskan memori (misalnya, Full GC), mengonsumsi sumber daya CPU, dan dapat menyebabkan penurunan signifikan dalam penggunaan memori heap. |
Tugas terjadwal dilakukan pada kluster | Tugas terjadwal, seperti cadangan data atau tugas kustom, dilakukan pada kluster. |
Jumlah Full GC (Count)
Kejadian Full GC yang sering dalam sistem dapat memengaruhi kinerja layanan kluster.
Deskripsi
Metrik ini menunjukkan jumlah total operasi GC dalam kluster selama 1 menit.
Penyebab pengecualian
Jika nilai metrik ini bukan 0, berarti telah terjadi kesalahan. Masalah ini dapat disebabkan oleh satu atau lebih alasan berikut:
Penggunaan memori heap yang tinggi di kluster.
Objek besar yang tersimpan di memori kluster.
Frekuensi GC Old Node (jumlah)
Deskripsi metrik
Metrik ini menunjukkan jumlah pengumpulan sampah Generasi Lama pada setiap node dalam kluster. Ketika Generasi Lama mencakup persentase tinggi atau berisi objek memori besar, hal tersebut dapat memengaruhi layanan kluster dan memicu operasi pengumpulan sampah secara otomatis. Pengumpulan objek besar dapat menyebabkan durasi GC yang lama atau Full GC.
Metrik pemantauan dasar untuk Full GC diperoleh melalui log, sedangkan metrik memori dalam pemantauan lanjutan bergantung pada pengumpulan data dari mesin ES. Kedua metode ini memiliki perbedaan dalam cara pengumpulan data dan aplikasinya. Kami menyarankan Anda untuk mengevaluasi kinerja kluster secara menyeluruh dengan menggabungkan semua metrik yang tersedia.
Penyebab pengecualian
Untuk informasi lebih lanjut, lihat Penggunaan Area Old Node (B).
Durasi Node Old GC (ms)
Deskripsi
Metrik ini menunjukkan rata-rata waktu yang dihabiskan untuk pengumpulan sampah generasi Old pada setiap node dalam kluster. Ketika penggunaan area generasi Old tinggi atau terdapat objek memori besar, operasi GC akan dipicu secara otomatis. Pengumpulan objek besar dapat mengakibatkan durasi GC yang lebih lama atau Full GC.
Penyebab pengecualian
Untuk informasi lebih lanjut, lihat Penggunaan Node generasi Old (B).
Jumlah thread pool query yang sedang berjalan (count)
Menunjukkan jumlah thread dalam Thread Pool Query yang saat ini mengeksekusi tugas di kluster.
Jumlah permintaan yang ditolak dalam thread pool query (count)
Menunjukkan jumlah permintaan yang ditolak dalam thread pool query di kluster. Metrik ini sudah tidak digunakan lagi. Kami sarankan Anda menggunakan Jumlah Permintaan yang Ditolak dalam Thread Pool Query (versi baru) (count).
Jumlah permintaan yang ditolak dalam thread pool query (versi baru) (count)
Menunjukkan jumlah permintaan yang ditolak dalam thread pool query di kluster. Ketika semua thread dalam thread pool sedang memproses tugas dan antrian tugas penuh, permintaan query baru akan ditolak serta pengecualian akan dilemparkan.
NodeStatsExceptionLogCount(Count)
Deskripsi
Metrik ini menunjukkan waktu yang dihabiskan untuk operasi garbage collection (GC) pada setiap node dalam kluster. Semakin tinggi nilainya, semakin lama operasi GC berlangsung, yang dapat memengaruhi kinerja layanan kluster.
Penyebab pengecualian
Selama pemantauan, jika nilai data deret waktu tidak 0, layanan tersebut mengalami anomali. Penyebab umumnya meliputi hal-hal berikut:
Kluster menerima permintaan query yang tidak normal.
Kluster menerima permintaan tulis yang tidak normal.
Kesalahan terjadi saat kluster menjalankan tugas.
Operasi garbage collection telah dilakukan.
Saran penanganan pengecualian
Anda dapat membuka halaman LogSearch di konsol Alibaba Cloud Elasticsearch dan klik Main Logs. Di halaman Main Logs, Anda dapat melihat informasi pengecualian rinci berdasarkan titik waktu serta menganalisis penyebab pengecualian.
Jika ada catatan GC dalam Main Logs, mereka juga akan dihitung dan ditampilkan dalam metrik pemantauan Exception Count.