Laporan diagnostik membantu Anda mengevaluasi kondisi operasional suatu instans dan mengidentifikasi anomali berdasarkan statistik seperti tingkat kinerja, distribusi permintaan yang tidak merata, serta log lambat.
Prasyarat
Komponen laporan diagnostik
Informasi Dasar Instans: Menampilkan informasi dasar tentang instans seperti ID instans, tipe instans, versi mesin, dan zona tempat instans ditempatkan.
Ringkasan: Menampilkan skor status kesehatan instans dan menjelaskan alasan pengurangan poin.
Tingkat Kinerja: Menampilkan statistik dan status metrik kinerja utama terkait instans.
10 Node Teratas dengan Jumlah Query Lambat Terbanyak: Menampilkan 10 node data teratas dengan jumlah query lambat terbanyak beserta informasi detailnya.
Informasi dasar instans
Bagian ini menampilkan ID instans, tipe instans, versi mesin, dan wilayah tempat instans ditempatkan.
Gambar 1. Informasi Dasar Instans
Ringkasan
Bagian ini menampilkan hasil diagnosis dan skor status kesehatan instans. Skor maksimal adalah 100. Jika instans Anda mencapai skor kurang dari 100, periksa item diagnosis dan detailnya.
Gambar 2. Ringkasan
Tingkat kinerja
Bagian ini menampilkan statistik dan status metrik kinerja utama terkait instans. Perhatikan metrik kinerja dalam keadaan Hazard.
Jika instans Anda berjalan dalam arsitektur kluster atau arsitektur pemisahan baca/tulis, periksa apakah metrik kinerja tidak seimbang dan identifikasi node data yang tidak seimbang. Untuk informasi lebih lanjut tentang arsitektur kluster dan pemisahan baca/tulis, lihat Instans Master-Replika Kluster dan Instans Pemisahan Baca/Tulis. Fokuskan analisis pada node data dengan beban lebih tinggi berdasarkan grafik kurva setiap metrik kinerja di bagian Top 5 Nodes.
Gambar 3. Tingkat Kinerja
Metrik kinerja | Ambang batas | Dampak | Penyebab dan metode pemecahan masalah yang mungkin |
CPU Utilization | 60% | Saat instans memiliki penggunaan CPU yang tinggi, throughput instans dan waktu respons terhadap klien terpengaruh. Dalam beberapa kasus, klien mungkin tidak dapat merespons. | Penyebab yang mungkin:
Untuk informasi lebih lanjut tentang cara memecahkan masalah ini, lihat Memecahkan masalah penggunaan CPU tinggi pada instans. |
Memory Usage | 80% | Saat penggunaan memori instans terus meningkat, waktu respons bertambah, permintaan per detik (QPS) menjadi tidak stabil, dan kunci mungkin sering dievakuasi. Ini memengaruhi bisnis Anda. | Penyebab yang mungkin:
Untuk informasi lebih lanjut tentang cara memecahkan masalah ini, lihat Memecahkan masalah penggunaan memori tinggi pada instans. |
Connections Usage node data | 80% | Saat jumlah koneksi ke node data mencapai batas atas, permintaan koneksi mungkin habis waktu atau gagal. Catatan
| Penyebab yang mungkin:
Untuk informasi lebih lanjut tentang cara memecahkan masalah ini, lihat Sesi instans. |
Inbound Traffic | 80% | Saat trafik masuk atau keluar melebihi bandwidth maksimum yang disediakan oleh tipe instans, kinerja klien terpengaruh. | Penyebab yang mungkin:
Untuk informasi lebih lanjut tentang cara memecahkan masalah ini, lihat Memecahkan masalah penggunaan trafik tinggi pada instans. |
Outbound Traffic | 80% |
Jika instans Anda berjalan dalam arsitektur kluster atau arsitektur pemisahan baca/tulis, sistem mengukur kinerja akses keseluruhan instans berdasarkan metrik kinerja sebelumnya dan menampilkannya dalam laporan diagnostik. Tabel berikut menjelaskan kriteria untuk menentukan permintaan yang tidak seimbang, penyebab potensial, dan metode pemecahan masalah.
Jika laporan diagnostik menunjukkan bahwa instans memiliki permintaan yang tidak seimbang untuk metrik kinerja tertentu, periksa node tujuan permintaan tersebut.
Kriteria | Penyebab yang mungkin | Metode pemecahan masalah |
Kondisi berikut terpenuhi:
|
|
10 node teratas yang menerima jumlah query lambat terbanyak
Bagian ini menampilkan 10 node data teratas dengan jumlah query lambat terbanyak beserta statistiknya. Statistik meliputi log lambat berikut:
Log lambat node data yang disimpan dalam log audit sistem. Log ini hanya tersimpan selama empat hari.
Log lambat yang disimpan pada node data. Hanya 1.024 entri log terbaru yang tersimpan. Gunakan redis-cli untuk terhubung ke instans dan jalankan perintah SLOWLOG GET untuk melihat log lambat ini.
Gambar 4. Analisis Query Lambat
Anda dapat menganalisis query lambat dan menentukan apakah ada perintah yang tidak tepat untuk menemukan solusi bagi berbagai masalah.
Penyebab | Solusi |
Perintah dengan kompleksitas waktu O(N) atau yang mengonsumsi banyak sumber daya CPU, seperti keys *. | Evaluasi dan nonaktifkan perintah berisiko tinggi yang mengonsumsi banyak sumber daya CPU, seperti FLUSHALL, KEYS, dan HGETALL. Untuk informasi lebih lanjut, lihat Menonaktifkan Perintah Berisiko Tinggi. |
Kunci besar yang sering dibaca dan ditulis ke node data. | Analisis dan evaluasi kunci besar tersebut. Untuk informasi lebih lanjut, lihat Gunakan Fitur Analisis Kunci Offline. Pisahkan kunci besar sesuai kebutuhan bisnis Anda. |