Menganalisis laporan diagnostik - Tair (Redis® OSS-Compatible)

Laporan diagnostik membantu Anda mengevaluasi kondisi operasional suatu instans dan mengidentifikasi anomali berdasarkan statistik seperti tingkat kinerja, distribusi permintaan yang tidak merata, serta log lambat.

Prasyarat

Lakukan diagnosis pada sebuah instans.

Komponen laporan diagnostik

Informasi Dasar Instans: Menampilkan informasi dasar tentang instans seperti ID instans, tipe instans, versi mesin, dan zona tempat instans ditempatkan.
Ringkasan: Menampilkan skor status kesehatan instans dan menjelaskan alasan pengurangan poin.
Tingkat Kinerja: Menampilkan statistik dan status metrik kinerja utama terkait instans.
10 Node Teratas dengan Jumlah Query Lambat Terbanyak: Menampilkan 10 node data teratas dengan jumlah query lambat terbanyak beserta informasi detailnya.

Informasi dasar instans

Bagian ini menampilkan ID instans, tipe instans, versi mesin, dan wilayah tempat instans ditempatkan.

Ringkasan

Bagian ini menampilkan hasil diagnosis dan skor status kesehatan instans. Skor maksimal adalah 100. Jika instans Anda mencapai skor kurang dari 100, periksa item diagnosis dan detailnya.

Tingkat kinerja

Bagian ini menampilkan statistik dan status metrik kinerja utama terkait instans. Perhatikan metrik kinerja dalam keadaan Hazard.

Catatan

Jika instans Anda berjalan dalam arsitektur kluster atau arsitektur pemisahan baca/tulis, periksa apakah metrik kinerja tidak seimbang dan identifikasi node data yang tidak seimbang. Untuk informasi lebih lanjut tentang arsitektur kluster dan pemisahan baca/tulis, lihat Instans Master-Replika Kluster dan Instans Pemisahan Baca/Tulis. Fokuskan analisis pada node data dengan beban lebih tinggi berdasarkan grafik kurva setiap metrik kinerja di bagian Top 5 Nodes.

Metrik kinerja	Ambang batas	Dampak	Penyebab dan metode pemecahan masalah yang mungkin
CPU Utilization	60%	Saat instans memiliki penggunaan CPU yang tinggi, throughput instans dan waktu respons terhadap klien terpengaruh. Dalam beberapa kasus, klien mungkin tidak dapat merespons.	Penyebab yang mungkin: Instans menjalankan perintah yang memerlukan kompleksitas waktu tinggi. Hotkeys ada. Koneksi sering dibuat. Untuk informasi lebih lanjut tentang cara memecahkan masalah ini, lihat Memecahkan masalah penggunaan CPU tinggi pada instans.
Memory Usage	80%	Saat penggunaan memori instans terus meningkat, waktu respons bertambah, permintaan per detik (QPS) menjadi tidak stabil, dan kunci mungkin sering dievakuasi. Ini memengaruhi bisnis Anda.	Penyebab yang mungkin: Memori habis. Sejumlah besar kunci besar ada. Untuk informasi lebih lanjut tentang cara memecahkan masalah ini, lihat Memecahkan masalah penggunaan memori tinggi pada instans.
Connections Usage node data	80%	Saat jumlah koneksi ke node data mencapai batas atas, permintaan koneksi mungkin habis waktu atau gagal. Catatan Metrik ini dikumpulkan saat klien terhubung ke instans kluster dalam mode koneksi langsung. Untuk informasi lebih lanjut tentang mode koneksi langsung, lihat Mengaktifkan mode koneksi langsung. Metrik ini tidak dikumpulkan saat klien terhubung ke instans kluster atau instans pemisahan baca/tulis menggunakan node proxy. Dalam hal ini, Anda harus memantau jumlah koneksi pada node proxy. Untuk informasi lebih lanjut, lihat Melihat data pemantauan kinerja.	Penyebab yang mungkin: Trafik pengguna melonjak. Koneksi idle tidak dilepaskan untuk jangka waktu yang lama. Untuk informasi lebih lanjut tentang cara memecahkan masalah ini, lihat Sesi instans.
Inbound Traffic	80%	Saat trafik masuk atau keluar melebihi bandwidth maksimum yang disediakan oleh tipe instans, kinerja klien terpengaruh.	Penyebab yang mungkin: Beban kerja melonjak. Kunci besar sering dibaca atau ditulis. Untuk informasi lebih lanjut tentang cara memecahkan masalah ini, lihat Memecahkan masalah penggunaan trafik tinggi pada instans.
Outbound Traffic	80%

Jika instans Anda berjalan dalam arsitektur kluster atau arsitektur pemisahan baca/tulis, sistem mengukur kinerja akses keseluruhan instans berdasarkan metrik kinerja sebelumnya dan menampilkannya dalam laporan diagnostik. Tabel berikut menjelaskan kriteria untuk menentukan permintaan yang tidak seimbang, penyebab potensial, dan metode pemecahan masalah.

Catatan

Jika laporan diagnostik menunjukkan bahwa instans memiliki permintaan yang tidak seimbang untuk metrik kinerja tertentu, periksa node tujuan permintaan tersebut.

Kriteria

Penyebab yang mungkin

Metode pemecahan masalah

Kondisi berikut terpenuhi:

Nilai puncak metrik kinerja untuk semua node data instans lebih besar dari ambang batas berikut:
- Penggunaan CPU: 10%.
- Penggunaan memori: 20%.
- Trafik masuk dan keluar: 5 Mbit/s.
- Penggunaan koneksi: 5%.
Skor keseimbangan lebih besar dari 1,3, yang dihitung dengan menggunakan rumus berikut: max{nilai rata-rata kinerja semua node data}/nilai median kinerja semua node data.
Contohnya, sebuah instans berisi empat node data dan penggunaan CPU rata-rata dari keempat node adalah 10%, 30%, 50%, dan 60%. Kemudian, nilai median adalah 40% dan hasilnya adalah 1,5 dari 60%/40%. Nilai yang dihitung 1,5 lebih besar dari 1,3. Oleh karena itu, sistem menganggap penggunaan CPU instans tidak seimbang.

Node data memiliki kunci besar yang berlebihan.
Node data memiliki hotkeys.
Tag hash dikonfigurasi secara tidak tepat.
Catatan
Jika kunci dikonfigurasi dengan tag hash yang sama, kunci-kunci tersebut disimpan pada node data yang sama. Jika sejumlah besar kunci dikonfigurasi dengan tag hash yang sama, node tersebut kewalahan oleh kunci-kunci ini.

10 node teratas yang menerima jumlah query lambat terbanyak

Bagian ini menampilkan 10 node data teratas dengan jumlah query lambat terbanyak beserta statistiknya. Statistik meliputi log lambat berikut:

Log lambat node data yang disimpan dalam log audit sistem. Log ini hanya tersimpan selama empat hari.
Log lambat yang disimpan pada node data. Hanya 1.024 entri log terbaru yang tersimpan. Gunakan redis-cli untuk terhubung ke instans dan jalankan perintah SLOWLOG GET untuk melihat log lambat ini.

Anda dapat menganalisis query lambat dan menentukan apakah ada perintah yang tidak tepat untuk menemukan solusi bagi berbagai masalah.

Penyebab	Solusi
Perintah dengan kompleksitas waktu O(N) atau yang mengonsumsi banyak sumber daya CPU, seperti keys *.	Evaluasi dan nonaktifkan perintah berisiko tinggi yang mengonsumsi banyak sumber daya CPU, seperti FLUSHALL, KEYS, dan HGETALL. Untuk informasi lebih lanjut, lihat Menonaktifkan Perintah Berisiko Tinggi.
Kunci besar yang sering dibaca dan ditulis ke node data.	Analisis dan evaluasi kunci besar tersebut. Untuk informasi lebih lanjut, lihat Gunakan Fitur Analisis Kunci Offline. Pisahkan kunci besar sesuai kebutuhan bisnis Anda.