All Products
Search
Document Center

Tair (Redis® OSS-Compatible):Memahami laporan diagnostik instans

Last Updated:Mar 29, 2026

Laporan diagnostik mengevaluasi kesehatan instans ApsaraDB for Redis dengan menganalisis metrik performa, distribusi permintaan, dan data kueri lambat. Gunakan laporan ini untuk mengidentifikasi anomali dan mengambil tindakan sebelum memengaruhi bisnis Anda.

Prasyarat

Sebelum memulai, pastikan Anda telah:

Bagian laporan

Laporan diagnostik terdiri dari empat bagian:

  • Informasi dasar instans: ID instans, tipe instans, versi engine, dan zona tempat instans ditempatkan.

  • Rangkuman: skor kesehatan instans dan rincian pengurangan nilai.

  • Tingkat performa: kondisi saat ini dari metrik performa utama.

  • TOP 10 node yang menerima jumlah kueri lambat terbanyak: 10 node data teratas berdasarkan jumlah kueri lambat, disertai detail mengenai kueri tersebut.

Informasi dasar instans

Bagian ini menampilkan ID instans, tipe instans, versi engine, dan wilayah tempat instans ditempatkan.

Basic instance information

Rangkuman

Bagian ini menunjukkan skor kesehatan keseluruhan instans. Skor maksimum adalah 100. Skor di bawah 100 mencantumkan item diagnostik yang menyebabkan pengurangan nilai dan menjelaskan alasannya.

Summary

Tingkat performa

Bagian ini menunjukkan kondisi saat ini dari metrik performa utama. Perhatikan secara seksama metrik apa pun yang berada dalam status Hazard—pembacaan yang terus-menerus melebihi ambang batas dapat menurunkan throughput dan meningkatkan latensi.

Untuk instans yang berjalan dalam arsitektur kluster atau arsitektur Pemisahan baca/tulis, periksa apakah metrik tersebar tidak merata di seluruh node data. Tinjau grafik kurva Top 5 Nodes untuk setiap metrik guna mengidentifikasi node mana yang mengalami beban tertinggi. Untuk detail arsitektur, lihat Cluster master-replica instances dan Read/write splitting instances.
Performance level

Tabel berikut menjelaskan setiap metrik performa, ambang batasnya, dampak bisnis jika ambang batas dilampaui, serta cara troubleshooting-nya.

MetricThresholdApplies toImpactPossible causes and next steps
CPU utilization60%All architecturesPenggunaan CPU tinggi mengurangi throughput dan meningkatkan waktu respons. Klien mungkin menjadi tidak responsif.Penyebab: perintah kompleksitas tinggi, hotkeys, atau pembuatan koneksi yang terlalu sering. Lihat Troubleshoot high CPU utilization on an instance.
Memory usage80%All architecturesPenggunaan memori tinggi yang berkelanjutan meningkatkan waktu respons, mengganggu stabilitas queries per second (QPS), dan memicu eviksi kunci secara sering.Penyebab: kehabisan memori atau jumlah besar kunci berukuran besar. Lihat Troubleshoot high memory usage on an instance.
Connections usage of data nodes80%Cluster instances in direct connection mode only. When clients connect through proxy nodes, monitor connections at the proxy node level instead. See Enable the direct connection mode and View performance monitoring data.Saat koneksi mencapai batas, permintaan koneksi baru akan timeout atau gagal.Penyebab: lonjakan traffic atau koneksi idle yang tidak dilepas. Lihat Instance sessions.
Inbound traffic80%All architecturesSaat traffic melebihi bandwidth yang disediakan oleh tipe instans, performa klien menurun.Penyebab: lonjakan workload atau kunci besar yang sering dibaca/ditulis. Lihat Troubleshoot high traffic usage on an instance.
Outbound traffic80%All architecturesDampaknya sama seperti inbound traffic.Penyebab dan langkah troubleshooting-nya sama seperti inbound traffic.

Distribusi permintaan tidak merata

Untuk instans yang berjalan dalam cluster architecture atau read/write splitting architecture, laporan juga memeriksa apakah permintaan tersebar merata di seluruh node data. Jika terdeteksi distribusi permintaan tidak merata untuk suatu metrik, identifikasi node mana yang menerima beban tidak seimbang tersebut.

Laporan menandai distribusi permintaan tidak merata ketika kedua kondisi berikut terpenuhi:

  1. Nilai puncak di seluruh node data melebihi ambang batas minimum berikut:

    • CPU utilization: 10%

    • Memory usage: 20%

    • Inbound and outbound traffic: 5 Mbit/s

    • Connection usage: 5%

  2. Skor keseimbangan melebihi 1,3. Skor keseimbangan dihitung sebagai: max{nilai performa rata-rata semua node data} / nilai median performa semua node data. Misalnya, sebuah instans memiliki empat node data dengan rata-rata CPU utilization sebesar 10%, 30%, 50%, dan 60%. Nilai mediannya adalah 40%, sehingga skor keseimbangannya adalah 60% / 40% = 1,5. Karena 1,5 > 1,3, laporan menganggap distribusi CPU utilization tidak merata.

Possible causeTroubleshooting method
Node data memiliki kunci yang ukurannya terlalu besar.Gunakan offline key analysis feature atau top key statistics feature untuk mengidentifikasi dan mendistribusikannya ulang.
Sebuah node data memiliki hotkeys.Gunakan top key statistics feature untuk mengidentifikasi hotkeys.
Hash tags dikonfigurasi secara tidak tepat. Kunci dengan hash tag yang sama selalu ditempatkan pada node data yang sama. Jika banyak kunci menggunakan hash tag yang sama, node tersebut menjadi kelebihan beban.Tinjau dan sesuaikan konfigurasi hash tag Anda agar kunci tersebar merata di seluruh node.

TOP 10 node yang menerima jumlah kueri lambat terbanyak

Bagian ini mencantumkan 10 node data teratas berdasarkan jumlah kueri lambat dan memberikan detail mengenai kueri tersebut. Laporan ini mengambil data log lambat dari dua sumber:

  • System audit logs: log lambat yang disimpan selama 4 hari.

  • Data node logs: 1.024 entri log terbaru, disimpan langsung di setiap node data. Hubungkan ke instans menggunakan redis-cli dan jalankan perintah SLOWLOG GET untuk mengambilnya.

Slow query analysis

Gunakan data kueri lambat ini untuk mengidentifikasi perintah yang menyebabkan masalah performa.

CauseSolution
Perintah dengan kompleksitas waktu O(N) atau biaya CPU tinggi, seperti KEYS *Evaluasi dan nonaktifkan perintah berisiko tinggi seperti FLUSHALL, KEYS, dan HGETALL. Lihat Disable high-risk commands.
Large keys yang sering dibaca/ditulis ke node data.Analisis large keys tersebut menggunakan offline key analysis feature, lalu pecah berdasarkan kebutuhan bisnis Anda.