Fitur diagnosis real-time untuk instans ApsaraMQ for Kafka secara berkala melakukan pemeriksaan kesehatan, memungkinkan Anda melihat masalah yang terdiagnosis, memberikan saran perbaikan, serta mengirimkan alert untuk anomali kepada kontak yang ditentukan.
Rencana implementasi
Detail notifikasi alert
Notifikasi alert hanya dipicu untuk kondisi yang mendesak dan tidak sehat.
Jika Anda tidak menambahkan kontak peringatan, notifikasi alert dikirim secara default ke kontak pemilik Akun Alibaba Cloud yang memiliki instans tersebut.
Jika Anda menambahkan kontak peringatan, notifikasi alert akan dikirimkan kepada mereka. Notifikasi alert hanya dikirim selama rentang waktu yang ditentukan untuk setiap kontak. Untuk informasi lebih lanjut, lihat Kelola kontak peringatan.
Risiko instans disinkronkan ke Pusat Insiden Cloud Monitor. Di Pusat Insiden, berlangganan event risiko untuk menggunakan kebijakan yang lebih canggih, seperti penghilangan derau, metode notifikasi, saluran, dan templat. Untuk informasi lebih lanjut, lihat Kelola langganan event (Direkomendasikan). Untuk risiko instans Kafka, atur Alibaba Cloud Service ke Kafka, Jenis Event ke Abnormal, dan Nama Event ke Instance Risk Alert.
Item pemeriksaan
Jika terdeteksi risiko pada instans, ikuti saran di Konsol untuk memperbaikinya.
Jenis risiko | Tingkat metrik | Hasil diagnosis | Saran perbaikan | Pemeriksaan ulang risiko |
CPU Consumption Percentage |
| Konsumsi CPU: XX% | Penggunaan CPU tinggi sering disebabkan oleh masalah seperti fragmented sending. Mengatasi masalah ini dapat mengurangi konsumsi CPU. | Alert dipicu di Prometheus jika penggunaan CPU melebihi 70%. |
Disk Usage |
| Penggunaan disk: XX% | Untuk memastikan keamanan data dan stabilitas kluster:
| Alert dipicu di Prometheus jika penggunaan disk instans melebihi 80%. |
Disk Skew Issue |
| None | Kemiringan disk (disk skew) dalam kluster dapat mencegah Anda memanfaatkan performa dan kapasitas disk secara optimal. Anda dapat menambahkan partisi topik berdasarkan nilai yang direkomendasikan atau memicu fitur penyeimbangan partisi kluster. Untuk informasi lebih lanjut tentang optimasi, lihat Apa yang harus saya lakukan jika partisi topik tidak seimbang?. | Alert dipicu jika selisih antara penggunaan disk maksimum dan minimum lebih dari 50%. Konsol hanya menampilkan penggunaan disk maksimum. |
Time Consumed for Message Production Format Conversion |
| Waktu TP98 yang dikonsumsi untuk konversi format produksi pesan: XX ms | Topik yang terdampak menjalani konversi format, yang memengaruhi performa pengiriman secara keseluruhan. Untuk mengatasinya, Anda dapat menyelaraskan versi client pengiriman dan server. | Anda dapat memeriksa apakah versi client produksi untuk topik yang terdampak tidak konsisten dengan versi server. |
Time Consumed for Message Consumption Format Conversion |
| Waktu TP98 yang dikonsumsi untuk konversi format konsumsi pesan: XX ms | Konversi format terjadi, yang memengaruhi performa konsumsi secara keseluruhan. Untuk mengatasinya, Anda dapat menyelaraskan versi client konsumsi dan server. | Anda dapat memeriksa apakah versi client konsumsi tidak konsisten dengan versi server. |
Topic Format Conversion |
| XX topik mengalami konversi format | Topik yang terdampak menjalani konversi format, yang dapat memengaruhi performa pengiriman secara keseluruhan. Anda dapat menyelaraskan versi client pengiriman dan server untuk mengurangi kehilangan performa akibat konversi format. | Anda dapat memeriksa apakah versi client produksi untuk topik yang terdampak tidak konsisten dengan versi server. |
Group Subscribes to Too Many Topics |
| XX grup berlangganan terlalu banyak topik | Grup yang berlangganan terlalu banyak topik rentan mengalami event rebalancing, yang memengaruhi performa konsumsi secara keseluruhan. Jika bisnis Anda memungkinkan, pertahankan hubungan berlangganan satu-ke-satu antara grup dan topik. Untuk informasi lebih lanjut, lihat Praktik terbaik untuk subscriber. | Alert dipicu jika sebuah grup berlangganan lebih dari satu topik. |
Use of Sarama Go Client |
| XX grup menggunakan client Sarama Go untuk konsumsi | Grup yang terdampak menggunakan client Sarama Go. Client Sarama Go memiliki banyak masalah yang diketahui dan penggunaannya tidak disarankan. Untuk informasi lebih lanjut, lihat Mengapa saya tidak disarankan menggunakan client Sarama Go untuk mengirim dan menerima pesan?. | Alert dipicu jika client konsumen menggunakan Sarama Go untuk commit offset. |
Rebalancing Timeout |
| XX grup mengalami timeout rebalancing | Grup yang terdampak memiliki timeout rebalancing yang panjang. Hindari mengatur parameter | Anda dapat membuka halaman detail grup yang terdampak untuk melihat detail rebalancing. |
Consumer Client Actively Leaves the Queue |
| XX konsumen grup secara aktif meninggalkan antrian dan memicu event rebalancing | Pada grup yang terdampak, client konsumen secara aktif meninggalkan antrian dan memicu rebalancing. Anda dapat memeriksa hal-hal berikut:
Untuk informasi lebih lanjut, lihat Mengapa client konsumen sering melakukan rebalancing?. | Anda dapat membuka halaman detail grup yang terdampak untuk melihat detail rebalancing. |
Groups with High Latency in Receiving Consumed Data |
| XX grup memiliki latensi tinggi dalam menerima data yang dikonsumsi | Grup yang terdampak memiliki latensi konsumsi tinggi. Hal ini dapat disebabkan oleh alasan berikut:
Untuk informasi lebih lanjut tentang optimasi, lihat Praktik terbaik untuk subscriber. | Anda dapat memeriksa latensi konsumsi client konsumen. |
Group Quota |
| Kuota grup tersisa: XX | Kuota grup hampir habis. | Anda dapat melihat jumlah grup saat ini di halaman detail instans. |
Topic Quota |
| Kuota topik tersisa: XX | Kuota topik hampir habis. | Anda dapat melihat jumlah topik saat ini di halaman detail instans. |
Partition Quota |
| Kuota partisi tersisa: XX | Kuota partisi hampir habis. | Anda dapat melihat jumlah partisi saat ini di halaman detail instans. |
Server Minor Version Upgrade |
| Versi minor server saat ini tertinggal XX versi dari versi minor terbaru | Versi minor terbaru memperbaiki beberapa bug open source yang diketahui dan meningkatkan performa serta stabilitas kluster secara keseluruhan. Untuk stabilitas layanan, segera tingkatkan server ke versi minor terbaru. | Anda dapat melihat detail versi minor di halaman detail instans. |
TCP Connections for a Single Node |
| Jumlah koneksi TCP untuk satu node: XX | Jumlah koneksi TCP yang berlebihan memengaruhi stabilitas kluster secara keseluruhan.
| Anda dapat melihat jumlah maksimum koneksi TCP untuk node instans di Dasbor atau di Prometheus. Alert dipicu jika jumlah tersebut melebihi batas spesifikasi. Untuk informasi lebih lanjut tentang batas spesifikasi, lihat Batas. |
Public TCP Connections for a Single Node |
| Jumlah koneksi TCP publik untuk satu node: XX | Jumlah koneksi TCP publik yang berlebihan memengaruhi stabilitas kluster secara keseluruhan.
| Anda dapat melihat jumlah maksimum koneksi TCP publik untuk node instans di Dasbor atau di Prometheus. Alert dipicu jika jumlah tersebut melebihi batas spesifikasi. Untuk informasi lebih lanjut tentang batas spesifikasi, lihat Batas. |
Synchronous Sending Issue |
| XX topik mengalami masalah pengiriman sinkron | Topik yang terdampak menggunakan mekanisme flushing disk sinkron dengan | Anda dapat memeriksa apakah client pengiriman untuk topik yang terdampak dikonfigurasi dengan |
Fragmented Sending Issue |
| XX topik mengalami masalah fragmented sending | Topik yang terdampak mengalami fragmented sending. Hal ini dapat menyebabkan timeout antrian pengiriman dan memengaruhi throughput serta stabilitas pengiriman kluster. Untuk meningkatkan performa pengiriman:
Untuk informasi lebih lanjut, lihat Praktik terbaik untuk publisher. | Alert dipicu jika |
Whitelist Security Group Sharing |
| Daftar putih endpoint default berbagi ID security group: XX | Saat men-deploy instans, Anda menentukan parameter ID security group daftar putih. Beberapa instans mungkin berbagi konfigurasi daftar putih yang sama. Artinya, memodifikasi konfigurasi daftar putih satu instans juga memengaruhi instans lain yang menggunakan security group yang sama. Hal ini meningkatkan dampak kesalahan operasional pada konfigurasi daftar putih. Anda harus menyadari risiko terkait daftar putih. | Anda dapat memeriksa apakah security group yang digunakan oleh instans dibagi dengan resource lain. |
Single-Partition Topic Risk |
| Saat ini terdapat XX topik single-partition untuk cloud storage | Partisi tunggal cloud storage mungkin menjadi tidak tersedia selama gangguan atau peningkatan. Anda dapat menambahkan lebih banyak partisi. Jika harus menggunakan partisi tunggal, gunakan local storage. | Anda dapat memeriksa jumlah partisi untuk topik yang terdampak. |
Topic Partition Skew Issue |
| Saat ini terdapat XX topik dengan ketidakseimbangan partisi | Ketidakseimbangan partisi topik memiliki risiko berikut:
Untuk informasi lebih lanjut tentang optimasi, lihat Apa yang harus saya lakukan jika partisi topik tidak seimbang?. | Anda dapat memeriksa apakah jumlah partisi di halaman detail topik yang terdampak memenuhi jumlah partisi yang direkomendasikan. |
Node Sending Traffic |
| Trafik pengiriman node telah melebihi batas: XX% | Trafik pengiriman node telah mencapai batas atasnya. Untuk stabilitas instans, segera tingkatkan instans. | Anda dapat memeriksa trafik produksi maksimum node (byte/detik) di Prometheus. Selain itu, periksa apakah panjang antrian pembatasan laju produksi instans (item/detik) telah menyebabkan pembatasan laju produksi. |
Node Consumption Traffic |
| Trafik konsumsi node telah melebihi batas: XX% | Trafik konsumsi node telah mencapai batas atasnya. Untuk stabilitas instans, segera tingkatkan instans. | Anda dapat memeriksa trafik konsumsi maksimum node (byte/detik) di Prometheus. Selain itu, periksa apakah panjang antrian pembatasan laju konsumsi instans (item/detik) telah menyebabkan pembatasan laju konsumsi. |
Sending Traffic |
| Trafik pengiriman telah melebihi batas: XX% | Trafik produksi kluster telah mencapai batas atasnya. Sebagian trafik produksi mungkin dikenai pembatasan laju, yang menyebabkan timeout pengiriman produksi. Untuk menghindari dampak pada bisnis dan stabilitas kluster, segera tingkatkan instans. | Anda dapat memeriksa trafik produksi pesan instans (byte/detik) di Prometheus. Selain itu, periksa apakah panjang antrian pembatasan laju produksi instans (item/detik) telah menyebabkan pembatasan laju produksi. |
Consumption Traffic |
| Trafik konsumsi telah melebihi batas: XX% | Trafik konsumsi kluster telah mencapai batas atasnya. Sebagian trafik konsumsi mungkin dikenai pembatasan laju, yang menyebabkan sebagian data pesan ditumpuk alih-alih dikonsumsi tepat waktu. Untuk menghindari dampak pada bisnis dan stabilitas kluster, segera tingkatkan instans. | Anda dapat memeriksa trafik konsumsi pesan instans (byte/detik) di Prometheus. Selain itu, periksa apakah panjang antrian pembatasan laju konsumsi instans (item/detik) telah menyebabkan pembatasan laju konsumsi. |
Partition Assignment Policy Issue |
| Saat ini, XX grup memiliki partisi yang sama yang ditugaskan ke beberapa thread konsumen | Partisi yang sama ditugaskan ke beberapa thread konsumen untuk konsumsi. Periksa apakah terdapat masalah pada kebijakan penugasan konsumen. Untuk informasi lebih lanjut, lihat Mengapa partisi yang sama dikonsumsi oleh beberapa thread konsumen?. | Anda dapat memeriksa apakah client konsumen memiliki beberapa konsumen yang mengonsumsi partisi yang sama. |
Consumer Offset Commit Frequency |
| Client konsumen melakukan commit offset konsumen sebanyak XX kali per detik | Client konsumen melakukan commit offset konsumen terlalu sering, yang memengaruhi performa dan stabilitas kluster. Anda dapat beralih ke autocommit untuk offset konsumen atau mengurangi frekuensi commit offset konsumen. Berikut adalah 10 grup teratas dengan frekuensi commit offset tertinggi. Untuk informasi lebih lanjut tentang optimasi, lihat Praktik terbaik untuk subscriber. | None. |
Groups with Rebalancing Within One Day |
| XX grup memicu event rebalancing dalam satu hari | Grup yang terdampak mengalami rebalancing dalam satu hari. Untuk waktu spesifiknya, lihat halaman detail grup. Selain itu, pastikan apakah hal ini disebabkan oleh konfigurasi client konsumen yang tidak tepat. Untuk informasi lebih lanjut, lihat Mengapa client konsumen sering melakukan rebalancing?. | Anda dapat memeriksa detail rebalancing grup yang terdampak. |
Disk Cold Read |
| Tingkat cold read: XX% | Terjadi cold read disk. Konsumen perlu membaca sejumlah besar data dari disk, yang memengaruhi performa dan stabilitas kluster. Hal ini dapat disebabkan oleh latensi konsumsi tinggi yang menyebabkan penumpukan pesan. Anda dapat meningkatkan laju konsumsi atau mereset offset konsumen. | Alert dipicu ketika operasi input/output per detik (IOPS) disk atau penggunaan bandwidth melebihi 70%. |
Disk Write Protection |
| Proteksi tulis disk dipicu. | Penggunaan disk saat ini terlalu tinggi, dan proteksi tulis disk telah dipicu. Segera lakukan optimasi. | Anda dapat memeriksa di Prometheus apakah penggunaan disk instans melebihi 90%, yang menyebabkan proteksi tulis disk. |
Consumer Offset Rollback |
| XX grup mengalami rollback offset konsumen | Grup yang terdampak mengalami rollback offset konsumen. Reset offset mungkin telah dipicu. | Anda dapat memeriksa apakah client konsumen melakukan commit offset historis, yang menyebabkan offset konsumen mengalami rollback. |
Use of GZIP Compression |
| XX topik menggunakan kompresi GZIP | Topik yang terdampak menggunakan kompresi GZIP, yang meningkatkan muatan kluster. Segera lakukan optimasi. | Anda dapat memeriksa apakah kompresi GZIP dikonfigurasi untuk client produksi. |
Possible Early Message Cleanup |
| Pesan mungkin dihapus sebelum Waktu hidup (TTL) berakhir | Kapasitas disk tunggal kecil dan penggunaan disk tinggi. Pesan mungkin dihapus lebih awal. Pantau masalah ini dan segera tangani. | Anda dapat memeriksa kapasitas disk dan penggunaan disk maksimum saat ini. |
Server Major Version Has Expired |
| Versi utama server terlalu rendah dan telah kedaluwarsa. | Versi utama server terlalu rendah dan memiliki bug open source yang diketahui. Untuk stabilitas layanan, segera tingkatkan versi utama server sesuai petunjuk dalam dokumentasi. | Versi utama server adalah 0.10.x. |
Consumer Offset Contains Leader_Epoch |
| XX grup memiliki catatan leader_epoch saat melakukan commit offset | Client konsumen saat ini membawa catatan leader_epoch saat melakukan commit offset. Hal ini dapat menyebabkan anomali konsumsi atau bahkan kegagalan konsumsi. Segera tingkatkan client ke versi 2.6 atau lebih baru. Untuk informasi lebih lanjut, lihat issue open source. | Versi utama server adalah 2.2.0, dan client konsumen membawa field leader_epoch saat melakukan commit offset konsumen. Hal ini terjadi ketika versi client berada di antara 2.3 dan 2.6. |
Local Storage Risk |
| XX topik menggunakan local storage | Penyimpanan LocalTopic memiliki banyak masalah open source. Kami tidak bertanggung jawab atas kerugian bisnis yang disebabkan oleh cacat pada Kafka open source atau komponen pihak ketiganya, atau oleh konfigurasi dan penggunaan yang tidak tepat. | Topik yang terdampak menggunakan local storage. |
Scheduled ECS Restart |
| Terdapat XX node dalam kluster dengan event restart ECS terjadwal | Kluster memiliki event restart ECS terjadwal. Selama restart terjadwal, jitter lalu lintas layanan ringan mungkin terjadi. Pantau situasi ini secara ketat. | Sebuah node dalam kluster memiliki event O&M. Pelanggan diberi tahu tentang event ini melalui notifikasi risiko ini. |
Unused Connector Service Exists for a Long Time |
| Layanan Connector akan segera dikenai biaya. Jika Anda tidak perlu menggunakannya, segera lepas resource tersebut. | Layanan Connector akan segera menjadi layanan berbayar. Jika Anda tidak lagi membutuhkan layanan ini, segera lepas resource tersebut. Untuk melakukannya, buka Connector Ecosystem Integration/Task List. | Anda dapat membuka halaman yang ditentukan untuk melihat layanan connector. |
Unused Message Retrieval Service Exists for a Long Time |
| Layanan pengambilan pesan akan segera dikenai biaya. Jika Anda tidak perlu menggunakannya, segera lepas resource tersebut. | Layanan pengambilan pesan akan segera dikenai biaya. Jika Anda tidak perlu menggunakannya, segera lepas resource tersebut. Untuk melepas resource, buka halaman Message Retrieval. | Anda dapat membuka halaman yang ditentukan untuk melihat layanan pengambilan pesan. |
Unused Cloud Migration Service Exists for a Long Time |
| Layanan migrasi cloud akan segera dikenai biaya. Jika Anda tidak perlu menggunakannya, segera lepas resource tersebut. | Biaya akan segera diterapkan pada layanan migrasi cloud. Jika Anda tidak perlu menggunakannya, segera lepas resource tersebut. Untuk melepas resource, buka halaman Migration Task. | Anda dapat membuka halaman yang ditentukan untuk melihat layanan migrasi cloud. |
Message Batch Is Too Large |
| XX topik mengalami masalah ukuran batch pesan terlalu besar. Hal ini dapat menyebabkan permintaan pengiriman ditolak. Segera atasi masalah ini. | Jika batch pesan terlalu besar, pesan tidak dapat mencapai server. Anda dapat meningkatkan ukuran pesan maksimum di server atau mengurangi nilai parameter client max.request.size. Untuk informasi lebih lanjut, lihat Batas. | Anda dapat memeriksa apakah konfigurasi batch.size client produksi terlalu besar. |
Too Many Messages in a Batch |
| XX topik mengalami masalah terlalu banyak pesan dalam satu batch. Hal ini dapat menyebabkan permintaan pengiriman ditolak. Segera atasi masalah ini. | Jika satu batch berisi terlalu banyak pesan, pengiriman gagal. Anda dapat mengurangi nilai batch.size untuk mencegah overflow. Untuk informasi lebih lanjut, lihat Batas. | Anda dapat memeriksa apakah konfigurasi batch.size client produksi terlalu besar dan apakah ukuran pesan tunggal kecil. |
Server Network Architecture Version Is Too Low |
| Versi arsitektur jaringan server terlalu rendah, arsitektur jaringan memiliki keamanan yang buruk, dan perlu di-unpublish. | Anda dapat membuat instans baru (Serverless, subscription, atau pay-as-you-go) dan membuka Konsol ApsaraMQ for Kafka. Anda dapat menggunakan fitur migrasi untuk memindahkan instans lama ke instans baru. Setelah migrasi selesai, berhenti berlangganan instans lama. | Arsitektur jaringan instans sudah usang dan dijadwalkan untuk di-unpublish. |
Prosedur
Masuk ke Konsol ApsaraMQ for Kafka. Di halaman Overview, pilih wilayah di bagian Resource Distribution.
Di halaman Instances, klik nama instans target.
Di halaman Instance Details, klik tab Instance Risks.
Di tab Instance Risks, Anda dapat melihat risiko instans.
Parameter
Deskripsi
Contoh
Risk Type
Jenis risiko instance saat ini.
Group with Long Consumption Time
Metric Level
Tingkat metrik instans saat ini. Nilai yang valid:
Repair Required
Important
Normal
Important
Risk Status
Status kesehatan instans saat ini. Nilai yang valid:
To Be Fixed
Fixed
To Be Fixed
Time of Last Alert
Waktu risiko ini terakhir ditemukan.
31 Maret 2022
Actions
Aksi yang dapat dilakukan pada item risiko instans saat ini.
Details: Lihat detail dan saran perbaikan untuk risiko instans saat ini.
Di kolom Actions pada ancaman target, klik Details.
Modify Alert Status: Setelah risiko diperbaiki, Anda dapat mengatur Risk Status menjadi Fixed, atau mengabaikan risiko yang belum diperbaiki selama satu bulan ke depan.
Di kolom Actions pada ancaman target, klik Modify Alert Status.
CatatanSetelah risiko diperbaiki, tidak ada lagi notifikasi alert yang dikirim. Jika risiko yang sama terjadi lagi setelah diperbaiki, sistem akan mengirim notifikasi alert lain setelah 7 hari.
Delete: Setelah risiko diperbaiki dan statusnya diubah menjadi Fixed, Anda dapat menghapus risiko tersebut.
Di kolom Actions pada ancaman target, klik Delete.
Saran: Setelah Anda mengubah Risk Status menjadi Fixed, tunggu beberapa waktu sebelum menghapus risiko. Hal ini mencegah alert baru dihasilkan karena alasan seperti data kotor yang belum dibersihkan secara real time. Periode tunggu yang direkomendasikan adalah 7 hari.
None
Referensi
Untuk informasi tentang masalah umum lainnya dan solusi untuk instans, lihat FAQ.