Anda dapat mengaktifkan fitur manajemen peringatan Layanan Kontainer untuk mengelola peringatan kontainer secara terpusat. Fitur ini memantau kejadian anomali dalam layanan kontainer, metrik utama sumber daya dasar kluster, serta metrik komponen inti dan aplikasi kluster. Anda juga dapat menggunakan CustomResourceDefinitions (CRD) untuk memodifikasi aturan peringatan default di kluster Anda, sehingga membantu mendeteksi anomali kluster secara tepat waktu.
Penagihan
Fitur peringatan menggunakan data dari Simple Log Service (SLS), Managed Service for Prometheus, dan CloudMonitor. Biaya tambahan dikenakan untuk notifikasi seperti pesan teks dan panggilan telepon yang dikirim saat peringatan dipicu. Sebelum mengaktifkan fitur peringatan, periksa sumber data untuk setiap item peringatan di templat aturan peringatan default dan aktifkan layanan yang diperlukan.
Sumber Peringatan | Persyaratan Konfigurasi | Rincian Penagihan |
Simple Log Service (SLS) | Aktifkan pemantauan kejadian. Pemantauan kejadian diaktifkan secara default saat Anda mengaktifkan fitur manajemen peringatan. | |
Managed Service for Prometheus | Konfigurasi pemantauan Prometheus untuk kluster Anda. | Gratis |
CloudMonitor | Untuk kluster: Aktifkan fitur Cloud Monitor untuk kluster Container Service for Kubernetes. |
Aktifkan fitur manajemen peringatan
Setelah mengaktifkan fitur manajemen peringatan, Anda dapat menetapkan peringatan berbasis metrik untuk sumber daya tertentu di kluster Anda. Anda akan secara otomatis menerima notifikasi peringatan saat terjadi anomali, sehingga membantu mengelola dan memelihara kluster secara lebih efisien serta memastikan stabilitas layanan. Untuk informasi lebih lanjut tentang peringatan sumber daya, lihat Templat aturan peringatan default.
Kluster ACK yang dikelola
Anda dapat mengaktifkan konfigurasi peringatan untuk kluster yang sudah ada atau saat membuat kluster baru.
Aktifkan fitur untuk kluster yang sudah ada
Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Pada halaman Clusters, temukan kluster yang diinginkan dan klik namanya. Di panel kiri, pilih .
Pada halaman Alerting, ikuti petunjuk di layar untuk menginstal atau memutakhirkan komponen.
Setelah instalasi atau pemutakhiran selesai, buka halaman Alerting untuk mengonfigurasi informasi peringatan.
Tab
Deskripsi
Alert Rule Management
Status: Aktifkan atau nonaktifkan set aturan peringatan target.
Edit Objek Notifikasi: Tetapkan kelompok kontak untuk notifikasi peringatan.
Sebelum mengonfigurasi ini, buat kontak dan kelompok, lalu tambahkan kontak ke dalam kelompok tersebut. Anda hanya dapat memilih kelompok kontak sebagai objek notifikasi. Untuk memberi tahu satu orang, buat kelompok yang hanya berisi kontak tersebut dan pilih kelompok tersebut.
Alert History
Anda dapat melihat 100 catatan peringatan terbaru dari 24 jam terakhir.
Klik tautan di kolom Alert Rule untuk membuka sistem pemantauan yang sesuai dan melihat konfigurasi aturan secara detail.
Klik Troubleshoot untuk dengan cepat menemukan sumber daya tempat anomali terjadi (kejadian atau metrik anomali).
Klik Intelligent Analysis untuk menggunakan asisten AI guna membantu menganalisis masalah dan memberikan panduan pemecahan masalah.
Contact Management
Kelola kontak. Anda dapat membuat, mengedit, atau menghapus kontak.
Metode Kontak:
Telepon/Pesan Teks: Setelah Anda menetapkan nomor ponsel untuk kontak, kontak tersebut dapat menerima notifikasi peringatan melalui telepon dan pesan teks.
Hanya nomor ponsel yang telah diverifikasi yang dapat digunakan untuk menerima notifikasi panggilan telepon. Untuk informasi lebih lanjut tentang cara memverifikasi nomor ponsel, lihat Verifikasi nomor ponsel.
Email: Setelah Anda menetapkan alamat email untuk kontak, kontak tersebut dapat menerima notifikasi peringatan melalui email.
Robot: Robot DingTalk, Robot WeCom, dan Robot Lark.
Untuk robot DingTalk, Anda harus menambahkan kata kunci keamanan: Alerting, Dispatch.
Sebelum mengonfigurasi notifikasi email dan robot, verifikasi di Konsol CloudMonitor. Pilih untuk memastikan Anda dapat menerima informasi peringatan.
Contact Group Management
Kelola kelompok kontak. Anda dapat membuat, mengedit, atau menghapus kelompok kontak. Anda hanya dapat memilih kelompok kontak saat Anda Edit Objek Notifikasi.
Jika tidak ada kelompok kontak, konsol akan membuat kelompok kontak default berdasarkan informasi Akun Alibaba Cloud Anda.
Aktifkan fitur saat membuat kluster
Pada halaman Component Configurations wizard pembuatan kluster, pilih Configure Alerts Using The Default Alert Template untuk Alerting dan pilih Alert Notification Contact Group. Untuk informasi lebih lanjut, lihat Buat kluster ACK yang dikelola.

Setelah Anda mengaktifkan konfigurasi peringatan selama pembuatan kluster, sistem akan menerapkan aturan peringatan default dan mengirim notifikasi peringatan ke kelompok kontak peringatan default. Anda juga dapat memodifikasi kontak peringatan atau kelompok kontak peringatan.
Kluster khusus ACK
Untuk kluster khusus ACK, Anda harus terlebih dahulu memberikan izin kepada peran RAM worker, lalu mengaktifkan aturan peringatan default.
Berikan izin kepada peran RAM worker
Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Pada halaman Clusters, temukan kluster target dan klik namanya. Di panel navigasi kiri, klik Cluster Information.
Pada halaman Cluster Information, di bagian Cluster Resources, salin nama Worker RAM Role dan klik tautannya untuk membuka konsol Resource Access Management (RAM) dan memberikan izin kepada peran tersebut.
Buat kebijakan kustom. Untuk informasi lebih lanjut, lihat Buat kebijakan kustom di tab JSON.
{ "Action": [ "log:*", "arms:*", "cms:*", "cs:UpdateContactGroup" ], "Resource": [ "*" ], "Effect": "Allow" }Pada halaman Roles, temukan peran RAM worker dan berikan kebijakan kustom tersebut kepadanya. Untuk informasi lebih lanjut, lihat Metode 1: Berikan izin kepada peran RAM di halaman peran RAM.
Catatan: Dokumen ini memberikan izin yang luas demi kesederhanaan. Di lingkungan produksi, kami menyarankan Anda mengikuti prinsip hak istimewa minimal dan hanya memberikan izin yang diperlukan.
Pada halaman Roles, temukan peran RAM worker dan berikan kebijakan kustom tersebut kepadanya. Untuk informasi lebih lanjut, lihat Metode 1: Berikan izin kepada peran RAM di halaman peran RAM.
Periksa log untuk memverifikasi bahwa izin akses untuk fitur peringatan telah dikonfigurasi.
Di panel navigasi kiri halaman manajemen kluster, pilih .
Tetapkan Namespace ke kube-system dan klik Name aplikasi alicloud-monitor-controller dalam daftar aplikasi tanpa status.
Klik tab Logs. Log pod menunjukkan bahwa otorisasi berhasil.
Aktifkan aturan peringatan default
Di panel navigasi kiri halaman manajemen kluster, pilih O&M > Alerting.
Pada halaman Alerting, konfigurasikan informasi peringatan berikut.
Tab
Deskripsi
Alert Rule Management
Status: Aktifkan atau nonaktifkan set aturan peringatan target.
Edit Objek Notifikasi: Tetapkan kelompok kontak untuk notifikasi peringatan.
Sebelum mengonfigurasi ini, buat kontak dan kelompok, lalu tambahkan kontak ke dalam kelompok tersebut. Anda hanya dapat memilih kelompok kontak sebagai objek notifikasi. Untuk memberi tahu satu orang, buat kelompok yang hanya berisi kontak tersebut dan pilih kelompok tersebut.
Alert History
Anda dapat melihat 100 catatan peringatan terbaru dari 24 jam terakhir.
Klik tautan di kolom Alert Rule untuk membuka sistem pemantauan yang sesuai dan melihat konfigurasi aturan secara detail.
Klik Troubleshoot untuk dengan cepat menemukan sumber daya tempat anomali terjadi (kejadian atau metrik anomali).
Klik Intelligent Analysis untuk menggunakan asisten AI guna membantu menganalisis masalah dan memberikan panduan pemecahan masalah.
Contact Management
Kelola kontak. Anda dapat membuat, mengedit, atau menghapus kontak.
Metode Kontak:
Telepon/Pesan Teks: Setelah Anda menetapkan nomor ponsel untuk kontak, kontak tersebut dapat menerima notifikasi peringatan melalui telepon dan pesan teks.
Hanya nomor ponsel yang telah diverifikasi yang dapat digunakan untuk menerima notifikasi panggilan telepon. Untuk informasi lebih lanjut tentang cara memverifikasi nomor ponsel, lihat Verifikasi nomor ponsel.
Email: Setelah Anda menetapkan alamat email untuk kontak, kontak tersebut dapat menerima notifikasi peringatan melalui email.
Robot: Robot DingTalk, Robot WeCom, dan Robot Lark.
Untuk robot DingTalk, Anda harus menambahkan kata kunci keamanan: Alerting, Dispatch.
Sebelum mengonfigurasi notifikasi email dan robot, verifikasi di Konsol CloudMonitor. Pilih untuk memastikan Anda dapat menerima informasi peringatan.
Contact Group Management
Kelola kelompok kontak. Anda dapat membuat, mengedit, atau menghapus kelompok kontak. Anda hanya dapat memilih kelompok kontak saat Anda Edit Objek Notifikasi.
Jika tidak ada kelompok kontak, konsol akan membuat kelompok kontak default berdasarkan informasi Akun Alibaba Cloud Anda.
Konfigurasi aturan peringatan
Setelah Anda mengaktifkan fitur konfigurasi peringatan, sumber daya CustomResourceDefinition (CRD) AckAlertRule dibuat di namespace kube-system. Sumber daya ini berisi templat aturan peringatan default. Anda dapat memodifikasi sumber daya CRD ini untuk menyesuaikan aturan peringatan default dan mengonfigurasi peringatan layanan kontainer sesuai kebutuhan Anda.
Konsol
Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Pada halaman Clusters, temukan kluster yang diinginkan dan klik namanya. Di panel kiri, pilih .
Pada tab Alert Rule Management, klik Edit Alert Configuration di pojok kanan atas. Lalu, klik YAML di kolom Actions aturan target untuk melihat konfigurasi sumber daya AckAlertRule untuk kluster saat ini.
Modifikasi file YAML sesuai kebutuhan. Untuk informasi lebih lanjut, lihat Templat aturan peringatan default.
Kode berikut menunjukkan contoh konfigurasi YAML untuk aturan peringatan:
Anda dapat menggunakan
rules.thresholdsuntuk menyesuaikan ambang batas peringatan. Untuk informasi lebih lanjut tentang parameter, lihat tabel berikut. Misalnya, konfigurasi di atas memicu notifikasi peringatan jika penggunaan CPU node kluster melebihi 85% selama tiga pemeriksaan berturut-turut dan peringatan sebelumnya dipicu lebih dari 900 detik yang lalu.Parameter
Wajib
Deskripsi
Nilai Default
CMS_ESCALATIONS_CRITICAL_ThresholdWajib
Ambang batas peringatan. Jika parameter ini tidak dikonfigurasi, aturan gagal disinkronkan dan dinonaktifkan.
unit: Satuan. Anda dapat mengatur ini ke percent, count, atau qps.value: Ambang batas.
Tergantung pada konfigurasi templat peringatan default.
CMS_ESCALATIONS_CRITICAL_TimesOpsional
Jumlah percobaan ulang untuk aturan CloudMonitor. Jika tidak dikonfigurasi, nilai default digunakan.
3
CMS_RULE_SILENCE_SECOpsional
Periode tenang dalam detik setelah peringatan pertama dilaporkan saat CloudMonitor terus-menerus memicu aturan karena anomali. Ini mencegah kelelahan peringatan. Jika tidak dikonfigurasi, nilai default digunakan.
900
kubectl
Jalankan perintah berikut untuk mengedit file YAML aturan peringatan.
kubectl edit ackalertrules default -n kube-systemModifikasi file YAML sesuai kebutuhan, lalu simpan dan keluar. Untuk informasi lebih lanjut, lihat Templat aturan peringatan default.
Anda dapat menggunakan
rules.thresholdsuntuk menyesuaikan ambang batas peringatan. Misalnya, konfigurasi di atas memicu notifikasi peringatan jika penggunaan CPU node kluster melebihi 85% selama tiga pemeriksaan berturut-turut dan peringatan sebelumnya dipicu lebih dari 900 detik yang lalu.Parameter
Wajib
Deskripsi
Nilai Default
CMS_ESCALATIONS_CRITICAL_ThresholdWajib
Ambang batas peringatan. Jika parameter ini tidak dikonfigurasi, aturan gagal disinkronkan dan dinonaktifkan.
unit: Satuan. Anda dapat mengatur ini ke percent, count, atau qps.value: Ambang batas.
Tergantung pada konfigurasi templat peringatan default.
CMS_ESCALATIONS_CRITICAL_TimesOpsional
Jumlah percobaan ulang untuk aturan CloudMonitor. Jika tidak dikonfigurasi, nilai default digunakan.
3
CMS_RULE_SILENCE_SECOpsional
Periode tenang dalam detik setelah peringatan pertama dilaporkan saat CloudMonitor terus-menerus memicu aturan karena anomali. Ini mencegah kelelahan peringatan. Jika tidak dikonfigurasi, nilai default digunakan.
900
Templat aturan peringatan default
Aturan peringatan disinkronkan dari Simple Log Service (SLS), Managed Service for Prometheus, dan CloudMonitor. Di halaman Alerting, Anda dapat melihat konfigurasi setiap aturan peringatan dengan mengklik Advanced Settings di kolom Alert Management.
Panduan pemecahan masalah peringatan
Eviction pod dipicu oleh penggunaan disk node yang mencapai ambang batas
Pesan peringatan
(digabung dari kejadian serupa): Gagal mengumpulkan sampah jumlah gambar yang diperlukan. Mencoba membebaskan XXXX byte, tetapi hanya menemukan 0 byte yang memenuhi syarat untuk dibebaskanGejala
Status pod adalah Evicted. Node mengalami tekanan disk (Node memiliki kondisi: [DiskPressure].)
Penyebab
Saat penggunaan disk node mencapai ambang batas eviction (default 85%), kubelet melakukan eviction berbasis tekanan dan pengumpulan sampah untuk mereklaim file gambar yang tidak digunakan. Proses ini menyebabkan pod dievict. Anda dapat masuk ke node target dan menjalankan perintah df -h untuk melihat penggunaan disk.
Solusi
Masuk ke node target (lingkungan runtime containerd) dan jalankan perintah berikut untuk menghapus gambar kontainer yang tidak digunakan dan membebaskan ruang disk.
crictl rmi --pruneBersihkan log atau ubah ukuran disk node.
Buat cadangan snapshot disk data atau disk sistem untuk node target. Setelah pencadangan selesai, hapus file atau folder yang tidak lagi diperlukan. Untuk informasi lebih lanjut, lihat Selesaikan masalah ruang disk penuh pada instance Linux.
Perluas kapasitas disk sistem atau disk data node target secara online untuk meningkatkan kapasitas penyimpanannya. Untuk informasi lebih lanjut, lihat Perluas disk sistem atau disk data node.
Sesuaikan ambang batas terkait.
Sesuaikan ambang batas pengumpulan sampah gambar kubelet sesuai kebutuhan untuk mengurangi eviction pod yang disebabkan oleh penggunaan disk node yang tinggi. Untuk informasi lebih lanjut, lihat Sesuaikan konfigurasi kubelet untuk kelompok node.
Saat penggunaan disk node mencapai atau melebihi 85%, Anda menerima peringatan. Anda dapat memodifikasi ambang batas peringatan di aturan peringatan
node_disk_util_highdalam konfigurasi YAML berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Konfigurasi aturan peringatan.
Saran dan tindakan pencegahan
Untuk node yang sering mengalami masalah ini, kami menyarankan Anda mengevaluasi kebutuhan penyimpanan aktual aplikasi Anda dan merencanakan permintaan sumber daya serta kapasitas disk node dengan tepat.
Kami menyarankan Anda memantau penggunaan penyimpanan secara rutin untuk segera mengidentifikasi dan mengatasi potensi ancaman. Untuk informasi lebih lanjut, lihat Dasbor Penyimpanan Node.
Pod OOMKilling
Pesan peringatan
pod di-OOM killed. node:xxx pod:xxx namespace:xxx uuid:xxx
Gejala
Status pod tidak normal, dan detail kejadian berisi PodOOMKilling.
Solusi
Kejadian Out of Memory (OOM) dapat dipicu di tingkat node atau tingkat cgroup kontainer.
Penyebab:
OOM tingkat cgroup kontainer: Penggunaan memori aktual pod melebihi batas memorinya. Pod kemudian dipaksa dihentikan oleh cgroup Kubernetes.
OOM tingkat node: Biasanya terjadi saat terlalu banyak pod tanpa batas sumber daya (requests/limits) berjalan di node, atau saat beberapa proses (yang mungkin tidak dikelola oleh Kubernetes) mengonsumsi banyak memori.
Metode: Masuk ke node target dan jalankan perintah
dmesg -T | grep -i "memory". Jika output berisiout_of_memory, kejadian OOM telah terjadi. Jika output log juga berisiMemory cgroup, kejadian tersebut adalah OOM tingkat cgroup kontainer. Jika tidak, kejadian tersebut adalah OOM tingkat node.Saran:
Untuk OOM tingkat cgroup kontainer:
Tingkatkan batas memori pod sesuai kebutuhan. Penggunaan aktual sebaiknya tidak melebihi 80% dari batas yang ditentukan. Untuk informasi lebih lanjut, lihat Kelola pod dan Tingkatkan atau turunkan spesifikasi sumber daya node.
Aktifkan profiling sumber daya untuk mendapatkan konfigurasi yang direkomendasikan untuk requests dan limits kontainer.
Untuk OOM tingkat node:
Perluas sumber daya memori node atau distribusikan beban kerja ke lebih banyak node. Untuk informasi lebih lanjut, lihat Tingkatkan atau turunkan spesifikasi sumber daya node dan Jadwalkan aplikasi ke node tertentu.
Identifikasi pod dengan penggunaan memori tinggi di node dan tetapkan batas memori yang wajar untuknya.
Untuk informasi lebih lanjut tentang penyebab kejadian OOM dan solusinya, lihat Penyebab dan solusi untuk OOM Killer.
Status pod adalah CrashLoopBackOff
Saat proses dalam pod keluar secara tidak terduga, ACK mencoba me-restart pod tersebut. Jika pod gagal mencapai status yang diinginkan setelah beberapa kali restart, statusnya berubah menjadi CrashLoopBackOff. Ikuti langkah-langkah berikut untuk memecahkan masalah:
Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Pada halaman Clusters, temukan kluster yang diinginkan dan klik namanya. Di panel kiri, pilih .
Temukan pod yang tidak normal dalam daftar dan klik Details di kolom Actions.
Periksa Events pod dan analisis deskripsi kejadian yang tidak normal.
Lihat Logs pod, yang mungkin mencatat penyebab proses yang tidak normal.
CatatanJika pod telah di-restart, pilih Show the log of the last container exit untuk melihat log pod sebelumnya.
Konsol menampilkan maksimal 500 entri log terbaru. Untuk melihat lebih banyak log historis, kami menyarankan Anda menyiapkan solusi persistensi log untuk pengumpulan dan penyimpanan terpadu.