All Products
Search
Document Center

Container Service for Kubernetes:Menyiapkan peringatan untuk kluster terdaftar

Last Updated:Nov 11, 2025

Siapkan peringatan untuk kluster terdaftar ACK One guna mendeteksi aktivitas anomali dan anomali metrik di Container Service for Kubernetes (ACK) secara tepat waktu.

Prasyarat

Konfigurasikan komponen Cloud Monitor di kluster terdaftar

Langkah 1: Berikan izin RAM kepada komponen Cloud Monitor

Menggunakan onectl

  1. Instal onectl di mesin lokal Anda. Untuk informasi selengkapnya, lihat Gunakan onectl untuk mengelola kluster terdaftar.

  2. Berikan izin Resource Access Management (RAM) kepada komponen Cloud Monitor.

    onectl ram-user grant --addon alicloud-monitor-controller

    Keluaran yang diharapkan:

    Ram policy ack-one-registered-cluster-policy-alicloud-monitor-controller granted to ram user ack-one-user-ce313528c3 successfully.

Menggunakan konsol

Sebelum menginstal komponen di kluster terdaftar, Anda harus memperoleh pasangan AccessKey untuk mengakses layanan Alibaba Cloud. Untuk membuat pasangan AccessKey, Anda harus terlebih dahulu membuat pengguna RAM dan memberikan izin yang diperlukan kepada pengguna RAM tersebut agar dapat mengakses sumber daya cloud.

  1. Buat pengguna RAM.

  2. Buat kebijakan kustom. Kode berikut merupakan contohnya:

    {
                "Action": [
                    "log:*",
                    "arms:*",
                    "cms:*",
                    "cs:UpdateContactGroup"
                ],
                "Resource": [
                    "*"
                ],
                "Effect": "Allow"
    }
  3. Berikan izin kepada pengguna RAM.

  4. Buat pasangan AccessKey untuk pengguna RAM.

    Peringatan

    Kami menyarankan Anda mengonfigurasi kebijakan berbasis pasangan AccessKey untuk kontrol akses jaringan, dengan membatasi sumber pemanggilan AccessKey hanya pada lingkungan jaringan tepercaya guna meningkatkan keamanan AccessKey.

  5. Gunakan pasangan AccessKey untuk membuat Secret bernama alibaba-addon-secret di kluster terdaftar.

    Saat Anda menginstal komponen Cloud Monitor, sistem akan secara otomatis menggunakan pasangan AccessKey ini untuk mengakses sumber daya cloud yang diperlukan.

    kubectl -n kube-system create secret generic alibaba-addon-secret --from-literal='access-key-id=<your access key id>' --from-literal='access-key-secret=<your access key secret>'
    Catatan

    Ganti <your access key id> dan <your access key secret> dengan pasangan AccessKey yang telah Anda peroleh.

Langkah 2: Instal dan tingkatkan komponen Cloud Monitor

Menggunakan onectl

Instal komponen Cloud Monitor.

onectl addon install alicloud-monitor-controller

Keluaran yang diharapkan:

Addon alicloud-monitor-controller, version **** installed.

Menggunakan konsol

Konsol secara otomatis memeriksa apakah konfigurasi peringatan memenuhi persyaratan, lalu memandu Anda untuk mengaktifkan, menginstal, atau meningkatkan komponen tersebut.

  1. Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster yang diinginkan lalu klik namanya. Di panel sebelah kiri, pilih Operations > Alerts.

  3. Pada halaman Alerting, ikuti petunjuk di layar untuk menginstal atau meningkatkan komponen.

  4. Setelah instalasi atau peningkatan selesai, buka halaman Alerting untuk mengonfigurasi informasi peringatan.

    Tab

    Deskripsi

    Alert Rule Management

    • Status: Aktifkan atau nonaktifkan set aturan peringatan target.

    • Edit Notification Object: Tetapkan grup kontak untuk pemberitahuan peringatan.

    Sebelum mengonfigurasi ini, buat kontak dan grup, lalu tambahkan kontak ke dalam grup. Anda hanya dapat memilih grup kontak sebagai objek notifikasi. Untuk memberi tahu satu orang, buat grup yang hanya berisi kontak tersebut dan pilih grup itu.

    Alert History

    Anda dapat melihat 100 catatan peringatan terbaru dari 24 jam terakhir.

    • Klik tautan di kolom Alert Rule untuk membuka sistem pemantauan terkait dan melihat konfigurasi aturan secara detail.

    • Klik Troubleshoot untuk menemukan sumber daya tempat anomali terjadi (event anomali atau metrik).

    • Klik Intelligent Analysis untuk menggunakan asisten AI guna menganalisis masalah dan memberikan panduan pemecahan masalah.

    Contact Management

    Kelola kontak. Anda dapat membuat, mengedit, atau menghapus kontak.

    Metode Kontak:

    • Telepon/Pesan Teks: Setelah Anda menetapkan nomor ponsel untuk kontak, kontak tersebut dapat menerima pemberitahuan peringatan melalui telepon dan pesan teks.

      Hanya nomor ponsel yang telah diverifikasi yang dapat digunakan untuk menerima notifikasi panggilan telepon. Untuk informasi selengkapnya tentang cara memverifikasi nomor ponsel, lihat Verifikasi nomor ponsel.
    • Email: Setelah Anda menetapkan alamat email untuk kontak, kontak tersebut dapat menerima pemberitahuan peringatan melalui email.

    • Robot: DingTalk Robot, WeCom Robot, dan Lark Robot.

      Untuk robot DingTalk, Anda harus menambahkan kata kunci keamanan: Alerting, Dispatch.
    Sebelum mengonfigurasi notifikasi email dan robot, verifikasi terlebih dahulu di Konsol CloudMonitor. Pilih Alert Service > Alert Contacts untuk memastikan Anda dapat menerima informasi peringatan.

    Contact Group Management

    Kelola grup kontak. Anda dapat membuat, mengedit, atau menghapus grup kontak. Anda hanya dapat memilih grup kontak saat Edit Notification Object.

    Jika tidak ada grup kontak yang tersedia, konsol akan membuat grup kontak default berdasarkan informasi Akun Alibaba Cloud Anda.

Menyiapkan peringatan

Langkah 1: Aktifkan aturan peringatan default

  1. Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster yang diinginkan lalu klik namanya. Di panel sebelah kiri, pilih Operations > Alerts.

  3. Pada tab Alert Rules, aktifkan set aturan peringatan.

    报警规则管理

Langkah 2: Konfigurasi manual aturan peringatan

  1. Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster yang diinginkan lalu klik namanya. Di panel sebelah kiri, pilih Operations > Alerts.

  3. Pada tab Alert Rule Management, klik Edit Notification Objects untuk mengasosiasikan objek notifikasi. Lalu, aktifkan sakelar Enabled untuk mengaktifkan set aturan peringatan.

    Fitur

    Deskripsi

    Alert Rules

    • Fitur peringatan ACK secara otomatis menghasilkan templat peringatan untuk skenario kontainer. Templat tersebut mencakup peringatan untuk event anomali dan anomali metrik.

    • Aturan peringatan diklasifikasikan ke dalam set aturan peringatan. Anda dapat mengasosiasikan beberapa grup kontak dengan satu set aturan peringatan serta mengaktifkan atau menonaktifkan set tersebut.

    • Satu set aturan peringatan berisi beberapa aturan peringatan. Setiap aturan peringatan berkorespondensi dengan satu item pemeriksaan untuk satu jenis anomali. Anda dapat mengonfigurasi beberapa set aturan peringatan di kluster terkait menggunakan sumber daya YAML. Jika Anda memodifikasi file YAML, aturan peringatan akan disinkronkan.

    • Untuk informasi selengkapnya tentang konfigurasi YAML aturan peringatan, lihat Konfigurasi aturan peringatan menggunakan CRD.

    • Untuk informasi selengkapnya tentang templat aturan peringatan default, lihat Manajemen Peringatan Container Service.

    Alert History

    Anda dapat melihat 100 catatan peringatan terakhir. Klik tautan di kolom Alert Rule Type untuk membuka sistem pemantauan terkait guna melihat konfigurasi aturan secara detail. Klik tautan di kolom Details untuk membuka halaman sumber daya tempat peringatan dipicu. Sumber daya tersebut dapat berupa event anomali atau sumber daya dengan anomali metrik.报警历史查看

    Contact Management

    Buat, edit, atau hapus kontak.

    Alert Contact Groups

    Buat, edit, atau hapus grup kontak. Jika tidak ada grup kontak yang tersedia, konsol akan membuat grup kontak default berdasarkan informasi Akun Alibaba Cloud Anda.

Cara mengonfigurasi aturan peringatan menggunakan CRD

Saat fitur peringatan diaktifkan, sumber daya AckAlertRule yang berisi templat aturan peringatan default dibuat di namespace kube-system. Anda dapat menggunakan sumber daya ini untuk mengonfigurasi set aturan peringatan untuk ACK di kluster.

Konsol

  1. Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster yang diinginkan lalu klik namanya. Di panel sebelah kiri, pilih Operations > Alerts.

  3. Pada tab Alert Rule Management, klik Edit Alert Configuration di pojok kanan atas. Lalu, klik YAML di kolom Actions aturan target untuk melihat konfigurasi sumber daya AckAlertRule untuk kluster saat ini.

  4. Modifikasi file YAML sesuai kebutuhan. Untuk informasi selengkapnya, lihat Templat aturan peringatan default.

    Kode berikut menunjukkan contoh konfigurasi YAML untuk aturan peringatan:

    Konfigurasi YAML Aturan Peringatan

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        # Kode berikut menyediakan contoh konfigurasi untuk aturan peringatan event kluster.
        - name: pod-exceptions                             # Nama grup aturan peringatan. Ini berkorespondensi dengan bidang Group_Name di templat peringatan.
          rules:
            - name: pod-oom                                # Nama aturan peringatan.
              type: event                                  # Jenis aturan peringatan (Rule_Type). Nilai yang valid: event (jenis event) dan metric-cms (jenis metrik CloudMonitor).
              expression: sls.app.ack.pod.oom              # Ekspresi aturan peringatan. Jika jenis aturan adalah event, nilai parameter ini adalah nilai Rule_Expression_Id dari templat aturan peringatan default di topik ini.
              enable: enable                               # Status aturan peringatan. Nilai yang valid: enable dan disable.
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        # Kode berikut menyediakan contoh konfigurasi untuk aturan peringatan sumber daya kluster dasar.
        - name: res-exceptions                              # Nama grup aturan peringatan. Ini berkorespondensi dengan bidang Group_Name di templat peringatan.
          rules:
            - name: node_cpu_util_high                      # Nama aturan peringatan.
              type: metric-cms                              # Jenis aturan peringatan (Rule_Type). Nilai yang valid: event (jenis event), metric-cms (metrik CloudMonitor), dan metric-prometheus (metrik Prometheus).
              expression: cms.host.cpu.utilization          # Ekspresi aturan peringatan. Jika jenis aturan adalah metric-cms, nilai parameter ini adalah nilai Rule_Expression_Id dari templat aturan peringatan default di topik ini.
              contactGroups:                                # Konfigurasi grup kontak untuk aturan peringatan. Ini dihasilkan oleh Konsol ACK. Kontak sama untuk akun yang sama dan dapat digunakan ulang di beberapa kluster.
              enable: enable                                # Status aturan peringatan. Nilai yang valid: enable dan disable.
              thresholds:                                   # Ambang batas aturan peringatan.          
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '85'                                # Ambang batas utilisasi CPU. Default: 85%.    
                - key: CMS_ESCALATIONS_CRITICAL_Times
                  value: '3'                                # Peringatan dipicu jika ambang batas dilampaui tiga kali berturut-turut.
                - key: CMS_RULE_SILENCE_SEC                 # Periode tenang setelah peringatan pertama dilaporkan. 
                  value: '900'    

    Anda dapat menggunakan rules.thresholds untuk menyesuaikan ambang batas peringatan. Untuk informasi selengkapnya tentang parameter, lihat tabel berikut. Sebagai contoh, konfigurasi di atas memicu notifikasi peringatan jika utilisasi CPU node kluster melebihi 85% selama tiga pemeriksaan berturut-turut dan peringatan sebelumnya dipicu lebih dari 900 detik yang lalu.

    Parameter

    Wajib

    Deskripsi

    Nilai Default

    CMS_ESCALATIONS_CRITICAL_Threshold

    Wajib

    Ambang batas peringatan. Jika parameter ini tidak dikonfigurasi, aturan gagal disinkronkan dan dinonaktifkan.

    • unit: Satuan. Anda dapat mengatur nilai ini menjadi percent, count, atau qps.

    • value: Ambang batas.

    Bergantung pada konfigurasi templat peringatan default.

    CMS_ESCALATIONS_CRITICAL_Times

    Opsi

    Jumlah percobaan ulang untuk aturan CloudMonitor. Jika tidak dikonfigurasi, nilai default digunakan.

    3

    CMS_RULE_SILENCE_SEC

    Opsi

    Periode tenang dalam detik setelah peringatan pertama dilaporkan ketika CloudMonitor terus-menerus memicu aturan karena anomali. Hal ini mencegah kelelahan peringatan. Jika tidak dikonfigurasi, nilai default digunakan.

    900

kubectl

  1. Jalankan perintah berikut untuk mengedit file YAML aturan peringatan.

    kubectl edit ackalertrules default -n kube-system
  2. Modifikasi file YAML sesuai kebutuhan, lalu simpan dan keluar. Untuk informasi selengkapnya, lihat Templat aturan peringatan default.

    Konfigurasi YAML Aturan Peringatan

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        # Kode berikut menyediakan contoh konfigurasi untuk aturan peringatan event kluster.
        - name: pod-exceptions                             # Nama grup aturan peringatan. Ini berkorespondensi dengan bidang Group_Name di templat peringatan.
          rules:
            - name: pod-oom                                # Nama aturan peringatan.
              type: event                                  # Jenis aturan peringatan (Rule_Type). Nilai yang valid: event (jenis event) dan metric-cms (jenis metrik CloudMonitor).
              expression: sls.app.ack.pod.oom              # Ekspresi aturan peringatan. Jika jenis aturan adalah event, nilai parameter ini adalah nilai Rule_Expression_Id dari templat aturan peringatan default di topik ini.
              enable: enable                               # Status aturan peringatan. Nilai yang valid: enable dan disable.
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        # Kode berikut menyediakan contoh konfigurasi untuk aturan peringatan sumber daya kluster dasar.
        - name: res-exceptions                              # Nama grup aturan peringatan. Ini berkorespondensi dengan bidang Group_Name di templat peringatan.
          rules:
            - name: node_cpu_util_high                      # Nama aturan peringatan.
              type: metric-cms                              # Jenis aturan peringatan (Rule_Type). Nilai yang valid: event (jenis event) dan metric-cms (jenis metrik CloudMonitor).
              expression: cms.host.cpu.utilization          # Ekspresi aturan peringatan. Jika jenis aturan adalah metric-cms, nilai parameter ini adalah nilai Rule_Expression_Id dari templat aturan peringatan default di topik ini.
              contactGroups:                                # Konfigurasi grup kontak untuk aturan peringatan. Ini dihasilkan oleh Konsol ACK. Kontak sama untuk akun yang sama dan dapat digunakan ulang di beberapa kluster.
              enable: enable                                # Status aturan peringatan. Nilai yang valid: enable dan disable.
              thresholds:                                   # Ambang batas aturan peringatan.          
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '85'                                # Ambang batas utilisasi CPU. Default: 85%.    
                - key: CMS_ESCALATIONS_CRITICAL_Times
                  value: '3'                                # Peringatan dipicu jika ambang batas dilampaui tiga kali berturut-turut.
                - key: CMS_RULE_SILENCE_SEC                 # Periode tenang setelah peringatan pertama dilaporkan. 
                  value: '900'    

    Anda dapat menggunakan rules.thresholds untuk menyesuaikan ambang batas peringatan. Sebagai contoh, konfigurasi di atas memicu notifikasi peringatan jika utilisasi CPU node kluster melebihi 85% selama tiga pemeriksaan berturut-turut dan peringatan sebelumnya dipicu lebih dari 900 detik yang lalu.

    Parameter

    Wajib

    Deskripsi

    Nilai Default

    CMS_ESCALATIONS_CRITICAL_Threshold

    Wajib

    Ambang batas peringatan. Jika parameter ini tidak dikonfigurasi, aturan gagal disinkronkan dan dinonaktifkan.

    • unit: Satuan. Anda dapat mengatur nilai ini menjadi percent, count, atau qps.

    • value: Ambang batas.

    Bergantung pada konfigurasi templat peringatan default.

    CMS_ESCALATIONS_CRITICAL_Times

    Opsi

    Jumlah percobaan ulang untuk aturan CloudMonitor. Jika tidak dikonfigurasi, nilai default digunakan.

    3

    CMS_RULE_SILENCE_SEC

    Opsi

    Periode tenang dalam detik setelah peringatan pertama dilaporkan ketika CloudMonitor terus-menerus memicu aturan karena anomali. Hal ini mencegah kelelahan peringatan. Jika tidak dikonfigurasi, nilai default digunakan.

    900

Templat aturan peringatan default

Aturan peringatan default dibuat di kluster terdaftar dalam situasi berikut:

  • Fitur aturan peringatan default diaktifkan.

  • Anda mengakses halaman aturan peringatan untuk pertama kalinya saat fitur aturan peringatan default dinonaktifkan.

Tabel berikut menjelaskan aturan peringatan default yang dibuat.

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Pemeriksaan kluster menemukan anomali

Mekanisme pemeriksaan otomatis menangkap potensi anomali. Anda perlu menganalisis masalah spesifik dan kebijakan pemeliharaan harian.

Simple Log Service

event

cis-sched-failed

sls.app.ack.cis.schedule_task_failed