全部产品
Search
文档中心

Container Service for Kubernetes:Manajemen peringatan Layanan Kontainer

更新时间:Nov 11, 2025

Anda dapat mengaktifkan fitur manajemen peringatan Layanan Kontainer untuk mengelola peringatan kontainer secara terpusat. Fitur ini memantau kejadian anomali dalam layanan kontainer, metrik utama sumber daya dasar kluster, serta metrik komponen inti dan aplikasi kluster. Anda juga dapat menggunakan CustomResourceDefinitions (CRD) untuk memodifikasi aturan peringatan default di kluster Anda, sehingga membantu mendeteksi anomali kluster secara tepat waktu.

Penagihan

Fitur peringatan menggunakan data dari Simple Log Service (SLS), Managed Service for Prometheus, dan CloudMonitor. Biaya tambahan dikenakan untuk notifikasi seperti pesan teks dan panggilan telepon yang dikirim saat peringatan dipicu. Sebelum mengaktifkan fitur peringatan, periksa sumber data untuk setiap item peringatan di templat aturan peringatan default dan aktifkan layanan yang diperlukan.

Sumber Peringatan

Persyaratan Konfigurasi

Rincian Penagihan

Simple Log Service (SLS)

Aktifkan pemantauan kejadian. Pemantauan kejadian diaktifkan secara default saat Anda mengaktifkan fitur manajemen peringatan.

Penagihan berdasarkan fitur

Managed Service for Prometheus

Konfigurasi pemantauan Prometheus untuk kluster Anda.

Gratis

CloudMonitor

Untuk kluster: Aktifkan fitur Cloud Monitor untuk kluster Container Service for Kubernetes.

Bayar sesuai pemakaian

Aktifkan fitur manajemen peringatan

Setelah mengaktifkan fitur manajemen peringatan, Anda dapat menetapkan peringatan berbasis metrik untuk sumber daya tertentu di kluster Anda. Anda akan secara otomatis menerima notifikasi peringatan saat terjadi anomali, sehingga membantu mengelola dan memelihara kluster secara lebih efisien serta memastikan stabilitas layanan. Untuk informasi lebih lanjut tentang peringatan sumber daya, lihat Templat aturan peringatan default.

Kluster ACK yang dikelola

Anda dapat mengaktifkan konfigurasi peringatan untuk kluster yang sudah ada atau saat membuat kluster baru.

Aktifkan fitur untuk kluster yang sudah ada

  1. Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster yang diinginkan dan klik namanya. Di panel kiri, pilih Operations > Alerts.

  3. Pada halaman Alerting, ikuti petunjuk di layar untuk menginstal atau memutakhirkan komponen.

  4. Setelah instalasi atau pemutakhiran selesai, buka halaman Alerting untuk mengonfigurasi informasi peringatan.

    Tab

    Deskripsi

    Alert Rule Management

    • Status: Aktifkan atau nonaktifkan set aturan peringatan target.

    • Edit Objek Notifikasi: Tetapkan kelompok kontak untuk notifikasi peringatan.

    Sebelum mengonfigurasi ini, buat kontak dan kelompok, lalu tambahkan kontak ke dalam kelompok tersebut. Anda hanya dapat memilih kelompok kontak sebagai objek notifikasi. Untuk memberi tahu satu orang, buat kelompok yang hanya berisi kontak tersebut dan pilih kelompok tersebut.

    Alert History

    Anda dapat melihat 100 catatan peringatan terbaru dari 24 jam terakhir.

    • Klik tautan di kolom Alert Rule untuk membuka sistem pemantauan yang sesuai dan melihat konfigurasi aturan secara detail.

    • Klik Troubleshoot untuk dengan cepat menemukan sumber daya tempat anomali terjadi (kejadian atau metrik anomali).

    • Klik Intelligent Analysis untuk menggunakan asisten AI guna membantu menganalisis masalah dan memberikan panduan pemecahan masalah.

    Contact Management

    Kelola kontak. Anda dapat membuat, mengedit, atau menghapus kontak.

    Metode Kontak:

    • Telepon/Pesan Teks: Setelah Anda menetapkan nomor ponsel untuk kontak, kontak tersebut dapat menerima notifikasi peringatan melalui telepon dan pesan teks.

      Hanya nomor ponsel yang telah diverifikasi yang dapat digunakan untuk menerima notifikasi panggilan telepon. Untuk informasi lebih lanjut tentang cara memverifikasi nomor ponsel, lihat Verifikasi nomor ponsel.
    • Email: Setelah Anda menetapkan alamat email untuk kontak, kontak tersebut dapat menerima notifikasi peringatan melalui email.

    • Robot: Robot DingTalk, Robot WeCom, dan Robot Lark.

      Untuk robot DingTalk, Anda harus menambahkan kata kunci keamanan: Alerting, Dispatch.
    Sebelum mengonfigurasi notifikasi email dan robot, verifikasi di Konsol CloudMonitor. Pilih Alert Service > Alert Contacts untuk memastikan Anda dapat menerima informasi peringatan.

    Contact Group Management

    Kelola kelompok kontak. Anda dapat membuat, mengedit, atau menghapus kelompok kontak. Anda hanya dapat memilih kelompok kontak saat Anda Edit Objek Notifikasi.

    Jika tidak ada kelompok kontak, konsol akan membuat kelompok kontak default berdasarkan informasi Akun Alibaba Cloud Anda.

Aktifkan fitur saat membuat kluster

Pada halaman Component Configurations wizard pembuatan kluster, pilih Configure Alerts Using The Default Alert Template untuk Alerting dan pilih Alert Notification Contact Group. Untuk informasi lebih lanjut, lihat Buat kluster ACK yang dikelola.

image

Setelah Anda mengaktifkan konfigurasi peringatan selama pembuatan kluster, sistem akan menerapkan aturan peringatan default dan mengirim notifikasi peringatan ke kelompok kontak peringatan default. Anda juga dapat memodifikasi kontak peringatan atau kelompok kontak peringatan.

Kluster khusus ACK

Untuk kluster khusus ACK, Anda harus terlebih dahulu memberikan izin kepada peran RAM worker, lalu mengaktifkan aturan peringatan default.

Berikan izin kepada peran RAM worker

  1. Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster target dan klik namanya. Di panel navigasi kiri, klik Cluster Information.

  3. Pada halaman Cluster Information, di bagian Cluster Resources, salin nama Worker RAM Role dan klik tautannya untuk membuka konsol Resource Access Management (RAM) dan memberikan izin kepada peran tersebut.

    1. Buat kebijakan kustom. Untuk informasi lebih lanjut, lihat Buat kebijakan kustom di tab JSON.

      {
                  "Action": [
                      "log:*",
                      "arms:*",
                      "cms:*",
                      "cs:UpdateContactGroup"
                  ],
                  "Resource": [
                      "*"
                  ],
                  "Effect": "Allow"
      }
    2. Pada halaman Roles, temukan peran RAM worker dan berikan kebijakan kustom tersebut kepadanya. Untuk informasi lebih lanjut, lihat Metode 1: Berikan izin kepada peran RAM di halaman peran RAM.

  4. Catatan: Dokumen ini memberikan izin yang luas demi kesederhanaan. Di lingkungan produksi, kami menyarankan Anda mengikuti prinsip hak istimewa minimal dan hanya memberikan izin yang diperlukan.
    1. Pada halaman Roles, temukan peran RAM worker dan berikan kebijakan kustom tersebut kepadanya. Untuk informasi lebih lanjut, lihat Metode 1: Berikan izin kepada peran RAM di halaman peran RAM.

  5. Periksa log untuk memverifikasi bahwa izin akses untuk fitur peringatan telah dikonfigurasi.

    1. Di panel navigasi kiri halaman manajemen kluster, pilih Workloads > Stateless.

    2. Tetapkan Namespace ke kube-system dan klik Name aplikasi alicloud-monitor-controller dalam daftar aplikasi tanpa status.

    3. Klik tab Logs. Log pod menunjukkan bahwa otorisasi berhasil.

Aktifkan aturan peringatan default

  1. Di panel navigasi kiri halaman manajemen kluster, pilih O&M > Alerting.

  2. Pada halaman Alerting, konfigurasikan informasi peringatan berikut.

    Tab

    Deskripsi

    Alert Rule Management

    • Status: Aktifkan atau nonaktifkan set aturan peringatan target.

    • Edit Objek Notifikasi: Tetapkan kelompok kontak untuk notifikasi peringatan.

    Sebelum mengonfigurasi ini, buat kontak dan kelompok, lalu tambahkan kontak ke dalam kelompok tersebut. Anda hanya dapat memilih kelompok kontak sebagai objek notifikasi. Untuk memberi tahu satu orang, buat kelompok yang hanya berisi kontak tersebut dan pilih kelompok tersebut.

    Alert History

    Anda dapat melihat 100 catatan peringatan terbaru dari 24 jam terakhir.

    • Klik tautan di kolom Alert Rule untuk membuka sistem pemantauan yang sesuai dan melihat konfigurasi aturan secara detail.

    • Klik Troubleshoot untuk dengan cepat menemukan sumber daya tempat anomali terjadi (kejadian atau metrik anomali).

    • Klik Intelligent Analysis untuk menggunakan asisten AI guna membantu menganalisis masalah dan memberikan panduan pemecahan masalah.

    Contact Management

    Kelola kontak. Anda dapat membuat, mengedit, atau menghapus kontak.

    Metode Kontak:

    • Telepon/Pesan Teks: Setelah Anda menetapkan nomor ponsel untuk kontak, kontak tersebut dapat menerima notifikasi peringatan melalui telepon dan pesan teks.

      Hanya nomor ponsel yang telah diverifikasi yang dapat digunakan untuk menerima notifikasi panggilan telepon. Untuk informasi lebih lanjut tentang cara memverifikasi nomor ponsel, lihat Verifikasi nomor ponsel.
    • Email: Setelah Anda menetapkan alamat email untuk kontak, kontak tersebut dapat menerima notifikasi peringatan melalui email.

    • Robot: Robot DingTalk, Robot WeCom, dan Robot Lark.

      Untuk robot DingTalk, Anda harus menambahkan kata kunci keamanan: Alerting, Dispatch.
    Sebelum mengonfigurasi notifikasi email dan robot, verifikasi di Konsol CloudMonitor. Pilih Alert Service > Alert Contacts untuk memastikan Anda dapat menerima informasi peringatan.

    Contact Group Management

    Kelola kelompok kontak. Anda dapat membuat, mengedit, atau menghapus kelompok kontak. Anda hanya dapat memilih kelompok kontak saat Anda Edit Objek Notifikasi.

    Jika tidak ada kelompok kontak, konsol akan membuat kelompok kontak default berdasarkan informasi Akun Alibaba Cloud Anda.

Konfigurasi aturan peringatan

Setelah Anda mengaktifkan fitur konfigurasi peringatan, sumber daya CustomResourceDefinition (CRD) AckAlertRule dibuat di namespace kube-system. Sumber daya ini berisi templat aturan peringatan default. Anda dapat memodifikasi sumber daya CRD ini untuk menyesuaikan aturan peringatan default dan mengonfigurasi peringatan layanan kontainer sesuai kebutuhan Anda.

Konsol

  1. Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster yang diinginkan dan klik namanya. Di panel kiri, pilih Operations > Alerts.

  3. Pada tab Alert Rule Management, klik Edit Alert Configuration di pojok kanan atas. Lalu, klik YAML di kolom Actions aturan target untuk melihat konfigurasi sumber daya AckAlertRule untuk kluster saat ini.

  4. Modifikasi file YAML sesuai kebutuhan. Untuk informasi lebih lanjut, lihat Templat aturan peringatan default.

    Kode berikut menunjukkan contoh konfigurasi YAML untuk aturan peringatan:

    Konfigurasi YAML Aturan Peringatan

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        # Kode berikut memberikan contoh konfigurasi untuk aturan peringatan kejadian kluster.
        - name: pod-exceptions                             # Nama grup aturan peringatan. Ini sesuai dengan bidang Group_Name di templat peringatan.
          rules:
            - name: pod-oom                                # Nama aturan peringatan.
              type: event                                  # Jenis aturan peringatan (Rule_Type). Nilai yang valid: event (jenis kejadian) dan metric-cms (jenis metrik CloudMonitor).
              expression: sls.app.ack.pod.oom              # Ekspresi aturan peringatan. Jika jenis aturan adalah event, nilai parameter ini adalah nilai Rule_Expression_Id dari templat aturan peringatan default di topik ini.
              enable: enable                               # Status aturan peringatan. Nilai yang valid: enable dan disable.
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        # Kode berikut memberikan contoh konfigurasi untuk aturan peringatan sumber daya dasar kluster.
        - name: res-exceptions                              # Nama grup aturan peringatan. Ini sesuai dengan bidang Group_Name di templat peringatan.
          rules:
            - name: node_cpu_util_high                      # Nama aturan peringatan.
              type: metric-cms                              # Jenis aturan peringatan (Rule_Type). Nilai yang valid: event (jenis kejadian), metric-cms (metrik CloudMonitor), dan metric-prometheus (metrik Prometheus).
              expression: cms.host.cpu.utilization          # Ekspresi aturan peringatan. Jika jenis aturan adalah metric-cms, nilai parameter ini adalah nilai Rule_Expression_Id dari templat aturan peringatan default di topik ini.
              contactGroups:                                # Konfigurasi kelompok kontak untuk aturan peringatan. Ini dihasilkan oleh konsol ACK. Kontak sama untuk akun yang sama dan dapat digunakan kembali di beberapa kluster.
              enable: enable                                # Status aturan peringatan. Nilai yang valid: enable dan disable.
              thresholds:                                   # Ambang batas aturan peringatan.          
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '85'                                # Ambang batas penggunaan CPU. Default: 85%.    
                - key: CMS_ESCALATIONS_CRITICAL_Times
                  value: '3'                                # Peringatan dipicu jika ambang batas terlampaui tiga kali berturut-turut.
                - key: CMS_RULE_SILENCE_SEC                 # Periode tenang setelah peringatan pertama dilaporkan. 
                  value: '900'    

    Anda dapat menggunakan rules.thresholds untuk menyesuaikan ambang batas peringatan. Untuk informasi lebih lanjut tentang parameter, lihat tabel berikut. Misalnya, konfigurasi di atas memicu notifikasi peringatan jika penggunaan CPU node kluster melebihi 85% selama tiga pemeriksaan berturut-turut dan peringatan sebelumnya dipicu lebih dari 900 detik yang lalu.

    Parameter

    Wajib

    Deskripsi

    Nilai Default

    CMS_ESCALATIONS_CRITICAL_Threshold

    Wajib

    Ambang batas peringatan. Jika parameter ini tidak dikonfigurasi, aturan gagal disinkronkan dan dinonaktifkan.

    • unit: Satuan. Anda dapat mengatur ini ke percent, count, atau qps.

    • value: Ambang batas.

    Tergantung pada konfigurasi templat peringatan default.

    CMS_ESCALATIONS_CRITICAL_Times

    Opsional

    Jumlah percobaan ulang untuk aturan CloudMonitor. Jika tidak dikonfigurasi, nilai default digunakan.

    3

    CMS_RULE_SILENCE_SEC

    Opsional

    Periode tenang dalam detik setelah peringatan pertama dilaporkan saat CloudMonitor terus-menerus memicu aturan karena anomali. Ini mencegah kelelahan peringatan. Jika tidak dikonfigurasi, nilai default digunakan.

    900

kubectl

  1. Jalankan perintah berikut untuk mengedit file YAML aturan peringatan.

    kubectl edit ackalertrules default -n kube-system
  2. Modifikasi file YAML sesuai kebutuhan, lalu simpan dan keluar. Untuk informasi lebih lanjut, lihat Templat aturan peringatan default.

    Konfigurasi YAML Aturan Peringatan

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        # Kode berikut memberikan contoh konfigurasi untuk aturan peringatan kejadian kluster.
        - name: pod-exceptions                             # Nama grup aturan peringatan. Ini sesuai dengan bidang Group_Name di templat peringatan.
          rules:
            - name: pod-oom                                # Nama aturan peringatan.
              type: event                                  # Jenis aturan peringatan (Rule_Type). Nilai yang valid: event (jenis kejadian) dan metric-cms (jenis metrik CloudMonitor).
              expression: sls.app.ack.pod.oom              # Ekspresi aturan peringatan. Jika jenis aturan adalah event, nilai parameter ini adalah nilai Rule_Expression_Id dari templat aturan peringatan default di topik ini.
              enable: enable                               # Status aturan peringatan. Nilai yang valid: enable dan disable.
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        # Kode berikut memberikan contoh konfigurasi untuk aturan peringatan sumber daya dasar kluster.
        - name: res-exceptions                              # Nama grup aturan peringatan. Ini sesuai dengan bidang Group_Name di templat peringatan.
          rules:
            - name: node_cpu_util_high                      # Nama aturan peringatan.
              type: metric-cms                              # Jenis aturan peringatan (Rule_Type). Nilai yang valid: event (jenis kejadian) dan metric-cms (jenis metrik CloudMonitor).
              expression: cms.host.cpu.utilization          # Ekspresi aturan peringatan. Jika jenis aturan adalah metric-cms, nilai parameter ini adalah nilai Rule_Expression_Id dari templat aturan peringatan default di topik ini.
              contactGroups:                                # Konfigurasi kelompok kontak untuk aturan peringatan. Ini dihasilkan oleh konsol ACK. Kontak sama untuk akun yang sama dan dapat digunakan kembali di beberapa kluster.
              enable: enable                                # Status aturan peringatan. Nilai yang valid: enable dan disable.
              thresholds:                                   # Ambang batas aturan peringatan.          
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '85'                                # Ambang batas penggunaan CPU. Default: 85%.    
                - key: CMS_ESCALATIONS_CRITICAL_Times
                  value: '3'                                # Peringatan dipicu jika ambang batas terlampaui tiga kali berturut-turut.
                - key: CMS_RULE_SILENCE_SEC                 # Periode tenang setelah peringatan pertama dilaporkan. 
                  value: '900'    

    Anda dapat menggunakan rules.thresholds untuk menyesuaikan ambang batas peringatan. Misalnya, konfigurasi di atas memicu notifikasi peringatan jika penggunaan CPU node kluster melebihi 85% selama tiga pemeriksaan berturut-turut dan peringatan sebelumnya dipicu lebih dari 900 detik yang lalu.

    Parameter

    Wajib

    Deskripsi

    Nilai Default

    CMS_ESCALATIONS_CRITICAL_Threshold

    Wajib

    Ambang batas peringatan. Jika parameter ini tidak dikonfigurasi, aturan gagal disinkronkan dan dinonaktifkan.

    • unit: Satuan. Anda dapat mengatur ini ke percent, count, atau qps.

    • value: Ambang batas.

    Tergantung pada konfigurasi templat peringatan default.

    CMS_ESCALATIONS_CRITICAL_Times

    Opsional

    Jumlah percobaan ulang untuk aturan CloudMonitor. Jika tidak dikonfigurasi, nilai default digunakan.

    3

    CMS_RULE_SILENCE_SEC

    Opsional

    Periode tenang dalam detik setelah peringatan pertama dilaporkan saat CloudMonitor terus-menerus memicu aturan karena anomali. Ini mencegah kelelahan peringatan. Jika tidak dikonfigurasi, nilai default digunakan.

    900

Templat aturan peringatan default

Aturan peringatan disinkronkan dari Simple Log Service (SLS), Managed Service for Prometheus, dan CloudMonitor. Di halaman Alerting, Anda dapat melihat konfigurasi setiap aturan peringatan dengan mengklik Advanced Settings di kolom Alert Management.

Set kejadian error

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Kejadian error

Peringatan ini dipicu oleh semua kejadian anomali tingkat Error di kluster.

Simple Log Service

event

error-event

sls.app.ack.error

Set kejadian peringatan

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Kejadian peringatan

Peringatan ini dipicu oleh kejadian anomali tingkat Warn utama di kluster, tidak termasuk beberapa kejadian yang dapat diabaikan.

Simple Log Service

event

warn-event

sls.app.ack.warn

Set aturan peringatan untuk anomali komponen inti di kluster ACK yang dikelola

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Ketersediaan anomali server API kluster

Peringatan ini dipicu ketika server API menjadi tidak tersedia, yang dapat membatasi fitur manajemen kluster.

Managed Service for Prometheus

metric-prometheus

apiserver-unhealthy

prom.apiserver.notHealthy.down

Ketersediaan anomali etcd kluster

Ketidaktersediaan etcd memengaruhi status seluruh kluster.

Managed Service for Prometheus

metric-prometheus

etcd-unhealthy

prom.etcd.notHealthy.down

Ketersediaan anomali kube-scheduler kluster

Penjadwal bertanggung jawab atas penjadwalan pod. Jika penjadwal tidak tersedia, pod baru mungkin gagal dimulai.

Managed Service for Prometheus

metric-prometheus

scheduler-unhealthy

prom.scheduler.notHealthy.down

Ketersediaan anomali KCM kluster

Anomali dalam loop kontrol memengaruhi mekanisme perbaikan otomatis dan penyesuaian sumber daya kluster.

Managed Service for Prometheus

metric-prometheus

kcm-unhealthy

prom.kcm.notHealthy.down

Ketersediaan anomali cloud-controller-manager kluster

Anomali dalam manajemen siklus hidup komponen layanan cloud eksternal dapat memengaruhi penyesuaian dinamis layanan.

Managed Service for Prometheus

metric-prometheus

ccm-unhealthy

prom.ccm.notHealthy.down

Ketersediaan anomali CoreDNS kluster: Permintaan turun menjadi nol

CoreDNS adalah layanan DNS untuk kluster. Anomali memengaruhi penemuan layanan dan resolusi nama domain.

Managed Service for Prometheus

metric-prometheus

coredns-unhealthy-requestdown

prom.coredns.notHealthy.requestdown

Ketersediaan anomali CoreDNS kluster: Error panic

Peringatan ini dipicu ketika terjadi error panic di CoreDNS. Anda harus segera menganalisis log untuk diagnosis.

Managed Service for Prometheus

metric-prometheus

coredns-unhealthy-panic

prom.coredns.notHealthy.panic

Tingkat error tinggi untuk permintaan Ingress kluster

Tingkat error tinggi untuk permintaan HTTPS yang diproses oleh pengontrol Ingress dapat memengaruhi aksesibilitas layanan.

Managed Service for Prometheus

metric-prometheus

ingress-err-request

prom.ingress.request.errorRateHigh

Sertifikat pengontrol Ingress kluster akan segera kedaluwarsa

Sertifikat SSL yang kedaluwarsa menyebabkan permintaan HTTPS gagal. Anda harus memperbarui sertifikat sebelumnya.

Managed Service for Prometheus

metric-prometheus

ingress-ssl-expire

prom.ingress.ssl.expire

Jumlah pod pending > 1.000

Jika terlalu banyak pod di kluster tetap dalam status Pending, hal ini mungkin menunjukkan sumber daya tidak mencukupi atau kebijakan penjadwalan yang tidak wajar.

Managed Service for Prometheus

metric-prometheus

pod-pending-accumulate

prom.pod.pending.accumulate

RT tinggi untuk webhook admission mutating server API kluster

Respons lambat dari webhook admission mutating memengaruhi efisiensi pembuatan dan modifikasi sumber daya.

Managed Service for Prometheus

metric-prometheus

apiserver-admit-rt-high

prom.apiserver.mutating.webhook.rt.high

RT tinggi untuk webhook admission validating server API kluster

Respons lambat dari webhook admission validating dapat menyebabkan penundaan dalam perubahan konfigurasi.

Managed Service for Prometheus

metric-prometheus

apiserver-validate-rt-high

prom.apiserver.validation.webhook.rt.high

Terjadi OOM pada komponen lapisan kontrol

Terjadi error kehabisan memori (OOM) pada komponen inti kluster. Anda perlu menyelidiki anomali secara detail untuk mencegah waktu henti layanan.

Simple Log Service

event

ack-controlplane-oom

sls.app.ack.controlplane.pod.oom

Set aturan peringatan untuk kejadian O&M kelompok node

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Perbaikan otomatis node gagal

Jika proses perbaikan otomatis node gagal, Anda harus segera mengidentifikasi penyebab dan memperbaiki masalah untuk memastikan ketersediaan tinggi.

Simple Log Service

event

node-repair_failed

sls.app.ack.rc.node_repair_failed

Perbaikan CVE node gagal

Jika perbaikan CVE penting gagal, keamanan kluster mungkin terpengaruh. Anda harus segera mengevaluasi dan memperbaiki masalah.

Simple Log Service

event

nodepool-cve-fix-failed

sls.app.ack.rc.node_vulnerability_fix_failed

Perbaikan CVE kelompok node berhasil

Berhasil menerapkan perbaikan CVE mengurangi risiko keamanan dari kerentanan yang diketahui.

Simple Log Service

event

nodepool-cve-fix-succ

sls.app.ack.rc.node_vulnerability_fix_succeed

Perbaikan otomatis CVE kelompok node dilewati

Perbaikan otomatis dilewati, kemungkinan karena masalah kompatibilitas atau konfigurasi tertentu. Anda harus memeriksa apakah kebijakan keamanan wajar.

Simple Log Service

event

nodepool-cve-fix-skip

sls.app.ack.rc.node_vulnerability_fix_skipped

Konfigurasi parameter kubelet untuk kelompok node gagal

Konfigurasi kubelet gagal diperbarui, yang dapat memengaruhi kinerja node dan penjadwalan sumber daya.

Simple Log Service

event

nodepool-kubelet-cfg-failed

sls.app.ack.rc.node_kubelet_config_failed

Konfigurasi parameter kubelet untuk kelompok node berhasil

Setelah konfigurasi kubelet baru berhasil diterapkan, pastikan konfigurasi tersebut berlaku dan sesuai harapan.

Simple Log Service

event

nodepool-kubelet-config-succ

sls.app.ack.rc.node_kubelet_config_succeed

Peningkatan kubelet untuk kelompok node gagal

Hal ini dapat memengaruhi stabilitas dan fungsionalitas kluster. Anda harus mengonfirmasi proses dan konfigurasi peningkatan.

Simple Log Service

event

nodepool-k-c-upgrade-failed

sls.app.ack.rc.node_kubelet_config_upgrade_failed

Peningkatan kubelet untuk kelompok node berhasil

Setelah mengonfirmasi peningkatan berhasil, pastikan versi kubelet memenuhi persyaratan kluster dan aplikasi.

Simple Log Service

event

nodepool-k-c-upgrade-succ

sls.app.ack.rc.kubelet_upgrade_succeed

Peningkatan runtime untuk kelompok node berhasil

Runtime kontainer di kelompok node berhasil ditingkatkan.

Simple Log Service

event

nodepool-runtime-upgrade-succ

sls.app.ack.rc.runtime_upgrade_succeed

Peningkatan runtime untuk kelompok node gagal

Runtime kontainer di kelompok node gagal ditingkatkan.

Simple Log Service

event

nodepool-runtime-upgrade-fail

sls.app.ack.rc.runtime_upgrade_failed

Peningkatan citra OS untuk kelompok node berhasil

Citra sistem operasi di kelompok node berhasil ditingkatkan.

Simple Log Service

event

nodepool-os-upgrade-succ

sls.app.ack.rc.os_image_upgrade_succeed

Peningkatan citra OS untuk kelompok node gagal

Citra sistem operasi di kelompok node gagal ditingkatkan.

Simple Log Service

event

nodepool-os-upgrade-failed

sls.app.ack.rc.os_image_upgrade_failed

Perubahan konfigurasi untuk kelompok Node Lingjun berhasil

Konfigurasi kelompok Node Lingjun berhasil diubah.

Simple Log Service

event

nodepool-lingjun-config-succ

sls.app.ack.rc.lingjun_configuration_apply_succeed

Perubahan konfigurasi untuk kelompok Node Lingjun gagal

Konfigurasi kelompok Node Lingjun gagal diubah.

Simple Log Service

event

nodepool-lingjun-cfg-failed

sls.app.ack.rc.lingjun_configuration_apply_failed

Set aturan peringatan untuk anomali node

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Proses Docker anomali pada node kluster

Runtime Dockerd atau containerd pada node kluster tidak normal.

Simple Log Service

event

docker-hang

sls.app.ack.docker.hang

Kejadian eviction kluster

Kejadian eviction terjadi di kluster.

Simple Log Service

event

eviction-event

sls.app.ack.eviction

Kejadian error GPU XID di kluster

Kejadian anomali GPU XID terjadi di kluster.

Simple Log Service

event

gpu-xid-error

sls.app.ack.gpu.xid_error

Node kluster offline

Node di kluster offline.

Simple Log Service

event

node-down

sls.app.ack.node.down

Node kluster restart

Node di kluster restart.

Simple Log Service

event

node-restart

sls.app.ack.node.restart

Layanan waktu anomali pada node kluster

Layanan sistem sinkronisasi waktu pada node kluster tidak normal.

Simple Log Service

event

node-ntp-down

sls.app.ack.ntp.down

PLEG anomali pada node kluster

PLEG pada node kluster tidak normal.

Simple Log Service

event

node-pleg-error

sls.app.ack.node.pleg_error

Proses anomali pada node kluster

Jumlah proses pada node kluster tidak normal.

Simple Log Service

event

ps-hang

sls.app.ack.ps.hang

Terlalu banyak handle file pada node kluster

Jumlah handle file pada node terlalu besar.

Simple Log Service

event

node-fd-pressure

sls.app.ack.node.fd_pressure

Terlalu banyak proses pada node kluster

Jumlah proses pada node kluster terlalu besar.

Simple Log Service

event

node-pid-pressure

sls.app.ack.node.pid_pressure

Gagal menghapus node

Kejadian yang menunjukkan bahwa kluster gagal menghapus node.

Simple Log Service

event

node-del-err

sls.app.ack.ccm.del_node_failed

Gagal menambahkan node

Kejadian yang menunjukkan bahwa kluster gagal menambahkan node.

Simple Log Service

event

node-add-err

sls.app.ack.ccm.add_node_failed

Eksekusi perintah gagal di kelompok node terkelola

Kejadian anomali di kelompok node terkelola kluster.

Simple Log Service

event

nlc-run-cmd-err

sls.app.ack.nlc.run_command_fail

Tidak ada perintah spesifik yang disediakan untuk tugas di kelompok node terkelola

Kejadian anomali di kelompok node terkelola kluster.

Simple Log Service

event

nlc-empty-cmd

sls.app.ack.nlc.empty_task_cmd

Terjadi mode tugas yang tidak diimplementasikan di kelompok node terkelola

Kejadian anomali di kelompok node terkelola kluster.

Simple Log Service

event

nlc-url-m-unimp

sls.app.ack.nlc.url_mode_unimpl

Terjadi operasi perbaikan tidak dikenal di kelompok node terkelola

Kejadian anomali di kelompok node terkelola kluster.

Simple Log Service

event

nlc-opt-no-found

sls.app.ack.nlc.op_not_found

Terjadi error saat menghancurkan node di kelompok node terkelola

Kejadian anomali di kelompok node terkelola kluster.

Simple Log Service

event

nlc-des-node-err

sls.app.ack.nlc.destroy_node_fail

Gagal melakukan node draining di kelompok node terkelola

Kejadian draining anomali di kelompok node terkelola kluster.

Simple Log Service

event

nlc-drain-node-err

sls.app.ack.nlc.drain_node_fail

Instance ECS yang direstart di kelompok node terkelola tidak mencapai status yang diinginkan

Kejadian anomali di kelompok node terkelola kluster.

Simple Log Service

event

nlc-restart-ecs-wait

sls.app.ack.nlc.restart_ecs_wait_fail

Gagal merestart instance ECS di kelompok node terkelola

Kejadian anomali di kelompok node terkelola kluster.

Simple Log Service

event

nlc-restart-ecs-err

sls.app.ack.nlc.restart_ecs_fail

Gagal mereset instance ECS di kelompok node terkelola

Kejadian anomali di kelompok node terkelola kluster.

Simple Log Service

event

nlc-reset-ecs-err

sls.app.ack.nlc.reset_ecs_fail

Tugas self-healing gagal di kelompok node terkelola

Kejadian anomali di kelompok node terkelola kluster.

Simple Log Service

event

nlc-sel-repair-err

sls.app.ack.nlc.repair_fail

Set aturan peringatan untuk anomali sumber daya

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Penggunaan CPU node kluster ≥ 85%

Penggunaan CPU instance node di kluster melebihi ambang batas. Nilai default: 85%.

Jika sumber daya yang tersisa kurang dari 15%, pemesanan sumber daya lapisan mesin kontainer mungkin terlampaui. Untuk informasi lebih lanjut, lihat Kebijakan pemesanan sumber daya node. Hal ini dapat menyebabkan throttling CPU yang sering dan sangat memengaruhi kecepatan respons proses. Optimalkan penggunaan CPU atau sesuaikan ambang batas segera.

Untuk informasi lebih lanjut tentang cara menyesuaikan ambang batas, lihat Konfigurasi aturan peringatan.

CloudMonitor

metric-cms

node_cpu_util_high

cms.host.cpu.utilization

Penggunaan memori node kluster ≥ 85%

Penggunaan memori instance node di kluster melebihi ambang batas. Nilai default: 85%.

Jika sumber daya yang tersisa kurang dari 15% dan masih digunakan, pemesanan sumber daya lapisan mesin kontainer akan terlampaui. Untuk informasi lebih lanjut, lihat Kebijakan pemesanan sumber daya node. Dalam skenario ini, kubelet akan melakukan eviction paksa. Optimalkan penggunaan memori atau sesuaikan ambang batas segera.

Untuk informasi lebih lanjut tentang cara menyesuaikan ambang batas, lihat Konfigurasi aturan peringatan.

CloudMonitor

metric-cms

node_mem_util_high

cms.host.memory.utilization

Penggunaan disk node kluster ≥ 85%

Penggunaan disk instance node di kluster melebihi ambang batas. Nilai default: 85%.

Untuk informasi lebih lanjut tentang cara menyesuaikan ambang batas, lihat Konfigurasi aturan peringatan.

CloudMonitor

metric-cms

node_disk_util_high

cms.host.disk.utilization

Penggunaan bandwidth Internet arah keluar node kluster ≥ 85%

Penggunaan bandwidth Internet arah keluar instance node di kluster melebihi ambang batas. Nilai default: 85%.

Untuk informasi lebih lanjut tentang cara menyesuaikan ambang batas, lihat Konfigurasi aturan peringatan.

CloudMonitor

metric-cms

node_public_net_util_high

cms.host.public.network.utilization

Penggunaan inode node kluster ≥ 85%

Penggunaan inode instance node di kluster melebihi ambang batas. Nilai default: 85%.

Untuk informasi lebih lanjut tentang cara menyesuaikan ambang batas, lihat Konfigurasi aturan peringatan.

CloudMonitor

metric-cms

node_fs_inode_util_high

cms.host.fs.inode.utilization

Sumber daya kluster: Penggunaan QPS Lapisan 7 instance SLB ≥ 85%

Permintaan per detik (QPS) instance SLB di kluster melebihi ambang batas. Nilai default: 85%.

Catatan

Instance SLB adalah instance yang terkait dengan server API dan Ingress.

Untuk informasi lebih lanjut tentang cara menyesuaikan ambang batas, lihat Konfigurasi aturan peringatan.

CloudMonitor

metric-cms

slb_qps_util_high

cms.slb.qps.utilization

Sumber daya kluster: Penggunaan bandwidth arah keluar instance SLB ≥ 85%

Penggunaan bandwidth arah keluar instance SLB di kluster melebihi ambang batas. Nilai default: 85%.

Catatan

Instance SLB adalah instance yang terkait dengan server API dan Ingress.

Untuk informasi lebih lanjut tentang cara menyesuaikan ambang batas, lihat Konfigurasi aturan peringatan.

CloudMonitor

metric-cms

slb_traff_tx_util_high

cms.slb.traffic.tx.utilization

Sumber daya kluster: Penggunaan koneksi maksimum instance SLB ≥ 85%

Penggunaan koneksi maksimum instance SLB di kluster melebihi ambang batas. Nilai default: 85%.

Catatan

Instance SLB adalah instance yang terkait dengan server API dan Ingress.

Untuk informasi lebih lanjut tentang cara menyesuaikan ambang batas, lihat Konfigurasi aturan peringatan.

CloudMonitor

metric-cms

slb_max_con_util_high

cms.slb.max.connection.utilization

Sumber daya kluster: Koneksi yang di-drop per detik untuk pendengar SLB ≥ 1

Jumlah koneksi yang di-drop per detik untuk instance SLB di kluster terus-menerus melebihi ambang batas. Nilai default: 1.

Catatan

Instance SLB adalah instance yang terkait dengan server API dan Ingress.

Untuk informasi lebih lanjut tentang cara menyesuaikan ambang batas, lihat Konfigurasi aturan peringatan.

CloudMonitor

metric-cms

slb_drop_con_high

cms.slb.drop.connection

Ruang disk tidak mencukupi pada node kluster

Kejadian anomali yang menunjukkan ruang disk tidak mencukupi pada node di kluster.

Simple Log Service

event

node-disk-pressure

sls.app.ack.node.disk_pressure

Sumber daya penjadwalan tidak mencukupi pada node kluster

Kejadian anomali yang menunjukkan tidak ada sumber daya penjadwalan yang tersedia di kluster.

Simple Log Service

event

node-res-insufficient

sls.app.ack.resource.insufficient

Sumber daya IP tidak mencukupi pada node kluster

Kejadian anomali yang menunjukkan sumber daya IP tidak mencukupi di kluster.

Simple Log Service

event

node-ip-pressure

sls.app.ack.ip.not_enough

Penggunaan disk melebihi ambang batas

Anomali di mana penggunaan disk kluster melebihi ambang batas. Periksa penggunaan disk kluster.

Simple Log Service

event

disk_space_press

sls.app.ack.csi.no_enough_disk_space

Set aturan peringatan untuk notifikasi O&M lapisan kontrol ACK

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Notifikasi tugas kluster ACK

Mencatat dan menginformasikan lapisan kontrol tentang rencana dan perubahan terkait.

Simple Log Service

event

ack-system-event-info

sls.app.ack.system_events.task.info

Notifikasi kegagalan tugas kluster ACK

Saat operasi kluster gagal, Anda harus segera menyelidiki penyebabnya.

Simple Log Service

event

ack-system-event-error

sls.app.ack.system_events.task.error

Set aturan peringatan untuk penskalaan otomatis kluster

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Penskalaan otomatis: Skala keluar

Node secara otomatis diskalakan keluar untuk menangani peningkatan permintaan beban.

Simple Log Service

event

autoscaler-scaleup

sls.app.ack.autoscaler.scaleup_group

Penskalaan otomatis: Skala masuk

Saat beban berkurang, node secara otomatis diskalakan masuk untuk menghemat sumber daya.

Simple Log Service

event

autoscaler-scaledown

sls.app.ack.autoscaler.scaledown

Penskalaan otomatis: Waktu habis skala keluar

Waktu habis skala keluar mungkin menunjukkan sumber daya tidak mencukupi atau kebijakan yang tidak tepat.

Simple Log Service

event

autoscaler-scaleup-timeout

sls.app.ack.autoscaler.scaleup_timeout

Penskalaan otomatis: Skala masuk node kosong

Node tidak aktif diidentifikasi dan dibersihkan untuk mengoptimalkan penggunaan sumber daya.

Simple Log Service

event

autoscaler-scaledown-empty

sls.app.ack.autoscaler.scaledown_empty

Penskalaan otomatis: Skala keluar gagal

Jika skala keluar gagal, Anda harus segera menganalisis penyebabnya dan menyesuaikan kebijakan sumber daya.

Simple Log Service

event

autoscaler-up-group-failed

sls.app.ack.autoscaler.scaleup_group_failed

Penskalaan otomatis: Kluster tidak sehat

Status kluster tidak sehat akibat penskalaan otomatis harus segera ditangani.

Simple Log Service

event

autoscaler-cluster-unhealthy

sls.app.ack.autoscaler.cluster_unhealthy

Penskalaan otomatis: Penghapusan node yang gagal memulai dalam waktu lama

Node tidak valid dibersihkan untuk mereklaim sumber daya.

Simple Log Service

event

autoscaler-del-started

sls.app.ack.autoscaler.delete_started_timeout

Penskalaan otomatis: Penghapusan node yang tidak terdaftar

Node berlebih diproses untuk mengoptimalkan sumber daya kluster.

Simple Log Service

event

autoscaler-del-unregistered

sls.app.ack.autoscaler.delete_unregistered

Penskalaan otomatis: Skala masuk gagal

Kegagalan skala masuk dapat menyebabkan pemborosan sumber daya dan distribusi beban yang tidak merata.

Simple Log Service

event

autoscaler-scale-down-failed

sls.app.ack.autoscaler.scaledown_failed

Penskalaan otomatis: Node dihapus sebelum dilakukan draining

Saat operasi penskalaan otomatis menghapus node, pod yang berjalan di node gagal dievict atau dimigrasikan.

Simple Log Service

event

autoscaler-instance-expired

sls.app.ack.autoscaler.instance_expired

Set aturan peringatan untuk anomali beban kerja aplikasi

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Pekerjaan gagal dijalankan

Peringatan ini dipicu saat Pekerjaan gagal selama eksekusi.

Managed Service for Prometheus

metric-prometheus

job-failed

prom.job.failed

Status anomali replika yang tersedia dalam deployment

Peringatan ini dipicu saat jumlah replika yang tersedia dalam deployment tidak mencukupi, yang dapat menyebabkan layanan tidak tersedia atau sebagian tidak tersedia.

Managed Service for Prometheus

metric-prometheus

deployment-rep-err

prom.deployment.replicaError

Status replika anomali dalam DaemonSet

Peringatan ini dipicu saat beberapa replika dalam DaemonSet berada dalam status anomali, seperti gagal memulai atau crash. Hal ini memengaruhi perilaku atau layanan yang diharapkan dari node.

Managed Service for Prometheus

metric-prometheus

daemonset-status-err

prom.daemonset.scheduledError

Penjadwalan replika anomali dalam DaemonSet

Peringatan ini dipicu saat DaemonSet gagal menjadwalkan beberapa atau semua node dengan benar, kemungkinan karena kendala sumber daya atau kebijakan penjadwalan yang tidak tepat.

Managed Service for Prometheus

metric-prometheus

daemonset-misscheduled

prom.daemonset.misscheduled

Set aturan peringatan untuk anomali replika kontainer

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Terjadi OOM pada replika kontainer di kluster

Terjadi error kehabisan memori (OOM) pada pod atau proses di dalamnya.

Simple Log Service

event

pod-oom

sls.app.ack.pod.oom

Replika kontainer di kluster gagal memulai

Kejadian yang menunjukkan bahwa pod di kluster gagal memulai.

Simple Log Service

event

pod-failed

sls.app.ack.pod.failed

Status pod anomali

Peringatan ini dipicu saat pod berada dalam status tidak sehat, seperti Pending, Failed, atau Unknown.

Managed Service for Prometheus

metric-prometheus

pod-status-err

prom.pod.status.notHealthy

Pod gagal memulai

Peringatan ini dipicu saat pod sering gagal memulai dan masuk ke status CrashLoopBackOff atau status gagal lainnya.

Managed Service for Prometheus

metric-prometheus

pod-crashloop

prom.pod.status.crashLooping

Set aturan peringatan untuk anomali penyimpanan

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Kapasitas disk kurang dari batas 20 GiB

Karena keterbatasan tetap, Anda tidak dapat melampirkan disk yang lebih kecil dari 20 GiB. Periksa kapasitas disk yang dilampirkan.

Simple Log Service

event

csi_invalid_size

sls.app.ack.csi.invalid_disk_size

Disk langganan tidak didukung untuk volume kontainer

Karena keterbatasan tetap, Anda tidak dapat melampirkan disk langganan. Periksa metode penagihan disk yang dilampirkan.

Simple Log Service

event

csi_not_portable

sls.app.ack.csi.disk_not_portable

Gagal melepas titik pemasangan karena sedang digunakan oleh proses

Sumber daya belum sepenuhnya dilepaskan, atau proses aktif sedang mengakses titik pemasangan.

Simple Log Service

event

csi_device_busy

sls.app.ack.csi.deivce_busy

Tidak ada disk yang tersedia

Anomali di mana tidak ada disk yang tersedia untuk dilampirkan ke penyimpanan kluster.

Simple Log Service

event

csi_no_ava_disk

sls.app.ack.csi.no_ava_disk

Disk IOHang

Terjadi anomali IOHang di kluster.

Simple Log Service

event

csi_disk_iohang

sls.app.ack.csi.disk_iohang

Terjadi I/O lambat pada PVC yang terikat ke disk

Terjadi anomali I/O lambat pada PVC yang terikat ke disk kluster.

Simple Log Service

event

csi_latency_high

sls.app.ack.csi.latency_too_high

Status PersistentVolume anomali

Terjadi anomali pada PV di kluster.

Managed Service for Prometheus

metric-prometheus

pv-failed

prom.pv.failed

Set aturan peringatan untuk anomali jaringan

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Beberapa tabel rute ada di VPC

Hal ini dapat mempersulit konfigurasi jaringan atau menyebabkan konflik rute. Anda perlu mengoptimalkan struktur jaringan segera.

Simple Log Service

event

ccm-vpc-multi-route-err

sls.app.ack.ccm.describe_route_tables_failed

Tidak ada instance SLB yang tersedia

Kejadian yang menunjukkan bahwa kluster tidak dapat membuat instance SLB.

Simple Log Service

event

slb-no-ava

sls.app.ack.ccm.no_ava_slb

Gagal menyinkronkan instance SLB

Kejadian yang menunjukkan bahwa kluster gagal menyinkronkan instance SLB yang dibuat.

Simple Log Service

event

slb-sync-err

sls.app.ack.ccm.sync_slb_failed

Gagal menghapus instance SLB

Kejadian yang menunjukkan bahwa kluster gagal menghapus instance SLB.

Simple Log Service

event

slb-del-err

sls.app.ack.ccm.del_slb_failed

Gagal membuat rute

Kejadian yang menunjukkan bahwa kluster gagal membuat rute jaringan VPC.

Simple Log Service

event

route-create-err

sls.app.ack.ccm.create_route_failed

Gagal menyinkronkan rute

Kejadian yang menunjukkan bahwa kluster gagal menyinkronkan rute jaringan VPC.

Simple Log Service

event

route-sync-err

sls.app.ack.ccm.sync_route_failed

Sumber daya Terway tidak valid

Kejadian anomali yang menunjukkan sumber daya jaringan Terway tidak valid di kluster.

Simple Log Service

event

terway-invalid-res

sls.app.ack.terway.invalid_resource

Terway gagal menetapkan alamat IP

Kejadian anomali yang menunjukkan sumber daya jaringan Terway di kluster gagal menetapkan alamat IP.

Simple Log Service

event

terway-alloc-ip-err

sls.app.ack.terway.alloc_ip_fail

Gagal mengurai konfigurasi bandwidth Ingress

Kejadian anomali yang menunjukkan error penguraian konfigurasi untuk jaringan Ingress kluster.

Simple Log Service

event

terway-parse-err

sls.app.ack.terway.parse_fail

Terway gagal mengalokasikan sumber daya jaringan

Kejadian anomali yang menunjukkan sumber daya jaringan Terway di kluster gagal dialokasikan.

Simple Log Service

event

terway-alloc-res-err

sls.app.ack.terway.allocate_failure

Terway gagal mereklaim sumber daya jaringan

Kejadian anomali yang menunjukkan sumber daya jaringan Terway di kluster gagal direklaim.

Simple Log Service

event

terway-dispose-err

sls.app.ack.terway.dispose_failure

Mode virtual Terway berubah

Kejadian yang menunjukkan perubahan mode virtual jaringan Terway kluster.

Simple Log Service

event

terway-virt-mod-err

sls.app.ack.terway.virtual_mode_change

Terway memicu pemeriksaan konfigurasi IP pod

Kejadian yang menunjukkan jaringan Terway kluster memicu pemeriksaan konfigurasi IP pod.

Simple Log Service

event

terway-ip-check

sls.app.ack.terway.config_check

Gagal memuat ulang konfigurasi Ingress

Kejadian anomali yang menunjukkan konfigurasi jaringan Ingress kluster gagal dimuat ulang. Periksa apakah konfigurasi Ingress benar.

Simple Log Service

event

ingress-reload-err

sls.app.ack.ingress.err_reload_nginx

Set aturan peringatan untuk operasi audit penting

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Pengguna masuk ke kontainer atau mengeksekusi perintah di kluster

Ini mungkin merupakan aktivitas pemeliharaan atau anomali. Operasi audit dapat digunakan untuk pelacakan dan deteksi keamanan.

Simple Log Service

event

audit-at-command

sls.app.k8s.audit.at.command

Status penjadwalan node kluster berubah

Hal ini memengaruhi efisiensi layanan dan beban sumber daya. Anda harus segera menindaklanjuti maksud perubahan dan memverifikasi efeknya.

Simple Log Service

event

audit-cordon-switch

sls.app.k8s.audit.at.cordon.uncordon

Sumber daya dihapus dari kluster

Penghapusan sumber daya mungkin merupakan perilaku yang direncanakan atau anomali. Kami menyarankan Anda mengaudit operasi untuk mencegah risiko.

Simple Log Service

event

audit-resource-delete

sls.app.k8s.audit.at.delete

Node dilakukan draining atau terjadi eviction di kluster

Hal ini mencerminkan tekanan beban node atau eksekusi kebijakan. Anda harus mengonfirmasi kebutuhan dan dampaknya.

Simple Log Service

event

audit-drain-eviction

sls.app.k8s.audit.at.drain.eviction

Pengguna masuk ke kluster dari Internet

Masuk dari Internet dapat menimbulkan risiko keamanan. Anda harus mengonfirmasi konfigurasi login dan izin akses.

Simple Log Service

event

audit-internet-login

sls.app.k8s.audit.at.internet.login

Label node diperbarui di kluster

Pembaruan label digunakan untuk membedakan dan mengelola sumber daya node. Keakuratan memengaruhi efisiensi O&M.

Simple Log Service

event

audit-node-label-update

sls.app.k8s.audit.at.label

Taint node diperbarui di kluster

Perubahan konfigurasi taint node memengaruhi kebijakan penjadwalan dan mekanisme toleransi. Anda harus mengeksekusi dan meninjau konfigurasi dengan benar.

Simple Log Service

event

audit-node-taint-update

sls.app.k8s.audit.at.taint

Sumber daya dimodifikasi di kluster

Modifikasi konfigurasi sumber daya secara real-time mungkin menunjukkan penyesuaian kebijakan aplikasi. Anda harus memverifikasi apakah sesuai dengan tujuan bisnis.

Simple Log Service

event

audit-resource-update

sls.app.k8s.audit.at.update

Set aturan peringatan untuk anomali keamanan

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Pemeriksaan keamanan menemukan konfigurasi berisiko tinggi

Kejadian yang menunjukkan bahwa pemeriksaan keamanan kluster menemukan konfigurasi berisiko tinggi.

Simple Log Service

event

si-c-a-risk

sls.app.ack.si.config_audit_high_risk

Set aturan peringatan untuk anomali inspeksi kluster

Item Peringatan

Deskripsi Aturan

Sumber Peringatan

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Inspeksi kluster menemukan anomali

Mekanisme inspeksi otomatis menangkap potensi anomali. Anda perlu menganalisis masalah spesifik dan kebijakan pemeliharaan harian.

Simple Log Service

event

cis-sched-failed

sls.app.ack.cis.schedule_task_failed

Panduan pemecahan masalah peringatan

Eviction pod dipicu oleh penggunaan disk node yang mencapai ambang batas

Pesan peringatan

(digabung dari kejadian serupa): Gagal mengumpulkan sampah jumlah gambar yang diperlukan. Mencoba membebaskan XXXX byte, tetapi hanya menemukan 0 byte yang memenuhi syarat untuk dibebaskan

Gejala

Status pod adalah Evicted. Node mengalami tekanan disk (Node memiliki kondisi: [DiskPressure].)

Penyebab

Saat penggunaan disk node mencapai ambang batas eviction (default 85%), kubelet melakukan eviction berbasis tekanan dan pengumpulan sampah untuk mereklaim file gambar yang tidak digunakan. Proses ini menyebabkan pod dievict. Anda dapat masuk ke node target dan menjalankan perintah df -h untuk melihat penggunaan disk.

Solusi

  1. Masuk ke node target (lingkungan runtime containerd) dan jalankan perintah berikut untuk menghapus gambar kontainer yang tidak digunakan dan membebaskan ruang disk.

    crictl rmi --prune
  2. Bersihkan log atau ubah ukuran disk node.

  3. Sesuaikan ambang batas terkait.

    • Sesuaikan ambang batas pengumpulan sampah gambar kubelet sesuai kebutuhan untuk mengurangi eviction pod yang disebabkan oleh penggunaan disk node yang tinggi. Untuk informasi lebih lanjut, lihat Sesuaikan konfigurasi kubelet untuk kelompok node.

    • Saat penggunaan disk node mencapai atau melebihi 85%, Anda menerima peringatan. Anda dapat memodifikasi ambang batas peringatan di aturan peringatan node_disk_util_high dalam konfigurasi YAML berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Konfigurasi aturan peringatan.

Saran dan tindakan pencegahan

  • Untuk node yang sering mengalami masalah ini, kami menyarankan Anda mengevaluasi kebutuhan penyimpanan aktual aplikasi Anda dan merencanakan permintaan sumber daya serta kapasitas disk node dengan tepat.

  • Kami menyarankan Anda memantau penggunaan penyimpanan secara rutin untuk segera mengidentifikasi dan mengatasi potensi ancaman. Untuk informasi lebih lanjut, lihat Dasbor Penyimpanan Node.

Pod OOMKilling

Pesan peringatan

pod di-OOM killed. node:xxx pod:xxx namespace:xxx uuid:xxx

Gejala

Status pod tidak normal, dan detail kejadian berisi PodOOMKilling.

Solusi

Kejadian Out of Memory (OOM) dapat dipicu di tingkat node atau tingkat cgroup kontainer.

  • Penyebab:

    • OOM tingkat cgroup kontainer: Penggunaan memori aktual pod melebihi batas memorinya. Pod kemudian dipaksa dihentikan oleh cgroup Kubernetes.

    • OOM tingkat node: Biasanya terjadi saat terlalu banyak pod tanpa batas sumber daya (requests/limits) berjalan di node, atau saat beberapa proses (yang mungkin tidak dikelola oleh Kubernetes) mengonsumsi banyak memori.

  • Metode: Masuk ke node target dan jalankan perintah dmesg -T | grep -i "memory". Jika output berisi out_of_memory, kejadian OOM telah terjadi. Jika output log juga berisi Memory cgroup, kejadian tersebut adalah OOM tingkat cgroup kontainer. Jika tidak, kejadian tersebut adalah OOM tingkat node.

  • Saran:

Untuk informasi lebih lanjut tentang penyebab kejadian OOM dan solusinya, lihat Penyebab dan solusi untuk OOM Killer.

Status pod adalah CrashLoopBackOff

Saat proses dalam pod keluar secara tidak terduga, ACK mencoba me-restart pod tersebut. Jika pod gagal mencapai status yang diinginkan setelah beberapa kali restart, statusnya berubah menjadi CrashLoopBackOff. Ikuti langkah-langkah berikut untuk memecahkan masalah:

  1. Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster yang diinginkan dan klik namanya. Di panel kiri, pilih Workloads > Pods.

  3. Temukan pod yang tidak normal dalam daftar dan klik Details di kolom Actions.

  4. Periksa Events pod dan analisis deskripsi kejadian yang tidak normal.

  5. Lihat Logs pod, yang mungkin mencatat penyebab proses yang tidak normal.

    Catatan

    Jika pod telah di-restart, pilih Show the log of the last container exit untuk melihat log pod sebelumnya.

    Konsol menampilkan maksimal 500 entri log terbaru. Untuk melihat lebih banyak log historis, kami menyarankan Anda menyiapkan solusi persistensi log untuk pengumpulan dan penyimpanan terpadu.