All Products
Search
Document Center

Container Service for Kubernetes:Praktik terbaik untuk observabilitas kontainer

Last Updated:Mar 26, 2026

Container Service for Kubernetes (ACK) terintegrasi langsung dengan layanan observabilitas Alibaba Cloud, menyediakan metrik, log, dan jejak lintas empat lapisan: infrastruktur, sistem operasi, kontainer/kluster, dan aplikasi.

image

Pengaturan observabilitas yang direkomendasikan mencakup tiga area stabilitas kluster:

  • Lapisan kontrol — kesehatan dan kapasitas komponen inti Kubernetes

  • Bidang data — kesehatan node, penyimpanan, dan komponen jaringan

  • Aplikasi — status Pod, log, APM, dan pelacakan

Sinyal observabilitas sekilas

Tabel berikut menunjukkan tool mana yang mencakup setiap jenis sinyal di ACK:

SinyalToolCakupan
Metrik lapisan kontrolManaged Service for Prometheuskube-apiserver, etcd, kube-scheduler, kube-controller-manager
Log lapisan kontrolSimple Log Service (SLS)Penyimpanan log terpusat untuk komponen kluster yang dikelola
Event nodeack-node-problem-detector + SLS Event CenterRetensi 90 hari; interval pemeriksaan 1 menit
Metrik proses nodeCloudMonitor5 proses pengguna resource teratas per node
Log jurnal OS nodeSLSLog kubelet, kernel, dan mesin kontainer
Metrik Kontainer/PodManaged Service for Prometheus (kubelet + kube-state-metrics)CPU, memori, jaringan, penyimpanan per Pod
Metrik penyimpanan kontainerManaged Service for Prometheus + csi-pluginVolume NAS, CPFS, OSS, dan disk
Metrik jaringan kontainerManaged Service for Prometheus (kubelet)Trafik inbound/outbound per Pod
Log aplikasiSLSPengumpulan log non-intrusif dari stdout atau file log
APM / pelacakan terdistribusiApplication Real-Time Monitoring Service (ARMS)Java, Python, Go, OpenTelemetry
Pemantauan frontendARMS Real User Monitoring (RUM)Web, seluler, miniapp
Metrik GPUManaged Service for Prometheus + ack-gpu-exporterMetrik kompatibel NVIDIA DCGM, GPU bersama dan eksklusif
Pemantauan kontainer tingkat kernelSysOMMasalah memori, cache halaman, visibilitas tingkat OS
PeringatanManajemen peringatan ACKSet aturan pra-konfigurasi untuk node, Pod, workload, dan jaringan

Daftar periksa penyiapan cepat

Aktifkan kemampuan dasar berikut sebelum mendalami tiap bagian:

  1. Terapkan ack-node-problem-detector untuk pemantauan event node.

  2. Aktifkan Managed Service for Prometheus untuk metrik kluster dan kontainer.

  3. Hubungkan SLS untuk pengumpulan log dari Pod dan komponen lapisan kontrol.

  4. Konfigurasikan alert rule sets untuk pengecualian pada node, Pod, workload, dan jaringan.

  5. Aktifkan plugin CloudMonitor pada kelompok node ECS untuk metrik proses tingkat host.

Setelah mengaktifkan pemantauan event dan pemantauan Prometheus, konfigurasikan kontak dan grup kontak untuk personel yang bertanggung jawab atas kluster atau aplikasi, siapkan aturan peringatan yang sesuai, dan berlangganan objek notifikasi ke grup kontak tersebut.

1. Lapisan kontrol infrastruktur kluster

image

Lapisan kontrol menangani operasi API, penjadwalan workload, orkestrasi resource Kubernetes, penyediaan resource cloud, dan penyimpanan metadata. Komponen utamanya meliputi kube-apiserver, kube-scheduler, kube-controller-manager, cloud-controller-manager, dan etcd.

ACK sepenuhnya mengelola lapisan kontrol kluster ACK yang dikelola dengan jaminan Service Level Agreement (SLA). Fitur-fitur berikut memberikan visibilitas real-time terhadap kesehatan lapisan kontrol.

Aktifkan pemantauan komponen lapisan kontrol

ACK memperluas API RESTful Kubernetes sehingga klien eksternal dan komponen dalam kluster (seperti Prometheus) dapat mengambil metrik lapisan kontrol.

Kumpulkan log komponen lapisan kontrol

Kluster ACK mendukung logging terpusat ke proyek SLS Anda. Lihat Kumpulkan log komponen lapisan kontrol kluster ACK yang dikelola.

Konfigurasikan manajemen peringatan

ACK menyertakan aturan peringatan bawaan untuk anomali kontainer inti. Untuk menambah atau menyesuaikan aturan:

2. Bidang data infrastruktur kluster

Node kluster

Node pekerja ACK menyediakan lingkungan resource untuk eksekusi workload. Meskipun Kubernetes memiliki mekanisme bawaan penjadwalan, preemption, dan eviction untuk mentoleransi masalah node sementara, stabilitas komprehensif memerlukan pemantauan proaktif terhadap status node dan beban resource.

Pemantauan event dengan ack-node-problem-detector

ack-node-problem-detector adalah komponen pemantauan event node ACK. Ini menyediakan:

  • Kompatibilitas penuh dengan Node Problem Detector Kubernetes upstream

  • Peningkatan khusus ACK untuk lingkungan node kluster, kompatibilitas OS, dan mesin kontainer

  • Plugin inspeksi node yang ditingkatkan dengan interval pemeriksaan 1 menit

  • Retensi data event 90 hari melalui Deployment kube-eventer terintegrasi, yang mengalirkan event Kubernetes ke SLS Event Center — melewati retensi bawaan etcd selama 1 jam

Ketika ack-node-problem-detector mendeteksi status node abnormal, jalankan kubectl describe node ${NodeName} untuk memeriksa Condition node, atau lihat daftar node pada halaman Nodes di konsol ACK.

Untuk menerima peringatan tentang kegagalan startup Pod dan titik akhir Service yang tidak tersedia, konfigurasikan manajemen peringatan dan berlangganan notifikasi berbasis event. Pemantauan SLS juga mendukung peringatan event.

Item pemeriksaan yang didukung: Titik kegagalan GPU yang dideteksi oleh ack-node-problem-detector dan Plugin diagnosis node.

Pemantauan tingkat proses ECS untuk node kluster

Tiap node ACK berkorespondensi dengan satu instans ECS. Aktifkan fitur pemantauan proses di CloudMonitor untuk mendapatkan:

  • Analisis proses historis: 5 proses pengguna resource teratas berdasarkan konsumsi memori, penggunaan CPU, dan deskriptor file terbuka

  • Pemantauan OS tingkat host: Penggunaan CPU, memori, jaringan, disk, jumlah inode, trafik jaringan, dan jumlah koneksi simultan

Penting

Konfigurasi pemantauan proses hanya berlaku untuk node yang ditambahkan setelah Anda mengaktifkan CloudMonitor pada kelompok node.

Metrik host vs. metrik node

Keduanya mengukur penggunaan resource, tetapi berbeda dalam cakupan dan perhitungan:

DimensiMetrik hostMetrik node
CakupanResource mesin fisik atau virtualResource mesin kontainer
Pembilang memoriTotal memori yang digunakan semua proses (Usage)Total memori kerja (WorkingSet), termasuk memori yang dialokasikan, memori yang digunakan, dan cache halaman
Memory DenominatorKapasitas memori host (Capacity)Total memori yang dapat dialokasikan (Allocatable), tidak termasuk resource yang dicadangkan untuk mesin kontainer
RumusUsage / CapacityWorkingSet / Allocatable

Untuk informasi lebih lanjut, lihat Kebijakan pencadangan resource.

Manajemen peringatan untuk anomali node

Aktifkan dan berlangganan set aturan peringatan untuk kesehatan node:

  • Alert Rule Set for Node Exceptions — kondisi node abnormal

  • Alert Rule Set for Resource Exceptions — pelanggaran ambang batas penggunaan resource

Konfigurasikan ini melalui manajemen peringatan.

Pemantauan log jurnal OS node

systemd berfungsi sebagai sistem init dan manajer layanan pada node Linux. Komponen jurnalnya menyediakan pengumpulan log sistem, penyimpanan, kueri real-time, dan analisis.

Kumpulkan dan pertahankan log jurnal OS ke SLS dalam skenario seperti:

  • Pemantauan stabilitas node (kubelet, kernel OS)

  • Workload yang sensitif terhadap perubahan OS atau mesin kontainer, seperti kontainer yang berjalan dalam mode istimewa, node dengan overcommit resource yang sering, atau workload yang menggunakan resource OS secara langsung

Lihat Kumpulkan log jurnal systemd node.

Pemantauan workload GPU dan AI

Untuk pelatihan AI dan tugas pembelajaran mesin, ACK menyediakan pemantauan kesehatan GPU dan pemantauan resource tingkat Pod.

Komponen sistem bidang data kluster

Penyimpanan kontainer

ACK mendukung jenis penyimpanan berikut:

  • Penyimpanan lokal node: Disk sistem, disk data, volume HostPath (tidak dipantau oleh Kubernetes — memerlukan pemantauan manual), dan volume emptyDir (dikelola melalui Permintaan dan Batas Penyimpanan Ephemeral). Pemantauan penyimpanan ephemeral mencakup: volume emptyDir non-tmpfs, file log Pod pada node, dan layer yang dapat ditulis semua kontainer dalam Pod.

  • Secret/ConfigMap: Digunakan untuk metadata resource kluster; tidak memerlukan pemantauan penyimpanan ketat.

  • Penyimpanan eksternal melalui PersistentVolumes (PV) dan PersistentVolumeClaims (PVC): Volume disk tambahan, volume NAS (Network Attached Storage), volume Cloud Parallel File Storage (CPFS), dan volume Object Storage Service (OSS).

Komponen csi-plugin mengekspos metrik pemantauan untuk semua jenis penyimpanan yang didukung, yang dikumpulkan Managed Service for Prometheus ke dalam dasbor siap pakai. Untuk gambaran lengkap jenis penyimpanan yang didukung dan tidak didukung, lihat Ikhtisar pemantauan penyimpanan kontainer.

Jaringan kontainer

CoreDNS

CoreDNS adalah komponen penemuan layanan DNS kluster. Pantau:

  • Penggunaan resource CoreDNS di bidang data

  • Metrik Responses (by rcode) — kode respons resolusi abnormal termasuk NXDOMAIN, SERVFAIL, dan FormErr

Pengaturan yang direkomendasikan:

  • Pengguna Managed Service for Prometheus: Gunakan dasbor pemantauan CoreDNS bawaan.

  • Pengguna Prometheus yang dikelola sendiri: Konfigurasikan pengumpulan metrik menggunakan metode pemantauan CoreDNS komunitas.

  • Aktifkan manajemen peringatan dan berlangganan:

    • Alert Rule Set for Network Exceptions — kegagalan reload konfigurasi CoreDNS dan anomali status

    • Alert Rule Set for Pod Exceptions — status dan masalah resource Pod CoreDNS

  • Analisis log CoreDNS untuk mendiagnosis resolusi lambat dan permintaan domain berisiko tinggi.

Ingress

Saat menggunakan Ingress untuk routing trafik eksternal, pantau volume trafik dan detail panggilan, serta beri peringatan pada status routing abnormal.

Pemantauan trafik jaringan kontainer dasar

Kluster ACK mengekspos metrik kontainer standar komunitas melalui kubelet node, mencakup trafik inbound dan outbound Pod, deteksi trafik abnormal, dan pemantauan tingkat paket.

Pod yang dikonfigurasi dengan mode HostNetwork mewarisi perilaku jaringan proses host. Dalam kasus ini, metrik pemantauan kontainer dasar tidak secara akurat mencerminkan trafik jaringan tingkat Pod.

Opsi pemantauan:

  • Managed Service for Prometheus: Lihat metrik jaringan tingkat Pod langsung di dasbor pemantauan Pod.

  • Prometheus yang dikelola sendiri: Ambil metrik kubelet menggunakan metode komunitas.

  • Pemantauan jaringan tingkat ECS: Pantau jaringan host ECS di konsol ECS.

3. Aplikasi pengguna

Pemantauan Pod kontainer

Pod adalah unit dasar penerapan aplikasi di ACK. Status dan konsumsi resource-nya secara langsung memengaruhi kinerja aplikasi.

  • Metrik Pod berbasis Prometheus: Gunakan Managed Service for Prometheus atau Prometheus yang dikelola sendiri untuk mengumpulkan metrik kontainer standar komunitas dari kubelet node. Gabungkan dengan kube-state-metrics (termasuk dalam Managed Service for Prometheus atau chart Helm prometheus-operator yang disediakan ACK) untuk metrik Pod komprehensif termasuk CPU, memori, penyimpanan, dan jaringan. Kluster ACK yang terintegrasi dengan Managed Service for Prometheus menyertakan dasbor pemantauan Pod siap pakai.

  • Pemantauan event untuk anomali Pod: Perubahan status Pod memicu event. Aktifkan pemantauan event untuk melacak status abnormal seperti OOM kills dan Pod yang tidak menjadi ready. Lihat data real-time di halaman Event Center dan data historis di SLS (disimpan selama 90 hari). Analisis garis waktu siklus hidup Pod melalui dasbor pemantauan event Pod.

  • Langganan peringatan: Setelah mengaktifkan manajemen peringatan dan pemantauan event, lakukan langganan. Untuk informasi selengkapnya, lihat Praktik terbaik untuk mengonfigurasi aturan peringatan di Prometheus.

    • Alert Rule Set for Workload Exceptions

    • Alert Rule Set for Pod Exceptions

  • Aturan peringatan Prometheus kustom: Buat aturan kustom untuk ambang batas spesifik aplikasi. Lihat Buat aturan peringatan untuk instans Prometheus dan gunakan contoh PromQL dari Anomali Pod sebagai titik awal.

Pemantauan log aplikasi kontainer

ACK menyediakan pengumpulan log non-intrusif untuk Pod aplikasi. Kumpulkan log aplikasi di kluster ACK dan gunakan fitur analisis log SLS untuk diagnosis anomali dan penilaian status operasional.

Jika aplikasi bisnis tidak menerapkan pemisahan file log, gunakan log stdout Pod.

Pemantauan memori granular

Di Kubernetes, penggunaan memori kontainer real-time diukur dengan Working Set Size (WSS) — metrik yang digunakan Kubernetes untuk penjadwalan dan alokasi resource. WSS mencakup:

  • Komponen memori kernel OS aktif (tidak termasuk memori anonim tidak aktif)

  • Komponen memori lapisan OS

image.png

Pertumbuhan WSS abnormal dapat memicu event PodOOMKilled atau tekanan memori tingkat node dan eviction Pod. Pola umum pada aplikasi Java yang menggunakan Log4J atau Logback dengan konfigurasi new I/O (NIO) dan file memory-mapped (mmap) bawaan:

  • Lonjakan memori anonim dari operasi baca/tulis yang sering di bawah volume log tinggi

  • Lubang hitam alokasi memori yang menyebabkan pertumbuhan WSS tak terlihat

ACK menyediakan pemantauan kontainer tingkat kernel berbasis SysOM untuk mengungkap detail memori lapisan OS. Lihat Amati dan selesaikan masalah memori kontainer melalui SysOM.

Integrasikan metrik aplikasi kustom

Jika tim Anda menulis kode aplikasi, gunakan klien Prometheus untuk mengekspos metrik spesifik bisnis melalui instrumentasi. Kumpulkan dan visualisasikan metrik ini di Prometheus untuk membangun dasbor terpadu bagi tim infrastruktur dan aplikasi, mempercepat respons insiden dan mengurangi Waktu Rata-rata untuk Pemulihan (MTTR).

APM dan pelacakan terdistribusi

Application Real-Time Monitoring Service (ARMS) menyediakan Pemantauan Kinerja Aplikasi (APM) untuk berbagai runtime. Pilih metode integrasi berdasarkan bahasa aplikasi Anda.

BahasaJenis instrumentasiKemampuanPengaturan
JavaNon-intrusif (tanpa perubahan kode)Topologi aplikasi, peta dependensi 3D, pemantauan antarmuka/JVM, penangkapan exception dan transaksi lambatPemantauan aplikasi Java
PythonIntrusif (kode diinstrumentasi)Dukungan Django/Flask/FastAPI; pelacakan AI/LLM LlamaIndex/Langchain; topologi, jejak, diagnostik APIInstal ack-onepilot dan sesuaikan Dockerfile. Lihat Pemantauan aplikasi Python.
GoInstrumentasi binerTopologi aplikasi, analisis query database, pemantauan panggilan APIInstal ack-onepilot dan kompilasi dengan instgo. Lihat Pemantauan aplikasi Go.
OpenTelemetryIntrusifPelacakan terdistribusi end-to-end, analisis permintaan, topologi, dan analisis dependensiManaged Service for OpenTelemetry — lihat Panduan integrasi untuk pengaturan spesifik bahasa.

Pemantauan frontend

Untuk aplikasi web, aplikasi seluler, dan miniapp yang melayani pengguna eksternal, aktifkan fitur Pemantauan Pengguna Nyata (RUM) di ARMS. RUM menyediakan:

  • Rekonstruksi lengkap alur interaksi pengguna

  • Metrik kinerja: kecepatan pemuatan halaman dan pelacakan permintaan API

  • Analisis kegagalan: error JavaScript dan kegagalan jaringan

  • Pemantauan stabilitas: error pemuatan JavaScript, crash, dan error Application Not Responding (ANR)

  • Korelasi log untuk mempercepat diagnosis akar masalah

Lihat Integrasikan aplikasi untuk memulai.

Observabilitas Service Mesh

Alibaba Cloud Service Mesh (ASM) adalah platform service mesh terkelola penuh yang kompatibel dengan Istio open-source. ASM menangani routing dan pemisahan trafik, mengamankan komunikasi antar-layanan, dan menyediakan observabilitas mesh — mengurangi beban pengembangan dan operasi.

ASM mendukung observabilitas siklus hidup penuh lintas tiga fase operasional:

FaseFokus
Hari 0 (perencanaan)Validasi status konfigurasi trafik selama rilis sistem
Hari 1 (penerapan)Pantau distribusi trafik real-time lintas layanan mikro
Hari 2 (maintenance)Tegakkan stabilitas berdasarkan metrik Service Level Objective (SLO)

ASM menyediakan kemampuan observabilitas Service Mesh terpadu melalui pipeline telemetri terkonvergensi:

Observabilitas multi-cloud dan cloud hibrida

Distributed Cloud Container Platform for Kubernetes (ACK One) adalah platform enterprise Alibaba Cloud untuk cloud hibrida, manajemen multi-kluster, komputasi terdistribusi, dan pemulihan bencana. Ini menyediakan:

  • Manajemen kluster lintas infrastruktur di wilayah atau infrastruktur apa pun

  • Tata kelola terpadu untuk komputasi, jaringan, penyimpanan, keamanan, pemantauan, logging, job, aplikasi, dan trafik

  • API selaras komunitas untuk integrasi tanpa hambatan

Observabilitas untuk kluster terdaftar ACK One

Kluster terdaftar ACK One menyediakan kemampuan observabilitas yang sama dengan kluster ACK standar, termasuk integrasi untuk SLS, Event Center, peringatan, ARMS, dan Managed Service for Prometheus.

Kluster terdaftar memerlukan konfigurasi jaringan dan otorisasi tambahan karena lingkungan jaringan heterogen dan sistem izin.

Pemantauan global ACK One Fleet

ACK One Fleet mengagregasi metrik Prometheus dari beberapa kluster ke dalam dasbor pemantauan terpadu melalui instans agregasi global, menghilangkan kebutuhan perbandingan metrik manual lintas kluster. Aktifkan pemantauan global setelah membuat instans ACK One Fleet dan mengaitkannya dengan dua kluster.

Manajemen peringatan terpadu

Kelola aturan peringatan di tingkat Fleet untuk menegakkan konsistensi lintas semua kluster terkait:

  • Manajemen aturan terpusat: Buat atau perbarui aturan peringatan di tingkat Fleet dan sinkronkan otomatis ke kluster terkait.

  • Peringatan diferensiasi: Konfigurasikan aturan peringatan spesifik kluster saat kluster individu memerlukan ambang batas berbeda.

Observabilitas GitOps

Pemantauan Argo Workflows

Argo Workflows adalah mesin workflow cloud-native untuk pemrosesan data batch, pipeline pembelajaran mesin, otomasi infrastruktur, dan CI/CD. Saat menerapkan Argo Workflows di ACK atau menggunakan kluster Kubernetes untuk workflow Argo terdistribusi, aktifkan hal berikut:

  • Persistensi log dengan SLS: Pengumpulan sampah Kubernetes asli membersihkan log Pod dan workflow setelah pembersihan resource. Integrasikan SLS dengan kluster workflow untuk mengumpulkan dan mempertahankan log yang dihasilkan selama eksekusi workflow. Lihat log workflow melalui Argo CLI atau Argo UI.

  • Pemantauan Prometheus: Aktifkan Managed Service for Prometheus untuk status eksekusi workflow dan pemantauan kesehatan kluster.

Observabilitas aplikasi Knative

ACK Knative adalah framework arsitektur tanpa server ACK yang dibangun di atas Knative komunitas. Knative menyediakan auto scaling berbasis permintaan (termasuk scale-to-zero) dan manajemen versi dengan canary rollouts. ACK Knative menambahkan kemampuan seperti mengurangi latensi cold start dengan mempertahankan instans dan peramalan workload melalui Advanced Horizontal Pod Autoscaler (AHPA). Lihat Observabilitas Knative untuk ikhtisar.