Container Service for Kubernetes (ACK) terintegrasi langsung dengan layanan observabilitas Alibaba Cloud, menyediakan metrik, log, dan jejak lintas empat lapisan: infrastruktur, sistem operasi, kontainer/kluster, dan aplikasi.

Pengaturan observabilitas yang direkomendasikan mencakup tiga area stabilitas kluster:
Lapisan kontrol — kesehatan dan kapasitas komponen inti Kubernetes
Bidang data — kesehatan node, penyimpanan, dan komponen jaringan
Aplikasi — status Pod, log, APM, dan pelacakan
Sinyal observabilitas sekilas
Tabel berikut menunjukkan tool mana yang mencakup setiap jenis sinyal di ACK:
| Sinyal | Tool | Cakupan |
|---|---|---|
| Metrik lapisan kontrol | Managed Service for Prometheus | kube-apiserver, etcd, kube-scheduler, kube-controller-manager |
| Log lapisan kontrol | Simple Log Service (SLS) | Penyimpanan log terpusat untuk komponen kluster yang dikelola |
| Event node | ack-node-problem-detector + SLS Event Center | Retensi 90 hari; interval pemeriksaan 1 menit |
| Metrik proses node | CloudMonitor | 5 proses pengguna resource teratas per node |
| Log jurnal OS node | SLS | Log kubelet, kernel, dan mesin kontainer |
| Metrik Kontainer/Pod | Managed Service for Prometheus (kubelet + kube-state-metrics) | CPU, memori, jaringan, penyimpanan per Pod |
| Metrik penyimpanan kontainer | Managed Service for Prometheus + csi-plugin | Volume NAS, CPFS, OSS, dan disk |
| Metrik jaringan kontainer | Managed Service for Prometheus (kubelet) | Trafik inbound/outbound per Pod |
| Log aplikasi | SLS | Pengumpulan log non-intrusif dari stdout atau file log |
| APM / pelacakan terdistribusi | Application Real-Time Monitoring Service (ARMS) | Java, Python, Go, OpenTelemetry |
| Pemantauan frontend | ARMS Real User Monitoring (RUM) | Web, seluler, miniapp |
| Metrik GPU | Managed Service for Prometheus + ack-gpu-exporter | Metrik kompatibel NVIDIA DCGM, GPU bersama dan eksklusif |
| Pemantauan kontainer tingkat kernel | SysOM | Masalah memori, cache halaman, visibilitas tingkat OS |
| Peringatan | Manajemen peringatan ACK | Set aturan pra-konfigurasi untuk node, Pod, workload, dan jaringan |
Daftar periksa penyiapan cepat
Aktifkan kemampuan dasar berikut sebelum mendalami tiap bagian:
Terapkan ack-node-problem-detector untuk pemantauan event node.
Aktifkan Managed Service for Prometheus untuk metrik kluster dan kontainer.
Hubungkan SLS untuk pengumpulan log dari Pod dan komponen lapisan kontrol.
Konfigurasikan alert rule sets untuk pengecualian pada node, Pod, workload, dan jaringan.
Aktifkan plugin CloudMonitor pada kelompok node ECS untuk metrik proses tingkat host.
Setelah mengaktifkan pemantauan event dan pemantauan Prometheus, konfigurasikan kontak dan grup kontak untuk personel yang bertanggung jawab atas kluster atau aplikasi, siapkan aturan peringatan yang sesuai, dan berlangganan objek notifikasi ke grup kontak tersebut.
1. Lapisan kontrol infrastruktur kluster

Lapisan kontrol menangani operasi API, penjadwalan workload, orkestrasi resource Kubernetes, penyediaan resource cloud, dan penyimpanan metadata. Komponen utamanya meliputi kube-apiserver, kube-scheduler, kube-controller-manager, cloud-controller-manager, dan etcd.
ACK sepenuhnya mengelola lapisan kontrol kluster ACK yang dikelola dengan jaminan Service Level Agreement (SLA). Fitur-fitur berikut memberikan visibilitas real-time terhadap kesehatan lapisan kontrol.
Aktifkan pemantauan komponen lapisan kontrol
ACK memperluas API RESTful Kubernetes sehingga klien eksternal dan komponen dalam kluster (seperti Prometheus) dapat mengambil metrik lapisan kontrol.
Managed Service for Prometheus: Gunakan dasbor pemantauan lapisan kontrol siap pakai untuk kluster ACK managed Pro.
Prometheus yang dikelola sendiri: Ikuti Gunakan instans Prometheus yang dikelola sendiri untuk mengumpulkan metrik lapisan kontrol dan mengonfigurasi peringatan.
Kumpulkan log komponen lapisan kontrol
Kluster ACK mendukung logging terpusat ke proyek SLS Anda. Lihat Kumpulkan log komponen lapisan kontrol kluster ACK yang dikelola.
Konfigurasikan manajemen peringatan
ACK menyertakan aturan peringatan bawaan untuk anomali kontainer inti. Untuk menambah atau menyesuaikan aturan:
Sumber data Managed Service for Prometheus, SLS, atau CloudMonitor: Lihat Manajemen peringatan.
Prometheus yang dikelola sendiri: Lihat Praktik terbaik untuk mengonfigurasi aturan peringatan di Prometheus.
2. Bidang data infrastruktur kluster
Node kluster
Node pekerja ACK menyediakan lingkungan resource untuk eksekusi workload. Meskipun Kubernetes memiliki mekanisme bawaan penjadwalan, preemption, dan eviction untuk mentoleransi masalah node sementara, stabilitas komprehensif memerlukan pemantauan proaktif terhadap status node dan beban resource.
Pemantauan event dengan ack-node-problem-detector
ack-node-problem-detector adalah komponen pemantauan event node ACK. Ini menyediakan:
Kompatibilitas penuh dengan Node Problem Detector Kubernetes upstream
Peningkatan khusus ACK untuk lingkungan node kluster, kompatibilitas OS, dan mesin kontainer
Plugin inspeksi node yang ditingkatkan dengan interval pemeriksaan 1 menit
Retensi data event 90 hari melalui Deployment kube-eventer terintegrasi, yang mengalirkan event Kubernetes ke SLS Event Center — melewati retensi bawaan etcd selama 1 jam
Ketika ack-node-problem-detector mendeteksi status node abnormal, jalankan kubectl describe node ${NodeName} untuk memeriksa Condition node, atau lihat daftar node pada halaman Nodes di konsol ACK.
Untuk menerima peringatan tentang kegagalan startup Pod dan titik akhir Service yang tidak tersedia, konfigurasikan manajemen peringatan dan berlangganan notifikasi berbasis event. Pemantauan SLS juga mendukung peringatan event.
Item pemeriksaan yang didukung: Titik kegagalan GPU yang dideteksi oleh ack-node-problem-detector dan Plugin diagnosis node.
Pemantauan tingkat proses ECS untuk node kluster
Tiap node ACK berkorespondensi dengan satu instans ECS. Aktifkan fitur pemantauan proses di CloudMonitor untuk mendapatkan:
Analisis proses historis: 5 proses pengguna resource teratas berdasarkan konsumsi memori, penggunaan CPU, dan deskriptor file terbuka
Pemantauan OS tingkat host: Penggunaan CPU, memori, jaringan, disk, jumlah inode, trafik jaringan, dan jumlah koneksi simultan
Konfigurasi pemantauan proses hanya berlaku untuk node yang ditambahkan setelah Anda mengaktifkan CloudMonitor pada kelompok node.
Metrik host vs. metrik node
Keduanya mengukur penggunaan resource, tetapi berbeda dalam cakupan dan perhitungan:
| Dimensi | Metrik host | Metrik node |
|---|---|---|
| Cakupan | Resource mesin fisik atau virtual | Resource mesin kontainer |
| Pembilang memori | Total memori yang digunakan semua proses (Usage) | Total memori kerja (WorkingSet), termasuk memori yang dialokasikan, memori yang digunakan, dan cache halaman |
| Memory Denominator | Kapasitas memori host (Capacity) | Total memori yang dapat dialokasikan (Allocatable), tidak termasuk resource yang dicadangkan untuk mesin kontainer |
| Rumus | Usage / Capacity | WorkingSet / Allocatable |
Untuk informasi lebih lanjut, lihat Kebijakan pencadangan resource.
Manajemen peringatan untuk anomali node
Aktifkan dan berlangganan set aturan peringatan untuk kesehatan node:
Alert Rule Set for Node Exceptions — kondisi node abnormal
Alert Rule Set for Resource Exceptions — pelanggaran ambang batas penggunaan resource
Konfigurasikan ini melalui manajemen peringatan.
Pemantauan log jurnal OS node
systemd berfungsi sebagai sistem init dan manajer layanan pada node Linux. Komponen jurnalnya menyediakan pengumpulan log sistem, penyimpanan, kueri real-time, dan analisis.
Kumpulkan dan pertahankan log jurnal OS ke SLS dalam skenario seperti:
Pemantauan stabilitas node (kubelet, kernel OS)
Workload yang sensitif terhadap perubahan OS atau mesin kontainer, seperti kontainer yang berjalan dalam mode istimewa, node dengan overcommit resource yang sering, atau workload yang menggunakan resource OS secara langsung
Pemantauan workload GPU dan AI
Untuk pelatihan AI dan tugas pembelajaran mesin, ACK menyediakan pemantauan kesehatan GPU dan pemantauan resource tingkat Pod.
Inspeksi kegagalan GPU: Perbarui ack-node-problem-detector ke V1.2.20 atau lebih baru. Lihat Titik kegagalan GPU yang dideteksi oleh ack-node-problem-detector dan Titik kegagalan GPU umum dan solusinya.
Pemantauan resource GPU: Pemantauan GPU kluster menyediakan konsumsi GPU tingkat Pod melalui komponen ack-gpu-exporter, mengekspos metrik kompatibel NVIDIA DCGM untuk skenario GPU bersama maupun eksklusif. Lihat Pengantar metrik dan Praktik terbaik untuk memantau resource GPU.
Peringatan GPU: Aktifkan manajemen peringatan dan berlangganan peringatan anomali GPU node.
Komponen sistem bidang data kluster
Jaringan kontainer
CoreDNS
CoreDNS adalah komponen penemuan layanan DNS kluster. Pantau:
Penggunaan resource CoreDNS di bidang data
Metrik Responses (by rcode) — kode respons resolusi abnormal termasuk NXDOMAIN, SERVFAIL, dan FormErr
Pengaturan yang direkomendasikan:
Pengguna Managed Service for Prometheus: Gunakan dasbor pemantauan CoreDNS bawaan.
Pengguna Prometheus yang dikelola sendiri: Konfigurasikan pengumpulan metrik menggunakan metode pemantauan CoreDNS komunitas.
Aktifkan manajemen peringatan dan berlangganan:
Alert Rule Set for Network Exceptions — kegagalan reload konfigurasi CoreDNS dan anomali status
Alert Rule Set for Pod Exceptions — status dan masalah resource Pod CoreDNS
Analisis log CoreDNS untuk mendiagnosis resolusi lambat dan permintaan domain berisiko tinggi.
Ingress
Saat menggunakan Ingress untuk routing trafik eksternal, pantau volume trafik dan detail panggilan, serta beri peringatan pada status routing abnormal.
Pemantauan metrik: Gunakan Managed Service for Prometheus dengan controller Ingress ACK untuk dasbor trafik pra-konfigurasi. Pantau dan analisis log Ingress melalui SLS.
Pelacakan: Aktifkan pelacakan Ingress ACK untuk melaporkan telemetri controller NGINX Ingress ke Managed Service for OpenTelemetry guna agregasi real-time, pemetaan topologi, dan penyimpanan jejak persisten. Lihat Aktifkan Xtrace melalui Albconfig untuk pelacakan jejak untuk data jejak Ingress ALB.
Peringatan: Berlangganan Alert Rule Set for Network Exceptions melalui manajemen peringatan.
Pemantauan trafik jaringan kontainer dasar
Kluster ACK mengekspos metrik kontainer standar komunitas melalui kubelet node, mencakup trafik inbound dan outbound Pod, deteksi trafik abnormal, dan pemantauan tingkat paket.
Pod yang dikonfigurasi dengan mode HostNetwork mewarisi perilaku jaringan proses host. Dalam kasus ini, metrik pemantauan kontainer dasar tidak secara akurat mencerminkan trafik jaringan tingkat Pod.
Opsi pemantauan:
Managed Service for Prometheus: Lihat metrik jaringan tingkat Pod langsung di dasbor pemantauan Pod.
Prometheus yang dikelola sendiri: Ambil metrik kubelet menggunakan metode komunitas.
Pemantauan jaringan tingkat ECS: Pantau jaringan host ECS di konsol ECS.
3. Aplikasi pengguna
Pemantauan Pod kontainer
Pod adalah unit dasar penerapan aplikasi di ACK. Status dan konsumsi resource-nya secara langsung memengaruhi kinerja aplikasi.
Metrik Pod berbasis Prometheus: Gunakan Managed Service for Prometheus atau Prometheus yang dikelola sendiri untuk mengumpulkan metrik kontainer standar komunitas dari kubelet node. Gabungkan dengan kube-state-metrics (termasuk dalam Managed Service for Prometheus atau chart Helm prometheus-operator yang disediakan ACK) untuk metrik Pod komprehensif termasuk CPU, memori, penyimpanan, dan jaringan. Kluster ACK yang terintegrasi dengan Managed Service for Prometheus menyertakan dasbor pemantauan Pod siap pakai.
Pemantauan event untuk anomali Pod: Perubahan status Pod memicu event. Aktifkan pemantauan event untuk melacak status abnormal seperti OOM kills dan Pod yang tidak menjadi ready. Lihat data real-time di halaman Event Center dan data historis di SLS (disimpan selama 90 hari). Analisis garis waktu siklus hidup Pod melalui dasbor pemantauan event Pod.
Langganan peringatan: Setelah mengaktifkan manajemen peringatan dan pemantauan event, lakukan langganan. Untuk informasi selengkapnya, lihat Praktik terbaik untuk mengonfigurasi aturan peringatan di Prometheus.
Alert Rule Set for Workload Exceptions
Alert Rule Set for Pod Exceptions
Aturan peringatan Prometheus kustom: Buat aturan kustom untuk ambang batas spesifik aplikasi. Lihat Buat aturan peringatan untuk instans Prometheus dan gunakan contoh PromQL dari Anomali Pod sebagai titik awal.
Pemantauan log aplikasi kontainer
ACK menyediakan pengumpulan log non-intrusif untuk Pod aplikasi. Kumpulkan log aplikasi di kluster ACK dan gunakan fitur analisis log SLS untuk diagnosis anomali dan penilaian status operasional.
Jika aplikasi bisnis tidak menerapkan pemisahan file log, gunakan log stdout Pod.
Pemantauan memori granular
Di Kubernetes, penggunaan memori kontainer real-time diukur dengan Working Set Size (WSS) — metrik yang digunakan Kubernetes untuk penjadwalan dan alokasi resource. WSS mencakup:
Komponen memori kernel OS aktif (tidak termasuk memori anonim tidak aktif)
Komponen memori lapisan OS

Pertumbuhan WSS abnormal dapat memicu event PodOOMKilled atau tekanan memori tingkat node dan eviction Pod. Pola umum pada aplikasi Java yang menggunakan Log4J atau Logback dengan konfigurasi new I/O (NIO) dan file memory-mapped (mmap) bawaan:
Lonjakan memori anonim dari operasi baca/tulis yang sering di bawah volume log tinggi
Lubang hitam alokasi memori yang menyebabkan pertumbuhan WSS tak terlihat
ACK menyediakan pemantauan kontainer tingkat kernel berbasis SysOM untuk mengungkap detail memori lapisan OS. Lihat Amati dan selesaikan masalah memori kontainer melalui SysOM.
Integrasikan metrik aplikasi kustom
Jika tim Anda menulis kode aplikasi, gunakan klien Prometheus untuk mengekspos metrik spesifik bisnis melalui instrumentasi. Kumpulkan dan visualisasikan metrik ini di Prometheus untuk membangun dasbor terpadu bagi tim infrastruktur dan aplikasi, mempercepat respons insiden dan mengurangi Waktu Rata-rata untuk Pemulihan (MTTR).
APM dan pelacakan terdistribusi
Application Real-Time Monitoring Service (ARMS) menyediakan Pemantauan Kinerja Aplikasi (APM) untuk berbagai runtime. Pilih metode integrasi berdasarkan bahasa aplikasi Anda.
| Bahasa | Jenis instrumentasi | Kemampuan | Pengaturan |
|---|---|---|---|
| Java | Non-intrusif (tanpa perubahan kode) | Topologi aplikasi, peta dependensi 3D, pemantauan antarmuka/JVM, penangkapan exception dan transaksi lambat | Pemantauan aplikasi Java |
| Python | Intrusif (kode diinstrumentasi) | Dukungan Django/Flask/FastAPI; pelacakan AI/LLM LlamaIndex/Langchain; topologi, jejak, diagnostik API | Instal ack-onepilot dan sesuaikan Dockerfile. Lihat Pemantauan aplikasi Python. |
| Go | Instrumentasi biner | Topologi aplikasi, analisis query database, pemantauan panggilan API | Instal ack-onepilot dan kompilasi dengan instgo. Lihat Pemantauan aplikasi Go. |
| OpenTelemetry | Intrusif | Pelacakan terdistribusi end-to-end, analisis permintaan, topologi, dan analisis dependensi | Managed Service for OpenTelemetry — lihat Panduan integrasi untuk pengaturan spesifik bahasa. |
Pemantauan frontend
Untuk aplikasi web, aplikasi seluler, dan miniapp yang melayani pengguna eksternal, aktifkan fitur Pemantauan Pengguna Nyata (RUM) di ARMS. RUM menyediakan:
Rekonstruksi lengkap alur interaksi pengguna
Metrik kinerja: kecepatan pemuatan halaman dan pelacakan permintaan API
Analisis kegagalan: error JavaScript dan kegagalan jaringan
Pemantauan stabilitas: error pemuatan JavaScript, crash, dan error Application Not Responding (ANR)
Korelasi log untuk mempercepat diagnosis akar masalah
Lihat Integrasikan aplikasi untuk memulai.
Observabilitas Service Mesh
Alibaba Cloud Service Mesh (ASM) adalah platform service mesh terkelola penuh yang kompatibel dengan Istio open-source. ASM menangani routing dan pemisahan trafik, mengamankan komunikasi antar-layanan, dan menyediakan observabilitas mesh — mengurangi beban pengembangan dan operasi.
ASM mendukung observabilitas siklus hidup penuh lintas tiga fase operasional:
| Fase | Fokus |
|---|---|
| Hari 0 (perencanaan) | Validasi status konfigurasi trafik selama rilis sistem |
| Hari 1 (penerapan) | Pantau distribusi trafik real-time lintas layanan mikro |
| Hari 2 (maintenance) | Tegakkan stabilitas berdasarkan metrik Service Level Objective (SLO) |
ASM menyediakan kemampuan observabilitas Service Mesh terpadu melalui pipeline telemetri terkonvergensi:
Pemantauan lapisan kontrol:
Diagnostik: Diagnosis instans ASM untuk mendeteksi anomali yang dapat memengaruhi fungsi service mesh.
Peringatan: Konfigurasikan peringatan log anomali real-time untuk respons cepat.
Observabilitas bidang data:
Log akses: Kumpulkan permintaan akses bidang data melalui SLS untuk analisis log terpusat dan visualisasi dasbor.
Metrik Prometheus: Kumpulkan metrik bidang data ke Managed Service for Prometheus untuk status gerbang, error mesh global, error tingkat layanan, dan pemantauan workload. Lihat Integrasikan Managed Service for Prometheus untuk memantau instans ASM.
Topologi jaringan layanan mikro: Gunakan metrik Prometheus bidang data sebagai sumber untuk memvisualisasikan trafik dan latensi antar layanan mikro melalui Mesh Topology.
Manajemen SLO: Definisikan SLO untuk mengkuantifikasi kinerja layanan mikro, lacak pola tingkat error dan latensi, serta terus-menerus menilai kesehatan layanan. Lihat Manajemen SLO.
Pelacakan terdistribusi: Instrumentasikan kode aplikasi dengan OpenTelemetry dan aktifkan pelacakan terdistribusi di ASM untuk analisis permintaan end-to-end dan pemetaan dependensi.
Observabilitas multi-cloud dan cloud hibrida
Distributed Cloud Container Platform for Kubernetes (ACK One) adalah platform enterprise Alibaba Cloud untuk cloud hibrida, manajemen multi-kluster, komputasi terdistribusi, dan pemulihan bencana. Ini menyediakan:
Manajemen kluster lintas infrastruktur di wilayah atau infrastruktur apa pun
Tata kelola terpadu untuk komputasi, jaringan, penyimpanan, keamanan, pemantauan, logging, job, aplikasi, dan trafik
API selaras komunitas untuk integrasi tanpa hambatan
Observabilitas untuk kluster terdaftar ACK One
Kluster terdaftar ACK One menyediakan kemampuan observabilitas yang sama dengan kluster ACK standar, termasuk integrasi untuk SLS, Event Center, peringatan, ARMS, dan Managed Service for Prometheus.
Kluster terdaftar memerlukan konfigurasi jaringan dan otorisasi tambahan karena lingkungan jaringan heterogen dan sistem izin.
Pemantauan global ACK One Fleet
ACK One Fleet mengagregasi metrik Prometheus dari beberapa kluster ke dalam dasbor pemantauan terpadu melalui instans agregasi global, menghilangkan kebutuhan perbandingan metrik manual lintas kluster. Aktifkan pemantauan global setelah membuat instans ACK One Fleet dan mengaitkannya dengan dua kluster.
Manajemen peringatan terpadu
Kelola aturan peringatan di tingkat Fleet untuk menegakkan konsistensi lintas semua kluster terkait:
Manajemen aturan terpusat: Buat atau perbarui aturan peringatan di tingkat Fleet dan sinkronkan otomatis ke kluster terkait.
Peringatan diferensiasi: Konfigurasikan aturan peringatan spesifik kluster saat kluster individu memerlukan ambang batas berbeda.
Observabilitas GitOps
Pemantauan Fleet: Lacak kesehatan komponen inti (APIServer, etcd) dan operasi serta kinerja Argo CD yang dikelola penuh.
Aktifkan koleksi log audit dan lapisan kontrol GitOps dan konfigurasikan peringatan Argo CD.
Pemantauan Argo Workflows
Argo Workflows adalah mesin workflow cloud-native untuk pemrosesan data batch, pipeline pembelajaran mesin, otomasi infrastruktur, dan CI/CD. Saat menerapkan Argo Workflows di ACK atau menggunakan kluster Kubernetes untuk workflow Argo terdistribusi, aktifkan hal berikut:
Persistensi log dengan SLS: Pengumpulan sampah Kubernetes asli membersihkan log Pod dan workflow setelah pembersihan resource. Integrasikan SLS dengan kluster workflow untuk mengumpulkan dan mempertahankan log yang dihasilkan selama eksekusi workflow. Lihat log workflow melalui Argo CLI atau Argo UI.
Pemantauan Prometheus: Aktifkan Managed Service for Prometheus untuk status eksekusi workflow dan pemantauan kesehatan kluster.
Observabilitas aplikasi Knative
ACK Knative adalah framework arsitektur tanpa server ACK yang dibangun di atas Knative komunitas. Knative menyediakan auto scaling berbasis permintaan (termasuk scale-to-zero) dan manajemen versi dengan canary rollouts. ACK Knative menambahkan kemampuan seperti mengurangi latensi cold start dengan mempertahankan instans dan peramalan workload melalui Advanced Horizontal Pod Autoscaler (AHPA). Lihat Observabilitas Knative untuk ikhtisar.
Pengumpulan log: Kluster ACK terintegrasi dengan SLS untuk pengumpulan log non-intrusif. Terapkan pengumpulan log pada Knative melalui DaemonSet untuk menjalankan agen log secara otomatis di tiap node.
Pemantauan Prometheus: Setelah menerapkan aplikasi Knative, lihat data Knative real-time di dasbor Grafana — termasuk tren penskalaan Pod, latensi respons, konkurensi permintaan, dan penggunaan CPU/memori.