Monitor kluster ACK dengan Prometheus & APM-Container Service for Kubernetes

Container Service for Kubernetes (ACK) terintegrasi langsung dengan layanan observabilitas Alibaba Cloud, menyediakan metrik, log, dan jejak lintas empat lapisan: infrastruktur, sistem operasi, kontainer/kluster, dan aplikasi.

Pengaturan observabilitas yang direkomendasikan mencakup tiga area stabilitas kluster:

Lapisan kontrol — kesehatan dan kapasitas komponen inti Kubernetes
Bidang data — kesehatan node, penyimpanan, dan komponen jaringan
Aplikasi — status Pod, log, APM, dan pelacakan

Sinyal observabilitas sekilas

Tabel berikut menunjukkan tool mana yang mencakup setiap jenis sinyal di ACK:

Sinyal	Tool	Cakupan
Metrik lapisan kontrol	Managed Service for Prometheus	kube-apiserver, etcd, kube-scheduler, kube-controller-manager
Log lapisan kontrol	Simple Log Service (SLS)	Penyimpanan log terpusat untuk komponen kluster yang dikelola
Event node	ack-node-problem-detector + SLS Event Center	Retensi 90 hari; interval pemeriksaan 1 menit
Metrik proses node	CloudMonitor	5 proses pengguna resource teratas per node
Log jurnal OS node	SLS	Log kubelet, kernel, dan mesin kontainer
Metrik Kontainer/Pod	Managed Service for Prometheus (kubelet + kube-state-metrics)	CPU, memori, jaringan, penyimpanan per Pod
Metrik penyimpanan kontainer	Managed Service for Prometheus + csi-plugin	Volume NAS, CPFS, OSS, dan disk
Metrik jaringan kontainer	Managed Service for Prometheus (kubelet)	Trafik inbound/outbound per Pod
Log aplikasi	SLS	Pengumpulan log non-intrusif dari stdout atau file log
APM / pelacakan terdistribusi	Application Real-Time Monitoring Service (ARMS)	Java, Python, Go, OpenTelemetry
Pemantauan frontend	ARMS Real User Monitoring (RUM)	Web, seluler, miniapp
Metrik GPU	Managed Service for Prometheus + ack-gpu-exporter	Metrik kompatibel NVIDIA DCGM, GPU bersama dan eksklusif
Pemantauan kontainer tingkat kernel	SysOM	Masalah memori, cache halaman, visibilitas tingkat OS
Peringatan	Manajemen peringatan ACK	Set aturan pra-konfigurasi untuk node, Pod, workload, dan jaringan

Daftar periksa penyiapan cepat

Aktifkan kemampuan dasar berikut sebelum mendalami tiap bagian:

Terapkan ack-node-problem-detector untuk pemantauan event node.
Aktifkan Managed Service for Prometheus untuk metrik kluster dan kontainer.
Hubungkan SLS untuk pengumpulan log dari Pod dan komponen lapisan kontrol.
Konfigurasikan alert rule sets untuk pengecualian pada node, Pod, workload, dan jaringan.
Aktifkan plugin CloudMonitor pada kelompok node ECS untuk metrik proses tingkat host.

Setelah mengaktifkan pemantauan event dan pemantauan Prometheus, konfigurasikan kontak dan grup kontak untuk personel yang bertanggung jawab atas kluster atau aplikasi, siapkan aturan peringatan yang sesuai, dan berlangganan objek notifikasi ke grup kontak tersebut.

1. Lapisan kontrol infrastruktur kluster

Lapisan kontrol menangani operasi API, penjadwalan workload, orkestrasi resource Kubernetes, penyediaan resource cloud, dan penyimpanan metadata. Komponen utamanya meliputi kube-apiserver, kube-scheduler, kube-controller-manager, cloud-controller-manager, dan etcd.

ACK sepenuhnya mengelola lapisan kontrol kluster ACK yang dikelola dengan jaminan Service Level Agreement (SLA). Fitur-fitur berikut memberikan visibilitas real-time terhadap kesehatan lapisan kontrol.

Aktifkan pemantauan komponen lapisan kontrol

ACK memperluas API RESTful Kubernetes sehingga klien eksternal dan komponen dalam kluster (seperti Prometheus) dapat mengambil metrik lapisan kontrol.

Managed Service for Prometheus: Gunakan dasbor pemantauan lapisan kontrol siap pakai untuk kluster ACK managed Pro.
Prometheus yang dikelola sendiri: Ikuti Gunakan instans Prometheus yang dikelola sendiri untuk mengumpulkan metrik lapisan kontrol dan mengonfigurasi peringatan.

Kumpulkan log komponen lapisan kontrol

Kluster ACK mendukung logging terpusat ke proyek SLS Anda. Lihat Kumpulkan log komponen lapisan kontrol kluster ACK yang dikelola.

Konfigurasikan manajemen peringatan

ACK menyertakan aturan peringatan bawaan untuk anomali kontainer inti. Untuk menambah atau menyesuaikan aturan:

Sumber data Managed Service for Prometheus, SLS, atau CloudMonitor: Lihat Manajemen peringatan.
Prometheus yang dikelola sendiri: Lihat Praktik terbaik untuk mengonfigurasi aturan peringatan di Prometheus.

2. Bidang data infrastruktur kluster

Node kluster

Node pekerja ACK menyediakan lingkungan resource untuk eksekusi workload. Meskipun Kubernetes memiliki mekanisme bawaan penjadwalan, preemption, dan eviction untuk mentoleransi masalah node sementara, stabilitas komprehensif memerlukan pemantauan proaktif terhadap status node dan beban resource.

Pemantauan event dengan ack-node-problem-detector

ack-node-problem-detector adalah komponen pemantauan event node ACK. Ini menyediakan:

Kompatibilitas penuh dengan Node Problem Detector Kubernetes upstream
Peningkatan khusus ACK untuk lingkungan node kluster, kompatibilitas OS, dan mesin kontainer
Plugin inspeksi node yang ditingkatkan dengan interval pemeriksaan 1 menit
Retensi data event 90 hari melalui Deployment kube-eventer terintegrasi, yang mengalirkan event Kubernetes ke SLS Event Center — melewati retensi bawaan etcd selama 1 jam

Ketika ack-node-problem-detector mendeteksi status node abnormal, jalankan kubectl describe node ${NodeName} untuk memeriksa Condition node, atau lihat daftar node pada halaman Nodes di konsol ACK.

Untuk menerima peringatan tentang kegagalan startup Pod dan titik akhir Service yang tidak tersedia, konfigurasikan manajemen peringatan dan berlangganan notifikasi berbasis event. Pemantauan SLS juga mendukung peringatan event.

Item pemeriksaan yang didukung: Titik kegagalan GPU yang dideteksi oleh ack-node-problem-detector dan Plugin diagnosis node.

Pemantauan tingkat proses ECS untuk node kluster

Tiap node ACK berkorespondensi dengan satu instans ECS. Aktifkan fitur pemantauan proses di CloudMonitor untuk mendapatkan:

Analisis proses historis: 5 proses pengguna resource teratas berdasarkan konsumsi memori, penggunaan CPU, dan deskriptor file terbuka
Pemantauan OS tingkat host: Penggunaan CPU, memori, jaringan, disk, jumlah inode, trafik jaringan, dan jumlah koneksi simultan

Penting

Konfigurasi pemantauan proses hanya berlaku untuk node yang ditambahkan setelah Anda mengaktifkan CloudMonitor pada kelompok node.

Metrik host vs. metrik node

Keduanya mengukur penggunaan resource, tetapi berbeda dalam cakupan dan perhitungan:

Dimensi	Metrik host	Metrik node
Cakupan	Resource mesin fisik atau virtual	Resource mesin kontainer
Pembilang memori	Total memori yang digunakan semua proses (`Usage`)	Total memori kerja (`WorkingSet`), termasuk memori yang dialokasikan, memori yang digunakan, dan cache halaman
Memory Denominator	Kapasitas memori host (`Capacity`)	Total memori yang dapat dialokasikan (`Allocatable`), tidak termasuk resource yang dicadangkan untuk mesin kontainer
Rumus	`Usage / Capacity`	`WorkingSet / Allocatable`

Untuk informasi lebih lanjut, lihat Kebijakan pencadangan resource.

Manajemen peringatan untuk anomali node

Aktifkan dan berlangganan set aturan peringatan untuk kesehatan node:

Alert Rule Set for Node Exceptions — kondisi node abnormal
Alert Rule Set for Resource Exceptions — pelanggaran ambang batas penggunaan resource

Konfigurasikan ini melalui manajemen peringatan.

Pemantauan log jurnal OS node

systemd berfungsi sebagai sistem init dan manajer layanan pada node Linux. Komponen jurnalnya menyediakan pengumpulan log sistem, penyimpanan, kueri real-time, dan analisis.

Kumpulkan dan pertahankan log jurnal OS ke SLS dalam skenario seperti:

Pemantauan stabilitas node (kubelet, kernel OS)
Workload yang sensitif terhadap perubahan OS atau mesin kontainer, seperti kontainer yang berjalan dalam mode istimewa, node dengan overcommit resource yang sering, atau workload yang menggunakan resource OS secara langsung

Lihat Kumpulkan log jurnal systemd node.

Pemantauan workload GPU dan AI

Untuk pelatihan AI dan tugas pembelajaran mesin, ACK menyediakan pemantauan kesehatan GPU dan pemantauan resource tingkat Pod.

Inspeksi kegagalan GPU: Perbarui ack-node-problem-detector ke V1.2.20 atau lebih baru. Lihat Titik kegagalan GPU yang dideteksi oleh ack-node-problem-detector dan Titik kegagalan GPU umum dan solusinya.
Pemantauan resource GPU: Pemantauan GPU kluster menyediakan konsumsi GPU tingkat Pod melalui komponen ack-gpu-exporter, mengekspos metrik kompatibel NVIDIA DCGM untuk skenario GPU bersama maupun eksklusif. Lihat Pengantar metrik dan Praktik terbaik untuk memantau resource GPU.
Peringatan GPU: Aktifkan manajemen peringatan dan berlangganan peringatan anomali GPU node.

Komponen sistem bidang data kluster

Penyimpanan kontainer

ACK mendukung jenis penyimpanan berikut:

Penyimpanan lokal node: Disk sistem, disk data, volume HostPath (tidak dipantau oleh Kubernetes — memerlukan pemantauan manual), dan volume emptyDir (dikelola melalui Permintaan dan Batas Penyimpanan Ephemeral). Pemantauan penyimpanan ephemeral mencakup: volume emptyDir non-tmpfs, file log Pod pada node, dan layer yang dapat ditulis semua kontainer dalam Pod.
Secret/ConfigMap: Digunakan untuk metadata resource kluster; tidak memerlukan pemantauan penyimpanan ketat.
Penyimpanan eksternal melalui PersistentVolumes (PV) dan PersistentVolumeClaims (PVC): Volume disk tambahan, volume NAS (Network Attached Storage), volume Cloud Parallel File Storage (CPFS), dan volume Object Storage Service (OSS).

Komponen csi-plugin mengekspos metrik pemantauan untuk semua jenis penyimpanan yang didukung, yang dikumpulkan Managed Service for Prometheus ke dalam dasbor siap pakai. Untuk gambaran lengkap jenis penyimpanan yang didukung dan tidak didukung, lihat Ikhtisar pemantauan penyimpanan kontainer.

Jaringan kontainer

CoreDNS

CoreDNS adalah komponen penemuan layanan DNS kluster. Pantau:

Penggunaan resource CoreDNS di bidang data
Metrik Responses (by rcode) — kode respons resolusi abnormal termasuk NXDOMAIN, SERVFAIL, dan FormErr

Pengaturan yang direkomendasikan:

Pengguna Managed Service for Prometheus: Gunakan dasbor pemantauan CoreDNS bawaan.
Pengguna Prometheus yang dikelola sendiri: Konfigurasikan pengumpulan metrik menggunakan metode pemantauan CoreDNS komunitas.
Aktifkan manajemen peringatan dan berlangganan:
- Alert Rule Set for Network Exceptions — kegagalan reload konfigurasi CoreDNS dan anomali status
- Alert Rule Set for Pod Exceptions — status dan masalah resource Pod CoreDNS
Analisis log CoreDNS untuk mendiagnosis resolusi lambat dan permintaan domain berisiko tinggi.

Ingress

Saat menggunakan Ingress untuk routing trafik eksternal, pantau volume trafik dan detail panggilan, serta beri peringatan pada status routing abnormal.

Pemantauan metrik: Gunakan Managed Service for Prometheus dengan controller Ingress ACK untuk dasbor trafik pra-konfigurasi. Pantau dan analisis log Ingress melalui SLS.
Pelacakan: Aktifkan pelacakan Ingress ACK untuk melaporkan telemetri controller NGINX Ingress ke Managed Service for OpenTelemetry guna agregasi real-time, pemetaan topologi, dan penyimpanan jejak persisten. Lihat Aktifkan Xtrace melalui Albconfig untuk pelacakan jejak untuk data jejak Ingress ALB.
Peringatan: Berlangganan Alert Rule Set for Network Exceptions melalui manajemen peringatan.

Pemantauan trafik jaringan kontainer dasar

Kluster ACK mengekspos metrik kontainer standar komunitas melalui kubelet node, mencakup trafik inbound dan outbound Pod, deteksi trafik abnormal, dan pemantauan tingkat paket.

Pod yang dikonfigurasi dengan mode HostNetwork mewarisi perilaku jaringan proses host. Dalam kasus ini, metrik pemantauan kontainer dasar tidak secara akurat mencerminkan trafik jaringan tingkat Pod.

Opsi pemantauan:

Managed Service for Prometheus: Lihat metrik jaringan tingkat Pod langsung di dasbor pemantauan Pod.
Prometheus yang dikelola sendiri: Ambil metrik kubelet menggunakan metode komunitas.
Pemantauan jaringan tingkat ECS: Pantau jaringan host ECS di konsol ECS.

3. Aplikasi pengguna

Pemantauan Pod kontainer

Pod adalah unit dasar penerapan aplikasi di ACK. Status dan konsumsi resource-nya secara langsung memengaruhi kinerja aplikasi.

Metrik Pod berbasis Prometheus: Gunakan Managed Service for Prometheus atau Prometheus yang dikelola sendiri untuk mengumpulkan metrik kontainer standar komunitas dari kubelet node. Gabungkan dengan kube-state-metrics (termasuk dalam Managed Service for Prometheus atau chart Helm prometheus-operator yang disediakan ACK) untuk metrik Pod komprehensif termasuk CPU, memori, penyimpanan, dan jaringan. Kluster ACK yang terintegrasi dengan Managed Service for Prometheus menyertakan dasbor pemantauan Pod siap pakai.
Pemantauan event untuk anomali Pod: Perubahan status Pod memicu event. Aktifkan pemantauan event untuk melacak status abnormal seperti OOM kills dan Pod yang tidak menjadi ready. Lihat data real-time di halaman Event Center dan data historis di SLS (disimpan selama 90 hari). Analisis garis waktu siklus hidup Pod melalui dasbor pemantauan event Pod.
Langganan peringatan: Setelah mengaktifkan manajemen peringatan dan pemantauan event, lakukan langganan. Untuk informasi selengkapnya, lihat Praktik terbaik untuk mengonfigurasi aturan peringatan di Prometheus.
- Alert Rule Set for Workload Exceptions
- Alert Rule Set for Pod Exceptions
Aturan peringatan Prometheus kustom: Buat aturan kustom untuk ambang batas spesifik aplikasi. Lihat Buat aturan peringatan untuk instans Prometheus dan gunakan contoh PromQL dari Anomali Pod sebagai titik awal.

Pemantauan log aplikasi kontainer

ACK menyediakan pengumpulan log non-intrusif untuk Pod aplikasi. Kumpulkan log aplikasi di kluster ACK dan gunakan fitur analisis log SLS untuk diagnosis anomali dan penilaian status operasional.

Jika aplikasi bisnis tidak menerapkan pemisahan file log, gunakan log stdout Pod.

Pemantauan memori granular

Di Kubernetes, penggunaan memori kontainer real-time diukur dengan Working Set Size (WSS) — metrik yang digunakan Kubernetes untuk penjadwalan dan alokasi resource. WSS mencakup:

Komponen memori kernel OS aktif (tidak termasuk memori anonim tidak aktif)
Komponen memori lapisan OS

Pertumbuhan WSS abnormal dapat memicu event PodOOMKilled atau tekanan memori tingkat node dan eviction Pod. Pola umum pada aplikasi Java yang menggunakan Log4J atau Logback dengan konfigurasi new I/O (NIO) dan file memory-mapped (mmap) bawaan:

Lonjakan memori anonim dari operasi baca/tulis yang sering di bawah volume log tinggi
Lubang hitam alokasi memori yang menyebabkan pertumbuhan WSS tak terlihat

ACK menyediakan pemantauan kontainer tingkat kernel berbasis SysOM untuk mengungkap detail memori lapisan OS. Lihat Amati dan selesaikan masalah memori kontainer melalui SysOM.

Integrasikan metrik aplikasi kustom

Jika tim Anda menulis kode aplikasi, gunakan klien Prometheus untuk mengekspos metrik spesifik bisnis melalui instrumentasi. Kumpulkan dan visualisasikan metrik ini di Prometheus untuk membangun dasbor terpadu bagi tim infrastruktur dan aplikasi, mempercepat respons insiden dan mengurangi Waktu Rata-rata untuk Pemulihan (MTTR).

APM dan pelacakan terdistribusi

Application Real-Time Monitoring Service (ARMS) menyediakan Pemantauan Kinerja Aplikasi (APM) untuk berbagai runtime. Pilih metode integrasi berdasarkan bahasa aplikasi Anda.

Bahasa	Jenis instrumentasi	Kemampuan	Pengaturan
Java	Non-intrusif (tanpa perubahan kode)	Topologi aplikasi, peta dependensi 3D, pemantauan antarmuka/JVM, penangkapan exception dan transaksi lambat	Pemantauan aplikasi Java
Python	Intrusif (kode diinstrumentasi)	Dukungan Django/Flask/FastAPI; pelacakan AI/LLM LlamaIndex/Langchain; topologi, jejak, diagnostik API	Instal ack-onepilot dan sesuaikan Dockerfile. Lihat Pemantauan aplikasi Python.
Go	Instrumentasi biner	Topologi aplikasi, analisis query database, pemantauan panggilan API	Instal ack-onepilot dan kompilasi dengan `instgo`. Lihat Pemantauan aplikasi Go.
OpenTelemetry	Intrusif	Pelacakan terdistribusi end-to-end, analisis permintaan, topologi, dan analisis dependensi	Managed Service for OpenTelemetry — lihat Panduan integrasi untuk pengaturan spesifik bahasa.

Pemantauan frontend

Untuk aplikasi web, aplikasi seluler, dan miniapp yang melayani pengguna eksternal, aktifkan fitur Pemantauan Pengguna Nyata (RUM) di ARMS. RUM menyediakan:

Rekonstruksi lengkap alur interaksi pengguna
Metrik kinerja: kecepatan pemuatan halaman dan pelacakan permintaan API
Analisis kegagalan: error JavaScript dan kegagalan jaringan
Pemantauan stabilitas: error pemuatan JavaScript, crash, dan error Application Not Responding (ANR)
Korelasi log untuk mempercepat diagnosis akar masalah

Lihat Integrasikan aplikasi untuk memulai.

Observabilitas Service Mesh

Alibaba Cloud Service Mesh (ASM) adalah platform service mesh terkelola penuh yang kompatibel dengan Istio open-source. ASM menangani routing dan pemisahan trafik, mengamankan komunikasi antar-layanan, dan menyediakan observabilitas mesh — mengurangi beban pengembangan dan operasi.

ASM mendukung observabilitas siklus hidup penuh lintas tiga fase operasional:

Fase	Fokus
Hari 0 (perencanaan)	Validasi status konfigurasi trafik selama rilis sistem
Hari 1 (penerapan)	Pantau distribusi trafik real-time lintas layanan mikro
Hari 2 (maintenance)	Tegakkan stabilitas berdasarkan metrik Service Level Objective (SLO)

ASM menyediakan kemampuan observabilitas Service Mesh terpadu melalui pipeline telemetri terkonvergensi:

Pemantauan lapisan kontrol:
- Diagnostik: Diagnosis instans ASM untuk mendeteksi anomali yang dapat memengaruhi fungsi service mesh.
- Peringatan: Konfigurasikan peringatan log anomali real-time untuk respons cepat.
Observabilitas bidang data:
- Log akses: Kumpulkan permintaan akses bidang data melalui SLS untuk analisis log terpusat dan visualisasi dasbor.
- Metrik Prometheus: Kumpulkan metrik bidang data ke Managed Service for Prometheus untuk status gerbang, error mesh global, error tingkat layanan, dan pemantauan workload. Lihat Integrasikan Managed Service for Prometheus untuk memantau instans ASM.
Topologi jaringan layanan mikro: Gunakan metrik Prometheus bidang data sebagai sumber untuk memvisualisasikan trafik dan latensi antar layanan mikro melalui Mesh Topology.
Manajemen SLO: Definisikan SLO untuk mengkuantifikasi kinerja layanan mikro, lacak pola tingkat error dan latensi, serta terus-menerus menilai kesehatan layanan. Lihat Manajemen SLO.
Pelacakan terdistribusi: Instrumentasikan kode aplikasi dengan OpenTelemetry dan aktifkan pelacakan terdistribusi di ASM untuk analisis permintaan end-to-end dan pemetaan dependensi.

Observabilitas multi-cloud dan cloud hibrida

Distributed Cloud Container Platform for Kubernetes (ACK One) adalah platform enterprise Alibaba Cloud untuk cloud hibrida, manajemen multi-kluster, komputasi terdistribusi, dan pemulihan bencana. Ini menyediakan:

Manajemen kluster lintas infrastruktur di wilayah atau infrastruktur apa pun
Tata kelola terpadu untuk komputasi, jaringan, penyimpanan, keamanan, pemantauan, logging, job, aplikasi, dan trafik
API selaras komunitas untuk integrasi tanpa hambatan

Observabilitas untuk kluster terdaftar ACK One

Kluster terdaftar ACK One menyediakan kemampuan observabilitas yang sama dengan kluster ACK standar, termasuk integrasi untuk SLS, Event Center, peringatan, ARMS, dan Managed Service for Prometheus.

Kluster terdaftar memerlukan konfigurasi jaringan dan otorisasi tambahan karena lingkungan jaringan heterogen dan sistem izin.

Pemantauan global ACK One Fleet

ACK One Fleet mengagregasi metrik Prometheus dari beberapa kluster ke dalam dasbor pemantauan terpadu melalui instans agregasi global, menghilangkan kebutuhan perbandingan metrik manual lintas kluster. Aktifkan pemantauan global setelah membuat instans ACK One Fleet dan mengaitkannya dengan dua kluster.

Manajemen peringatan terpadu

Kelola aturan peringatan di tingkat Fleet untuk menegakkan konsistensi lintas semua kluster terkait:

Manajemen aturan terpusat: Buat atau perbarui aturan peringatan di tingkat Fleet dan sinkronkan otomatis ke kluster terkait.
Peringatan diferensiasi: Konfigurasikan aturan peringatan spesifik kluster saat kluster individu memerlukan ambang batas berbeda.

Observabilitas GitOps

Pemantauan Fleet: Lacak kesehatan komponen inti (APIServer, etcd) dan operasi serta kinerja Argo CD yang dikelola penuh.
Aktifkan koleksi log audit dan lapisan kontrol GitOps dan konfigurasikan peringatan Argo CD.

Pemantauan Argo Workflows

Argo Workflows adalah mesin workflow cloud-native untuk pemrosesan data batch, pipeline pembelajaran mesin, otomasi infrastruktur, dan CI/CD. Saat menerapkan Argo Workflows di ACK atau menggunakan kluster Kubernetes untuk workflow Argo terdistribusi, aktifkan hal berikut:

Persistensi log dengan SLS: Pengumpulan sampah Kubernetes asli membersihkan log Pod dan workflow setelah pembersihan resource. Integrasikan SLS dengan kluster workflow untuk mengumpulkan dan mempertahankan log yang dihasilkan selama eksekusi workflow. Lihat log workflow melalui Argo CLI atau Argo UI.
Pemantauan Prometheus: Aktifkan Managed Service for Prometheus untuk status eksekusi workflow dan pemantauan kesehatan kluster.

Observabilitas aplikasi Knative

ACK Knative adalah framework arsitektur tanpa server ACK yang dibangun di atas Knative komunitas. Knative menyediakan auto scaling berbasis permintaan (termasuk scale-to-zero) dan manajemen versi dengan canary rollouts. ACK Knative menambahkan kemampuan seperti mengurangi latensi cold start dengan mempertahankan instans dan peramalan workload melalui Advanced Horizontal Pod Autoscaler (AHPA). Lihat Observabilitas Knative untuk ikhtisar.

Pengumpulan log: Kluster ACK terintegrasi dengan SLS untuk pengumpulan log non-intrusif. Terapkan pengumpulan log pada Knative melalui DaemonSet untuk menjalankan agen log secara otomatis di tiap node.
Pemantauan Prometheus: Setelah menerapkan aplikasi Knative, lihat data Knative real-time di dasbor Grafana — termasuk tren penskalaan Pod, latensi respons, konkurensi permintaan, dan penggunaan CPU/memori.