Peningkatan ARMS Prometheus Helm 1.1.17 Agen v4.0.0 - Managed Service for Prometheus

ARMS Prometheus Helm 1.1.17 / Agen v4.0.0 meningkatkan stabilitas pengumpulan data, memperbaiki bug yang diketahui, dan mengoptimalkan konsumsi sumber daya.

Penting

Jika kluster Anda menjalankan Agen ARMS Prometheus v3.x.x, segera tingkatkan ke versi terbaru. Versi lama menggunakan komponen yang belum dioptimalkan dan berisiko mengalami pemutusan data.

Fitur v4.0.0

Jenis Perubahan	Konten Rilis
New Feature	Tugas pengumpulan event kluster. Mendukung Dasbor Kubernetes Deployment.
New Feature	Instrumen metrik pemantauan mandiri berbasis SLA. Menyediakan data dasbor stabilitas SLA.
New Feature	ServiceMonitor mendukung otentikasi BasicAuth. Secret harus berada dalam namespace yang sama dengan ServiceMonitor.
New Feature	Metadata Metrik menampilkan definisi metrik.
New Feature	Meneruskan versi Chart Agen ke server, yang kemudian menginisialisasi atau meningkatkan dasbor sesuai versi tersebut.
New Feature	Metrik pemantauan mandiri RemoteWrite. Mencatat waktu yang dihabiskan untuk mengirim data per batch.
Add	Metrik pemantauan mandiri untuk kesalahan pengumpulan metrik dasar dan keterlambatan pengumpulan.
New Feature	Metrik pemantauan mandiri untuk kesalahan dan keterlambatan pengumpulan metrik bisnis.
Optimization	Nilai default `queue_config` RemoteWrite: `min_shards=10`, `max_samples_per_send=5000`, `capacity=10000`. Meningkatkan kemampuan adaptasi untuk kluster berskala besar.
Optimization	Penemuan layanan Job CSI untuk pengumpulan PV.
Optimization	Mengurangi frekuensi `syncWorkersSeries` dalam SenderLoop untuk meminimalkan gangguan yang tidak perlu.
Optimization	Menyederhanakan log dan menambahkan informasi timing detail untuk tautan scrape.
Optimization	Job pengumpulan metrik dasar menggunakan siklus pengumpulan dan pengaturan timeout khusus, bukan konfigurasi global.
Optimization	Isolasi multi-replika Master-Worker. Master dan Worker, serta Worker dan Worker tidak saling memengaruhi lagi.
Optimization	Distribusi Target Master yang dioptimalkan. Menghemat overhead CPU ~30% dan memori ~40%.
Optimization	Optimasi relabel metrik. Penggunaan CPU berkurang hingga 70%.
Optimization	Logika pendengar Informer dalam skenario multi-tenant. Menghemat overhead CPU ~20%.
Optimization	Fallback ke IP cache saat resolusi CoreDNS gagal. Meningkatkan stabilitas pengiriman data.
Optimization	Meningkatkan stabilitas distribusi SendConfig untuk konfigurasi pengumpulan.
Optimization	Kebijakan pre-scrape Master yang dioptimalkan. Mengurangi overhead sumber daya serta meningkatkan penemuan layanan dan penjadwalan Target.
Optimization	Penanganan adaptif untuk batch data yang melebihi 1 MB. Mengurangi kehilangan paket akibat batasan backend.
Bug Fix	ScrapeLoop: Target pengumpulan individual tidak dapat dihentikan, menyebabkan duplikasi pengumpulan.
Bug Fix	Skenario multi-tenant: cache Label Pod tidak diperbarui secara tepat waktu, menyebabkan satu timeline menjadi dua.
Bug Fix	Master: distribusi Target abnormal setelah OOM atau restart replika, menyebabkan hilangnya beberapa Target pengumpulan.
Bug Fix	RemoteWrite: Masalah dalam penguraian jenis Secret dan transmisi Header.
Bug Fix	Kubernetes-pods: Operasi shutdown kadang-kadang tidak berlaku.
Bug Fix	Parameter default global dan `external_labels` kini berlaku dengan benar. Modifikasi kustom juga didukung.

Risiko Peningkatan

Peningkatan ke Helm 1.1.17/Agen v4.0.0 bersifat disruptif. Data pemantauan mungkin terputus selama 0 hingga 5 menit, tergantung pada volume Target dan Series di kluster Anda.
Sebelum melakukan peningkatan, lengkapi 1. Pemeriksaan pra-peningkatan (wajib) untuk meminimalkan gangguan data.
Setelah peningkatan, periksa adanya anomali data di 3. Pemeriksaan pasca-peningkatan (opsional). Untuk troubleshooting, lihat FAQ Pasca-Peningkatan. Jika masalah berlanjut, hubungi pakar teknis Prometheus di DingTalk (ID: aliprometheus).

Metode Peningkatan

1. Pemeriksaan pra-peningkatan (wajib)

Peningkatan dari versi Helm sebelum 1.1.16 ke 1.1.17 tidak mempertahankan parameter yang telah dimodifikasi sebelumnya. Catat semua parameter kustom sebelum peningkatan agar Anda dapat memulihkannya secara manual setelahnya.

Peningkatan dari Helm 1.1.16 atau versi lebih baru mendukung pewarisan parameter dan tidak memerlukan pemulihan manual. Untuk memeriksa parameter sebelum peningkatan:

Masuk ke Konsol ACK.
Klik nama kluster target. Di panel navigasi kiri, pilih Workloads > Stateless. Ganti namespace ke arms-prom. Di kolom Actions untuk arms-prometheus-ack-arms-prometheus, pilih More > View YAML.
Periksa parameter berikut:
- `spec.replicas`: nilai default setelah peningkatan adalah 1. Tidak perlu tindakan jika nilainya 1.
- `spec.containers` `args` (parameter startup Agen). Tidak ada jika multi-tenancy dinonaktifkan. Pulihkan nilai kustom secara manual setelah peningkatan.
  - tenant_userid
  - tenant_clusterid
  - tenant_token
- `spec.containers.resources`: batas default adalah 3 core / 4 GB; permintaan default adalah 1 core / 1 GB.
  
  Catat nilai non-default dan pulihkan setelah peningkatan.
Untuk mempertahankan parameter yang telah dimodifikasi, catat nilainya. Setelah peningkatan, buka kembali file YAML tersebut dan klik Update untuk memulihkannya.

2. Langkah-langkah peningkatan

Untuk meningkatkan komponen Helm ARMS Prometheus di Konsol ACK:

Masuk ke Konsol ACK.
Klik nama kluster target. Di panel navigasi kiri, pilih Operations Management > Component Management. Klik tab Logs and Monitoring. Pada kartu `ack-arms-prometheus`, klik Upgrade.
Setelah peningkatan, di panel navigasi kiri, pilih Operations Management > Prometheus Monitoring. Klik Go to Prometheus Service di pojok kanan atas untuk melihat status Agen yang sedang berjalan dan detail pengumpulan metrik.

Di panel navigasi kiri, klik Settings. Di tab Settings, verifikasi bahwa versi Helm telah diperbarui.

3. Pemeriksaan pasca-peningkatan (opsional)

Masuk ke Konsol Cloud Monitor.
Di panel navigasi kiri, pilih Managed Service for Prometheus > Instances untuk membuka daftar instans Managed Service for Prometheus.
Klik nama instans Prometheus target. Di panel navigasi kiri, klik Service Discovery. Di tab Targets, verifikasi status pengumpulan Job.
Di panel navigasi kiri, klik Settings. Di tab Self-Monitoring, klik Go to Grafana to view dashboards di pojok kanan atas. Verifikasi bahwa jumlah replika, laju pengiriman data, dan konsumsi sumber daya normal.
Di halaman Self-Monitoring, pilih tab Agent Self-Monitoring untuk melihat dasbor pemantauan mandiri Agen Prometheus.

Pantau empat Job pengumpulan metrik dasar: `_arms/kubelet/cadvisor`, `_arms/kubelet/metric`, `_kube-state-metrics`, dan `node-exporter`. Pilih rentang waktu yang mencakup periode sebelum dan sesudah peningkatan untuk memeriksa adanya anomali.

FAQ Pasca-Peningkatan

Jumlah replika yang berjalan tidak sesuai dengan jumlah yang diharapkan

ARMS Prometheus memerlukan semua replika dalam status Running. Periksa adanya agen dalam status Pending di Konsol Container Service: buka kluster target, lalu pilih Workloads > Stateless di namespace arms-prom.

Agen mengonsumsi memori atau CPU berlebihan

Anomali pengiriman data dapat menyebabkan akumulasi data di memori agen. Di Konsol Container Service, buka Operations Management > Prometheus Monitoring dan klik tab Others. Di bawah Prometheus Agent, periksa konsumsi memori dan CPU.

Metrik dasar menunjukkan pemutusan atau ketidakberlanjutan

Jika metrik seperti `node_***` (①), `container_***` (②), `kubelet_***` (③), atau `kube_***` (④) tidak normal, periksa Job pengumpulan metrik dasar di halaman Service Discovery > Targets di Konsol Prometheus. Jika kesalahan berlanjut, hubungi pakar teknis Prometheus di DingTalk (ID: aliprometheus).

Trafik RemoteWrite turun atau data hilang

Jika Anda belum mengonfigurasi RemoteWrite, Anda dapat mengabaikan masalah ini.
Pada v4.0.0, `write_relabel_configs` diaktifkan secara otomatis. Jika Anda mengonfigurasi aksi `drop` atau `keep`, Anda mungkin mengalami kehilangan trafik. Untuk memodifikasi bidang ini, buka Settings > Settings dan klik Edit Prometheus.yaml.