Gunakan Managed Service for Prometheus untuk memantau pusat cadangan dan mengonfigurasi peringatan - Container Service for Kubernetes

Anda dapat mengintegrasikan Pusat Cadangan dengan Managed Service for Prometheus untuk memantau status penyimpanan cadangan dan tugas pencadangan secara real-time. Topik ini menjelaskan cara memantau Pusat Cadangan dan mengonfigurasi peringatan.

Prasyarat

Komponen layanan pencadangan migrate-controller telah diinstal dengan versi v1.7.10 atau lebih baru. Untuk informasi selengkapnya, lihat Instal migrate-controller dan berikan izin dan Kelola komponen.
Anda tidak dapat menginstal versi migrate-controller terbaru pada kluster yang menjalankan Kubernetes versi sebelum 1.20. Untuk menggunakan fitur pemantauan Pusat Cadangan, perbarui terlebih dahulu versi Kubernetes kluster Anda. Untuk informasi selengkapnya, lihat Perbarui kluster secara manual.
Managed Service for Prometheus telah diaktifkan untuk kluster tersebut.

Penagihan

Komponen migrate-controller mengirimkan metrik ke Managed Service for Prometheus. Metrik ini dikategorikan sebagai metrik kustom. Penggunaan metrik kustom dikenai biaya tambahan.

Kami menyarankan Anda membaca Ikhtisar penagihan sebelum mengaktifkan fitur pemantauan Pusat Cadangan untuk memahami aturan penagihan metrik kustom. Biaya dapat bervariasi tergantung pada ukuran kluster dan jumlah aplikasi. Anda juga dapat melihat penggunaan sumber daya di Managed Service for Prometheus.

Mengintegrasikan pusat cadangan dengan Managed Service for Prometheus

Anda dapat menggunakan Managed Service for Prometheus untuk memantau status penyimpanan cadangan yang terkait dengan kluster serta status tugas pencadangan di dalam kluster.

Masuk ke Konsol ARMS.
Di panel navigasi sebelah kiri, klik Integration Center. Pada tab Infrastructure, cari Ack Backup Center Service Monitoring, lalu klik Ack Backup Center Service Monitoring untuk membuka halaman integrasi.
Pada tab Start Integration, pilih kluster Container Service for Kubernetes (ACK) yang telah menginstal Pusat Cadangan, lalu klik OK.
Setelah integrasi selesai, Anda dapat masuk ke Konsol ACK atau Konsol ARMS untuk melihat dasbor.

Lihat dasbor pusat cadangan

Pintu Masuk Dasbor

Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, klik Clusters.
Pada halaman Clusters, temukan kluster yang diinginkan lalu klik namanya. Di panel sebelah kiri, pilih Operations > Prometheus Monitoring.
Pada halaman Prometheus Monitoring, klik tab Others dan lihat dasbor Pusat Cadangan di bawah tab ACK BackupCenter.

Catatan

Untuk informasi selengkapnya tentang cara melihat dasbor Pusat Cadangan di Konsol ARMS, lihat Lihat dasbor.

Perkenalan Dasbor

Dasbor Pusat Cadangan mencakup tiga bagian utama: Lokasi Cadangan (informasi penyimpanan cadangan), Status Operasi Cadangan (informasi tugas pencadangan), dan Status Addon (informasi komponen kerja).

Lokasi Cadangan

Dasbor ini menampilkan informasi detail (Detail Lokasi Cadangan) tentang penyimpanan cadangan yang terkait dengan kluster saat ini.

Penyimpanan cadangan menyimpan file cadangan dan menunjukkan asosiasi antara Pusat Cadangan dan bucket Object Storage Service (OSS). Pusat Cadangan hanya dapat menjalankan tugas pencadangan, snapshot, dan pemulihan setelah penyimpanan cadangan berada dalam status Tersedia (Available). Tabel berikut menjelaskan metrik Detail Lokasi Cadangan.

Metrik	Deskripsi
Backuplocation	Nama penyimpanan cadangan.
OSS Bucket	Nama bucket OSS yang terkait dengan penyimpanan cadangan.
Region	Wilayah bucket OSS, seperti cn-hangzhou.
NetworkPolicy	Jenis koneksi jaringan antara penyimpanan cadangan dan bucket OSS. Nilai yang valid: internal: jaringan internal. public: Internet.
Phase	Status penyimpanan cadangan. Nilai yang valid: InProgress: Penyimpanan cadangan sedang melakukan inisialisasi dan memeriksa konektivitas ke bucket OSS. Status ini berlangsung dalam waktu singkat. Available: Konektivitas ke bucket OSS normal. Bucket OSS tersedia untuk tugas pencadangan. Unavailable: Penyimpanan cadangan terputus dari bucket OSS. Bucket OSS tidak tersedia untuk tugas pencadangan.

Status Operasi Cadangan

Dasbor ini menampilkan status tugas pencadangan, termasuk ikhtisar semua tugas pencadangan (Ikhtisar Cadangan) dan detail tugas pencadangan yang gagal (Detail Cadangan Gagal).

Ikhtisar Cadangan: menampilkan jumlah tugas pencadangan yang dibuat di setiap penyimpanan cadangan dalam kluster saat ini melalui histogram. Tugas pencadangan mencakup tugas pencadangan instan dan tugas pencadangan terjadwal. Sumbu X menampilkan nama penyimpanan cadangan dan sumbu Y menampilkan jumlah tugas pencadangan di setiap penyimpanan cadangan. Tabel berikut menjelaskan metrik Ikhtisar Cadangan.
Metrik
Deskripsi
Backup (Failed)
Bilah merah menampilkan jumlah tugas pencadangan yang gagal.
Backup (Completed)
Bilah hijau menampilkan jumlah tugas pencadangan yang berhasil.

Detail Cadangan Gagal: menampilkan informasi dasar tugas pencadangan yang gagal di kluster saat ini. Tabel berikut menjelaskan metrik Detail Cadangan Gagal.

Metrik	Deskripsi
Backup	Nama tugas pencadangan.
Backuplocation	Nama penyimpanan cadangan tempat tugas pencadangan tersebut berada.
BackupType	Mode pencadangan tugas pencadangan. Nilai yang valid: AppBackup: hanya membuat cadangan aplikasi (cadangan YAML). AppAndPvBackup: membuat cadangan aplikasi dan data. File YAML dan data yang disimpan di volume persisten (PV) dicadangkan.
DataType	Jenis cadangan data. Nilai yang valid: snapshot: PV berupa volume disk. hbr: PV berupa volume sistem file, termasuk volume lokal HostPath, volume NAS, dan volume OSS. all: PV mencakup volume disk dan volume sistem file. none: Pencadangan data diaktifkan. Namun, tidak ada PV yang digunakan di namespace yang ditentukan.
FromSchedule	Sumber pekerjaan pencadangan. Kosong: tugas pencadangan instan. Tidak kosong: tugas pencadangan terjadwal. Nama rencana pencadangan ditampilkan.

Status Addon

Dasbor ini menampilkan status komponen kerja csdr-controller dan csdr-velero. Pastikan komponen kerja berjalan normal agar Pusat Cadangan dapat menjalankan tugas pencadangan, snapshot, dan pemulihan.

Setelah komponen Pusat Cadangan migrate-controller diinstal, komponen tersebut menjalankan pemeriksaan awal (precheck) pada kluster. Setelah pemeriksaan awal selesai, migrate-controller men-deploy komponen kerja csdr-controller dan csdr-velero di namespace csdr milik Pusat Cadangan.

Komponen kerja csdr-controller dan csdr-velero berjalan di Pod Penyebaran (Deployment). Tabel berikut menjelaskan metrik Status Addon.

Metrik	Deskripsi
Age	Waktu aktif komponen kerja.
Status	Status komponen kerja. Nilai yang valid: Health: Pod komponen kerja berjalan normal. UnHealth: Pod komponen kerja tidak dapat dimulai atau probing gagal.
Pods	Informasi detail Pod komponen kerja.
Memory Request	Jumlah sumber daya memori yang dicadangkan untuk komponen kerja.
CPU Request	Jumlah sumber daya CPU yang dicadangkan untuk komponen kerja.
Memory Limit	Batas atas memori komponen kerja.
CPU Limit	Batas atas CPU komponen kerja.

Konfigurasi peringatan untuk kegagalan tugas pencadangan

Peringatan untuk kegagalan tugas pencadangan merupakan peringatan berbasis event. Sebuah CustomResourceDefinition (CRD) applicationbackups di kelompok sumber daya csdr.alibabacloud.com dibuat untuk setiap tugas pencadangan. Ketika tugas pencadangan gagal, CRD menghasilkan event WARN.

Kueri event WARN yang dihasilkan untuk tugas pencadangan yang gagal

Jalankan perintah berikut untuk mengkueri event WARN yang dihasilkan untuk tugas pencadangan yang gagal:

kubectl -n csdr get events --field-selector='type!=Normal'

Output yang diharapkan:

VaultError: backup vault is unavailable: oss: service returned error: StatusCode=403, ErrorCode=AccessDenied, ErrorMessage="The bucket you access does not belong to you.", RequestId=668516BC35F915******

VaultError menampilkan penyebab kegagalan.

Konfigurasi aturan peringatan untuk menghasilkan event WARN saat tugas pencadangan gagal

Gunakan fitur peringatan kluster ACK untuk mengonfigurasi aturan peringatan. Untuk informasi selengkapnya, lihat Manajemen peringatan.

Analisis data pemantauan abnormal

Atasi masalah komponen kerja tidak ada atau dalam keadaan abnormal (UnHealth)

Setelah Pusat Cadangan diinstal, komponen kerja tidak ditemukan atau terus-menerus dideploy ulang.
Jalankan perintah berikut untuk memeriksa status komponen migrate-controller:
```
kubectl -n kube-system get pod -l app=migrate-controller
```
Jika komponen berada dalam status CrashLoopBackOff atau terus-menerus restart, kluster gagal melewati pemeriksaan awal. Biasanya, masalah ini terjadi karena kluster menggunakan FlexVolume atau kluster terdaftar tidak memiliki izin yang diperlukan. Untuk informasi selengkapnya, lihat FAQ tentang Pusat Cadangan dan Kluster terdaftar.
Status UnHealth komponen kerja berlangsung lama. Dasbor pod tidak menampilkan data atau status abnormal apa pun.
Pod komponen kerja tidak dapat dimulai. Untuk informasi selengkapnya, lihat Pemecahan masalah Pod.
Komponen kerja berada dalam status Health tetapi jumlah restart yang ditampilkan di dasbor pod bukan 0.
Penggunaan memori komponen csdr-velero mengalami lonjakan selama proses pencadangan. Dalam skenario ini, kesalahan Out-of-Memory (OOM) mudah terjadi, sehingga menyebabkan komponen keluar secara tidak normal. Anda dapat meningkatkan batas penggunaan memori untuk mengatasi masalah ini.
Catatan
Jika pod komponen kerja keluar secara tidak normal selama proses pencadangan, tugas pencadangan akan gagal atau tetap dalam status InProgress dalam waktu lama.

Atasi masalah penyimpanan cadangan dalam keadaan abnormal (Unavailable)

Jalankan perintah berikut untuk melihat pesan kesalahan.

Ganti <unavailable-backuplocation-name> dengan nama penyimpanan cadangan yang berada dalam keadaan abnormal.

kubectl -n csdr describe backuplocation <unavailabe-backuplocation-name>

Untuk informasi selengkapnya tentang pemecahan masalah penyimpanan cadangan abnormal, lihat FAQ tentang Pusat Cadangan.

Atasi kegagalan tugas pencadangan

Gunakan CLI

Jalankan perintah berikut untuk melihat pesan kesalahan.

Ganti <failed-applicationbackup-name> dengan nama tugas pencadangan yang gagal.

kubectl -ncsdr describe applicationbackup <failed-applicationbackup-name>

Untuk informasi selengkapnya tentang pemecahan masalah kegagalan tugas pencadangan, lihat FAQ tentang Pusat Cadangan.

Gunakan konsol

Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, klik Clusters.
Pada halaman Clusters, temukan kluster yang diinginkan lalu klik namanya. Di panel sebelah kiri, pilih Operations > Application Backup.
Pada halaman Application Backup, klik tab Backup Records, temukan tugas pencadangan yang gagal, lalu klik Failed di kolom Status untuk melihat pesan kesalahan.

Metrik	Deskripsi
Backup (Failed)	Bilah merah menampilkan jumlah tugas pencadangan yang gagal.
Backup (Completed)	Bilah hijau menampilkan jumlah tugas pencadangan yang berhasil.