All Products
Search
Document Center

Alibaba Cloud Service Mesh:Ikhtisar SLO

Last Updated:Apr 21, 2026

Service Mesh (ASM) menyediakan Pemantauan Peringatan bawaan berdasarkan Service Level Objectives (SLO). Pemantauan SLO melacak metrik kinerja—seperti latensi dan laju error—untuk panggilan antar layanan aplikasi, memberikan tolok ukur bersama bagi pengembang aplikasi, operator platform, dan personel O&M guna mengukur serta meningkatkan kualitas layanan.

Istilah kunci

  • Service level indicator (SLI): Metrik kuantitatif yang mengukur kesehatan layanan, seperti ketersediaan atau latensi respons.

  • Service level objective (SLO): Persentase target untuk SLI dalam periode tertentu. Satu SLO terdiri dari satu atau beberapa SLI. Menggabungkan beberapa SLI ke dalam satu SLO memberikan gambaran yang lebih akurat mengenai kesehatan layanan secara keseluruhan.

  • Error budget: Jumlah ketidakandalan yang diperbolehkan yang dihitung dari target SLO (100% – target SLO). Gunakan error budget untuk menyeimbangkan keandalan dengan kecepatan pengembangan—budget ini merepresentasikan anggaran risiko yang dapat Anda alokasikan untuk merilis fitur.

Contoh SLO:

  • Rata-rata queries per second (QPS) > 100.000/s

  • Latensi 99% permintaan < 500 ms

  • Bandwidth per menit untuk 99% permintaan > 200 MB/s

Jenis SLI

ASM mendukung dua jenis SLI:

Jenis SLIApa yang diukurJenis plug-inKondisi kegagalan
Service availabilityProporsi permintaan yang menerima respons suksesavailabilityKode status HTTP adalah 429 atau 5XX (kode apa pun yang dimulai dengan 5)
LatencyWaktu yang dibutuhkan layanan untuk memberikan responslatencyWaktu respons melebihi batas maksimum yang ditentukan

Tetapkan tujuan yang bermakna

Tujuan harus mencerminkan dampak nyata terhadap pengguna. Misalnya, jika pengguna tidak dapat membedakan antara latensi 200 ms dan 600 ms, tetapkan tujuan latensi menjadi 600 ms.

Layanan yang berbeda memerlukan target berbeda berdasarkan tingkat kritisnya:

Target ketersediaanDowntime perkiraan per tahunPenggunaan umum
99%~3 hariLayanan non-kritis
99,999%~5 menitLayanan mission-critical

Periode kepatuhan

Periode kepatuhan menentukan durasi pengukuran SLI terhadap target SLO. Persentase target yang sama memiliki implikasi sangat berbeda pada skala waktu yang berbeda:

Periode kepatuhanKetersediaan 99% memungkinkan downtime berkelanjutan hingga
1 hari~14 menit (24 jam x 1%)
30 hari~7 jam (30 hari x 1%)

ASM mendukung periode kepatuhan 7, 14, 28, dan 30 hari.

Error budget

Error budget mengkuantifikasi seberapa banyak kegagalan yang diizinkan oleh SLO sebelum terjadi pelanggaran.

Rumus: Error budget = 100% – target SLO

Contoh: Pertimbangkan layanan dengan parameter berikut:

ParameterNilai
Kondisi kegagalan SLIKode status HTTP adalah 429 atau 5XX
Periode kepatuhan30 hari
Target SLO99,9%
Error budget0,1% (100% – 99,9%)
Total permintaan dalam 30 hari10.000
Permintaan error yang diizinkan10 (10.000 x 0,1%)

Untuk memenuhi SLO ini, tidak boleh lebih dari 10 permintaan gagal dalam jendela 30 hari tersebut.

Gunakan error budget untuk membimbing keputusan

Error budget menyediakan kerangka berbasis data untuk menyeimbangkan keandalan dengan kecepatan pengembangan:

  • Budget hampir habis: Hindari deployment versi baru. Fokus pada keandalan.

  • Budget tersisa di akhir periode kepatuhan: Lakukan deployment pembaruan, karena risiko pelanggaran SLO rendah.

Error budget dihitung menggunakan jendela rolling yang setara dengan periode kepatuhan:

  • Error budget >= 0: SLO terpenuhi dalam periode kepatuhan.

  • Error budget < 0: Terjadi pelanggaran SLO.

Burn rate

Burn rate mengukur seberapa cepat error budget dikonsumsi relatif terhadap periode kepatuhan. Burn rate sebesar 1 berarti budget akan habis tepat dalam periode kepatuhan. Burn rate sebesar 2 berarti budget akan habis dalam separuh waktu tersebut.

Rumus: Burn rate = Laju error / (1 – SLO)

Untuk menghitung berapa lama hingga budget habis, bagi periode kepatuhan dengan burn rate.

Contoh untuk periode kepatuhan 30 hari:

Burn rateWaktu hingga error budget habisMakna
130 hari (30 / 1)Budget dikonsumsi persis sesuai kecepatan yang diharapkan
215 hari (30 / 2)Budget dikonsumsi dengan kecepatan 2x dari yang diharapkan
6012 jam (30 / 60)Budget dikonsumsi dengan kecepatan 60x dari yang diharapkan — perlu perhatian segera

Aturan peringatan

Aturan peringatan memberi tahu Anda saat error budget dikonsumsi terlalu cepat, memberi waktu untuk merespons sebelum terjadi pelanggaran SLO.

ASM menggunakan pendekatan multi-window burn rate. Metode ini mendeteksi baik burn cepat (laju error tinggi dalam periode singkat) maupun burn lambat (laju error moderat dalam periode panjang), sekaligus menyaring peringatan yang tidak perlu akibat lonjakan singkat dan kecil.

Cara kerja peringatan multi-jendela

Setiap aturan peringatan menggunakan dua jendela waktu:

JendelaPeranUnit
Jendela panjangDetection — mengukur burn rate dalam periode panjang untuk mengidentifikasi masalah berkelanjutanJam hingga hari
Jendela pendekRecovery — memeriksa burn rate terkini untuk segera menghapus peringatan setelah masalah terselesaikanMenit (1/12 dari jendela panjang)

Peringatan hanya aktif jika burn rate melebihi ambang batas di kedua jendela. Desain dua jendela ini mencegah peringatan usang tetap aktif setelah kesalahan diperbaiki.

Peringatan fast burn vs. slow burn

Untuk SLO 30 hari, ASM mendukung dua tingkat keparahan peringatan yang sesuai dengan pola burn berbeda:

Jenis peringatanPola PembakaranKondisi pemicuAmbang batas burn rate
Tingkat Halaman (pembakaran cepat)Laju error tinggi dalam periode singkat — memerlukan perhatian segera2% error budget dikonsumsi dalam 1 jam, atau 5% dikonsumsi dalam 6 jam14,4x atau 6x
Ticket-level (bertahap)Laju error moderat dalam periode panjang — selidiki selama jam kerja10% error budget dikonsumsi dalam 1 hari, atau lebih dari 3 hari3x atau 1x

Mengapa jendela pendek penting

Tanpa jendela pendek, peringatan tetap aktif sepanjang durasi jendela panjang meskipun kesalahan dasar telah diperbaiki. Dengan jendela pendek yang diatur menjadi 1/12 dari jendela panjang, peringatan akan hilang tak lama setelah laju error turun.

Contoh: Laju error tetap pada 2x ambang batas selama 3 hari. Kesalahan diperbaiki pada hari ke-3. Dengan konfigurasi jendela pendek, peringatan akan hilang sekitar 6 jam kemudian. Tanpa jendela pendek, peringatan akan tetap aktif selama 3 hari penuh setelah kesalahan diperbaiki.