Konfigurasikan jumlah minimum instans untuk menyediakan resource elastis dan menjamin kapasitas - Function Compute

Tetapkan jumlah minimum instans suatu fungsi ke nilai lebih dari 0 untuk mengalokasikan resource elastis sejak awal. Hal ini membantu mencegah latensi permintaan akibat cold start selama jam sibuk. Anda juga dapat mengonfigurasi kebijakan agar jumlah minimum instans diskalakan secara otomatis berdasarkan jadwal atau ambang batas metrik guna memastikan kinerja tinggi dan meningkatkan pemanfaatan instans.

Penting

Menetapkan jumlah minimum instans ke nilai lebih dari 0 membantu mengurangi cold start dan memperbaiki waktu respons aplikasi yang sensitif terhadap latensi. Anda akan dikenai biaya untuk instans yang telah dialokasikan tersebut, terlepas dari penggunaannya. Saat memproses permintaan, instans tersebut ditagih sebagai instans elastis aktif; saat tidak memproses permintaan, ditagih sebagai instans elastis idle. Untuk informasi lebih lanjut mengenai penagihan instans elastis aktif dan idle, lihat Ikhtisar Penagihan.
Anda hanya dapat mengonfigurasi kebijakan elastis untuk jumlah minimum instans pada alias fungsi atau versi LATEST.

Tetapkan jumlah minimum instans

Masuk ke Function Compute console. Di panel navigasi sebelah kiri, pilih Function Management > Functions.
Di bilah navigasi atas, pilih wilayah. Pada halaman Functions, klik Create Function.
Pada halaman Create Function, di bagian Scaling Policy, atur Minimum Instances, konfigurasikan parameter lain yang diperlukan, lalu klik Create.

Konfigurasi kebijakan elastis

Pada halaman detail fungsi target, klik tab Scaling Policy. Di bagian Elastic policy, temukan kebijakan target dan klik Modify di kolom Actions.

Pada panel Edit elastic policy, konfigurasikan kebijakan elastis dinamis untuk jumlah minimum instans.

Catatan

Jika Anda mengonfigurasi beberapa kebijakan elastis, sistem akan menghitung Minimum Instances untuk setiap kebijakan yang dipicu, lalu menggunakan nilai maksimum di antara semua Minimum Instances dari kebijakan yang sedang aktif sebagai jumlah minimum instans saat ini. Untuk informasi lebih lanjut, lihat Bagaimana jumlah minimum instans saat ini dihitung?.
Selama kebijakan elastis aktif, pengaturan awal Minimum Instances diabaikan. Jika tidak ada kebijakan elastis yang aktif, jumlah minimum instans saat ini kembali ke nilai awal yang Anda tetapkan untuk Minimum Instances.

Konfigurasikan kebijakan Scheduled Scaling atau Water-level Scaling

Scheduled scaling

Kebijakan scheduled scaling cocok untuk fungsi dengan pola periodik yang jelas atau puncak traffic yang dapat diprediksi. Ketika jumlah pemanggilan fungsi konkuren melebihi jumlah minimum instans, permintaan tambahan tersebut secara otomatis ditangani oleh instans elastis on-demand. Untuk informasi lebih lanjut, lihat Scheduled scaling.

Contoh ini menetapkan Time zone ke Asia/Shanghai (UTC+8). Kebijakan ini bersifat jangka panjang dan melakukan scale out jumlah minimum instans menjadi 50 pada pukul 10.00 dari Senin hingga Jumat, serta melakukan scale in menjadi 5 pada pukul 22.00.

Threshold-based scaling

Sistem secara berkala mengumpulkan metrik seperti Provisioned concurrency utilization, Memory utilization, atau metrik pemanfaatan resource untuk instans GPU. Ketika kondisi tertentu terpenuhi, sistem akan menskalakan Minimum Instances sesuai kebutuhan. Untuk informasi lebih lanjut, lihat Threshold-based scaling.

Tetapkan Minimum Number of Instances ke 1. Kemudian, di bagian Minimum Number of Instances Dynamic Policy, pilih tab Threshold-based Scaling untuk mengonfigurasi kebijakan.

Contoh ini menetapkan Time zone ke Asia/Shanghai (UTC+8). Kebijakan ini aktif mulai 00.00 pada 15 Juli 2025 hingga 00.00 pada 31 Juli 2025. Kebijakan ini melacak metrik Provisioned concurrency utilization dengan nilai target 60%. Ketika pemanfaatan melebihi 60%, sistem melakukan scale out hingga maksimal 100 instans. Ketika pemanfaatan turun di bawah 60%, sistem melakukan scale in hingga minimum 10 instans.

Untuk fungsi berbasis CPU, threshold-based scaling memantau metrik seperti Provisioned concurrency utilization dan Memory utilization. Untuk fungsi berbasis GPU, kebijakan ini mendukung pemantauan Provisioned concurrency utilization dan metrik pemanfaatan resource terkait GPU lainnya, sebagaimana dijelaskan dalam tabel berikut.

CPU functions	GPU functions
Dalam konfigurasi threshold-based scaling, daftar dropdown Utilization Type mendukung dua jenis pemanfaatan: instance concurrency utilization dan memory utilization. Tab Trigger Method juga mencakup scheduled scaling.	Dalam konfigurasi threshold-based scaling untuk fungsi GPU, Utilization Type mendukung lima opsi: instance concurrency utilization, GPU SM utilization, GPU memory utilization, GPU hardware encoder utilization, dan GPU hardware decoder utilization.

Konfigurasikan penskalaan periodik menggunakan CRON Expression
Jika aplikasi Anda memiliki pola traffic yang dapat diprediksi, Anda juga dapat menggunakan ekspresi CRON untuk menskalakan jumlah minimum instans secara periodik. Misalnya, Anda dapat menetapkan Time zone ke Asia/Shanghai (UTC+8) untuk melakukan scale out jumlah minimum instans menjadi 10 pada pukul 10.00 setiap Senin dan melakukan scale in menjadi 1 pada pukul 22.00 setiap Jumat.

Ubah atau hapus kebijakan elastis untuk jumlah minimum instans

Masuk ke Function Compute console. Di panel navigasi sebelah kiri, pilih Function Management > Elastic policy. Pada halaman Elastic policy, temukan kebijakan yang ingin Anda kelola. Di kolom Actions, klik Modify atau Delete untuk mengubah atau menghapus kebijakan elastis untuk jumlah minimum instans.

Penting

Menghapus kebijakan elastis untuk jumlah minimum instans suatu alias akan melepaskan semua instans yang telah dialokasikan untuk alias tersebut. Fungsi kemudian secara otomatis beralih ke penskalaan on-demand, yang mungkin melibatkan cold start. Untuk layanan berbasis CPU, waktu cold start rata-rata biasanya ratusan milidetik, tergantung pada kecepatan startup aplikasi. Untuk layanan berbasis GPU, waktu cold start rata-rata bisa mencapai beberapa menit, tergantung pada ukuran model dan kecepatan pemuatan.

Referensi

Untuk membatasi jumlah instans untuk fungsi tertentu, Anda dapat mengonfigurasi kuota fungsi. Jika jumlah total instans yang sedang berjalan untuk fungsi tersebut melebihi batas yang dikonfigurasi, Function Compute akan mengembalikan error pembatasan kecepatan.