Function Compute menyediakan instans berbasis CPU dan instans yang dipercepat GPU. Instans CPU menangani beban kerja umum seperti layanan web dan pemrosesan data, sedangkan instans yang dipercepat GPU menangani beban kerja komputasi-intensif yang memerlukan paralelisme tinggi, seperti inferensi artificial intelligence (AI), pembelajaran mendalam, pemrosesan audio dan video, serta pengeditan gambar.
Pilih tipe instans
Fungsi CPU hanya dapat dijalankan pada Elastic Instance. Fungsi GPU mendukung ketiga tipe instans: Elastic Instance, Provisioned Instance, dan Mixed Mode. Anda dapat beralih antar tipe kapan saja tanpa gangguan layanan.
Tabel berikut merangkum perbedaan utama:
| Elastic Instance | Provisioned Instance | Mixed Mode | |
|---|---|---|---|
| Model penagihan | Pay-as-you-go | Subscription | Pay-as-you-go + subscription |
| Cold starts | Ya (dapat dikurangi) | Tidak | Sebagian |
| Paling cocok untuk | Trafik variabel; beban kerja yang sensitif terhadap biaya | Beban kerja dengan utilisasi tinggi, sensitif terhadap latensi, atau memerlukan penagihan stabil | Beban kerja dengan lonjakan trafik signifikan di atas garis dasar yang stabil |
| Fungsi GPU | Ya | Ya (hanya seri Ada, Ada.2, Ada.3, Hopper, Xpu.1) | Ya |
| Fungsi CPU | Ya | Tidak | Tidak |
Provisioned Instance hanya dapat ditautkan ke fungsi GPU dalam seri Ada, Ada.2, Ada.3, Hopper, atau Xpu.1.
Elastic Instance
Saat jumlah minimum instans diatur ke 0, instans diskalakan sesuai volume permintaan dan dilepas saat tidak aktif. Model pay-as-you-go ini hanya menagih waktu komputasi aktif.
Pertimbangkan Elastic Instance jika:
Trafik bersifat variabel atau tidak dapat diprediksi.
Efisiensi biaya lebih penting daripada kapasitas terjamin.
Anda menjalankan fungsi CPU (satu-satunya tipe instans yang didukung untuk CPU).
Cold starts: Cold start dapat terjadi. Untuk mengurangi latensi cold start, atur jumlah minimum instans menjadi 1 atau lebih. Hal ini mengalokasikan sumber daya elastis sebelumnya sehingga instans siap menangani permintaan masuk secara langsung.
Penagihan: Biaya dikenakan untuk Elastic Instance aktif dan instans dalam Shallow Hibernation. Saat jumlah minimum instans diatur ke 1 atau lebih, aktifkan Shallow Hibernation. Dalam kondisi ini, sumber daya vCPU tidak dikenai biaya, dan sumber daya GPU ditagih sebesar seperlima dari tarif aktif. Untuk detail mengenai status aktif dan Shallow Hibernation, lihat Elastic Instance.
Provisioned Instance
Beli Provisioned Resource Pool terlebih dahulu, lalu alokasikan jumlah dan tipe instans tertentu ke fungsi Anda. Pendekatan ini memberikan biaya yang dapat diprediksi dan kapasitas terjamin.
Pertimbangkan Provisioned Instances jika:
Utilisasi sumber daya secara konsisten tinggi.
Persyaratan latensi sangat ketat dan cold start tidak dapat diterima.
Penagihan harus stabil dan dapat diprediksi.
Anda menjalankan fungsi GPU dalam seri Ada, Ada.2, Ada.3, Hopper, atau Xpu.1.
Setelah membeli kolam sumber daya provisioned bulanan, platform juga memberikan kuota boost instance tanpa biaya tambahan.
Cold starts: Tidak ada cold start. Permintaan dalam kapasitas yang dialokasikan menerima tanggapan real-time. Jumlah maksimum permintaan konkuren = (jumlah Provisioned Instance yang dialokasikan) × (konkurensi instans) + kuota boost instance. Permintaan yang melebihi batas ini akan diberi throttle.
Penagihan: Total biaya langganan untuk semua Provisioned Resource Pool yang dibeli. Kuota boost instance tidak ditagih.
Mixed Mode
Mixed Mode hanya berlaku untuk fungsi GPU. Kolam sumber daya provisioned menangani trafik steady-state tanpa cold start. Saat permintaan melebihi kapasitas provisioned, sistem melakukan auto-scale dengan meluncurkan Elastic Instance untuk menyerap lonjakan beban.
Pertimbangkan Mixed Mode jika:
Trafik memiliki garis dasar stabil dengan lonjakan signifikan.
Anda membutuhkan kapasitas terjamin untuk trafik steady-state tetapi ingin overflow elastis untuk lonjakan.
Anda menjalankan fungsi GPU.
Cold starts: Sebagian. Permintaan yang ditangani dalam kolam provisioned berjalan tanpa cold start. Elastic Instance baru yang diluncurkan selama scale-out mengalami cold start.
Penagihan: Berlaku model subscription dan pay-as-you-go:
Bagian provisioned: Ditagih berdasarkan kuota Provisioned Resource Pool yang dibeli.
Bagian elastis: Instans yang diluncurkan melebihi kuota provisioned ditagih berdasarkan model pay-as-you-go dengan tarif yang sama seperti Elastic Instance aktif dan dalam Shallow Hibernation.
Spesifikasi instans
Instans CPU
| vCPU (core) | Memori (MB) | Ukuran paket kode maksimum (GB) | Durasi eksekusi maksimum (s) | Ukuran disk | Bandwidth maksimum (Gbps) |
|---|---|---|---|---|---|
| 0,05–16 (kelipatan 0,05) | 128–32768 (kelipatan 64) | 10 | 86400 | 512 MB (default) atau 10 GB | 5 |
Rasio vCPU-memori harus berada di antara 1:1 hingga 1:4 (GB). Misalnya, 4 vCPU memerlukan memori antara 4 GB hingga 16 GB.
Instans GPU
Spesifikasi perangkat keras
Lihat Keluarga instans GPU yang didukung di ACS.
| Tipe instans | Memori GPU | FP16 | FP32 | Kartu maksimum per instans |
|---|---|---|---|---|
| fc.gpu.tesla.1 | 16 GB | 65 TFLOPS | 8 TFLOPS | 4 |
| fc.gpu.ampere.1 | 24 GB | 125 TFLOPS | 31,2 TFLOPS | 8 |
| fc.gpu.ada.1 | 48 GB | 119 TFLOPS | 60 TFLOPS | — |
| fc.gpu.ada.2 | 24 GB | 166 TFLOPS | 83 TFLOPS | — |
| fc.gpu.ada.3 | 48 GB | 148 TFLOPS | 73,5 TFLOPS | — |
| fc.gpu.hopper.1 | 96 GB | 148 TFLOPS | 44 TFLOPS | — |
| fc.gpu.hopper.2 | 141 GB | 148 TFLOPS | 44 TFLOPS | — |
| fc.gpu.blackwell.1 | 32 GB | 104,8 TFLOPS | 104,8 TFLOPS | — |
| fc.gpu.xpu.1 | 96 GB | 123 TFLOPS | 61,5 TFLOPS | 16 |
- Mengatur tipe instans ke
g1setara denganfc.gpu.tesla.1. - Instans seri Tesla tersedia di: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Shenzhen), Jepang (Tokyo), AS (Virginia), dan Singapura.
- Instans seri Ada tersedia di: Tiongkok (Beijing), Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Shenzhen), Singapura, dan AS (Virginia).
Konfigurasi vCPU dan memori (per kartu)
Untuk instans multi-kartu: total vCPU = vCPU per kartu × jumlah kartu; total memori = memori per kartu × jumlah kartu.
| Tipe instans | vCPU per kartu | Memori per kartu |
|---|---|---|
| fc.gpu.tesla.1 | 4 core | 4–16 GB (4096–16384 MB), bertambah 4 GB |
| 8 core | 8–32 GB (8192–32768 MB) | |
| 16 core | 16–64 GB (16384–65536 MB) | |
| fc.gpu.ampere.1 | 8 core | 8–32 GB (8192–32768 MB) |
| 16 core | 16–64 GB (16384–65536 MB) | |
| fc.gpu.ada.1, fc.gpu.ada.2, fc.gpu.ada.3 | 4 core | 16–32 GB (16384–32768 MB) |
| 8 core | 32–64 GB (32768–65536 MB) | |
| 16 core | 64–120 GB (65536–122880 MB) | |
| fc.gpu.hopper.1 | 4 core | 16–32 GB (16384–32768 MB) |
| 8 core | 32–64 GB (32768–65536 MB) | |
| 16 core | 64–96 GB (65536–98304 MB) | |
| 24 core | 96–120 GB (98304–122880 MB) | |
| fc.gpu.hopper.2 | 4 core | 16–32 GB (16384–32768 MB) |
| 8 core | 32–64 GB (32768–65536 MB) | |
| 16 core | 64–128 GB (65536–131072 MB) | |
| 24 core | 96–248 GB (98304–253952 MB) | |
| fc.gpu.blackwell.1 | 4 core | 16–32 GB (16384–32768 MB) |
| 8 core | 32–64 GB (32768–65536 MB) | |
| 16 core | 64–120 GB (65536–122880 MB) | |
| 24 core | 96–184 GB (98304–188416 MB) | |
| fc.gpu.xpu.1 | 4 core | 16–48 GB (16384–49152 MB) |
| 8 core | 32–96 GB (32768–98304 MB) | |
| 12 core | 48–120 GB (49152–122880 MB) |
Batas umum instans GPU
| Ukuran gambar maksimum | Durasi eksekusi maksimum (s) | Ukuran disk | Bandwidth maksimum (Gbps) |
|---|---|---|---|
| 15 GB (semua edisi ACR) | 86400 | 512 MB, atau 10–200 GB dengan penambahan 10 GB | 5 |
Konkurensi GPU dan kuota regional
GPU Ada.1 memiliki memori 48 GB, sedangkan GPU seri Tesla memiliki memori 16 GB. Function Compute mengalokasikan seluruh memori kartu GPU ke satu Kontainer GPU. Dengan kuota regional default sebanyak 30 kartu GPU:
Pada konkurensi instans = 1, hingga 30 permintaan inferensi dapat berjalan secara konkuren per wilayah.
Pada konkurensi instans = 5, hingga 150 permintaan inferensi dapat berjalan secara konkuren per wilayah.
Konkurensi instans
Konfigurasikan konkurensi instans untuk menjalankan beberapa tugas pada satu instans dengan berbagi sumber daya CPU dan memori. Ini meningkatkan pemanfaatan sumber daya dan mengurangi biaya dibandingkan menjalankan satu tugas per instans. Untuk langkah-langkah konfigurasi, lihat Konfigurasikan konkurensi instans.
Cara durasi eksekusi diukur
Durasi eksekusi untuk instans tunggal, konkurensi tunggal
Instans tunggal, satu permintaan: Durasi diukur sejak permintaan tiba di instans hingga eksekusi selesai.
Durasi eksekusi untuk instans tunggal, konkurensi ganda
Instans tunggal, permintaan konkuren: Durasi diukur sejak permintaan pertama tiba hingga permintaan terakhir selesai. Berbagi satu instans untuk beberapa permintaan mengurangi total durasi yang ditagih.
Langkah berikutnya
Untuk detail penagihan, lihat Ikhtisar penagihan.
Untuk menentukan tipe instans melalui API, gunakan parameter
instanceTypedalam CreateFunction.Untuk mengatur tipe dan spesifikasi instans di Konsol, lihat Pembuatan fungsi.