Instans CPU dasar umumnya mencukupi untuk skenario komputasi serbaguna di Function Compute, seperti layanan web dan pemrosesan data. Namun, untuk skenario yang memerlukan komputasi paralel berskala besar atau pembelajaran mendalam—misalnya pemrosesan audio dan video, inferensi artificial intelligence (AI), serta pengeditan gambar—instans yang dipercepat GPU dapat meningkatkan efisiensi komputasi secara signifikan.
Untuk instans yang dipercepat GPU, Function Compute menyediakan dua tipe instans: instans elastis dan instans resident. Anda dapat memilih tipe instans beserta spesifikasinya yang paling sesuai dengan kebutuhan bisnis guna memaksimalkan pemanfaatan resource dan kinerja, sekaligus memastikan keandalan layanan.
Pemilihan tipe instans
Fungsi CPU hanya mendukung instans elastis. Untuk fungsi GPU, Anda dapat memilih antara instans elastis dan instans yang disediakan berdasarkan kebutuhan terkait pemanfaatan resource, latensi, dan stabilitas biaya. Panduan pemilihan lebih rinci tersedia dalam bagan alir berikut.
Anda hanya dapat mengikat instans yang disediakan ke fungsi GPU yang termasuk dalam seri Ada, Ada.2, Ada.3, Hopper, atau Xpu.1.
Instans elastis
Jika jumlah minimum instans suatu fungsi diatur menjadi 0, instans akan secara otomatis diskalakan berdasarkan volume permintaan dan dilepas saat tidak ada permintaan. Dengan demikian, Anda ditagih berdasarkan penggunaan aktual dan tidak dikenai biaya ketika fungsi tidak digunakan, sehingga mengoptimalkan penghematan biaya. Semakin sering permintaan bisnis masuk, semakin tinggi pemanfaatan resource dan semakin besar penghematan biaya dibandingkan dengan penggunaan mesin virtual elastis.
Apakah terjadi cold start?
Ya. Untuk bisnis yang sensitif terhadap latensi, Anda dapat mengatur jumlah minimum instans menjadi 1 atau lebih guna mengurangi cold start. Metode ini mengalokasikan resource elastis secara preemptive sehingga instans langsung siap mengeksekusi permintaan saat tiba.
Penagihan (Pay-as-you-go)
Biaya penggunaan fungsi merupakan jumlah dari biaya instans elastis aktif dan instans elastis dalam mode hibernasi dangkal (sebelumnya idle). Jika jumlah minimum instans diatur menjadi 1 atau lebih, Anda dapat mengaktifkan mode hibernasi dangkal. Dalam keadaan hibernasi dangkal, penggunaan vCPU gratis, sedangkan penggunaan GPU hanya dikenai 20% dari tarif reguler—jauh lebih rendah dibandingkan dengan instans elastis aktif.
Untuk informasi lebih lanjut mengenai skenario penggunaan instans elastis aktif dan hibernasi dangkal, lihat Instans elastis.
Instans yang disediakan
Tipe instans ini hanya berlaku untuk fungsi GPU. Anda dapat terlebih dahulu membeli kolam sumber daya yang disediakan, lalu mengalokasikan jumlah dan tipe instans yang disediakan tertentu ke suatu fungsi dari kolam tersebut. Pendekatan ini memberikan biaya penggunaan yang tetap dan dapat diprediksi, serta cocok untuk skenario dengan pemanfaatan resource tinggi, persyaratan latensi ketat, atau kebutuhan stabilitas biaya.
Apakah terjadi cold start?
Tidak. Saat menggunakan instans yang disediakan, jumlah maksimum permintaan yang dapat diproses oleh suatu fungsi secara simultan ditentukan oleh rumus berikut: = Jumlah instans yang disediakan yang dialokasikan × Konkurensi instans. Permintaan yang melebihi batas ini akan dikenai throttle, sedangkan permintaan dalam batas tersebut menerima tanggapan real-time sehingga cold start benar-benar dihilangkan.
Penagihan (Subscription)
Biaya fungsi adalah total biaya langganan untuk semua kolam sumber daya yang disediakan yang telah dibeli.
Spesifikasi instans
Instans CPU
vCPU (core)
Ukuran memori (MB)
Ukuran paket kode maksimum (GB)
Durasi eksekusi fungsi maksimum (s)
Ukuran disk maksimum (GB)
Bandwidth maksimum (Gbps)
0,05 hingga 16
Catatan: Nilai harus kelipatan 0,05.
128 hingga 32768
Catatan: Nilai harus kelipatan 64.
10
86400
10
Nilai yang valid:
512 MB. Ini adalah nilai default.
10 GB.
5
CatatanRasio antara vCPU dan ukuran memori (dalam GB) harus berada di antara 1:1 hingga 1:4.
Instans yang dipercepat GPU
CatatanTipe instans fc.gpu.tesla.1 memberikan kinerja yang setara dengan GPU NVIDIA T4.
Instance Type
Didukung
yang didukung
Total Memori GPU (GB)
Daya komputasi full card (TFLOPS)
Spesifikasi chunking opsional
Daya komputasi FP16
Daya komputasi FP32
Memori vGPU (MB)
Daya komputasi vGPU (card)
vCPU (core)
Ukuran memori (MB)
fc.gpu.tesla.1
Elastic instance
16
65
8
16384 (16 GB)
Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.
Daya komputasi full card dialokasikan secara default.
Catatan: Daya komputasi dialokasikan secara otomatis oleh Function Compute dan tidak perlu dikonfigurasi secara manual.
Nilai berkisar antara 0,05 hingga (memori vGPU dalam GB / 2).
Catatan: Nilai harus kelipatan 0,05.
Nilai berkisar antara 128 hingga (memori vGPU dalam GB × 2048).
Catatan: Nilai harus kelipatan 64.
fc.gpu.ada.1
Elastic instance
Resident instance
48
119
60
49152 (48 GB)
Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.
Nilai yang valid: 4, 8, atau 16.
Nilai yang valid: 32768, 65536, atau 98304.
fc.gpu.ada.2
Elastic instance
Resident instance
24
166
83
24576 (24 GB)
Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.
Nilai yang valid: 8 atau 16.
Nilai yang valid: 32768 atau 65536.
fc.gpu.ada.3
Elastic instance
Resident instance
48
148
73,54
49152 (48 GB)
Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.
Nilai yang valid: 8 atau 16.
Nilai yang valid: 65536 atau 98304.
fc.gpu.hopper.1
Elastic instance
Resident instance
96
148
44
98304 (96 GB)
Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.
16
Nilai yang valid: 98304.
fc.gpu.xpu.1
Elastic instance
Resident instance
96
123
61,5
98304 (96 GB)
Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.
16
Nilai yang valid: 98304.
Instans yang dipercepat GPU juga mendukung spesifikasi resource berikut.
Ukuran Gambar (GB)
Durasi eksekusi fungsi maksimum (s)
Ukuran disk maksimum (GB)
Bandwidth maksimum (Gbps)
ACR Enterprise Edition (Standard Edition): 15
ACR Enterprise Edition (Premium Edition): 15
ACR Enterprise Edition (Basic Edition): 15
ACR Personal Edition (Free): 15
86400
10
5
CatatanMengatur tipe instans ke g1 sama artinya dengan mengaturnya ke fc.gpu.tesla.1.
Instans yang dipercepat GPU seri Tesla didukung di wilayah berikut: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Shenzhen), Jepang (Tokyo), AS (Virginia), dan Singapura.
Instans yang dipercepat GPU seri Ada didukung di wilayah berikut: Tiongkok (Beijing), Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Shenzhen), Singapura, dan AS (Virginia).
Hubungan antara spesifikasi instans GPU dan konkurensi instans
GPU Ada.1 memiliki memori 48 GB, sedangkan GPU seri Tesla memiliki memori 16 GB. Function Compute mengalokasikan seluruh memori kartu GPU ke satu kontainer GPU. Karena kuota kartu GPU default maksimal 30 per wilayah, maksimal 30 kontainer GPU dapat berjalan secara simultan di wilayah tersebut.
Jika konkurensi instans suatu fungsi GPU adalah 1, fungsi tersebut dapat memproses hingga 30 permintaan inferensi secara konkuren di suatu wilayah.
Jika konkurensi instans suatu fungsi GPU adalah 5, fungsi tersebut dapat memproses hingga 150 permintaan inferensi secara konkuren di suatu wilayah.
Konkurensi single-instans
Untuk meningkatkan pemanfaatan resource, Anda dapat mengonfigurasi konkurensi single-instans sesuai kebutuhan resource aplikasi. Dalam konfigurasi ini, beberapa tugas dapat berjalan pada satu instans dan berbagi resource CPU serta memori, sehingga meningkatkan pemanfaatan resource secara keseluruhan. Untuk informasi lebih lanjut, lihat Konfigurasikan konkurensi instans.
Durasi eksekusi untuk single-instans, single-konkurensi
Saat suatu instans mengeksekusi satu permintaan, durasi eksekusi diukur sejak permintaan tiba di instans hingga eksekusi permintaan selesai.
Durasi eksekusi untuk single-instans, multi-konkurensi
Saat suatu instans mengeksekusi beberapa permintaan secara konkuren, durasi eksekusi diukur sejak permintaan pertama tiba di instans hingga permintaan terakhir selesai. Penggunaan ulang resource ini membantu menghemat biaya.
Referensi
Untuk informasi lebih lanjut mengenai metode penagihan dan item yang dapat ditagih Function Compute, lihat Ikhtisar penagihan.
Saat menggunakan API untuk membuat fungsi, Anda dapat menggunakan parameter
instanceTypeuntuk menentukan tipe instans. Untuk informasi lebih lanjut, lihat CreateFunction.Untuk mempelajari cara menentukan tipe instans dan spesifikasinya di Konsol, lihat Buat fungsi.