Mode penggunaan dan spesifikasi instans CPU dan instans yang dipercepat GPU - Function Compute

Instans CPU dasar umumnya mencukupi untuk skenario komputasi serbaguna di Function Compute, seperti layanan web dan pemrosesan data. Namun, untuk skenario yang memerlukan komputasi paralel berskala besar atau pembelajaran mendalam—misalnya pemrosesan audio dan video, inferensi artificial intelligence (AI), serta pengeditan gambar—instans yang dipercepat GPU dapat meningkatkan efisiensi komputasi secara signifikan.

Untuk instans yang dipercepat GPU, Function Compute menyediakan dua tipe instans: instans elastis dan instans resident. Anda dapat memilih tipe instans beserta spesifikasinya yang paling sesuai dengan kebutuhan bisnis guna memaksimalkan pemanfaatan resource dan kinerja, sekaligus memastikan keandalan layanan.

Pemilihan tipe instans

Fungsi CPU hanya mendukung instans elastis. Untuk fungsi GPU, Anda dapat memilih antara instans elastis dan instans yang disediakan berdasarkan kebutuhan terkait pemanfaatan resource, latensi, dan stabilitas biaya. Panduan pemilihan lebih rinci tersedia dalam bagan alir berikut.

Catatan

Anda hanya dapat mengikat instans yang disediakan ke fungsi GPU yang termasuk dalam seri Ada, Ada.2, Ada.3, Hopper, atau Xpu.1.

Instans elastis

Jika jumlah minimum instans suatu fungsi diatur menjadi 0, instans akan secara otomatis diskalakan berdasarkan volume permintaan dan dilepas saat tidak ada permintaan. Dengan demikian, Anda ditagih berdasarkan penggunaan aktual dan tidak dikenai biaya ketika fungsi tidak digunakan, sehingga mengoptimalkan penghematan biaya. Semakin sering permintaan bisnis masuk, semakin tinggi pemanfaatan resource dan semakin besar penghematan biaya dibandingkan dengan penggunaan mesin virtual elastis.

Apakah terjadi cold start?

Ya. Untuk bisnis yang sensitif terhadap latensi, Anda dapat mengatur jumlah minimum instans menjadi 1 atau lebih guna mengurangi cold start. Metode ini mengalokasikan resource elastis secara preemptive sehingga instans langsung siap mengeksekusi permintaan saat tiba.

Penagihan (Pay-as-you-go)

Biaya penggunaan fungsi merupakan jumlah dari biaya instans elastis aktif dan instans elastis dalam mode hibernasi dangkal (sebelumnya idle). Jika jumlah minimum instans diatur menjadi 1 atau lebih, Anda dapat mengaktifkan mode hibernasi dangkal. Dalam keadaan hibernasi dangkal, penggunaan vCPU gratis, sedangkan penggunaan GPU hanya dikenai 20% dari tarif reguler—jauh lebih rendah dibandingkan dengan instans elastis aktif.

Untuk informasi lebih lanjut mengenai skenario penggunaan instans elastis aktif dan hibernasi dangkal, lihat Instans elastis.

Instans yang disediakan

Tipe instans ini hanya berlaku untuk fungsi GPU. Anda dapat terlebih dahulu membeli kolam sumber daya yang disediakan, lalu mengalokasikan jumlah dan tipe instans yang disediakan tertentu ke suatu fungsi dari kolam tersebut. Pendekatan ini memberikan biaya penggunaan yang tetap dan dapat diprediksi, serta cocok untuk skenario dengan pemanfaatan resource tinggi, persyaratan latensi ketat, atau kebutuhan stabilitas biaya.

Apakah terjadi cold start?

Tidak. Saat menggunakan instans yang disediakan, jumlah maksimum permintaan yang dapat diproses oleh suatu fungsi secara simultan ditentukan oleh rumus berikut: = Jumlah instans yang disediakan yang dialokasikan × Konkurensi instans. Permintaan yang melebihi batas ini akan dikenai throttle, sedangkan permintaan dalam batas tersebut menerima tanggapan real-time sehingga cold start benar-benar dihilangkan.

Penagihan (Subscription)

Biaya fungsi adalah total biaya langganan untuk semua kolam sumber daya yang disediakan yang telah dibeli.

Spesifikasi instans

Instans CPU

vCPU (core)

Ukuran memori (MB)

Ukuran paket kode maksimum (GB)

Durasi eksekusi fungsi maksimum (s)

Ukuran disk maksimum (GB)

Bandwidth maksimum (Gbps)

0,05 hingga 16

Catatan: Nilai harus kelipatan 0,05.

128 hingga 32768

Catatan: Nilai harus kelipatan 64.

86400

Nilai yang valid:

512 MB. Ini adalah nilai default.
10 GB.

Catatan

Rasio antara vCPU dan ukuran memori (dalam GB) harus berada di antara 1:1 hingga 1:4.

Instans yang dipercepat GPU

Catatan

Tipe instans fc.gpu.tesla.1 memberikan kinerja yang setara dengan GPU NVIDIA T4.

Instance Type	Didukung yang didukung	Total Memori GPU (GB)	Daya komputasi full card (TFLOPS)		Spesifikasi chunking opsional
Instance Type	Didukung yang didukung	Total Memori GPU (GB)	Daya komputasi FP16	Daya komputasi FP32	Memori vGPU (MB)	Daya komputasi vGPU (card)	vCPU (core)	Ukuran memori (MB)
fc.gpu.tesla.1	Elastic instance	16	65	8	16384 (16 GB) Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.	Daya komputasi full card dialokasikan secara default. Catatan: Daya komputasi dialokasikan secara otomatis oleh Function Compute dan tidak perlu dikonfigurasi secara manual.	Nilai berkisar antara 0,05 hingga (memori vGPU dalam GB / 2). Catatan: Nilai harus kelipatan 0,05.	Nilai berkisar antara 128 hingga (memori vGPU dalam GB × 2048). Catatan: Nilai harus kelipatan 64.
fc.gpu.ada.1	Elastic instance Resident instance	48	119	60	49152 (48 GB) Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.		Nilai yang valid: 4, 8, atau 16.	Nilai yang valid: 32768, 65536, atau 98304.
fc.gpu.ada.2	Elastic instance Resident instance	24	166	83	24576 (24 GB) Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.		Nilai yang valid: 8 atau 16.	Nilai yang valid: 32768 atau 65536.
fc.gpu.ada.3	Elastic instance Resident instance	48	148	73,54	49152 (48 GB) Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.		Nilai yang valid: 8 atau 16.	Nilai yang valid: 65536 atau 98304.
fc.gpu.hopper.1	Elastic instance Resident instance	96	148	44	98304 (96 GB) Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.		16	Nilai yang valid: 98304.
fc.gpu.xpu.1	Elastic instance Resident instance	96	123	61,5	98304 (96 GB) Catatan: Hanya memori full card yang didukung. Jika Anda membeli beberapa card, semua resource dikalikan dengan jumlah card tersebut.		16	Nilai yang valid: 98304.

Instans yang dipercepat GPU juga mendukung spesifikasi resource berikut.

Ukuran Gambar (GB)

Durasi eksekusi fungsi maksimum (s)

Ukuran disk maksimum (GB)

Bandwidth maksimum (Gbps)

ACR Enterprise Edition (Standard Edition): 15

ACR Enterprise Edition (Premium Edition): 15

ACR Enterprise Edition (Basic Edition): 15

ACR Personal Edition (Free): 15

86400

Catatan

Mengatur tipe instans ke g1 sama artinya dengan mengaturnya ke fc.gpu.tesla.1.
Instans yang dipercepat GPU seri Tesla didukung di wilayah berikut: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Shenzhen), Jepang (Tokyo), AS (Virginia), dan Singapura.
Instans yang dipercepat GPU seri Ada didukung di wilayah berikut: Tiongkok (Beijing), Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Shenzhen), Singapura, dan AS (Virginia).

Hubungan antara spesifikasi instans GPU dan konkurensi instans

GPU Ada.1 memiliki memori 48 GB, sedangkan GPU seri Tesla memiliki memori 16 GB. Function Compute mengalokasikan seluruh memori kartu GPU ke satu kontainer GPU. Karena kuota kartu GPU default maksimal 30 per wilayah, maksimal 30 kontainer GPU dapat berjalan secara simultan di wilayah tersebut.

Jika konkurensi instans suatu fungsi GPU adalah 1, fungsi tersebut dapat memproses hingga 30 permintaan inferensi secara konkuren di suatu wilayah.
Jika konkurensi instans suatu fungsi GPU adalah 5, fungsi tersebut dapat memproses hingga 150 permintaan inferensi secara konkuren di suatu wilayah.

Konkurensi single-instans

Untuk meningkatkan pemanfaatan resource, Anda dapat mengonfigurasi konkurensi single-instans sesuai kebutuhan resource aplikasi. Dalam konfigurasi ini, beberapa tugas dapat berjalan pada satu instans dan berbagi resource CPU serta memori, sehingga meningkatkan pemanfaatan resource secara keseluruhan. Untuk informasi lebih lanjut, lihat Konfigurasikan konkurensi instans.

Durasi eksekusi untuk single-instans, single-konkurensi

Saat suatu instans mengeksekusi satu permintaan, durasi eksekusi diukur sejak permintaan tiba di instans hingga eksekusi permintaan selesai.

Durasi eksekusi untuk single-instans, multi-konkurensi

Saat suatu instans mengeksekusi beberapa permintaan secara konkuren, durasi eksekusi diukur sejak permintaan pertama tiba di instans hingga permintaan terakhir selesai. Penggunaan ulang resource ini membantu menghemat biaya.

Referensi

Untuk informasi lebih lanjut mengenai metode penagihan dan item yang dapat ditagih Function Compute, lihat Ikhtisar penagihan.
Saat menggunakan API untuk membuat fungsi, Anda dapat menggunakan parameter instanceType untuk menentukan tipe instans. Untuk informasi lebih lanjut, lihat CreateFunction.
Untuk mempelajari cara menentukan tipe instans dan spesifikasinya di Konsol, lihat Buat fungsi.