Alibaba Cloud Container Compute Service (ACS) menyediakan penjadwalan terpadu untuk resource komputasi heterogen dan memungkinkan penggunaannya secara serverless. Hal ini menyederhanakan operasi dan pemeliharaan kluster Kubernetes untuk komputasi heterogen. Topik ini menjelaskan cara menggunakan resource komputasi heterogen di ACS.
Alur kerja GPU ACS yang umum
ACS menyediakan solusi elastis dan hemat biaya untuk beban kerja AI, mencakup seluruh siklus hidup mulai dari pra-pemrosesan data, pelatihan model hingga penerapan inferensi. ACS menggabungkan fitur on-demand dan auto-scaling dari arsitektur serverless dengan daya komputasi GPU yang kuat. Ini memungkinkan pengembang dan ilmuwan data fokus pada logika bisnis dan inovasi algoritma tanpa perlu mengelola resource dasar.
Tahap pra-pemrosesan data: Untuk tugas seperti membersihkan, mentransformasi, dan meningkatkan dataset besar, Anda dapat menggunakan kemampuan pemrosesan paralel CPU serverless. Instans CPU dapat diluncurkan sesuai permintaan untuk mempercepat komputasi. Setelah tugas selesai, resource dilepaskan segera, memastikan tidak ada biaya untuk waktu idle. Pendekatan ini sangat efisien untuk tugas pemrosesan batch periodik atau burst serta mempersingkat siklus persiapan data.
Tahap pelatihan model: Selama tahap pelatihan model yang komputasi-intensif, Serverless GPU memungkinkan pemilihan instans GPU secara fleksibel berdasarkan ukuran model dan kebutuhan konvergensi. Penagihan didasarkan pada waktu eksekusi aktual, hingga detik, menghilangkan biaya server GPU idle dalam pengaturan tradisional. Solusi ini ideal untuk eksperimen parameter dan pelatihan iteratif.
Untuk beban kerja pelatihan yang memerlukan fleksibilitas resource, Anda dapat menggunakan solusi Reservasi Kapasitas GPU-HPN untuk memesan resource GPU.
Tahap penerapan inferensi: Setelah melatih model, Anda dapat menerapkannya sebagai layanan inferensi online secara mulus. Arsitektur serverless ACS menambah atau mengurangi instans GPU dalam hitungan detik berdasarkan lalu lintas real-time, bahkan turun hingga nol instans saat tidak ada lalu lintas. Tingkat elastisitas tinggi ini ideal untuk aplikasi AI dengan lalu lintas fluktuatif atau periode puncak dan non-puncak yang jelas, seperti pengenalan gambar dan pemrosesan bahasa alami. Ini memastikan ketersediaan tinggi sambil memaksimalkan penghematan biaya.
Serverless GPU ACS menyediakan platform terpadu untuk mengelola seluruh alur kerja AI secara efisien. Ini mendukung alokasi resource on-demand dan optimasi biaya, mempercepat pengembangan serta penerapan aplikasi AI.

Tipe kartu GPU yang didukung oleh ACS
Tipe kartu GPU | Memori GPU | Jumlah kartu GPU yang didukung | Dukungan RDMA |
96 GB | 1/2/4/8 | Ya | |
141 GB | 1/2/4/8 | Ya | |
48 GB | 1/2/4/8 | Tidak | |
141 GB | 8 | Ya | |
96 GB | 1/2/4/8/16 | Ya | |
48 GB | 1/2/4/8 | Tidak | |
16 GB | 1/2 | Tidak | |
24 GB | 1/2/4/8 | Tidak | |
32 GB | 1/2/4/8 | Tidak |
Untuk informasi lebih lanjut tentang tipe kartu GPU, lihat Keluarga instans GPU yang didukung oleh ACS.
Zona yang mendukung resource GPU ACS
Zona | Tipe kartu GPU yang didukung |
cn-wulanchabu-a | GU8TF, L20, G49E |
cn-wulanchabu-b | G59 |
cn-wulanchabu-c | P16EN |
cn-beijing-d | GU8TF, GU8TEF, P16EN |
cn-beijing-i | A10 |
cn-beijing-l | L20, G49E, G59 |
cn-shanghai-e | G59 |
cn-shanghai-f | GU8TF, GU8TEF, P16EN |
cn-shanghai-l | L20, G49E, T4 |
cn-shanghai-n | L20 |
cn-shanghai-o | P16EN |
cn-hangzhou-b | GU8TF, L20, G49E, P16EN, G59 |
cn-hangzhou-i | T4 |
cn-shenzhen-c | L20 |
cn-shenzhen-d | GU8TEF, G49E, G59 |
cn-shenzhen-e | T4 |
cn-hongkong-d | GU8TEF |
ap-southeast-1 | GU8TF, L20, L20X |