全部产品
Search
文档中心

Elastic GPU Service:Apa itu cGPU?

更新时间:Jun 29, 2025

cGPU adalah teknologi berbagi kontainer yang disediakan oleh Alibaba Cloud untuk mengisolasi GPU virtual (vGPU) berbasis kernel. Beberapa kontainer terisolasi dapat berbagi satu GPU, memastikan keamanan bisnis, meningkatkan pemanfaatan sumber daya perangkat keras GPU, dan mengurangi biaya.

Manfaat

  • Kompatibilitas Tinggi

    cGPU kompatibel dengan teknologi kontainer open source seperti Docker, Containerd, dan Kubernetes.

  • Kemudahan Penggunaan

    Saat menjalankan cGPU, Anda tidak perlu mengompilasi ulang aplikasi AI atau mengganti pustaka Compute Unified Device Architecture (CUDA).

  • Alokasi Sumber Daya yang Fleksibel

    cGPU memungkinkan Anda mengalokasikan sumber daya GPU fisik secara fleksibel sesuai kebutuhan bisnis Anda. Sebagai contoh, Anda dapat mengalokasikan memori GPU secara dinamis pada level MB, menentukan laju pemanfaatan GPU, dan menetapkan rasio daya komputasi minimum hingga 2%.

  • Jenis instans yang dipercepat GPU tanpa batas

    cGPU berlaku untuk berbagai kategori instans yang dipercepat GPU, seperti instans Elastic Compute Service (ECS) Bare Metal yang dipercepat GPU, instans tervirtualisasi, dan instans yang dipercepat vGPU.

  • Skenario Bisnis yang Luas

    cGPU mendukung penempatan bersama beban kerja online dan offline serta dapat digunakan dalam skenario AI dan rendering berbasis CUDA.

  • Kemampuan yang Kuat

    cGPU mendukung preemption untuk tugas prioritas tinggi, serta menyediakan kemampuan O&M tinggi, hot upgrade, dan alokasi multi-GPU.

Arsitektur cGPU

Gambar berikut menunjukkan arsitektur cGPU.

cGPU架构图

Untuk meningkatkan pemanfaatan sumber daya perangkat keras GPU, Anda mungkin ingin menjalankan beberapa kontainer pada satu GPU dan mengisolasi aplikasi berbasis GPU di antara kontainer tersebut.

cGPU menggunakan driver kernel yang dikembangkan oleh Alibaba Cloud untuk menyediakan perangkat vGPU bagi kontainer. Ini mengisolasi memori GPU dan daya komputasi GPU tanpa mengorbankan performa. Selain itu, ini memaksimalkan pemanfaatan sumber daya perangkat keras GPU dalam skenario pelatihan dan inferensi. Anda dapat menjalankan perintah untuk mengonfigurasi perangkat vGPU di kontainer dengan cara yang mudah.