全部产品
Search
文档中心

Container Service for Kubernetes:Ikhtisar kluster komputasi heterogen

更新时间:Nov 27, 2025

Container Service for Kubernetes (ACK) Alibaba Cloud mendukung penjadwalan terpadu dan manajemen operasional berbagai sumber daya komputasi heterogen, sehingga meningkatkan pemanfaatan sumber daya dalam kluster komputasi heterogen. Topik ini menjelaskan kluster Kubernetes untuk komputasi heterogen yang didukung oleh ACK.

Pengenalan kluster Kubernetes untuk komputasi heterogen

ACK mendukung penjadwalan terpadu dan manajemen operasional sumber daya heterogen, seperti GPU, Application-Specific Integrated Circuits (ASIC), dan elastic Remote Direct Memory Access (eRDMA), untuk meningkatkan pemanfaatan sumber daya kluster. Tabel berikut menjelaskan kluster Kubernetes dan fitur yang didukung ACK untuk komputasi heterogen.

Sumber daya heterogen

Deskripsi

GPU

ACK memungkinkan Anda membuat kluster yang berisi kartu GPU utama, seperti T4, P100, dan V100.

  • Mendukung permintaan resource untuk GPU individual.

  • Mendukung auto scaling berdasarkan metrik GPU.

  • Mendukung GPU sharing dan computing power fencing. Teknologi GPU sharing yang dikembangkan oleh Alibaba Cloud memungkinkan beberapa aplikasi inferensi model berjalan pada GPU yang sama secara bersamaan. Hal ini secara signifikan mengurangi biaya. Dengan solusi cGPU yang disediakan oleh Alibaba Cloud, pemagaran memori GPU dan daya komputasi dapat dicapai tanpa perlu memodifikasi kontainer aplikasi. Ini meningkatkan stabilitas aplikasi. Kebijakan alokasi perangkat GPU berikut didukung:

    • Single-pod-single-GPU sharing: Kebijakan ini umum digunakan dalam skenario inferensi model.

    • Single-pod-multi-GPU sharing: Kebijakan ini umum digunakan untuk pengembangan pelatihan terdistribusi.

    • Kebijakan alokasi binpack: Beberapa Pod dijadwalkan secara preferensial ke kartu GPU yang sama. Kebijakan ini cocok untuk skenario yang memerlukan peningkatan pemanfaatan GPU.

    • Kebijakan alokasi spread: Beberapa Pod dijadwalkan ke kartu GPU yang berbeda sebanyak mungkin. Kebijakan ini cocok untuk skenario high availability (HA).

  • Mendukung fitur topology-aware GPU scheduling. Fitur ini mengambil topologi resource komputasi heterogen dari node. Penjadwal membuat keputusan penjadwalan berdasarkan informasi topologi node. Hal ini memberikan opsi penjadwalan terbaik untuk NVLINK, PCIe Switch, QPI, dan NIC RDMA guna mencapai performa optimal.

  • Mendukung pemantauan resource GPU. Fitur ini menyediakan metrik pemantauan dari perspektif node dan aplikasi, mendeteksi serta membuat alert secara otomatis untuk exception perangkat (perangkat lunak dan keras), serta mendukung skenario GPU dedicated maupun shared.

ASIC

ACK memungkinkan Anda membuat kluster yang berisi perangkat ASIC NETINT dan mendukung permintaan resource untuk kartu ASIC NETINT individual.

eRDMA

ACK memungkinkan Anda membuat kluster yang berisi perangkat eRDMA.

  • Kirim pekerjaan pelatihan pembelajaran mendalam terdistribusi yang menggunakan perangkat eRDMA melalui Arena.

  • Mendukung pekerjaan yang memiliki persyaratan tinggi terhadap lebar pita jaringan, seperti pekerjaan pelatihan pembelajaran mendalam terdistribusi.

Tipe instans GPU yang didukung oleh ACK

ACK mendukung beberapa keluarga instans yang dioptimalkan untuk komputasi dengan akselerasi GPU. Untuk menambahkan node GPU ke kluster ACK, Anda dapat memilih tipe instans dari keluarga instans ECS yang tercantum di bawah ini.

Instans confidential computing tidak didukung. Tipe instans ini mengandung bidang -tee, seperti ecs.gn8v-tee.4xlarge.
Catatan

Anda tidak dapat memilih instans yang dipercepat vGPU sebagai node kluster di Konsol ACK. Untuk informasi selengkapnya, lihat Apakah Container Service for Kubernetes mendukung instans yang dipercepat vGPU?.

Tipe instans ASIC yang didukung oleh ACK

Untuk menambahkan node ASIC ke kluster ACK, Anda dapat memilih tipe instans ecs.video-trans.26xhevc.

Tipe instans eRDMA yang didukung oleh ACK

ACK mendukung beberapa keluarga instans yang dipercepat eRDMA. Anda dapat memilih dari keluarga instans ECS yang tercantum di bawah ini. Untuk informasi selengkapnya, lihat Aktifkan eRDMA pada instans enterprise-level dan Aktifkan eRDMA pada instans yang dipercepat GPU.