全部產品
Search
文件中心

Container Service for Kubernetes:異構計算叢集概述

更新時間:Nov 26, 2025

阿里雲Container Service for KubernetesACK支援對各種異構計算資源進行統一調度和營運管理,能夠顯著提高異構計算叢集資源的使用效率。本文介紹ACK支援的異構計算叢集。

異構計算叢集介紹

阿里雲ACK支援對GPU、ASIC和RDMA異構資源進行統一調度和營運管理,提高叢集資源的使用效率。ACK支援的異構計算叢集及具體功能如下。

異構資源

功能描述

GPU

ACK支援建立帶有T4、P100、V100等市場主流GPU卡的叢集。

  • 支援以GPU卡為單位申請叢集GPU資源。

  • 支援基於GPU指標實現Auto Scaling

  • 支援共用GPU調度算力隔離。阿里雲自研的GPU共用調度技術可以將多個模型推理應用同時運行在同一GPU上,從而顯著降低成本。藉助阿里雲自主研發的cGPU方案,在無需修改應用程式容器的前提下,提供GPU顯存和算力的隔離能力,提高應用的穩定性,支援的GPU裝置分配策略如下:

    • 單Pod單GPU卡共用:常用於模型推理情境。

    • 單Pod多GPU卡共用:常用於分布式訓練開發。

    • Binpack分配策略:多個Pod會優先共用使用同一GPU卡,適用於需要提升GPU卡利用率的情境。

    • Spread分配策略:多個Pod會盡量分散使用不同GPU卡,適用於GPU高可用情境。

  • 支援GPU拓撲感知調度功能:通過Node節點擷取異構計算資源的拓撲結構,調度器端基於節點的拓撲資訊,完成調度決策,為NVLINK、PCIe Switch、QPI和RDMA NIC提供最佳的調度選擇,實現最優的運行效能。

  • 支援GPU資源監控:提供節點和應用視角的監控指標,裝置(軟硬體)異常自動檢測和警示,支援獨佔GPU和共用GPU情境。

ASIC

ACK支援建立帶有NETINT ASIC裝置的叢集,支援以單張NETINT ASIC卡為單位申請叢集資源。

eRDMA

ACK支援建立帶有eRDMA裝置的叢集。

  • 支援通過Arena提交使用eRDMA裝置的分布式深度學習訓練任務。

  • 支援對網路頻寬有高要求的任務,如分布式深度學習訓練任務等。

ACK支援的GPU執行個體規格

ACK支援多種GPU計算型執行個體規格類型系列。如需在ACK叢集中添加GPU節點,您需在下方列舉的ECS執行個體規格類型系列中選擇。

暫不支援機密計算執行個體,即執行個體規格中帶有-tee欄位,如ecs.gn8v-tee.4xlarge等。
說明

ACK目前不支援在控制台選擇vGPU執行個體作為叢集節點,詳情請參見阿里雲Container Service是否支援GPU虛擬化型(vGPU)執行個體?

ACK支援的ASIC執行個體規格

如需在ACK叢集中添加ASIC節點,您可以選擇執行個體規格ecs.video-trans.26xhevc

ACK支援的eRDMA執行個體規格

ACK支援多種eRDMA計算型執行個體規格類型系列,您可在下方列舉的ECS執行個體規格類型系列中進行選擇。更多詳情,請參見在企業級執行個體上啟用eRDMA在GPU執行個體上啟用eRDMA