全部產品
Search
文件中心

Container Compute Service:GPU-HPN容量預留

更新時間:Sep 12, 2025

ACS叢集的GPU-HPN容量預留是一種支援HPN高速網路的GPU算力資源的預留類型。通過將GPU-HPN容量預留與ACS叢集中的虛擬節點相關聯,您可以基於親和性調度使用GPU容器算力,從而高效利用計算資源。本文介紹建立GPU-HPN容量預留,以及關聯集群的詳細步驟。

背景資訊

使用ACS叢集時,您無需再管理節點,但為了保持與原生Kubernetes的相容性,您仍可以在叢集中看到虛擬節點。虛擬節點擁有超大的計算資源容量,讓ACS叢集獲得極大的彈效能力,而不必擔心突發業務流量。預設的虛擬節點依據acs-profile ConfigMap中的vSwitchIds產生,本身不佔用任何計算資源。

GPU-HPN容量預留介紹

GPU-HPN容量預留目前僅支援以預付費訂用帳戶的方式,預留成功後周期內的資源始終可用,單次預留多個數量時,支援同時關聯多個叢集。預留的節點可以規劃成不同數量和不同規格的Pod執行個體。例如在需要使用HPN高速網路進行GPU卡間分布式通訊的大模型訓練、微調等情境下,GPU-HPN容量預留可以以Pod規格的GPU數量整卡切分抵扣,不約束CPU和Memory大小。

計費及使用限制

容量預留以秒為計費單位,並遵循隨用隨付的標準。容量預留的計費周期如下:

計費開始:建立成功且狀態轉為已生效時,開始計費。

計費終止:預留容量到期自動釋放後停止計費。

重要
  • 提交工單開通GPU-HPN容量預留。

  • 目前ACS叢集僅支援相同GPU資源類型的容量預留抵扣。如果購買了不同的GPU卡型,則無法相互抵扣,ACS將按照實際購買的卡型價格進行計費。

  • GPU-HPN容量預留的節點僅支援計算類型為高效能網路GPU型(gpu-hpn)的Pod使用。

建立GPU-HPN容量預留

  1. 登入容器計算服務控制台,在左側導覽列,單擊容量預留

  2. 容量預留頁面,單擊建立GPU-HPN資源預留,並輸入以下內容。

    配置項

    說明

    地區

    選擇資源預留所在的地區。

    可用性區域

    選擇資源預留所在的可用性區域。

    形態

    目前僅支援執行個體

    分類

    目前僅支援GPU

    HPN Zone

    選擇資源預留所在的HPN Zone。

    節點型號

    請以控制台實際顯示內容為準。

    購買時間長度

    1個月、1年、3年。

    首付比例(%)

    0首付,購買後即可直接使用。

    優惠資訊

    按照購買時間長度而有所不同。1個月期無優惠,1年期為12個月整購優惠,3年期為36個月整購優惠

    出賬周期

    每月

    分期次數

    與購買時間長度相關。例如,購買1個月分期次數為1期,購買1年期分期次數為12期

    購買數量

    購買執行個體個數。

    配置完成後,單擊立刻購買,在確認訂單頁面單擊去支付。在支付頁面單擊訂購,即可完成。

關聯集群

  1. 登入容器計算服務控制台,在左側導覽列,單擊容量預留

  2. 容量預留頁面,單擊需要關聯集群的容量預留狀態列下方的關聯集群

    重要

    僅支援關聯到ACS叢集、ACK託管叢集、ACK One註冊叢集和ACK One分布式工作流程Argo叢集,不支援其他類型叢集。

  3. 在彈出的資源關聯頁面,選擇或填入待關聯集群的ID和待關聯的執行個體數,單擊確認

    重要

    資源關聯頁面的關聯集群下拉框中,只會顯示ACS叢集和ACK託管叢集的ID。對於ACK One註冊叢集和ACK One分布式工作流程Argo叢集,請直接輸入集群ID。

    image

查詢GPU-HPN容量預留已指派的資源

GPU-HPN容量預留以Kubernetes Node的形式在叢集中體現,您可以通過kubectl工具查看Node已指派的資源。

  1. 執行以下命令,通過標籤查看GPU-HPN節點。

    kubectl get node -l alibabacloud.com/node-type=reserved

    預期輸出:

    NAME                                      STATUS   ROLES   AGE   VERSION
    cn-wulanchabu-c.cr-rkccqmu0xz8rea1*****   Ready    agent   20m   v1.28.3-aliyun
  2. 執行以下命令,查詢GPU-HPN容量預留中已指派的資源。請將命令中的節點名稱,替換為上一步擷取的實際GPU-HPN節點名稱。

    kubectl describe node cn-wulanchabu-c.cr-rkccqmu0xz8rea1***** | grep Allocated -A 10

    預期輸出:

    Allocated resources:
      (Total limits may be over 100 percent, i.e., overcommitted.)
      Resource              Requests    Limits
      --------              --------    ------
      cpu                   16 (8%)     16 (8%)
      memory                128Gi (7%)  128Gi (7%)
      ephemeral-storage     30Gi (0%)   30Gi (0%)
      nvidia.com/gpu        1           1
    Events:                 <none>

    其中第5~8行分別顯示了CPU、記憶體、臨時儲存和GPU卡的分配量及分配率。