GPU-HPN容量預留 - Container Compute Service

ACS叢集的GPU-HPN容量預留是一種支援HPN高速網路的GPU算力資源的預留類型。通過將GPU-HPN容量預留與ACS叢集中的虛擬節點相關聯，您可以基於親和性調度使用GPU容器算力，從而高效利用計算資源。本文介紹建立GPU-HPN容量預留，以及關聯集群的詳細步驟。

背景資訊

使用ACS叢集時，您無需再管理節點，但為了保持與原生Kubernetes的相容性，您仍可以在叢集中看到虛擬節點。虛擬節點擁有超大的計算資源容量，讓ACS叢集獲得極大的彈效能力，而不必擔心突發業務流量。預設的虛擬節點依據acs-profile ConfigMap中的vSwitchIds產生，本身不佔用任何計算資源。

GPU-HPN容量預留介紹

GPU-HPN容量預留目前僅支援以預付費訂用帳戶的方式，預留成功後周期內的資源始終可用，單次預留多個數量時，支援同時關聯多個叢集。預留的節點可以規劃成不同數量和不同規格的Pod執行個體。例如在需要使用HPN高速網路進行GPU卡間分布式通訊的大模型訓練、微調等情境下，GPU-HPN容量預留可以以Pod規格的GPU數量整卡切分抵扣，不約束CPU和Memory大小。

計費及使用限制

容量預留以秒為計費單位，並遵循隨用隨付的標準。容量預留的計費周期如下：

計費開始：建立成功且狀態轉為已生效時，開始計費。

計費終止：預留容量到期自動釋放後停止計費。

重要

請提交工單開通GPU-HPN容量預留。
目前ACS叢集僅支援相同GPU資源類型的容量預留抵扣。如果購買了不同的GPU卡型，則無法相互抵扣，ACS將按照實際購買的卡型價格進行計費。
GPU-HPN容量預留的節點僅支援計算類型為高效能網路GPU型（gpu-hpn)的Pod使用。

建立GPU-HPN容量預留

登入容器計算服務控制台，在左側導覽列，單擊容量預留。

在容量預留頁面，單擊建立GPU-HPN資源預留，並輸入以下內容。

配置項	說明
地區	選擇資源預留所在的地區。
可用性區域	選擇資源預留所在的可用性區域。
形態	目前僅支援執行個體。
分類	目前僅支援GPU。
HPN Zone	選擇資源預留所在的HPN Zone。
節點型號	請以控制台實際顯示內容為準。
購買時間長度	1個月、1年、3年。
首付比例（%）	0首付，購買後即可直接使用。
優惠資訊	按照購買時間長度而有所不同。1個月期無優惠，1年期為12個月整購優惠，3年期為36個月整購優惠。
出賬周期	每月。
分期次數	與購買時間長度相關。例如，購買1個月分期次數為1期，購買1年期分期次數為12期。
購買數量	購買執行個體個數。

配置完成後，單擊立刻購買，在確認訂單頁面單擊去支付。在支付頁面單擊訂購，即可完成。

關聯集群

登入容器計算服務控制台，在左側導覽列，單擊容量預留。
在容量預留頁面，單擊需要關聯集群的容量預留狀態列下方的關聯集群。
重要
僅支援關聯到ACS叢集、ACK託管叢集、ACK One註冊叢集和ACK One分布式工作流程Argo叢集，不支援其他類型叢集。
在彈出的資源關聯頁面，選擇或填入待關聯集群的ID和待關聯的執行個體數，單擊確認。
重要
資源關聯頁面的關聯集群下拉框中，只會顯示ACS叢集和ACK託管叢集的ID。對於ACK One註冊叢集和ACK One分布式工作流程Argo叢集，請直接輸入集群ID。

查詢GPU-HPN容量預留已指派的資源

GPU-HPN容量預留以Kubernetes Node的形式在叢集中體現，您可以通過kubectl工具查看Node已指派的資源。

執行以下命令，通過標籤查看GPU-HPN節點。

kubectl get node -l alibabacloud.com/node-type=reserved

預期輸出：

NAME                                      STATUS   ROLES   AGE   VERSION
cn-wulanchabu-c.cr-rkccqmu0xz8rea1*****   Ready    agent   20m   v1.28.3-aliyun

執行以下命令，查詢GPU-HPN容量預留中已指派的資源。請將命令中的節點名稱，替換為上一步擷取的實際GPU-HPN節點名稱。

kubectl describe node cn-wulanchabu-c.cr-rkccqmu0xz8rea1***** | grep Allocated -A 10

預期輸出：

Allocated resources:
  (Total limits may be over 100 percent, i.e., overcommitted.)
  Resource              Requests    Limits
  --------              --------    ------
  cpu                   16 (8%)     16 (8%)
  memory                128Gi (7%)  128Gi (7%)
  ephemeral-storage     30Gi (0%)   30Gi (0%)
  nvidia.com/gpu        1           1
Events:                 <none>

其中第5~8行分別顯示了CPU、記憶體、臨時儲存和GPU卡的分配量及分配率。