ACS叢集的GPU-HPN容量預留是一種支援HPN高速網路的GPU算力資源的預留類型。通過將GPU-HPN容量預留與ACS叢集中的虛擬節點相關聯,您可以基於親和性調度使用GPU容器算力,從而高效利用計算資源。本文介紹建立GPU-HPN容量預留,以及關聯集群的詳細步驟。
背景資訊
使用ACS叢集時,您無需再管理節點,但為了保持與原生Kubernetes的相容性,您仍可以在叢集中看到虛擬節點。虛擬節點擁有超大的計算資源容量,讓ACS叢集獲得極大的彈效能力,而不必擔心突發業務流量。預設的虛擬節點依據acs-profile ConfigMap中的vSwitchIds產生,本身不佔用任何計算資源。
GPU-HPN容量預留介紹
GPU-HPN容量預留目前僅支援以預付費訂用帳戶的方式,預留成功後周期內的資源始終可用,單次預留多個數量時,支援同時關聯多個叢集。預留的節點可以規劃成不同數量和不同規格的Pod執行個體。例如在需要使用HPN高速網路進行GPU卡間分布式通訊的大模型訓練、微調等情境下,GPU-HPN容量預留可以以Pod規格的GPU數量整卡切分抵扣,不約束CPU和Memory大小。
計費及使用限制
容量預留以秒為計費單位,並遵循隨用隨付的標準。容量預留的計費周期如下:
計費開始:建立成功且狀態轉為已生效時,開始計費。
計費終止:預留容量到期自動釋放後停止計費。
請提交工單開通GPU-HPN容量預留。
目前ACS叢集僅支援相同GPU資源類型的容量預留抵扣。如果購買了不同的GPU卡型,則無法相互抵扣,ACS將按照實際購買的卡型價格進行計費。
GPU-HPN容量預留的節點僅支援計算類型為高效能網路GPU型(
gpu-hpn)的Pod使用。
建立GPU-HPN容量預留
登入容器計算服務控制台,在左側導覽列,單擊容量預留。
在容量預留頁面,單擊建立GPU-HPN資源預留,並輸入以下內容。
配置項
說明
地區
選擇資源預留所在的地區。
可用性區域
選擇資源預留所在的可用性區域。
形態
目前僅支援執行個體。
分類
目前僅支援GPU。
HPN Zone
選擇資源預留所在的HPN Zone。
節點型號
請以控制台實際顯示內容為準。
購買時間長度
1個月、1年、3年。
首付比例(%)
0首付,購買後即可直接使用。
優惠資訊
按照購買時間長度而有所不同。1個月期無優惠,1年期為12個月整購優惠,3年期為36個月整購優惠。
出賬周期
每月。
分期次數
與購買時間長度相關。例如,購買1個月分期次數為1期,購買1年期分期次數為12期。
購買數量
購買執行個體個數。
配置完成後,單擊立刻購買,在確認訂單頁面單擊去支付。在支付頁面單擊訂購,即可完成。
關聯集群
登入容器計算服務控制台,在左側導覽列,單擊容量預留。
在容量預留頁面,單擊需要關聯集群的容量預留狀態列下方的關聯集群。
重要僅支援關聯到ACS叢集、ACK託管叢集、ACK One註冊叢集和ACK One分布式工作流程Argo叢集,不支援其他類型叢集。
在彈出的資源關聯頁面,選擇或填入待關聯集群的ID和待關聯的執行個體數,單擊確認。
重要資源關聯頁面的關聯集群下拉框中,只會顯示ACS叢集和ACK託管叢集的ID。對於ACK One註冊叢集和ACK One分布式工作流程Argo叢集,請直接輸入集群ID。

查詢GPU-HPN容量預留已指派的資源
GPU-HPN容量預留以Kubernetes Node的形式在叢集中體現,您可以通過kubectl工具查看Node已指派的資源。
執行以下命令,通過標籤查看GPU-HPN節點。
kubectl get node -l alibabacloud.com/node-type=reserved預期輸出:
NAME STATUS ROLES AGE VERSION cn-wulanchabu-c.cr-rkccqmu0xz8rea1***** Ready agent 20m v1.28.3-aliyun執行以下命令,查詢GPU-HPN容量預留中已指派的資源。請將命令中的節點名稱,替換為上一步擷取的實際GPU-HPN節點名稱。
kubectl describe node cn-wulanchabu-c.cr-rkccqmu0xz8rea1***** | grep Allocated -A 10預期輸出:
Allocated resources: (Total limits may be over 100 percent, i.e., overcommitted.) Resource Requests Limits -------- -------- ------ cpu 16 (8%) 16 (8%) memory 128Gi (7%) 128Gi (7%) ephemeral-storage 30Gi (0%) 30Gi (0%) nvidia.com/gpu 1 1 Events: <none>其中第5~8行分別顯示了CPU、記憶體、臨時儲存和GPU卡的分配量及分配率。