本文介紹如何在ACK託管叢集Pro版添加靈駿節點池的相關操作。
靈駿節點池簡介
ACK託管叢集Pro版中的“靈駿節點池”與智能計算靈駿服務(靈駿裸金屬叢集)的節點分組為一對一的對應關係,即一個靈駿叢集的節點分組可以對應一個ACK託管叢集Pro版的靈駿節點池,意味著一個靈駿節點只能屬於一個靈駿節點池。根據靈駿節點池的劃分,可以實現對ACK託管叢集Pro版中的靈駿節點進行不同的管理。
ACK託管叢集Pro版通過靈駿節點池的形式管理靈駿節點,支援節點池生命週期管理以及節點大量新增和移除,提供與ECS節點池基本一致的管理和營運能力,包括節點配置、節點營運、調度應用至指定節點池,以及監控診斷和自動化營運等能力。
如果需要為靈駿節點提供雲原生AI的增強能力,請安裝雲原生AI套件。靈駿節點池支援多GPU卡的拓撲感知調度,結合GPU容器虛擬化方案提供共用GPU調度和隔離;針對AI、HPC等任務特點,支援Gang、Capacity、Binpack等任務調度策略;還支援資料集編排和訪問加速。
ACK託管叢集Pro版的靈駿節點池功能為白名單方式開通,如果您需要開通使用,請通過客戶服務經理(PDSA)聯絡Container Service團隊。
計費說明
在ACK託管叢集Pro版中使用靈駿節點池時,費用由三部分組成:叢集管理費 + 靈駿節點管理費用 + 雲產品資源費。
自2025年08月05日起,靈駿節點管理能力結束免費邀測,並正式開啟商業化收費,更多資訊,請參見【收費公告】靈駿節點管理收費公告。邀測期間,靈駿節點池的功能可以免費使用,ACK託管叢集Pro版的其他費用(叢集管理費和雲產品資源費)仍然正常收取,請參見 計費概述。
前提條件
ACK託管叢集Pro版建立靈駿節點池時,需滿足以下條件:
已建立叢集類型為Lite的基礎靈駿叢集服務,並在靈駿節點分組中完成節點擴容。具體操作,請參見建立叢集。
已建立ACK託管叢集Pro版,且滿足以下條件:
ACK託管叢集Pro版與靈駿裸金屬叢集在相同地區及相同VPC下。
ACK託管叢集Pro版為1.31及以上版本,僅支援 IPv4 單棧叢集,不支援 IPv6 雙棧叢集。如需升級,請參見手動升級叢集。
網路外掛程式為Terway。由於不同靈駿節點機型依賴的Terway版本不同,建議升級terway-controlplane和terway-eniip組件至最新版本。
已安裝ack-rdma-device-plugin組件。
使用靈駿節點池時,同時保有ECS節點,用於部署部分ACK管控組件(建議使用3個及以上ECS節點以保證高可用)。
重要為了避免系統組件的Pod被調度到靈駿節點上佔用資源,靈駿節點池中的節點預設會有以下標籤和汙點。如果您的Pod所在節點為靈駿節點,可添加對此Taint的容忍,也可以在升級組件後刪除Taint,但請勿刪除預設Label。
Label: alibabacloud.com/lingjun-worker:true Taint: Key:node-role.alibabacloud.com/lingjun Effect:NoSchedule靈駿節點池僅支援OS kernel版本為5.10及以上的靈駿節點。
操作入口
您可以在目的地組群的節點池頁面進行節點池的相關操作,包括建立、編輯、刪除、查看等。
登入Container Service管理主控台,在左側導覽列選擇叢集列表。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇。
建立靈駿節點池
您可以在控制台完成節點池的配置,包括基本配置、網路設定、儲存配置等。部分配置項(尤其是節點池可用性相關和網路相關的配置)在建立後不支援調整,請參見下文重點關注。建立節點池的過程中不會影響其他已有節點池內節點和業務的運行。
在節點池頁面,單擊... > 建立靈駿節點池,然後在建立靈駿節點池對話方塊,完成建立靈駿節點池的配置項。關聯已有的靈駿叢集和靈駿分組。
節點池建立完成以後,支援在編輯節點池頁面修改配置項。如下表所示,是否支援修改代表節點池建立後對應的配置項是否支援修改。
靈駿節點池目前僅支援將容器運行時資料存放區到系統硬碟。
對使用靈駿串連的靈駿節點,需要單獨申請ACK VPD CNI組件白名單,在建立靈駿節點池前,在組件管理中安裝ACK VPD CNI組件。建立靈駿節點池時,對於使用靈駿串連的節點分組,ACK將自動在叢集安全性群組中添加靈駿分組的網段,並允許入方向訪問,ACK將自動為節點池添加label:alibabacloud.com/lingjun-network-type: vpd,請勿刪除。
添加已有靈駿節點
如果您需要將靈駿分組中的靈駿節點添加到ACK叢集中作為Worker節點,或將移除的Worker節點重新加入靈駿節點池,您可以在Container Service管理主控台,將靈駿節點池關聯的分組中的靈駿節點,大量新增到靈駿節點池中。添加後,可以在節點池維度進行統一管理。
自動添加靈駿節點不會替換該節點原有的作業系統,不會替換原系統硬碟和資料盤,不影響其中儲存的資料。待添加的靈駿節點執行個體必須已在本節點池關聯的靈駿分組中,且未添加到節點池中。
登入Container Service管理主控台,在左側導覽列選擇叢集列表。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇節點管理 > 節點池。
在節點池頁面,單擊⋮ > 添加已有節點。
說明靈駿節點添加成功後, ACK託管叢集Pro版會自動在靈駿節點執行個體上添加對應的標籤,您可以在智能計算靈駿控制台查看這些標籤,如下所示。
ack.aliyun.com:納管靈駿節點的ACK託管叢集Pro版ID。
ack.alibabacloud.com/nodepool-id:納管靈駿節點的靈駿節點池ID。
移除靈駿節點
添加到節點池的靈駿節點執行個體不會隨ACK叢集或靈駿節點池的刪除而釋放,也不會從靈駿分組中自動縮容,請您關注靈駿節點的計費狀態,避免產生額外費用。
移除靈駿節點僅會將節點從靈駿節點池移出,不會將節點從靈駿分組中移出。如果您需要進行更多靈駿節點與分組的管理操作,請前往智能計算靈駿控制台操作。
使用RDMA功能
為啟用靈駿節點的RDMA通訊,請進入目的地組群頁面控制台,單擊營運管理 > 組件管理,手動安裝ack-rdma-device-plugin組件。
Pod可用的網路模式,取決於靈駿節點池關聯的靈駿裸金屬叢集的計算網路IP版本:
計算網路IP版本 | 支援的RDMA網路模式 | 配置說明 |
IPv4 | 僅支援 | Pod僅支援 |
IPv6 |
|
|
詳細操作,請參見Pod在靈駿節點使用RDMA網路。
使用Terway獨佔ENI模式
使用Terway時,靈駿節點池僅支援獨佔ENI網路模式,且要求Terway版本為v1.14.4及以上。如果您的Terway組件低於這個版本,請參照下方的升級組件對terway-eniip進行升級。
建立靈駿節點池時,ACK將自動為節點池添加標籤k8s.aliyun.com/exclusive-mode-eni-type: eniOnly,以啟用獨佔ENI模式,建立後請勿刪除。更多操作,請參見為節點池配置獨佔ENI網路模式。
如果您的靈駿節點池未添加該標籤,則表明該節點池使用了共用ENI網路模式。
在靈駿節點通過共用ENI模式使用VPC網路通訊時,存在偶發Pod網路不通的風險,可通過重建Pod臨時恢複業務運行。如需徹底解決該問題,建議您在業務空閑期升級Terway組件至最新版本,通過重新建立獨佔ENI模式的靈駿節點池來添加靈駿節點。
升級組件
建立ACK託管叢集Pro版時將預設使用最新組件版本。在存量的ACK託管叢集Pro版中建立靈駿節點池時,如果已使用以下組件,請升級組件至指定版本。您可進入目的地組群頁面控制台,單擊營運管理 > 組件管理進行升級。
組件名稱 | 最低版本要求 |
v1.31 | |
v1.14.4 | |
v1.11.3.5-5321daf49-aliyun | |
v1.11.4-aliyun.2 | |
v0.2.1 | |
v0.16.1.0-gea4d02f-aliyun | |
v1.8.4 | |
v1.1.31 | |
v2.1.6 | |
v1.32.2 | |
v1.32.2 | |
v0.2.10 | |
ack-ai-installer(應用 > 雲原生AI套件安裝) | v1.12.2 |
更多操作
使用共用GPU調度。
如需在ACK託管叢集Pro版中的靈駿節點上使用共用GPU調度,實現GPU的共用和隔離能力,請先安裝雲原生AI套件的ack-ai-installer,具體使用方法可參考使用共用GPU調度。
開啟Binpack調度策略。
在靈駿節點池運行模型訓練任務,您可以在Pod調度時啟用Binpack策略,即開啟Pod調度時啟用優先集中放置策略,以減少訓練過程中的跨機通訊延遲,關於如何在Kube Scheduler組件中開啟binpack,請參見自訂調度器參數。
在靈駿節點池使用網路拓撲感知調度。
如果需要在靈駿節點池使用網路拓撲感知調度,請安裝Kube Scheduler,並升級至v1.31及以上,詳細操作可參考使用網路拓撲感知調度。
FAQ
維修後節點仍是未就緒(Not Ready)狀態
背景:靈駿節點由於硬體問題進行了下線維修,維修完成後,為什麼在ACK叢集中節點狀態仍然是未就緒(Not Ready)?
原因:靈駿節點下線維修期間將進行換機操作,不保留本地碟資料,可能會導致kubelet、containerd等容器運行時資訊被清除,節點狀態異常。
解決方案:維修完成後,您需手動將其從節點池移除,並通過“添加已有節點”重新加入靈駿節點池。