全部產品
Search
文件中心

Container Service for Kubernetes:建立和管理靈駿節點池

更新時間:Nov 29, 2025

本文介紹如何在ACK託管叢集Pro版添加靈駿節點池的相關操作。

靈駿節點池簡介

  • ACK託管叢集Pro版中的“靈駿節點池”與智能計算靈駿服務(靈駿裸金屬叢集)的節點分組為一對一的對應關係,即一個靈駿叢集的節點分組可以對應一個ACK託管叢集Pro版的靈駿節點池,意味著一個靈駿節點只能屬於一個靈駿節點池。根據靈駿節點池的劃分,可以實現對ACK託管叢集Pro版中的靈駿節點進行不同的管理。

  • ACK託管叢集Pro版通過靈駿節點池的形式管理靈駿節點,支援節點池生命週期管理以及節點大量新增和移除,提供與ECS節點池基本一致的管理和營運能力,包括節點配置、節點營運、調度應用至指定節點池,以及監控診斷和自動化營運等能力。

  • 如果需要為靈駿節點提供雲原生AI的增強能力,請安裝雲原生AI套件。靈駿節點池支援多GPU卡的拓撲感知調度,結合GPU容器虛擬化方案提供共用GPU調度和隔離;針對AI、HPC等任務特點,支援Gang、Capacity、Binpack等任務調度策略;還支援資料集編排和訪問加速。

說明

ACK託管叢集Pro版的靈駿節點池功能為白名單方式開通,如果您需要開通使用,請通過客戶服務經理(PDSA)聯絡Container Service團隊。

計費說明

ACK託管叢集Pro版中使用靈駿節點池時,費用由三部分組成:叢集管理費 + 靈駿節點管理費用 + 雲產品資源費

說明

2025年08月05日起,靈駿節點管理能力結束免費邀測,並正式開啟商業化收費,更多資訊,請參見【收費公告】靈駿節點管理收費公告。邀測期間,靈駿節點池的功能可以免費使用,ACK託管叢集Pro版的其他費用(叢集管理費和雲產品資源費)仍然正常收取,請參見 計費概述

前提條件

ACK託管叢集Pro版建立靈駿節點池時,需滿足以下條件:

  1. 已建立叢集類型為Lite的基礎靈駿叢集服務,並在靈駿節點分組中完成節點擴容。具體操作,請參見建立叢集

  2. 已建立ACK託管叢集Pro版,且滿足以下條件:

    • ACK託管叢集Pro版與靈駿裸金屬叢集在相同地區及相同VPC下。

    • ACK託管叢集Pro版為1.31及以上版本,僅支援 IPv4 單棧叢集,不支援 IPv6 雙棧叢集。如需升級,請參見手動升級叢集

    • 網路外掛程式為Terway。由於不同靈駿節點機型依賴的Terway版本不同,建議升級terway-controlplane和terway-eniip組件至最新版本。

    • 已安裝ack-rdma-device-plugin組件。

  3. 使用靈駿節點池時,同時保有ECS節點,用於部署部分ACK管控組件(建議使用3個及以上ECS節點以保證高可用)。

    重要

    為了避免系統組件的Pod被調度到靈駿節點上佔用資源,靈駿節點池中的節點預設會有以下標籤和汙點。如果您的Pod所在節點為靈駿節點,可添加對此Taint的容忍,也可以在升級組件後刪除Taint,但請勿刪除預設Label。

    Label: alibabacloud.com/lingjun-worker:true
    Taint: Key:node-role.alibabacloud.com/lingjun
           Effect:NoSchedule
  4. 靈駿節點池僅支援OS kernel版本為5.10及以上的靈駿節點。

操作入口

您可以在目的地組群的節點池頁面進行節點池的相關操作,包括建立、編輯、刪除、查看等。

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇節點管理 > 節點池

建立靈駿節點池

您可以在控制台完成節點池的配置,包括基本配置、網路設定、儲存配置等。部分配置項(尤其是節點池可用性相關和網路相關的配置)在建立後不支援調整,請參見下文重點關注。建立節點池的過程中不會影響其他已有節點池內節點和業務的運行。

節點池頁面,單擊... > 建立靈駿節點池,然後在建立靈駿節點池對話方塊,完成建立靈駿節點池的配置項。關聯已有的靈駿叢集和靈駿分組。

節點池建立完成以後,支援在編輯節點池頁面修改配置項。如下表所示,是否支援修改代表節點池建立後對應的配置項是否支援修改。

重要

靈駿節點池目前僅支援將容器運行時資料存放區到系統硬碟。

說明

對使用靈駿串連的靈駿節點,需要單獨申請ACK VPD CNI組件白名單,在建立靈駿節點池前,在組件管理中安裝ACK VPD CNI組件。建立靈駿節點池時,對於使用靈駿串連的節點分組,ACK將自動在叢集安全性群組中添加靈駿分組的網段,並允許入方向訪問,ACK將自動為節點池添加label:alibabacloud.com/lingjun-network-type: vpd,請勿刪除。

展開查看詳細配置說明表。

  • 基礎配置

    配置項

    說明

    是否支援修改

    節點池名稱

    自訂的節點池名稱。

    地區

    預設選擇當前叢集所在地區,且不可更改。

    容器運行時

    靈駿節點池僅支援容器運行時為containerd的ACK託管叢集Pro版

  • 靈駿資源

    配置項

    說明

    是否支援修改

    靈駿叢集

    可以選擇與ACK叢集位於相同VPC的Lite類型的靈駿叢集。

    靈駿分組

    可以選擇與靈駿節點池位於相同VPC且未關聯靈駿節點池的靈駿分組。

  • 進階配置

    展開進階選項(選填),配置節點標籤、汙點等資訊。

    配置項

    說明

    是否支援修改

    汙點 (Taints)

    為節點添加索引值對汙點。有效汙點鍵包含首碼(可選)和名稱。如果有首碼,用正斜線(/)分隔。

    展開查看詳細說明

    • :名稱長度為1~63個字元,必須以字母、數字或字元[a-z0-9A-Z]開頭和結尾,中間可包含字母、數字、短劃線(-)、底線(_)、英文半形句號(.)。

      如果指定首碼,必須為DNS子域,即一系列由英文半形句號(.)分隔的DNS標籤,不超過253個字元,並以正斜線(/)結尾。

    • :汙點值可以為空白,不超過63個字元,必須以字母、數字或字元[a-z0-9A-Z]開頭和結尾,可包含字母、數字、短劃線(-)、底線(_)、英文半形句號(.)。

    • Effect

      • NoSchedule:不接受任何新的、不容忍此汙點的Pod被調度到該節點,但已在啟動並執行Pod不受影響。

      • NoExecute:不僅不接受任何新的、不容忍此汙點的Pod被調度到該節點,還會驅逐節點上任何已在啟動並執行、不容忍此汙點的Pod。

      • PreferNoSchedule:ACK會盡量避免將Pod調度到存在其不能容忍汙點的節點上,但不會強制執行。

    節點標籤(Labels)

    重要

    建立靈駿節點池時,ACK將自動為節點池添加標籤以啟用獨佔ENI模式,建立後請勿刪除。

    不允許刪除靈駿節點池預設添加的Label:

    • service.alibabacloud.com/exclude-node

    • alibabacloud.com/lingjun-worker

    • alibabacloud.com/lingjun-hpnzone

    • alibabacloud.com/lingjun-zoneid

    • alibabacloud.com/lingjun-network-type: vpd

    • alibabacloud.com/lingjun-machine-type

    • k8s.aliyun.com/exclusive-mode-eni-type: eniOnly

    為節點添加索引值對標籤。有效Key包含首碼(可選)和名稱。如有首碼,首碼和名稱之間用正斜線(/)分隔。

    展開查看詳細說明

    • Key:名稱長度為1~63個字元,必須以字母數字字元[a-z0-9A-Z]開頭和結尾,中間可包含字母、數字、短劃線(-)、底線(_)、英文半形句號(.)。

      如果指定首碼,必須為DNS子域,即一系列由英文半形句號(.)分隔的DNS標籤,不超過253個字元,以正斜線(/)結尾。

      以下首碼由Kubernetes核心組件保留,不支援指定

      • kubernetes.io/

      • k8s.io/

      • kubernetes.io/k8s.io/結尾的首碼。例如test.kubernetes.io/

        以下除外:

        • kubelet.kubernetes.io/

        • node.kubernetes.io

        • kubelet.kubernetes.io/結尾的首碼。

        • node.kubernetes.io結尾的首碼。

    • Value:可以為空白,不超過63個字元,必須以字母數字字元[a-z0-9A-Z]開頭和結尾,可包含字母、數字、短劃線(-)、底線(_)和英文半形句號(.)。

添加已有靈駿節點

如果您需要將靈駿分組中的靈駿節點添加到ACK叢集中作為Worker節點,或將移除的Worker節點重新加入靈駿節點池,您可以在Container Service管理主控台,將靈駿節點池關聯的分組中的靈駿節點,大量新增到靈駿節點池中。添加後,可以在節點池維度進行統一管理。

自動添加靈駿節點不會替換該節點原有的作業系統,不會替換原系統硬碟和資料盤,不影響其中儲存的資料。待添加的靈駿節點執行個體必須已在本節點池關聯的靈駿分組中,且未添加到節點池中。

  • 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  • 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇節點管理 > 節點池

  • 節點池頁面,單擊⋮ > 添加已有節點

    說明

    靈駿節點添加成功後, ACK託管叢集Pro版會自動在靈駿節點執行個體上添加對應的標籤,您可以在智能計算靈駿控制台查看這些標籤,如下所示。

    • ack.aliyun.com:納管靈駿節點的ACK託管叢集Pro版ID。

    • ack.alibabacloud.com/nodepool-id:納管靈駿節點的靈駿節點池ID。

移除靈駿節點

  • 添加到節點池的靈駿節點執行個體不會隨ACK叢集或靈駿節點池的刪除而釋放,也不會從靈駿分組中自動縮容,請您關注靈駿節點的計費狀態,避免產生額外費用。

  • 移除靈駿節點僅會將節點從靈駿節點池移出,不會將節點從靈駿分組中移出。如果您需要進行更多靈駿節點與分組的管理操作,請前往智能計算靈駿控制台操作。

使用RDMA功能

為啟用靈駿節點的RDMA通訊,請進入目的地組群頁面控制台,單擊營運管理 > 組件管理手動安裝ack-rdma-device-plugin組件。

Pod可用的網路模式,取決於靈駿節點池關聯的靈駿裸金屬叢集的計算網路IP版本:

計算網路IP版本

支援的RDMA網路模式

配置說明

IPv4

僅支援hostNetwork 模式。

Pod僅支援hostNetwork網路模式進行RDMA通訊。

IPv6

  • hostNetwork模式。

  • 非hostNetwork 模式。

  • 預設使用hostNetwork模式。

  • 如需啟用非hostNetwork模式使用RDMA,請在ack-rdma-device-plugin組件配置中,開啟允許Pod通過非hostnetwork模式使用RDMA。

詳細操作,請參見Pod在靈駿節點使用RDMA網路

使用Terway獨佔ENI模式

使用Terway時,靈駿節點池僅支援獨佔ENI網路模式,且要求Terway版本為v1.14.4及以上。如果您的Terway組件低於這個版本,請參照下方的升級組件terway-eniip進行升級。

建立靈駿節點池時,ACK將自動為節點池添加標籤k8s.aliyun.com/exclusive-mode-eni-type: eniOnly,以啟用獨佔ENI模式,建立後請勿刪除。更多操作,請參見為節點池配置獨佔ENI網路模式

如果您的靈駿節點池未添加該標籤,則表明該節點池使用了共用ENI網路模式。
重要

在靈駿節點通過共用ENI模式使用VPC網路通訊時,存在偶發Pod網路不通的風險,可通過重建Pod臨時恢複業務運行。如需徹底解決該問題,建議您在業務空閑期升級Terway組件至最新版本,通過重新建立獨佔ENI模式的靈駿節點池來添加靈駿節點。

升級組件

建立ACK託管叢集Pro版時將預設使用最新組件版本。在存量的ACK託管叢集Pro版中建立靈駿節點池時,如果已使用以下組件,請升級組件至指定版本。您可進入目的地組群頁面控制台,單擊營運管理 > 組件管理進行升級。

組件名稱

最低版本要求

Kube Scheduler

v1.31

terway-eniip

v1.14.4

CoreDNS

v1.11.3.5-5321daf49-aliyun

Nginx Ingress Controller

v1.11.4-aliyun.2

ack-pod-identity-webhook

v0.2.1

security-inspector

v0.16.1.0-gea4d02f-aliyun

alicloud-monitor-controller

v1.8.4

ack-arms-prometheus

v1.1.31

logtail-ds

v2.1.6

csi-provisioner

v1.32.2

csi-plugin

v1.32.2

aliyun-acr-acceleration-suite

v0.2.10

ack-ai-installer(應用 > 雲原生AI套件安裝)

v1.12.2

更多操作

  • 使用共用GPU調度。

    如需在ACK託管叢集Pro版中的靈駿節點上使用共用GPU調度,實現GPU的共用和隔離能力,請先安裝雲原生AI套件的ack-ai-installer,具體使用方法可參考使用共用GPU調度

  • 開啟Binpack調度策略。

    在靈駿節點池運行模型訓練任務,您可以在Pod調度時啟用Binpack策略,即開啟Pod調度時啟用優先集中放置策略,以減少訓練過程中的跨機通訊延遲,關於如何在Kube Scheduler組件中開啟binpack,請參見自訂調度器參數

  • 在靈駿節點池使用網路拓撲感知調度。

    如果需要在靈駿節點池使用網路拓撲感知調度,請安裝Kube Scheduler,並升級至v1.31及以上,詳細操作可參考使用網路拓撲感知調度

FAQ

維修後節點仍是未就緒(Not Ready)狀態

  • 背景:靈駿節點由於硬體問題進行了下線維修,維修完成後,為什麼在ACK叢集中節點狀態仍然是未就緒(Not Ready)?

  • 原因:靈駿節點下線維修期間將進行換機操作,不保留本地碟資料,可能會導致kubelet、containerd等容器運行時資訊被清除,節點狀態異常。

  • 解決方案:維修完成後,您需手動將其從節點池移除,並通過“添加已有節點”重新加入靈駿節點池。