智能託管節點池是ACK推出的一種全託管、免營運的節點管理員模式,支援在 ACK託管叢集Pro版中使用。啟用後,可依據工作負載需求,自動完成節點的動態擴縮容,並提供作業系統升級、安全補丁修複和故障自愈等營運能力,無需手動建立和維護節點。
功能特性
全生命週期自動化營運:自動接管節點從建立、運行到回收的整個生命週期。包括節點鏡像輪轉、異常節點自動替換以及 OS CVE 漏洞的自動修複等。
即時彈性資源供給:內建節點即時彈效能力,根據 Kubernetes 工作負載的資源請求,毫秒級觸發節點擴容或縮容。
企業級安全防護:內建最佳化的基礎軟體棧,節點採用 ContainerOS,其不可變根檔案系統可強化安全防護。
隨用隨付:根據資源實際使用量計費,協助企業減少空閑資源浪費,實現更優的資源成本控制。

節點自動化營運
自動接管節點從建立、運行到回收的整個生命週期,持續承擔作業系統升級、組件維護和安全性漏洞修複等營運職責,無需手動規劃節點配置。
損毀修復:自動檢測節點異常並觸發修複流程,支援配置是否允許通過重啟節點完成故障恢複。
作業系統 CVE 修複:支援自動修複作業系統漏洞,覆蓋高危、中危和低危等級漏洞。
作業系統版本升級:自動更新節點池作業系統鏡像,並通過節點輪轉完成升級。
ECS 系統事件自動響應:支援自動識別並響應 ECS系統事件,提升節點運行穩定性和可用性。
確定性資源彈性供給
內建節點即時彈性能力,可根據工作負載變化自動完成節點擴縮容,無需提前規劃容量。根據資源實際使用量計費,可減少空閑資源浪費,實現更優的資源成本控制。
彈性響應更快:通過事件驅動的機制來觸發擴縮行為,結合阿里雲的ContainerOS能力進行彈性加速,伸縮速度大約為45±10s。
基於事件驅動,使用響應式模型,彈性靈敏度為1~3s。
資源交付更穩定:可自動選擇合適的執行個體規格進行擴容;在目標庫存不足時,可自動補償合格其他規格,資源交付成功率可達 99%。同時提供庫存預警能力,可提前識別規格組合的潛在風險。
調度效率更優:支援根據Pod選擇最優裝箱策略(Bin Packing)和預綁定(PreBind)策略(自訂特性),將調度片段率最佳化30%。
企業級安全防護
內建採用 ContainerOS 作為節點作業系統。ContainerOS 是專為容器情境設計的作業系統,完全相容 Kubernetes 生態,兼具快速啟動、安全強化和一致性升級等優勢。
節點極速擴容
鏡像精簡:僅保留 Kubernetes Pod 運行所需的軟體包和系統服務,通過系統級整合最佳化,顯著縮短節點啟動時間。
GPU 情境最佳化:使用 GPU 執行個體時,系統內建 ContainerOS GPU 最佳化版,鏡像中預裝 NVIDIA 驅動及必要運行環境,減少節點啟動後的安裝和配置步驟。
安全強化
唯讀根檔案系統:根檔案系統預設為唯讀,僅
/etc和/var目錄可寫,既滿足基本系統配置需求,也符合雲原生情境下的不可變基礎設施原則,可有效防止逃逸容器篡改主機檔案系統。最小化系統能力暴露:預設不提供 Python 運行環境,也不直接開放 SSH 登入,避免使用者直接登入到系統中進行無法追溯的操作。對於非常規營運情境,提供專用營運容器作為補充。
原子升級
鏡像級更新與復原:遵循不可變基礎設施理念,不提供
yum等傳統包管理工具,支援以作業系統鏡像為粒度進行更新、復原(替盤升級)以及有限的分層熱升級,從而確保叢集節點的軟體版本和系統配置保持一致。
與其他節點池模式對比
智能託管節點池與不開啟節點池託管、普通託管節點池的配置能力對比如下。
託管配置 | 不開啟 | 託管節點池 | 智能託管 | |
節點池配置 | 執行個體規格 | 手動設定 | 手動設定 | 可配置,支援按規格類型智能推薦 |
付費類型 | 手動設定 | 手動設定 | 僅支援隨用隨付 | |
作業系統 | 手動設定 | 手動設定 | 僅支援容器最佳化作業系統 ContainerOS | |
系統硬碟 | 手動設定 | 手動設定 | 預設推薦配置,20Gi | |
資料盤 | 手動設定 | 手動設定 | 一塊資料盤用於 ContainerOS 作業系統的臨時儲存,大小可配置 | |
自動擴縮容 | 可選開啟,手動設定 | 可選開啟,手動設定 | 內建開啟節點即時彈性 ,可手動設定 | |
ECS系統事件自動響應 | 不支援 | 已內建開啟 | 已內建開啟 | |
節點自愈 | 不支援 | 可選開啟,手動設定 | 已內建開啟 | |
kubelet和containerd自動升級 | 通過自動升級叢集手動設定 | 已內建開啟 | ||
OS CVE漏洞自動修複 | 不支援 | 可選開啟,手動設定 | 已內建開啟 | |
使用須知
容量邊界
使用智能託管節點池後,ACK將根據工作負載需求動態擴縮容節點,預設最大支援擴容至 50 節點。可通過節點池的擴縮容功能修改最大執行個體數。
智能託管節點池不支援 Arm、本地碟等執行個體規格,且僅支援ContainerOS 3.6以上版本。ACK 已推薦預設的執行個體規格類型,可以滿足大多數情境下的應用需求。也支援在控制台根據實際業務情境調整。建議設定足夠數量的執行個體規格,以提升節點池的彈性強度,避免擴容失敗。
營運邊界
使用智能託管節點池後,ACK 將負責作業系統版本升級、軟體版本升級、安全性漏洞修複等營運職責,涉及軟體版本升級、軟體配置修改、重啟、排水驅逐等操作。請避免對節點池中 ECS 節點進行手動營運,例如重啟、資料盤掛載、登入節點修改配置等,以避免自動化策略衝突影響。
請合理設定工作負載的副本數、PreStop 優雅下線策略、PodDisruptionBudget 策略等,以確保節點可安全排水且無業務中斷影響。
智能託管節點池旨在提供自動化、智能化的 Kubernetes 節點營運功能,在某些情境下,您仍需根據責任共擔模型履行部分義務。
儲存規範
使用智能託管節點池後,ACK 將基於採用不可變根檔案系統的作業系統 ContainerOS 提升節點安全性,請避免使用節點系統路徑儲存(如 HostPath),推薦使用 PVC 作為持久化儲存。
快速建立
可在ACK託管叢集Pro版中建立智能託管節點池。
相關文檔
推薦在Auto Mode叢集中使用智能託管節點池。
支援使用 GPU 算力快速部署大模型推理服務,詳見部署Qwen大模型推理服務。