全部產品
Search
文件中心

Container Service for Kubernetes:Container ServiceACK 2025年功能發布記錄

更新時間:Nov 08, 2025

本文介紹Container Service for Kubernetes (ACK)的最新功能發布記錄。

背景資訊

  • 關於Container Service for Kubernetes (ACK)支援的Kubernetes(K8s)版本,請參見版本說明

  • Container Service for Kubernetes (ACK)支援的作業系統包括ContainerOS、Alibaba Cloud Linux 3 容器最佳化版、Alibaba Cloud Linux 3、Alibaba Cloud Linux 3 Arm版、Alibaba Cloud Linux UEFI 3、Red Hat、Ubuntu、Windows等,請參見作業系統

2025年10月

產品

功能名稱

功能描述

發布地區

相關文檔

支援使用DRA調度GPU

在AI訓練和推理情境中,當多個應用需要共用GPU資源時,為突破傳統裝置外掛程式的調度限制,可在ACK叢集中部署NVIDIA DRA驅動,通過Kubernetes DRA API實現Pod間GPU動態分配與細粒度資源控制,提升GPU利用率並降低成本。

全部

使用DRA調度GPU

分布式雲容器平台 ACK One

註冊叢集支援ACS GPU-HPN容量預留

通過將本地 Kubernetes 叢集註冊到雲端,結合 GPU-HPN 容量預留機制,企業可以實現雲下雲上 GPU 資源的統一管理和智能調度,為 AI 訓練、推理等關鍵工作負載提供穩定、高效能的計算保障。

全部

ACK One註冊叢集使用ACS GPU HPN算力樣本

支援通過自建Prometheus採集控制面組件指標

對於使用自建Prometheus監控系統的混合雲環境,為統一納管ACK One註冊叢集的控制面健康狀態,可安裝Metrics Aggregator組件並配置ServiceMonitor,從而將核心組件指標整合到現有監控體系,實現統一警示與觀測。

全部

通過自建Prometheus採集控制面組件指標

雲原生AI套件

支援使用Arena提交eRDMA加速的PyTorch分布式訓練作業

在多節點 GPU 訓練中網路通訊延遲拖累整體效能時,為縮短模型訓練周期,可利用 Arena 提交 PyTorch 分布式作業並配置 eRDMA 網路加速,實現低延遲、高吞吐的節點間通訊,提升訓練效率和叢集利用率。

全部

使用Arena提交eRDMA加速的PyTorch分布式訓練作業

2025年09月

產品

功能名稱

功能描述

發布地區

相關文檔

Container Service for Kubernetes

支援 Kubernetes 1.34

支援 Kubernetes 1.33 版本,可在建立叢集時直接建立 1.34 版本的叢集,也可將低版本叢集升級至 1.34 版本。

全部

Kubernetes 1.34

支援混合雲節點池

當企業需要將本機伺服器資源納入ACK叢集統一管理時,為實現雲上雲下資源的彈性調度與成本最佳化,可通過ACK託管叢集Pro版建立混合雲節點池,將已有的混合雲節點加入叢集,從而在保持統一編排的同時充分利用現有IT資產。

全部

建立和管理混合雲節點池

支援配置混合雲節點池DNS解析

混合雲節點池如通過雲上CoreDNS解析網域名稱,頻繁的訪問會加重專線負載,還可能出現因專線不穩定導致的網域名稱解析失敗,配置NodeLocal DNSCache可減少這些問題的影響。

全部

配置混合雲節點池的NodeLocal DNSCache

支援使用Terway Hybrid網路外掛程式

混合雲節點池接入本地IDC,其複雜的網路拓撲和跨域路由需求超出了常規容器網路外掛程式的能力範圍。Terway Hybrid網路外掛程式專為混合雲節點池設計,它能確保叢集內Pod(處於IDC或雲端)之間的網路互連。

全部

使用Terway Hybrid網路外掛程式

ossfs 2.0支援RRSA鑒權方式

對於需要持久化儲存或在多Pod間共用資料的應用,可通過動態PV將OSS Bucket掛載為 ossfs 2.0 儲存卷。建議使用RRSA鑒權方式,安全層級更高,提供自動輪換的臨時憑證,支援Pod級許可權隔離,適用於生產、多租戶等高安全要求的環境。

全部

使用ossfs 2.0動態儲存裝置卷

分布式雲容器平台 ACK One

支援接入雲上GPU算力

ACK One註冊叢集支援對各種異構計算資源進行統一調度和營運管理,能夠顯著提高異構計算叢集資源的使用效率。

全部

接入雲上GPU算力

支援單叢集應用遷移至艦隊並分發到多叢集

為解決應用多叢集部署時的重複操作,易出錯,難同步等問題,可使用AMC命令列工具將應用快速部署到多個叢集,並實現後續統一管理和自動同步更新。

全部

單叢集應用遷移至艦隊並分發到多叢集

2025年08月

產品

功能名稱

功能描述

發布地區

相關文檔

Container Service for Kubernetes

支援使用智能推理路由實現KVCache感知的負載平衡

KV Cache感知的負載平衡專為產生式AI推理情境設計,通過動態分配請求至最優計算節點,可以顯著提升大語言模型(LLM)服務效率。

全部

使用精準模式的首碼緩衝感知路由能力

支援自訂CNI外掛程式

ACK預設提供的Terway和Flannel CNI外掛程式,能夠滿足絕大多數的容器網路需求。但在某些情境下,若您需要使用其他CNI外掛程式中的特定功能,ACK支援通過Bring your own Container Network Interface(簡稱BYOCNI)模式在叢集中安裝自訂CNI外掛程式。

全部

在ACK叢集使用自訂CNI外掛程式

智能託管模式叢集支援託管版策略治理組件

為了滿足叢集合規性要求、提升叢集安全性,推薦啟用安全性原則管理功能。安全性原則規則包括Infra、Compliance、PSP和K8s-general。

全部

啟用安全性原則管理

Knative 支援ACS算力

Knative Service支援配置使用容器計算服務(ACS)算力,通過其多樣化的計算類型和算力品質,滿足不同業務情境的負載需求並最佳化成本。

全部

使用ACS資源

Gateway with Inference Extension支援更靈活的配置

  • 支援自訂推理擴充配置:可通過配置註解調整路由策略,或通過建立ConfigMap來修改或覆蓋擴充的部署配置。

  • 支援自訂Gateway配置:可通過調整EnvoyProxy資源配置來調整實際的Gateway參數,如Service類型、Deployment副本數以及Resources等。

全部

支援在ACK異構機密計算叢集中安全部署vLLM推理服務

大語言模型(LLM)推理涉及敏感性資料和核心模型資產,在非可信環境中運行時會面臨資料和模型泄露風險。ACK提供的機密AI解決方案(ACK-CAI),通過整合Intel TDX和GPU TEE等硬體機密計算技術,為模型推理提供端到端的安全保障。

全部

在ACK異構機密計算叢集中安全部署vLLM推理服務

雲原生AI套件

推出AI推理套件

隨著大語言模型(LLM)的廣泛應用,如何在生產環境中實現其高效、穩定且大規模的部署與營運,已成為企業面臨的核心挑戰。雲原生 AI 推理套件(AI Serving Stack)基於阿里雲Container Service,專為雲原生AI推理而設計的端到端解決方案。該套件致力於解決LLM推理的全生命週期問題,提供從部署管理、智能路由、Auto Scaling、深度可觀測的一體化能力。無論是剛剛起步還是已經擁有大規模AI業務,雲原生AI推理套件都能輕鬆駕馭複雜的雲原生AI推理情境。

全部

AI推理套件

2025年07月

產品

功能名稱

功能描述

發布地區

相關文檔

Container Service for Kubernetes

支援僅加固模式訪問ECS執行個體中繼資料

支援在 ECS 執行個體內部通過中繼資料服務(Metadata Service)擷取 ECS 中繼資料(如執行個體 ID、VPC 資訊、網卡資訊等)。在 ACK 叢集中,節點的執行個體中繼資料訪問模式預設為同時相容普通模式和加固模式。您可以調整為僅加固模式(IMDSv2),進一步增強執行個體中繼資料服務的安全性。

全部

使用僅加固模式訪問ECS執行個體中繼資料

支援訂閱海外源鏡像

如需定期從Docker Hub、GCR、Quay等海外源鏡像倉庫同步鏡像到企業版執行個體中,可以使用企業版執行個體的製品訂閱能力。

全部

通過製品訂閱擷取海外源鏡像

支援通過CNFS使用EFC用戶端掛載NAS

EFC提供了分布式緩衝等能力以提升Apsara File Storage NAS的訪問效能,同時支援高並發和大規模資料集的並行訪問,適用於資料密集型和高並發訪問的容器化應用情境(例如巨量資料分析、AI訓練與推理等)。相比使用預設的NFS協議掛載NAS,使用EFC掛載NAS可以加速檔案訪問,提升讀寫效能。

全部

通過CNFS使用EFC用戶端掛載NAS

分布式雲容器平台 ACK One

支援GitOps能力白屏化體驗

可通過控制台聚焦GitOps完整能力的使用:功能開啟/關閉、開啟公網訪問和ACL配置、ApplicationSet UI、Argo CD Configmap配置與組件重啟,以及監控、日誌可觀測能力等。

全部

GitOps快速入門

多叢集GitOps支援Argo CD Configmap配置

ACK One支援通過配置Argo CD的ConfigMap來管理GitOps相關功能和許可權。

全部

配置Argo CD ConfigMap

支援為多叢集艦隊開啟庫存感知的彈性調度

ACK One多叢集艦隊在多地區應用服務部署情境下,針對多地區資源撫平的難題設計並實現了基於庫存感知的智能調度器。通過庫存感知調度機制和即時彈性配合使用,當艦隊管理的多個叢集現有資源不足時,會將應用服務調度到有庫存的叢集中,該叢集的即時彈性會進行擴容所需節點來承接相關的應用服務,以提升調度成功,降低資源成本。

全部

為多叢集艦隊開啟庫存感知的彈性調度

Container Service Edge 版

支援專線接入配置私網串連

ACK Edge叢集支援通過專線接入網路,這為ACK Edge叢集邊緣節點安全、高效地訪問ACK和ACR等雲端服務,解決了網路衝突和無固定IP等問題。

全部

專線接入配置私網串連

2025年06月

產品

功能名稱

功能描述

發布地區

相關文檔

Container Service for Kubernetes

通過控制台使用AI Profiling

AI Profiling作為基於eBPF和動態進程注入的無侵入式效能分析工具,原生面向Kubernetes容器情境提供,支援對運行GPU任務的容器進程進行線上檢測,涵蓋多方面的資料擷取能力,可以在正在啟動並執行GPU任務上動態啟停效能資料採集。而對線上業務來說,可動態掛卸載的Profiling工具可以即時地對線上業務進行較為細緻的分析,且無需對業務代碼進行修改。

全部

AI Profiling

GPU 節點自愈

節點自愈功能新增支援 GPU 軟硬體異常引起的執行個體異常自愈。

ACK為底層EGS節點、靈駿節點的GPU軟硬體異常提供Kubernetes側節點執行個體異常自愈能力,支援從故障發現、通知警示、自動隔離、節點排水以及自動修複的全流程提供自動營運能力,同時支援在使用者授權後再執行修複,進一步增強了自動化故障營運能力,降低叢集營運成本。

全部

開啟節點自愈

CPFS智算版靜態儲存卷

CPFS智算版具有超高輸送量和IOPS效能,支援端到端RDMA網路加速,適用於AIGC、自動駕駛等智算情境。您可以在叢集中建立CPFS智算版靜態儲存卷並在工作負載中使用。

全部

使用CPFS智算版靜態儲存卷

ACK VPD CNI組件

ACK VPD CNI為ACK託管叢集Pro版的靈駿節點提供容器網路管理的能力。ACK VPD CNI作為靈駿節點的容器網路CNI外掛程式,為使用靈駿串連的靈駿節點提供容器網路資源的分配和管理功能。

全部

ACK VPD CNI

ack-kms-agent-webhook-injector組件

ack-kms-agent-webhook-injector 將 KMS Agent 作為Sidecar容器注入Pod,使業務應用可通過本地HTTP介面,藉助KMS Agent從KMS執行個體擷取憑據並緩衝於記憶體中,避免敏感資訊寫入程式碼,提升資料安全性。

全部

為應用匯入阿里雲KMS服務憑據

Gateway with Inference Extension組件能力拓展

Gateway with Inference Extension支援vLLM、SGLang等多種產生式AI推理服務架構,並為基於不同推理服務架構部署的產生式AI推理服務提供增強能力:不僅支援制定灰階發布策略、推理負載平衡、基於模型名稱的路由等,還支援為推理服務配置限流與熔斷策略。

全部

Gateway with Inference Extension概述

基於機密虛擬機器實現CAA機密容器方案

在金融風控、醫學健康等需要實現機密計算的情境下,您可以在ACK叢集中通過CAA(Cloud API Adaptor)方案部署機密計算工作負載,基於Intel® TDX技術保護敏感性資料免受外部攻擊或雲廠商的潛在威脅,以滿足行業的合規要求。

全部

基於機密虛擬機器實現CAA機密容器方案

雲原生AI套件

通過XXL-JOB調度Dify工作流程

Dify工作流程在許多情境中需要依賴調度來實現自動化任務,如風險監控、資料分析、內容產生、資料同步等典型應用情境。然而,Dify原生並不支援調度功能。為解決這一問題,本實踐介紹如何整合XXL-JOB分布式任務調度,用於實現工作流程應用的調度和狀態監控,並確保工作流程的穩定運行。

全部

通過XXL-JOB調度Dify工作流程應用

2025年05月

產品

功能名稱

功能描述

發布地區

相關文檔

Container Service for Kubernetes

支援 Kubernetes 1.33

新增支援 Kubernetes 1.33 版本。您可在建立叢集時直接建立 1.33 版本的叢集,也可將低版本叢集升級至 1.33 版本。

全部

Kubernetes 1.33

預設安裝ack-ram-authenticator組件

自Kubernetes 1.33版本起,新建立的ACK託管叢集會預設安裝最新版本的ack-ram-authenticator託管組件,不會額外佔用您的叢集節點資源。

全部

【產品公告】關於ACK託管叢集自1.33版本起預設安裝ack-ram-authenticator組件的公告

containerd發布2.1.1版本

containerd 2.1.1版本支援NRI (Node Resource Interface) 能力、CDI (Container Device Interface) 能力、Sandbox API等。

全部

containerd運行時發布記錄

支援ossfs 2.0

ossfs 2.0是基於用戶端檔案系統(Filesystem in USErspace, FUSE) 的用戶端,可以將阿里雲OSS掛載成本地檔案系統,業務容器能像訪問本地檔案一樣通過POSIX操作訪問OSS資料。ossfs 2.0相較於ossfs 1.0在順序讀寫和高並發小檔案讀取等方面實現了效能提升,適用於對儲存訪問效能要求較高的情境(如AI訓練、推理、巨量資料處理、自動駕駛等)。

全部

ossfs 2.0

分布式雲容器平台 ACK One

使用ApplicationSet協調多環境部署與應用依賴關係

新增最佳實務,介紹如何基於Argo CD的Progressive Syncs分階段同步功能,結合ApplicationSet的多環境Resource Orchestration Service能力,構建一套支援開發與預發布環境間多應用依賴管理的自動化部署體系。

全部

使用ApplicationSet協調多環境部署與應用依賴關係

2025年04月

產品

功能名稱

功能描述

發布地區

相關文檔

Container Service for Kubernetes

建立和管理靈駿節點池

支援在ACK託管叢集Pro版中建立並管理靈駿節點池。

全部

靈駿節點池

使用指定執行個體屬性配置節點池

支援通過指定執行個體屬性(例如vCPU和記憶體)的方式配置節點池的執行個體類型。節點池會自動篩選符合要求的執行個體規格進行擴容,提高擴容成功率。

全部

使用指定執行個體屬性配置節點池

即時AI Profiling

在Kubernetes容器情境中,AI Profiling作為基於eBPF和動態進程注入的無侵入式效能分析工具,支援對運行GPU任務的容器進程進行線上檢測。對線上業務來說,可動態掛卸載的Profiling工具可以即時地對線上業務進行較為細緻的分析,無需對業務代碼進行修改。

全部

通過命令列使用AI Profiling

開啟搶佔

叢集資源緊張時,高優任務可能會因資源不足而無法運行。開啟搶佔(Preemption)後,ACK Scheduler能夠通過資源類比判斷並驅逐低優任務Pod,釋放計算資源以優先保障高優任務快速啟動。

全部

開啟搶佔

通過Gateway with Inference Extension訪問服務

Gateway with Inference Extension組件基於Envoy Gateway專案構建,支援完整的Gateway API基礎能力及開源Envoy Gateway擴充資源。

全部

通過Gateway with Inference Extension訪問服務

產生式AI服務增強

支援使用Gateway with Inference Extension組件實現智能路由和高效流量管理、產生式AI推理服務灰階發布、推理服務的請求熔斷、推理服務的流量鏡像等功能。

全部

產生式AI服務增強

PVC到PVC的儲存卷備份恢複

支援在雲上ACK叢集內、同地區、跨地區ACK叢集之間進行雲端硬碟資料的備份恢複。源叢集完成備份操作後,可通過備份中心在當前叢集或其他叢集恢複出一批新的儲存聲明及對應儲存卷,無需調整任何工作負載YAML配置即可直接掛載使用。

全部

備份中心

發布alibabacloud-privateca-issuer

發布AlibabaCloud Private CA Issuer,支援通過cert-manager在叢集中建立管理阿里雲PCA認證,已同步上線至ACK應用市場。

全部

在ACK託管叢集(智能託管模式)中部署工作負載並實現負載平衡

介紹如何在ACK託管叢集(智能託管模式)中部署一個工作負載,並通過ALB Ingress實現公網訪問。完成後,您可以通過設定的網域名稱訪問該應用,實現外部流量的高效管理和負載平衡。

全部

部署工作負載並實現負載平衡

Datapath V2最佳實務

介紹在使用Terway網路外掛程式的叢集中,啟用Datapath V2後如何最佳化叢集的網路設定,例如Conntrack參數配置、Identity資源管理等,以提升叢集效能和穩定性。

全部

Datapath V2下最佳實務

Dify組件升級指南

新增最佳實務介紹如何將ack-dify從舊版本升級至v1.0.0及以上,包括備份資料、安裝外掛程式遷移工具至外掛程式系統、啟用新外掛程式生態系統等。

全部

基於ACK叢集的Dify組件升級操作

分布式雲容器平台 ACK One

使用PrivateLink解決資料中心網段IP衝突

資料中心的Kubernetes叢集通過專線接入ACK One註冊叢集後,在使用Serverless算力資源時可能因內網中存在使用相同網段的其他服務而產生衝突。請使用PrivateLink解決資料中心網段IP衝突。

全部

使用PrivateLink解決資料中心網段IP衝突

跨地區調度ACS Pod

ACK One註冊叢集支援將多地區的Serverless算力資源無縫接入Kubernetes叢集,實現跨地區GPU資源的動態調度與統一管理。

全部

跨地區調度ACS Pod

日誌採集

支援通過SLS CRD或環境變數的方式配置日誌採集,基於阿里雲Log ServiceSLS自動採集容器日誌。

全部

Container Service Edge 版

發布1.32版本

支援1.32版本,功能特性包括最佳化CoreDNS、kube-proxy和kubelet對kube-apiserver的請求、降低雲邊通訊流量等。

全部

ACK Edge發布Kubernetes 1.32版本說明

專線環境下的網元配置

支援將本機資料中心IDC伺服器裝置通過公網或專線形式接入進行容器化管理。當通過專線接入叢集時,您需要在接入前完成基礎設施的網元配置。

全部

專線環境下的網元配置

雲原生AI套件

HistoryServer組件支援

Ray原生Dashboard僅在叢集運行時可用,叢集終止後使用者無法擷取歷史日誌與監控資料。可基於RayCluster HistoryServer在叢集運行期間即時採集節點日誌並持久化儲存至OSS。

全部

在ACK中安裝HistoryServer組件

KubeRay組件支援

支援部署KubeRay Operator組件,並整合阿里雲SLS與Prometheus監控,從而增強日誌管理、系統可觀測性及高可用性。

全部

在ACK中安裝KubeRay組件

2025年03月

產品

功能名稱

功能描述

發布地區

相關文檔

Container Service for Kubernetes

ACK託管叢集Pro版支援智能託管模式

建立ACK託管叢集時,可開啟智能託管模式,快速建立一個符合最佳實務的Kubernetes叢集。

叢集建立後,將預設建立一個智能託管節點池,該節點池將根據工作負載按需動態擴縮容。同時,ACK 將負責作業系統版本升級、軟體版本升級、安全性漏洞修複等營運職責。

全部

支援為叢集控制面和資料面組件啟用鏈路追蹤

為叢集API Server或kubelet啟用鏈路追蹤後,其鏈路資訊將自動上報至Managed Service for OpenTelemetry,提供可視化的鏈路明細、即時拓撲等監控資料。

全部

發布高風險KubeConfig簡訊和郵件通知功能

支援通過簡訊和寄件提醒使用者當前帳號下存在已刪除但仍在存在風險的KubeConfig。

全部

支援基於ACK Gateway with Inference Extension實現智能路由與流量管理

您可以使用ACK Gateway with Inference Extension組件配置推理服務擴充,以實現智能路由和高效流量管理。

全部

使用Gateway with Inference ExtensionGateway with Inference Extension實現智能路由與流量管理

分布式雲容器平台 ACK One

支援多叢集艦隊組件統一管理

ACK One艦隊為叢集營運人員提供了統一且自動化的組件管理能力,可以定義包含多個組件及其版本的基準,並將其部署到多個叢集,同時支援組件配置、部署批次和復原等功能,從而提升系統的穩定性。

全部

多叢集組件管理

支援動態分發和重調度

ACK One艦隊可以通過PropagationPolicy根據子叢集的可用資源對工作負載進行副本的切分。同時,ACK One艦隊預設開啟重調度能力,每兩分鐘進行一次自動檢測,當Pod處於不可調度狀態超過30秒時,將觸發該副本的重調度。

全部

動態分發和重調度

雲原生AI套件

支援設定Slurm隊列優先順序

新增最佳實務,介紹在Slurm系統內容下,當出現作業提交或作業狀態變化時,如何通過恰當的隊列配置策略來實現儘可能多的任務調度處理,以達到最佳效能。

全部

基於ACK叢集設定Slurm隊列優先順序

2025年02月

產品

功能名稱

功能描述

發布地區

相關文檔

Container Service for Kubernetes

支援修改控制面安全性群組、時區

當建立叢集選擇的安全性群組和時區不再符合要求時,可在叢集基本資料中修改控制面的安全性群組和叢集時區。

全部

查看叢集資訊

節點池支援自訂 containerd 配置

您可以在節點池中自訂節點的 containerd 參數配置,例如給指定鏡像倉庫同時配置多個 Mirror 倉庫,或者指定跳過某個鏡像倉庫的安全性憑證的驗證。

全部

自訂節點池containerd參數配置

節點池新增彈性強度提示

節點池擴容時,可能由於執行個體庫存不足、ECS執行個體規格在指定可用性區域不支援等原因導致擴容失敗,可通過彈性強度來評估節點池配置的可用性以及執行個體供應的健康度,並擷取相應的配置建議。

全部

查看節點池彈性強度

支援啟用批量任務編排能力

Argo Workflows是一個Kubernetes原生的工作流程引擎,支援通過YAML或Python編排並行任務,簡化容器化應用的自動化和管理工作,適用於CI/CD流水線、資料處理、機器學習等情境。可通過安裝Argo Workflows組件啟用批量任務編排能力,使用阿里雲Argo CLI或控制台介面建立和管理工作流程工作。

全部

啟用批量任務編排能力

GPU故障檢測

ACK提供的ack-node-problem-detector組件基於社區開源專案node-problem-detector進一步改造和增強了叢集節點例外狀況事件監控能力。該組件提供豐富的GPU相關的故障檢測項以增強GPU情境的故障發現能力,當發現對應的故障時會根據故障類型產生相應的Kubernetes Event或Kubernetes Node Condition。

全部

GPU故障檢測與自動隔離

分布式雲容器平台 ACK One

基於實際剩餘資源的多叢集Spark作業調度與分發

本實踐將介紹如何通過ACK One艦隊和ACK Koordinator組件,根據各叢集實際剩餘資源(而非請求資源)來調度和分發多叢集Spark作業,以最大化利用多叢集中的閑置資源,並通過優先順序控制和離線混合部署確保線上服務的正常運行。

全部

基於實際剩餘資源的多叢集Spark作業調度與分發

Container Service Edge 版

支援新增Pod虛擬交換器

在ENS邊緣情境中,如果ACK Edge叢集使用Terway Edge外掛程式,當虛擬交換器的IP不足或者需要擴充Pod網段時,您可以通過新增Pod虛擬交換器來增加IP地址資源供叢集使用。

全部

新增Pod虛擬交換器

GPU資源監控

ACK Edge叢集可納管資料中心和邊緣側的GPU節點,統一管理多地區、多環境的異構算力。可在ACK Edge叢集中接入阿里雲Prometheus監控,使資料中心和邊緣計算的GPU節點擁有與雲上一致的可觀測能力。

全部

ACK Edge叢集GPU資源監控最佳實務

雲原生AI套件

基於ACK部署DeepSeek蒸餾模型推理服務

以DeepSeek-R1-Distill-Qwen-7B模型為例,介紹如何在阿里雲Container ServiceACK中使用KServe部署生產可用的DeepSeek蒸餾模型推理服務。

全部

基於ACK部署DeepSeek蒸餾模型推理服務

基於ACK多機分布式部署DeepSeek滿血版推理部署實戰

本實踐介紹基於ACK的DeepSeek-R1-671B大模型分布式推理實戰方案。該方案使用混合并行策略,結合阿里雲Arena工具,實現在2台節點上的高效分布式部署,並介紹如何將部署的DeepSeek-R1無縫整合至Dify平台,快速構建支援長文本理解的企業級智能問答系統。

全部

基於ACK多機分布式部署DeepSeek滿血版推理部署實戰

2025年01月

產品

功能名稱

功能描述

發布地區

相關文檔

Container Service for Kubernetes

節點池支援鏡像按需加速能力

ACK基於DADI(Data Accelerator for Disaggregated Infrastructure)鏡像加速支援人員容器鏡像的按需載入,實現鏡像資料免全量下載以及線上解壓,以顯著縮短應用啟動時間。

全部

使用按需載入容器鏡像加速容器啟動

新增支援Alibaba Cloud Linux 3 容器最佳化版作業系統

Alibaba Cloud Linux 3 容器最佳化版(即Alibaba Cloud Linux 3.2104 LTS 64位容器最佳化版)是基於 Alibaba Cloud Linux 預設標準鏡像針對容器情境進行最佳化的鏡像版本。針對容器情境更高業務部署密度、更快啟動速度、更高安全隔離訴求等特點,阿里雲結合Container Service Kubernetes 版中海量客戶實戰經驗,推出自研雲原生作業系統 Alibaba Cloud Linux 3 容器最佳化版鏡像。

全部

支援 Kubernetes 1.32

ACK 現已新增支援 Kubernetes 1.32 版本,您可在建立叢集時直接建立 1. 32 版本的叢集,也可將低版本叢集升級至 1.32 版本。

全部

Kubernetes 1.32

支援通過ElasticQuotaTree與任務隊列提升資源使用率

為了讓不同團隊和任務共用叢集中的計算資源,同時確保資源的合理分配和隔離,您可以基於ack-kube-queue、ElasticQuotaTree和ack-scheduler實現資源的合理、靈活分配。

全部

新增使用資源群組對叢集資源進行精細化控制的最佳實務

為了更加高效地管理Container Service Kubernetes 版的資源,您可以使用資源群組對資源進行分組管理。資源群組使您能夠按照部門、專案、環境等維度對資源進行分組,並結合存取控制(RAM),在單個阿里雲帳號內實現資源的隔離和精微調權限管理。

全部

使用資源群組進行精細化資源控制

分布式雲容器平台 ACK One

ACK One註冊叢集接入ACS算力

支援在ACK One註冊叢集中使用ACS提供的容器算力。

全部

通過虛擬節點將Pod調度到ACS上運行

支援使用原生Service網域名稱跨叢集服務訪問

ACK One多叢集Service支援通過MultiClusterService實現用原生Service網域名稱跨叢集服務訪問。您無需修改業務代碼、業務Pod的DNSConfig配置或CoreDNS配置,直接使用原生Service便可實現跨叢集流量路由。

全部

使用原生Service網域名稱跨叢集服務訪問

支援通過Go SDK訪問多叢集資源

若您希望在平台中整合ACK One艦隊以訪問各子叢集資源,可以利用Go SDK進行操作。

全部

通過Go SDK訪問多叢集資源

Container Service Edge 版

支援雲端節點伸縮

當線下節點資源不足時,節點自動調整能力可以為ACK Edge叢集自動擴容雲上節點,進行調度容量的補充。

全部

雲端ECS節點彈性

支援混合雲LLM彈性推理服務部署

通過安裝ack-kserve組件,結合ACK Edge叢集的雲上彈性功能,實現混合雲LLM彈性推理服務部署,幫您靈活調度雲上雲下資源,降低LLM推理服務營運成本。

全部

支援共用GPU調度能力

通過共用GPU調度能力,您可以將多個Pod調度到同一張GPU卡上,以共用GPU的計算資源,從而提高GPU的利用率並節省成本。

  • ACK Edge叢集的雲端節點支援完整的共用GPU調度和顯存隔離以及算力隔離能力。

  • ACK Edge叢集的邊緣節點池僅支援共用GPU調度,不支援顯存隔離、算力隔離的能力。

全部

使用共用GPU調度能力

支援統一管理多地區的ECS資源

新增最佳實務介紹如何通過ACK Edge叢集將分布在不同地區的計算資源納入統一管理,實現雲原生應用的全生命週期管理和高效資源調度。

全部

統一管理多地區的ECS資源

更多資訊

有關ACK的歷史功能發布記錄,請參見歷史功能發布記錄(2025年之前)