全部產品
Search
文件中心

Container Service for Kubernetes:ack-arena

更新時間:Mar 18, 2025

ack-arena組件是雲原生AI套件提供的AI作業生命週期管理工具集,對AI生產過程中的主要工作環節進行抽象和標準化操作,以降低底層資源和環境管理的複雜度以及提交和運行AI任務的門檻。本文介紹ack-arena組件的基礎資訊、使用說明和變更記錄。

組件說明

雲原生AI套件將資料準備與管理、模型開發構建、模型訓練、模型評測、模型推理服務上線營運等AI生產過程的主要工作環節進行抽象,並通過命令列工具Arena來實現管理。Arena完全屏蔽底層資源和環境管理、任務調度、GPU分配和監控的複雜性,且相容主流AI架構和工具,包括Tensorflow、Pytorch、Horovod、Spark、JupyterLab、TF-Serving、Triton等。Arena還支援Golang、Java、Python SDK,便於您二次開發。

ack-arena組件對開源Arena的操作進行簡化,讓您可以在Container Service控制台一鍵安裝Arena,快速配置並使用Arena用戶端。

使用說明

ack-arena組件僅支援在ACK Pro版叢集、ACK Serverless叢集Pro版以及ACK Edge叢集Pro版中安裝,且叢集版本需為1.18及以上。關於ack-arena組件的安裝和使用,請參見配置Arena用戶端

變更說明

2025年03月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.14.2

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.14.2-aliyun-d497232

  • PyTorchJob中的worker pod的init-container資源申請的requests和limits設定為相同值

2025年03月10日

此次升級不會對業務造成影響。

2025年02月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.14.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.14.1-aliyun-19abf19

  • 修複device不支援k8s resource quantity問題

  • 修複PyTorchJob不支援backoff limit問題

  • 啟用GPU共用調度時將不會設定環境變數NVIDIA_VISIBLE_DEVICES

2025年02月24日

此次升級不會對業務造成影響。

2025年01月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.13.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.13.1-aliyun-ce9c5f3

  • tf-operator支援linux/arm64架構鏡像

  • pytorch-operator支援linux/arm64架構鏡像

  • cron-operator支援linux/arm64架構鏡像

  • et-operator支援linux/arm64架構鏡像

2025年01月13日

此次升級不會對業務造成影響。

2024年12月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.13.0

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.13.0-aliyun-f098f1a

  • PyTorchJob支援torchrun

  • 查詢PyTorchJob資訊時避免list job和statefulset操作

2024年12月23日

此次升級不會對業務造成影響。

2024年11月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.12.0

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.12.0-aliyun.0

  • 支援提交RayJob

  • 支援提交分布式推理作業

2024年11月11日

此次升級不會對業務造成影響。

0.12.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.12.1-aliyun.0

  • 提交MPIJob支援通用類型裝置

  • tf-operator修複clean pod policy相關問題

  • 修複etjob使用本地logging目錄時的渲染問題

  • 修複cron-operator清理作業失敗的問題

2024年11月25日

此次升級不會對業務造成影響。

2024年10月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.10.1

registry-cn-hangzhou.ack.aliyuncs.com/acs/arena-deploy-manager:0.10.1-aliyun.0

  • 支援多種類型裝置

  • TFJob支援successPolicy

  • 修複提交SparkApplicationi失敗的問題

2024年10月14日

此次升級不會對業務造成影響。

2024年04月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.9.14

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.14-adb43b8

新增模型管理功能。

2024年04月11日

此次升級不會對業務造成影響。

2024年03月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.9.13

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.13-5ac396c

  • triton推理服務新增backend參數。

  • 支援更新kserve推理服務掛載目錄。

2024年03月18日

此次升級不會對業務造成影響。

2024年02月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.9.12

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.12-a707f81

  • 更新tritonserver基礎鏡像。

  • 相容training-operator CRD。

2024年02月04日

此次升級不會對業務造成影響。

2023年11月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.9.11

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.11-ce87d10

  • 支援部署KServe推理服務。

  • 推理服務支援設定livenessProbe和readinessProbe。

2023年11月17日

此次升級不會對業務造成影響。

2023年08月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.9.10

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.10-4b5c18c

  • 支援提交etjob和deepspeedjob時建立SSH secret。

  • 預設移除et-operator secret許可權,可手動開啟。

2023年08月02日

此次升級不會對業務造成影響。

2023年06月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.9.9

registry.cn-beijing.aliyuncs.com/acs/arena-deploy-manager:0.9.9-ce4a78d

  • 新增訓練任務類型DeepSpeed,支援DeepSpeed分布式訓練。

  • 支援設定imagePullPolicy。

2023年06月29日

此次升級不會對業務造成影響。

2023年05月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.9.8

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.7-d51fe2e

  • 新增支援通過SDK配置任務完成清理時間。

  • RBAC許可權收斂。

2023年05月23日

此次升級不會對業務造成影響。

2023年04月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.9.7

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.7-d51fe2e

新增支援為定時任務設定任務完成時間。

2023年04月11日

此次升級不會對業務造成影響。

0.9.6

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.6-b3c2c7f

  • 更新et-operator鏡像。

  • 建立tfjob和pytorchjob時添加ownerReference。

2023年04月04日

此次升級不會對業務造成影響。

2023年03月

版本號碼

鏡像地址

變更內容

變更時間

變更影響

0.9.5

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.5-c3948e2

  • Arena提交tfjob時,新增支援running-timeout、starting-timeout、ttl-after-finished。

  • Arena提交pytorchjob時,新增支援running-timeout、ttl-after-finished。

  • 新增支援jobsupervisor charts。

  • 升級JAVA SDK至1.0.4版本。

  • 修複gang pod label不規範的問題。

  • 更新tf-operator、pytorch-operator、et-operator鏡像。

2023年03月16日

此次升級不會對業務造成影響。