すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:ack-arena

最終更新日:Apr 01, 2025

ack-arena コンポーネントは、クラウドネイティブ AI スイートによって提供される AI ジョブのライフサイクル管理ツールのコレクションです。このコンポーネントは、AI プロダクション全体の主要コンポーネントを抽象化および標準化し、基盤となるリソースと環境の管理の複雑さを軽減し、AI ジョブの送信と実行の手順を簡素化します。このトピックでは、ack-arena の基本情報、使用上の注意、およびリリースノートについて説明します。

はじめに

クラウドネイティブ AI スイートは、データの準備と管理、モデル開発、モデルのトレーニング、モデルの評価、モデル推論サービス、およびオンライン O&M の抽象化を提供します。Arena は、AI DevOps のこれらの主要コンポーネントを管理するのに役立つコマンドラインツールです。Arena は、基盤となるリソースと環境の管理、ジョブのスケジューリング、GPU の割り当てと監視を簡素化します。Arena は、TensorFlow、PyTorch、Horovod、Spark、JupyterLab、TF-Serving、Triton など、主要な AI フレームワークとツールと互換性があります。Arena は、Golang、Java、および Python 用の SDK も提供します。

ack-arena は、オープンソース Arena での操作を簡素化するために最適化されています。 ack-arena は、数クリックで Container Service for Kubernetes (ACK) コンソールにインストールできます。

使用上の注意

ack-arena コンポーネントは、ACK Pro マネージドクラスター、ACK Serverless Pro クラスター、および ACK Edge Pro クラスター にのみインストールできます。クラスターの Kubernetes バージョンは 1.18 以降である必要があります。 ack-arena コンポーネントのインストール方法と使用方法の詳細については、「Arena クライアントを設定する」をご参照ください。

リリースノート

2025 年 3 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.14.2

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.14.2-aliyun-d497232

  • PyTorchJob の worker ポッドの init-container の requests と limits が同じ値に設定されています。

2025-03-10

ワークロードへの影響はありません。

2025 年 2 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.14.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.14.1-aliyun-19abf19

  • デバイスが Kubernetes リソース量をサポートしていない問題が修正されました。

  • PyTorchJob がバックオフ制限をサポートしていない問題が修正されました。

  • GPU 共有スケジューリングが有効になっている場合、環境変数 NVIDIA_VISIBLE_DEVICES が設定されていません。

2025-02-24

ワークロードへの影響はありません。

2025 年 1 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.13.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.13.1-aliyun-ce9c5f3

  • tf-operator で Linux/arm64 がサポートされるようになりました。

  • pytorch-operator で Linux/arm64 がサポートされるようになりました。

  • cron-operator で Linux/arm64 がサポートされるようになりました。

  • et-operator で Linux/arm64 がサポートされるようになりました。

2025-01-13

ワークロードへの影響はありません。

2024 年 12 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.13.0

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.13.0-aliyun-f098f1a

  • PyTorchJob で torchrun がサポートされるようになりました。

  • PyTorchJob 情報をクエリする際に、list job および statefulset 操作を実行しないでください。

2024-12-23

ワークロードへの影響はありません。

2024 年 11 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.12.0

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.12.0-aliyun.0

  • RayJob を投入できます。

  • 分散推論ジョブを投入できます。

2024-11-11

ワークロードへの影響はありません。

0.12.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.12.1-aliyun.0

  • MPIJob トレーニングジョブで一般的なタイプのデバイスがサポートされるようになりました。

  • tf-operator のクリーン ポッド ポリシー関連の問題が修正されました。

  • Elastic Training ジョブがオンプレミスのログディレクトリを使用する場合に発生するレンダリングの問題が修正されました。

  • cron-operator がジョブをクリーンアップできない問題が修正されました。

2024-11-25

ワークロードへの影響はありません。

2024 年 10 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.10.1

registry-cn-hangzhou.ack.aliyuncs.com/acs/arena-deploy-manager:0.10.1-aliyun.0

  • 複数の種類のデバイスがサポートされています。

  • TFJob で successPolicy がサポートされています。

  • SparkApplication の送信に失敗する問題が修正されました。

2024-10-14

ワークロードへの影響はありません。

2024 年 4 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.9.14

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.14-adb43b8

モデル管理機能がサポートされています。

2024-04-11

ワークロードへの影響はありません。

2024 年 3 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.9.13

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.13-5ac396c

  • Triton 推論サービスに backend パラメーターが追加されました。

  • KServe 推論サービスにマウントされたディレクトリを更新できるようになりました。

2024-03-18

ワークロードへの影響はありません。

2024 年 2 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.9.12

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.12-a707f81

  • Triton Inference Server のベースイメージが更新されました。

  • training-operator カスタムリソース定義 (CRD) と互換性があります。

2024-02-04

ワークロードへの影響はありません。

2023 年 11 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.9.11

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.11-ce87d10

  • KServe 推論サービスをデプロイできます。

  • 推論サービスに対して livenessProbe パラメーターと readinessProbe パラメーターを構成できます。

2023-11-17

ワークロードへの影響はありません。

2023 年 8 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.9.10

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.10-4b5c18c

  • Elastic トレーニングジョブまたは DeepSpeed トレーニングジョブの送信時に、SSH シークレットを作成できます。

  • デフォルトでは、et-operator シークレットへの権限は削除され、手動で付与できます。

2023-08-02

ワークロードへの影響はありません。

2023 年 6 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.9.9

registry.cn-beijing.aliyuncs.com/acs/arena-deploy-manager:0.9.9-ce4a78d

  • DeepSpeed 分散トレーニング ジョブの送信をサポートするために、DeepSpeed が追加されました。

  • imagePullPolicy パラメーターを構成できます。

2023-06-29

ワークロードへの影響はありません。

2025 年 3 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.9.8

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.7-d51fe2e

  • SDK を使用して、完了したジョブのクリーンアップ時間を指定できます。

  • ロールベースのアクセス制御 ( RBAC ) の権限が制限されています。

2023-05-23

ワークロードへの影響はありません。

2023 年 4 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.9.7

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.7-d51fe2e

スケジュールされたジョブの完了時間を指定できるようになりました。

2023-04-11

ワークロードへの影響はありません。

0.9.6

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.6-b3c2c7f

  • et-operator イメージが更新されました。

  • TensorFlow または PyTorch トレーニングジョブを送信するときに、ownerreference パラメーターを設定できるようになりました。

2023-04-04

ワークロードへの影響はありません。

2025 年 2 月

バージョン番号

イメージアドレス

説明

リリース日

影響

0.9.5

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.5-c3948e2

  • Arena を使用して TensorFlow トレーニングジョブを送信するときに、running-timeout、starting-timeout、および ttl-after-finished パラメーターを構成できます。

  • Arena を使用して PyTorch トレーニングジョブを送信するときに、running-timeout および ttl-after-finished パラメーターを構成できます。

  • jobsupervisor チャートがサポートされています。

  • Java 用 SDK が 1.0.4 に更新されました。

  • ギャング ポッドラベルが標準化されていない問題が修正されました。

  • tf-operator、pytorch-operator、および et-operator のイメージが更新されました。

2023-03-16

ワークロードへの影響はありません。