全部产品
Search
文档中心

Container Service for Kubernetes:ack-arena

更新时间:Jul 02, 2025

Komponen ack-arena adalah rangkaian alat manajemen siklus hidup untuk pekerjaan AI yang disediakan oleh suite AI cloud-native. Komponen ini mengabstraksi dan menstandarkan elemen-elemen utama dalam produksi AI, mengurangi kompleksitas pengelolaan sumber daya dasar dan lingkungan, serta menyederhanakan prosedur untuk mengirimkan dan menjalankan pekerjaan AI. Topik ini menjelaskan informasi dasar, catatan penggunaan, dan catatan rilis dari ack-arena.

Pengantar

Suite AI cloud-native menyediakan abstraksi untuk persiapan dan manajemen data, pengembangan model, pelatihan model, evaluasi model, layanan inferensi model, dan O&M online. Arena adalah alat baris perintah yang membantu Anda mengelola komponen-komponen utama dalam AI DevOps. Arena menyederhanakan pengelolaan sumber daya dasar dan lingkungan, penjadwalan pekerjaan, serta alokasi dan pemantauan GPU. Arena kompatibel dengan kerangka kerja dan alat AI arus utama seperti TensorFlow, PyTorch, Horovod, Spark, JupyterLab, TF-Serving, dan Triton. Arena juga menyediakan SDK untuk Golang, Java, dan Python.

ack-arena dioptimalkan untuk menyederhanakan operasi di Arena open source. Anda dapat menginstal ack-arena di konsol Container Service for Kubernetes (ACK) hanya dengan beberapa klik.

Catatan Penggunaan

Komponen ack-arena hanya dapat diinstal di kluster ACK Pro, kluster ACK Serverless Pro, dan kluster ACK Edge Pro. Versi Kubernetes dari kluster harus 1.18 atau lebih baru. Untuk informasi lebih lanjut tentang cara menginstal dan menggunakan komponen ack-arena, lihat Konfigurasikan Klien Arena.

Catatan Rilis

Maret 2025

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.14.2

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.14.2-aliyun-d497232

  • Permintaan dan batas untuk init-container pod worker di PyTorchJob disetel ke nilai yang sama.

2025-03-10

Tidak ada dampak pada beban kerja.

Februari 2025

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.14.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.14.1-aliyun-19abf19

  • Masalah bahwa perangkat tidak mendukung jumlah sumber daya Kubernetes telah diperbaiki.

  • Masalah bahwa PyTorchJob tidak mendukung batas backoff telah diperbaiki.

  • Variabel lingkungan NVIDIA_VISIBLE_DEVICES tidak disetel saat penjadwalan berbagi GPU diaktifkan.

2025-02-24

Tidak ada dampak pada beban kerja.

Januari 2025

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.13.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.13.1-aliyun-ce9c5f3

  • Linux/arm64 didukung oleh tf-operator.

  • Linux/arm64 didukung oleh pytorch-operator.

  • Linux/arm64 didukung oleh cron-operator.

  • Linux/arm64 didukung oleh et-operator.

2025-01-13

Tidak ada dampak pada beban kerja.

Desember 2024

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.13.0

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.13.0-aliyun-f098f1a

  • torchrun didukung oleh PyTorchJob.

  • Jangan lakukan operasi daftar job dan statefulset saat Anda meminta informasi PyTorchJob.

2024-12-23

Tidak ada dampak pada beban kerja.

November 2024

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.12.0

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.12.0-aliyun.0

  • RayJob dapat dikirimkan.

  • Pekerjaan inferensi terdistribusi dapat dikirimkan.

2024-11-11

Tidak ada dampak pada beban kerja.

0.12.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.12.1-aliyun.0

  • Jenis perangkat umum didukung oleh pekerjaan pelatihan MPIJob.

  • Masalah terkait kebijakan pembersihan pod dari tf-operator telah diperbaiki.

  • Masalah rendering yang terjadi saat pekerjaan pelatihan elastis menggunakan direktori logging lokal telah diperbaiki.

  • Masalah cron-operator gagal membersihkan pekerjaan telah diperbaiki.

2024-11-25

Tidak ada dampak pada beban kerja.

Oktober 2024

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.10.1

registry-cn-hangzhou.ack.aliyuncs.com/acs/arena-deploy-manager:0.10.1-aliyun.0

  • Berbagai jenis perangkat didukung.

  • successPolicy didukung oleh TFJob.

  • Masalah gagal mengirimkan SparkApplication telah diperbaiki.

2024-10-14

Tidak ada dampak pada beban kerja.

April 2024

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.9.14

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.14-adb43b8

Fitur manajemen model didukung.

2024-04-11

Tidak ada dampak pada beban kerja.

Maret 2024

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.9.13

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.13-5ac396c

  • Parameter backend ditambahkan ke layanan inferensi Triton.

  • Direktori yang dipasang ke layanan inferensi KServe dapat diperbarui.

2024-03-18

Tidak ada dampak pada beban kerja.

Februari 2024

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.9.12

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.12-a707f81

  • Gambar dasar Triton Inference Server diperbarui.

  • Definisi sumber daya kustom training-operator (CRD) kompatibel.

2024-02-04

Tidak ada dampak pada beban kerja.

November 2023

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.9.11

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.11-ce87d10

  • Layanan inferensi KServe dapat diterapkan.

  • Parameter livenessProbe dan readinessProbe dapat dikonfigurasi untuk layanan inferensi.

2023-11-17

Tidak ada dampak pada beban kerja.

Agustus 2023

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.9.10

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.10-4b5c18c

  • Rahasia SSH dapat dibuat saat pekerjaan pelatihan elastis atau DeepSpeed dikirimkan.

  • Secara default, izin ke Secret et-operator dihapus dan dapat diberikan secara manual.

2023-08-02

Tidak ada dampak pada beban kerja.

Juni 2023

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.9.9

registry.cn-beijing.aliyuncs.com/acs/arena-deploy-manager:0.9.9-ce4a78d

  • DeepSpeed ditambahkan untuk mendukung pengiriman pekerjaan pelatihan terdistribusi DeepSpeed.

  • Parameter imagePullPolicy dapat dikonfigurasi.

2023-06-29

Tidak ada dampak pada beban kerja.

Mei 2023

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.9.8

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.7-d51fe2e

  • SDK dapat digunakan untuk menentukan waktu pembersihan pekerjaan yang telah selesai.

  • Izin kontrol akses berbasis peran (RBAC) dibatasi.

2023-05-23

Tidak ada dampak pada beban kerja.

April 2023

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.9.7

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.7-d51fe2e

Waktu penyelesaian pekerjaan terjadwal dapat ditentukan.

2023-04-11

Tidak ada dampak pada beban kerja.

0.9.6

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.6-b3c2c7f

  • Gambar et-operator diperbarui.

  • Parameter ownerreference dapat dikonfigurasi saat Anda mengirimkan pekerjaan pelatihan TensorFlow atau PyTorch.

2023-04-04

Tidak ada dampak pada beban kerja.

Maret 2023

Nomor versi

Alamat gambar

Deskripsi

Tanggal rilis

Dampak

0.9.5

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.5-c3948e2

  • Parameter running-timeout, starting-timeout, dan ttl-after-finished dapat dikonfigurasi saat Anda mengirimkan pekerjaan pelatihan TensorFlow menggunakan Arena.

  • Parameter running-timeout dan ttl-after-finished dapat dikonfigurasi saat Anda mengirimkan pekerjaan pelatihan PyTorch menggunakan Arena.

  • Bagan jobsupervisor didukung.

  • SDK untuk Java diperbarui ke versi 1.0.4.

  • Masalah bahwa label pod gang tidak distandardisasi telah diperbaiki.

  • Gambar tf-operator, pytorch-operator, dan et-operator diperbarui.

2023-03-16

Tidak ada dampak pada beban kerja.