Anda dapat menginstal suite AI cloud-native pada kluster ACK Pro, kluster ACK Serverless (versi Pro), dan kluster ACK Edge (versi Pro). Versi kluster harus 1.18 atau lebih baru. Topik ini menjelaskan cara menginstal suite AI cloud-native serta menginstal dan mengonfigurasi konsol operasi dan pengembangan AI cloud-native.
Prasyarat
Kluster ACK Pro, kluster ACK Serverless (versi Pro), atau kluster ACK Edge (versi Pro) telah dibuat. Versi kluster harus 1.18 atau lebih baru. Untuk informasi selengkapnya, lihat Buat kluster ACK Pro, Buat kluster ACK Serverless Pro, dan Buat kluster ACK Edge Pro.
Untuk menginstal dan mengonfigurasi konsol operasi AI cloud-native, Anda harus memilih Monitoring Plugin dan Simple Log Service pada halaman Component Configuration saat membuat kluster, atau menginstal komponen Prometheus Monitoring dan Logtail pada halaman Operations Management kluster yang sudah ada. Untuk informasi selengkapnya, lihat Gunakan Alibaba Cloud Prometheus untuk Pemantauan dan Kumpulkan Log Kontainer dari Kluster ACK.
Terapkan suite AI cloud-native
Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Pada halaman Clusters, temukan kluster yang diinginkan lalu klik namanya. Di panel sebelah kiri, pilih .
Pada halaman Cloud-native AI Suite, klik Deploy. Pada halaman penyebaran, pilih komponen yang diperlukan.
Tabel berikut menjelaskan konfigurasi konsol, komponen, dan dukungan komponen untuk berbagai jenis kluster.
Konfigurasi di konsol
Konfigurasi komponen
Kluster yang didukung
Item konfigurasi
Deskripsi
Nama dan deskripsi komponen
Namespace
Kluster ACK managed Pro
Kluster ACK Serverless Pro
Kluster ACK Edge Pro
Elasticity
Menentukan apakah akan mengaktifkan fitur pengontrol elastis. Untuk informasi selengkapnya, lihat Jalankan pekerjaan pelatihan model di Kubernetes dan Inferensi elastis terkontainerisasi.
ack-alibaba-cloud-metrics-adapter, komponen Auto Scaling.
kube-system



Data Access Acceleration
Menentukan apakah akan mengaktifkan fitur Fluid. Untuk informasi selengkapnya, lihat Set data elastis.
ack-fluid, komponen akselerasi cache data.
fluid-system



Scheduling
Menentukan apakah akan mengaktifkan fitur Scheduling Policy Extension (batch Task Scheduling, GPU Sharing, And Topology-aware GPU Scheduling). Klik Advanced Configuration untuk menyesuaikan parameter.
ack-ai-installer, komponen penjadwalan.
kube-system



Menentukan apakah akan mengaktifkan fitur Kube Queue. Untuk informasi selengkapnya, lihat Gunakan ack-kube-queue untuk mengelola beban kerja AI/ML.
ack-kube-queue, komponen penjadwalan antrian tugas Kubernetes yang diperluas.
kube-queue



Ecosystem Tools
Kubeflow, Arena: Untuk menggunakan Antarmuka baris perintah (CLI) Arena, pilih Arena. Anda juga harus menginstal dan mengonfigurasi klien Arena secara terpisah. Setelah instalasi, Anda dapat menggunakan CLI Arena untuk mengintegrasikan berbagai operator pelatihan Kubeflow. Klik Advanced Configuration untuk menyesuaikan parameter.
Jika Anda memilih Kube Queue, Console, dan Workflow, Arena akan dipilih secara otomatis. Untuk informasi selengkapnya, lihat Konfigurasi klien Arena.
ack-arena (alat ekosistem), CLI pembelajaran mesin.
kube-system



Console: Menyebarkan platform Platform for AI (PAI) ringan. Klik Advanced Configuration untuk menyesuaikan parameter.
ack-pai, platform Platform for AI (PAI) ringan. Disarankan.
Setelah menginstal komponen ini, Anda dapat langsung menggunakan algoritma, mesin, dan praktik terbaik yang sangat dioptimalkan dari platform PAI. Selain itu, layanan seperti Data Science Workshop (DSW), Deep Learning Containers (DLC), dan Elastic Algorithm Service (EAS) memberikan elastisitas dan efisiensi yang lebih besar dalam pengembangan, pelatihan, dan inferensi model AI. Hal ini sangat mengoptimalkan kinerja pelatihan dan inferensi serta menurunkan hambatan dalam pengembangan AI.
pai-system



Console: Konsol suite AI.
CatatanAI Console yang disediakan oleh Alibaba Cloud, yang mencakup konsol pengembangan dan konsol O&M, akan tersedia bagi pengguna dalam daftar putih mulai 22 Januari 2025. Dokumentasi di situs web resmi terkait AI Console hanya berlaku untuk pengguna dalam daftar putih. Jika Anda telah menerapkan konsol pengembangan atau konsol O&M sebelum tanggal tersebut, penggunaan Anda tidak akan terpengaruh. Pengguna yang tidak masuk daftar putih dapat menginstal dan mengonfigurasi AI Console dengan mengikuti petunjuk dari komunitas sumber terbuka. Untuk informasi selengkapnya tentang konfigurasi sumber terbuka, lihat Open Source AI Console.
ack-ai-dashboard (alat ekosistem), konsol O&M visual.
kube-ai



ack-ai-dev-console (alat ekosistem), konsol pengembangan pembelajaran mendalam.
kube-ai



Console Data Storage
Setelah Anda mengatur Interaction Mode ke Console, atur Console Data Storage ke Pre-installed MySQL atau ApsaraDB RDS. Untuk informasi selengkapnya tentang konfigurasi, lihat Instal dan konfigurasi konsol AI cloud-native.
ack-mysql, komponen database MySQL.
kube-ai



Kubeflow Pipelines
Setelah Anda memilih Kubeflow Pipelines, Anda dapat mengatur Workflow Data Storage ke Pre-installed MinIO atau OSS. Untuk informasi selengkapnya tentang konfigurasi, lihat Instal dan konfigurasi alur kerja.
ack-ai-pipeline (alat ekosistem), platform untuk membangun alur kerja pembelajaran mesin end-to-end.
kube-ai



Monitoring
Menentukan apakah akan menginstal Arena Monitoring. Untuk informasi selengkapnya, lihat Gunakan dasbor AI cloud-native.
ack-arena-exporter, komponen pemantauan kluster.
kube-ai



Klik Deploy The Cloud-native AI Suite di bagian bawah halaman. Pemeriksaan lingkungan dan dependensi dimulai, dan komponen yang dipilih akan diterapkan secara otomatis setelah pemeriksaan berhasil.
Setelah komponen diinstal, Anda dapat melihat informasi berikut pada halaman daftar komponen:
Anda dapat melihat informasi seperti nama dan versi komponen yang diinstal pada kluster saat ini, serta melakukan operasi Deploy dan Uninstall.
Jika tersedia versi baru dari komponen yang telah diinstal, Anda juga dapat melakukan operasi Upgrade.
Setelah Anda menginstal komponen konsol operasi AI cloud-native (ack-ai-dashboard) dan konsol pengembangan AI cloud-native (ack-ai-dev-console), Anda dapat menemukan halaman Cloud-native AI Suite. Di pojok kiri atas halaman, Anda dapat mengklik Operations Console atau Development Console untuk menuju konsol yang sesuai.

Setelah instalasi selesai, Anda dapat menemukan tombol Operations Console dan Development Console di pojok kiri atas halaman Cloud-native AI Suite. Klik salah satu tombol tersebut untuk menuju konsol yang sesuai.
Instal dan konfigurasi konsol AI cloud-native
AI console yang disediakan oleh Alibaba Cloud, yang mencakup konsol pengembangan dan konsol operasi, hanya akan tersedia bagi pengguna dalam daftar putih mulai 22 Januari 2025. Jika Anda telah menerapkan konsol pengembangan atau konsol operasi sebelum tanggal tersebut, penggunaan Anda tidak akan terpengaruh. Pengguna yang tidak masuk daftar putih dapat menginstal dan mengonfigurasi konsol suite AI dari komunitas sumber terbuka. Untuk informasi selengkapnya tentang konfigurasi sumber terbuka, lihat Open Source AI Console.
Di bagian Interaction Method pada halaman penyebaran Suite AI Cloud-native, pilih Sample Console. Kotak dialog Prompt akan muncul.
Buat kebijakan kustom dan berikan izin kepada peran RAM.
Buat kebijakan kustom.
Masuk ke Konsol RAM, lalu di panel navigasi kiri, pilih Permission Management > Access Policy.
Klik Create Policy.
Pada tab Script Editor, tambahkan informasi kebijakan berikut lalu klik OK. Kemudian, pada kotak teks nama, masukkan nama untuk kebijakan kustom dalam format
k8sWorkerRolePolicy-{ClusterID}dan klik OK.{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "cs:*", "log:GetProject", "log:GetLogStore", "log:GetConfig", "log:GetMachineGroup", "log:GetAppliedMachineGroups", "log:GetAppliedConfigs", "log:GetIndex", "log:GetSavedSearch", "log:GetDashboard", "log:GetJob", "ecs:DescribeInstances", "ecs:DescribeSpotPriceHistory", "ecs:DescribePrice", "eci:DescribeContainerGroups", "eci:DescribeContainerGroupPrice", "log:GetLogStoreLogs", "ims:CreateApplication", "ims:UpdateApplication", "ims:GetApplication", "ims:ListApplications", "ims:DeleteApplication", "ims:CreateAppSecret", "ims:GetAppSecret", "ims:ListAppSecretIds", "ims:ListUsers" ], "Resource": "*" } ] }
Berikan izin kepada peran RAM kluster ACK target.
Masuk ke Konsol Resource Access Management (RAM). Di panel navigasi kiri, pilih Identity Management > Roles.
Di kotak pencarian, masukkan nama peran target dalam format
KubernetesWorkerRole-{ClusterID}. Temukan peran tersebut lalu klik Add Permissions di kolom Actions.Di panel Add Permissions, masukkan nama kebijakan kustom yang telah Anda buat di kotak pencarian. Nama kebijakan harus dalam format
k8sWorkerRolePolicy-{ClusterID}.Pilih kebijakan tersebut lalu klik Confirm Add Authorization.
Kembali ke kotak dialog Prompt di Konsol ACK lalu klik Authorization Check. Jika otorisasi berhasil, status akan berubah menjadi Authorized dan tombol OK menjadi tersedia. Anda kemudian dapat melanjutkan ke langkah 3.

Pilih Operations Console Access Method dan Development Console Access Method, lalu klik OK.
Anda dapat menggunakan Private IP, Private Domain Name, atau Public Domain Name untuk mengakses layanan.
Di lingkungan produksi, gunakan alamat IP pribadi atau nama domain pribadi.
Menggunakan nama domain publik hanya disarankan untuk tujuan pengujian. Jika ingin menggunakan nama domain publik, Anda harus menambahkan pemetaan antara nama domain publik dan alamat IP publik instance SLB NGINX Ingress untuk kluster ke file hosts lokal Anda.
CatatanJika ingin mengakses konsol melalui jaringan pribadi, pilih Private IP di kotak dialog Prompt.
Untuk informasi selengkapnya tentang cara mengakses konsol menggunakan nama domain pribadi atau alamat IP pribadi, lihat Akses konsol operasi AI.
Pilih metode Console Data Storage.
Setelah Anda memilih Sample Console, opsi Console Data Storage akan muncul di bagian Interaction Method pada halaman penyebaran. Anda kemudian dapat memilih metode penyimpanan data.

Cluster Built-in MySQL
Jika Anda tidak memilih Alibaba Cloud RDS untuk penyimpanan data, database MySQL bawaan di kluster akan digunakan secara default. Karena pertimbangan stabilitas dan Perjanjian Tingkat Layanan (SLA), metode ini hanya disarankan untuk tujuan pengujian dan tidak cocok untuk lingkungan produksi. Metode ini membuat disk berbayar baru setiap kali komponen diinstal. Anda harus mengelola dan melepaskan sumber daya disk tersebut.
PentingJika kluster gagal atau penyimpanan hilang, data mungkin hilang.
Suite AI cloud-native menggunakan StorageClass disk untuk membuat PersistentVolumeClaim (PVC) dengan backend disk sebagai penyimpanan persisten untuk database MySQL. Kluster ACK membuat dan melampirkan disk baru berukuran 120 GB. Disk ini berbayar. Siklus hidup disk ini tidak dikelola oleh ACK. Anda harus mengelola sumber daya disk Anda dan menghapusnya jika tidak lagi diperlukan. Untuk informasi selengkapnya tentang cara melepaskan disk, lihat Lepaskan disk.
Alibaba Cloud RDS
CatatanJika terjadi kesalahan koneksi saat menggunakan RDS, lihat Pemecahan masalah kegagalan koneksi instans.
Jika ingin mengubah metode penyimpanan data, Anda harus meng-uninstall lalu menginstal ulang suite AI cloud-native. Jika Secret bernama
kubeai-rdsada di kluster, gunakan kubectl untuk menghapusnya.
Beli instans RDS dan buat database serta akun. Untuk informasi selengkapnya, lihat Mulai Cepat untuk ApsaraDB RDS. Untuk informasi selengkapnya tentang penagihan RDS, lihat Ikhtisar penagihan.
Klik Deploy The Cloud-native AI Suite di bagian bawah halaman.
Klik nama kluster target. Di panel navigasi, pilih Configuration Management > Secret.
Dari daftar drop-down Namespace di bagian atas halaman, pilih
kube-ai.Di pojok kanan atas halaman, klik Create from YAML.
Masukkan templat YAML berikut untuk membuat Secret bernama
kubeai-rds.apiVersion: v1 kind: Secret metadata: name: kubeai-rds namespace: kube-ai type: Opaque stringData: MYSQL_HOST: "URL RDS Anda" MYSQL_DB_NAME: "Nama database" MYSQL_USER: "Nama pengguna database" MYSQL_PASSWORD: "Kata sandi database"Parameter
Deskripsi
name
Nama secret.
namespace
Nama namespace kluster.
MYSQL_HOST
MYSQL_DB_NAME
MYSQL_USER
MYSQL_PASSWORD
Parameter untuk ApsaraDB RDS untuk MySQL. Untuk informasi selengkapnya, lihat (Usang, dialihkan ke "Langkah 1") Buat instans ApsaraDB RDS untuk MySQL dengan cepat dan (Usang, dialihkan ke "Langkah 1") Buat database dan akun.
Instal dan konfigurasi alur kerja
Jika Anda memilih Kubeflow Pipelines sebagai mesin alur kerja, Anda juga harus memilih metode Workflow Data Storage.

Cluster-internal MinIO
Jika Anda tidak memilih Alibaba Cloud OSS untuk penyimpanan data, MinIO bawaan di kluster akan digunakan secara default. Karena pertimbangan stabilitas dan SLA, metode ini hanya disarankan untuk tujuan pengujian dan tidak cocok untuk lingkungan produksi. Metode ini membuat disk berbayar baru setiap kali komponen diinstal. Anda harus mengelola dan melepaskan sumber daya disk tersebut.
Jika kluster gagal atau penyimpanan hilang, data mungkin hilang.
Suite AI cloud-native menggunakan StorageClass disk untuk membuat PVC dengan backend disk sebagai penyimpanan persisten untuk MinIO. Kluster ACK membuat dan melampirkan disk baru berukuran 20 GB. Disk ini berbayar. Siklus hidup disk ini tidak dikelola oleh ACK. Anda harus mengelola sumber daya disk Anda dan menghapusnya jika tidak lagi diperlukan. Untuk informasi selengkapnya tentang cara melepaskan disk, lihat Lepaskan disk.
Alibaba Cloud OSS
Jika namespace kube-ai tidak ada di kluster, buatlah.
kubectl create ns kube-aiSebelum menginstal Kubeflow Pipelines dari suite AI cloud-native, buka Konsol Layanan Kontainer, klik nama kluster target, lalu di panel navigasi kiri, pilih Configuration Management > Secrets.
Dari daftar drop-down Namespace di bagian atas halaman, pilih kube-ai.
Di pojok kanan atas halaman, klik Create from YAML.
Masukkan templat YAML berikut lalu klik Create. Kluster akan secara otomatis menerapkan file YAML untuk menghasilkan Secret bernama
kubeai-oss.apiVersion: v1 kind: Secret metadata: name: kubeai-oss namespace: kube-ai type: Opaque stringData: ENDPOINT: "https://oss-cn-beijing.aliyuncs.com" ACCESS_KEY_ID: "****" ACCESS_KEY_SECRET: "****"Parameter
Deskripsi
name
Nama secret.
namespace
Nama namespace kluster.
Catatannamespace: kube-ai dibuat secara otomatis saat Anda menerapkan suite AI cloud-native. Anda tidak perlu membuatnya secara terpisah.
ENDPOINT
Titik akhir OSS. Contoh ini menggunakan titik akhir wilayah Tiongkok (Beijing). Untuk informasi selengkapnya tentang titik akhir, lihat Wilayah dan titik akhir OSS.
ACCESS_KEY_ID
ACCESS_KEY_SECRET
Pasangan Kunci Akses akun Anda. Untuk mendapatkan pasangan Kunci Akses, lihat Buat AccessKey.
PentingUntuk memastikan keamanan data, kami menyarankan Anda menggunakan AccessKey (AK) dari Pengguna Resource Access Management (RAM). Sebelum masuk sebagai pengguna RAM, Anda harus memberikan izin
AliyunOSSFullAccesskepada pengguna RAM tersebut.Setelah membuat Secret, tunggu hingga bucket bernama
mlpipeline-<clusterid>dibuat secara otomatis di Konsol OSS. Pembuatan bucket tersebut menunjukkan bahwa Anda telah berhasil mengonfigurasi Alibaba Cloud OSS sebagai metode penyimpanan data alur kerja. Untuk informasi selengkapnya tentang penagihan OSS, lihat Ikhtisar penagihan.Akhirnya, instal komponen Kubeflow Pipelines dari suite AI cloud-native.
