全部产品
Search
文档中心

Container Service for Kubernetes:Instal suite AI

更新时间:Nov 11, 2025

Anda dapat menginstal suite AI cloud-native pada kluster ACK Pro, kluster ACK Serverless (versi Pro), dan kluster ACK Edge (versi Pro). Versi kluster harus 1.18 atau lebih baru. Topik ini menjelaskan cara menginstal suite AI cloud-native serta menginstal dan mengonfigurasi konsol operasi dan pengembangan AI cloud-native.

Prasyarat

Terapkan suite AI cloud-native

  1. Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster yang diinginkan lalu klik namanya. Di panel sebelah kiri, pilih Applications > Cloud-native AI Suite.

  3. Pada halaman Cloud-native AI Suite, klik Deploy. Pada halaman penyebaran, pilih komponen yang diperlukan.

    Tabel berikut menjelaskan konfigurasi konsol, komponen, dan dukungan komponen untuk berbagai jenis kluster.

    Konfigurasi di konsol

    Konfigurasi komponen

    Kluster yang didukung

    Item konfigurasi

    Deskripsi

    Nama dan deskripsi komponen

    Namespace

    Kluster ACK managed Pro

    Kluster ACK Serverless Pro

    Kluster ACK Edge Pro

    Elasticity

    Menentukan apakah akan mengaktifkan fitur pengontrol elastis. Untuk informasi selengkapnya, lihat Jalankan pekerjaan pelatihan model di Kubernetes dan Inferensi elastis terkontainerisasi.

    ack-alibaba-cloud-metrics-adapter, komponen Auto Scaling.

    kube-system

    对

    错

    对

    Data Access Acceleration

    Menentukan apakah akan mengaktifkan fitur Fluid. Untuk informasi selengkapnya, lihat Set data elastis.

    ack-fluid, komponen akselerasi cache data.

    fluid-system

    对

    对

    对

    Scheduling

    Menentukan apakah akan mengaktifkan fitur Scheduling Policy Extension (batch Task Scheduling, GPU Sharing, And Topology-aware GPU Scheduling). Klik Advanced Configuration untuk menyesuaikan parameter.

    ack-ai-installer, komponen penjadwalan.

    kube-system

    对

    错

    对

    Menentukan apakah akan mengaktifkan fitur Kube Queue. Untuk informasi selengkapnya, lihat Gunakan ack-kube-queue untuk mengelola beban kerja AI/ML.

    ack-kube-queue, komponen penjadwalan antrian tugas Kubernetes yang diperluas.

    kube-queue

    对

    对

    对

    Ecosystem Tools

    Kubeflow, Arena: Untuk menggunakan Antarmuka baris perintah (CLI) Arena, pilih Arena. Anda juga harus menginstal dan mengonfigurasi klien Arena secara terpisah. Setelah instalasi, Anda dapat menggunakan CLI Arena untuk mengintegrasikan berbagai operator pelatihan Kubeflow. Klik Advanced Configuration untuk menyesuaikan parameter.

    Jika Anda memilih Kube Queue, Console, dan Workflow, Arena akan dipilih secara otomatis. Untuk informasi selengkapnya, lihat Konfigurasi klien Arena.

    ack-arena (alat ekosistem), CLI pembelajaran mesin.

    kube-system

    对

    对

    对

    Console: Menyebarkan platform Platform for AI (PAI) ringan. Klik Advanced Configuration untuk menyesuaikan parameter.

    ack-pai, platform Platform for AI (PAI) ringan. Disarankan.

    Setelah menginstal komponen ini, Anda dapat langsung menggunakan algoritma, mesin, dan praktik terbaik yang sangat dioptimalkan dari platform PAI. Selain itu, layanan seperti Data Science Workshop (DSW), Deep Learning Containers (DLC), dan Elastic Algorithm Service (EAS) memberikan elastisitas dan efisiensi yang lebih besar dalam pengembangan, pelatihan, dan inferensi model AI. Hal ini sangat mengoptimalkan kinerja pelatihan dan inferensi serta menurunkan hambatan dalam pengembangan AI.

    pai-system

    对

    错

    对

    Console: Konsol suite AI.

    Catatan

    AI Console yang disediakan oleh Alibaba Cloud, yang mencakup konsol pengembangan dan konsol O&M, akan tersedia bagi pengguna dalam daftar putih mulai 22 Januari 2025. Dokumentasi di situs web resmi terkait AI Console hanya berlaku untuk pengguna dalam daftar putih. Jika Anda telah menerapkan konsol pengembangan atau konsol O&M sebelum tanggal tersebut, penggunaan Anda tidak akan terpengaruh. Pengguna yang tidak masuk daftar putih dapat menginstal dan mengonfigurasi AI Console dengan mengikuti petunjuk dari komunitas sumber terbuka. Untuk informasi selengkapnya tentang konfigurasi sumber terbuka, lihat Open Source AI Console.

    ack-ai-dashboard (alat ekosistem), konsol O&M visual.

    kube-ai

    对

    错

    对

    ack-ai-dev-console (alat ekosistem), konsol pengembangan pembelajaran mendalam.

    kube-ai

    对

    错

    对

    Console Data Storage

    Setelah Anda mengatur Interaction Mode ke Console, atur Console Data Storage ke Pre-installed MySQL atau ApsaraDB RDS. Untuk informasi selengkapnya tentang konfigurasi, lihat Instal dan konfigurasi konsol AI cloud-native.

    ack-mysql, komponen database MySQL.

    kube-ai

    对

    错

    对

    Kubeflow Pipelines

    Setelah Anda memilih Kubeflow Pipelines, Anda dapat mengatur Workflow Data Storage ke Pre-installed MinIO atau OSS. Untuk informasi selengkapnya tentang konfigurasi, lihat Instal dan konfigurasi alur kerja.

    ack-ai-pipeline (alat ekosistem), platform untuk membangun alur kerja pembelajaran mesin end-to-end.

    kube-ai

    对

    错

    对

    Monitoring

    Menentukan apakah akan menginstal Arena Monitoring. Untuk informasi selengkapnya, lihat Gunakan dasbor AI cloud-native.

    ack-arena-exporter, komponen pemantauan kluster.

    kube-ai

    对

    错

    对

  4. Klik Deploy The Cloud-native AI Suite di bagian bawah halaman. Pemeriksaan lingkungan dan dependensi dimulai, dan komponen yang dipilih akan diterapkan secara otomatis setelah pemeriksaan berhasil.

    Setelah komponen diinstal, Anda dapat melihat informasi berikut pada halaman daftar komponen:

    • Anda dapat melihat informasi seperti nama dan versi komponen yang diinstal pada kluster saat ini, serta melakukan operasi Deploy dan Uninstall.

    • Jika tersedia versi baru dari komponen yang telah diinstal, Anda juga dapat melakukan operasi Upgrade.

    • Setelah Anda menginstal komponen konsol operasi AI cloud-native (ack-ai-dashboard) dan konsol pengembangan AI cloud-native (ack-ai-dev-console), Anda dapat menemukan halaman Cloud-native AI Suite. Di pojok kiri atas halaman, Anda dapat mengklik Operations Console atau Development Console untuk menuju konsol yang sesuai.Console

  5. Setelah instalasi selesai, Anda dapat menemukan tombol Operations Console dan Development Console di pojok kiri atas halaman Cloud-native AI Suite. Klik salah satu tombol tersebut untuk menuju konsol yang sesuai.

Instal dan konfigurasi konsol AI cloud-native

Catatan

AI console yang disediakan oleh Alibaba Cloud, yang mencakup konsol pengembangan dan konsol operasi, hanya akan tersedia bagi pengguna dalam daftar putih mulai 22 Januari 2025. Jika Anda telah menerapkan konsol pengembangan atau konsol operasi sebelum tanggal tersebut, penggunaan Anda tidak akan terpengaruh. Pengguna yang tidak masuk daftar putih dapat menginstal dan mengonfigurasi konsol suite AI dari komunitas sumber terbuka. Untuk informasi selengkapnya tentang konfigurasi sumber terbuka, lihat Open Source AI Console.

  1. Di bagian Interaction Method pada halaman penyebaran Suite AI Cloud-native, pilih Sample Console. Kotak dialog Prompt akan muncul.

    • Jika status otorisasi adalah Authorized, lanjutkan ke langkah 3.

    • Jika status otorisasi adalah Unauthorized dalam teks merah dan tombol Confirm tidak tersedia, lakukan langkah 2.

      提示框

  2. Buat kebijakan kustom dan berikan izin kepada peran RAM.

    1. Buat kebijakan kustom.

      1. Masuk ke Konsol RAM, lalu di panel navigasi kiri, pilih Permission Management > Access Policy.

      2. Klik Create Policy.

      3. Pada tab Script Editor, tambahkan informasi kebijakan berikut lalu klik OK. Kemudian, pada kotak teks nama, masukkan nama untuk kebijakan kustom dalam format k8sWorkerRolePolicy-{ClusterID} dan klik OK.

         {
            "Version": "1",
            "Statement": [
                {
                    "Effect": "Allow",
                    "Action": [
                        "cs:*",
                        "log:GetProject",
                        "log:GetLogStore",
                        "log:GetConfig",
                        "log:GetMachineGroup",
                        "log:GetAppliedMachineGroups",
                        "log:GetAppliedConfigs",
                        "log:GetIndex",
                        "log:GetSavedSearch",
                        "log:GetDashboard",
                        "log:GetJob",
                        "ecs:DescribeInstances",
                        "ecs:DescribeSpotPriceHistory",
                        "ecs:DescribePrice",
                        "eci:DescribeContainerGroups",
                        "eci:DescribeContainerGroupPrice",
                        "log:GetLogStoreLogs",
                        "ims:CreateApplication",
                        "ims:UpdateApplication",
                        "ims:GetApplication",
                        "ims:ListApplications",
                        "ims:DeleteApplication",
                        "ims:CreateAppSecret",
                        "ims:GetAppSecret",
                        "ims:ListAppSecretIds",
                        "ims:ListUsers"
                    ],
                    "Resource": "*"
                }
            ]
        }
    2. Berikan izin kepada peran RAM kluster ACK target.

      1. Masuk ke Konsol Resource Access Management (RAM). Di panel navigasi kiri, pilih Identity Management > Roles.

      2. Di kotak pencarian, masukkan nama peran target dalam format KubernetesWorkerRole-{ClusterID}. Temukan peran tersebut lalu klik Add Permissions di kolom Actions.

      3. Di panel Add Permissions, masukkan nama kebijakan kustom yang telah Anda buat di kotak pencarian. Nama kebijakan harus dalam format k8sWorkerRolePolicy-{ClusterID}.

      4. Pilih kebijakan tersebut lalu klik Confirm Add Authorization.

    3. Kembali ke kotak dialog Prompt di Konsol ACK lalu klik Authorization Check. Jika otorisasi berhasil, status akan berubah menjadi Authorized dan tombol OK menjadi tersedia. Anda kemudian dapat melanjutkan ke langkah 3.

      已授权

  3. Pilih Operations Console Access Method dan Development Console Access Method, lalu klik OK.

    Anda dapat menggunakan Private IP, Private Domain Name, atau Public Domain Name untuk mengakses layanan.

    • Di lingkungan produksi, gunakan alamat IP pribadi atau nama domain pribadi.

    • Menggunakan nama domain publik hanya disarankan untuk tujuan pengujian. Jika ingin menggunakan nama domain publik, Anda harus menambahkan pemetaan antara nama domain publik dan alamat IP publik instance SLB NGINX Ingress untuk kluster ke file hosts lokal Anda.

    Catatan
    • Jika ingin mengakses konsol melalui jaringan pribadi, pilih Private IP di kotak dialog Prompt.

    • Untuk informasi selengkapnya tentang cara mengakses konsol menggunakan nama domain pribadi atau alamat IP pribadi, lihat Akses konsol operasi AI.

  4. Pilih metode Console Data Storage.

    Setelah Anda memilih Sample Console, opsi Console Data Storage akan muncul di bagian Interaction Method pada halaman penyebaran. Anda kemudian dapat memilih metode penyimpanan data.

    image

    Cluster Built-in MySQL

    Jika Anda tidak memilih Alibaba Cloud RDS untuk penyimpanan data, database MySQL bawaan di kluster akan digunakan secara default. Karena pertimbangan stabilitas dan Perjanjian Tingkat Layanan (SLA), metode ini hanya disarankan untuk tujuan pengujian dan tidak cocok untuk lingkungan produksi. Metode ini membuat disk berbayar baru setiap kali komponen diinstal. Anda harus mengelola dan melepaskan sumber daya disk tersebut.

    Penting

    Jika kluster gagal atau penyimpanan hilang, data mungkin hilang.

    Suite AI cloud-native menggunakan StorageClass disk untuk membuat PersistentVolumeClaim (PVC) dengan backend disk sebagai penyimpanan persisten untuk database MySQL. Kluster ACK membuat dan melampirkan disk baru berukuran 120 GB. Disk ini berbayar. Siklus hidup disk ini tidak dikelola oleh ACK. Anda harus mengelola sumber daya disk Anda dan menghapusnya jika tidak lagi diperlukan. Untuk informasi selengkapnya tentang cara melepaskan disk, lihat Lepaskan disk.

    Alibaba Cloud RDS

    Catatan
    • Jika terjadi kesalahan koneksi saat menggunakan RDS, lihat Pemecahan masalah kegagalan koneksi instans.

    • Jika ingin mengubah metode penyimpanan data, Anda harus meng-uninstall lalu menginstal ulang suite AI cloud-native. Jika Secret bernama kubeai-rds ada di kluster, gunakan kubectl untuk menghapusnya.

    1. Beli instans RDS dan buat database serta akun. Untuk informasi selengkapnya, lihat Mulai Cepat untuk ApsaraDB RDS. Untuk informasi selengkapnya tentang penagihan RDS, lihat Ikhtisar penagihan.

    2. Klik Deploy The Cloud-native AI Suite di bagian bawah halaman.

    3. Klik nama kluster target. Di panel navigasi, pilih Configuration Management > Secret.

    4. Dari daftar drop-down Namespace di bagian atas halaman, pilih kube-ai.

    5. Di pojok kanan atas halaman, klik Create from YAML.

    6. Masukkan templat YAML berikut untuk membuat Secret bernama kubeai-rds.

      apiVersion: v1
      kind: Secret
      metadata:
        name: kubeai-rds
        namespace: kube-ai
      type: Opaque
      stringData:
        MYSQL_HOST: "URL RDS Anda"
        MYSQL_DB_NAME: "Nama database"
        MYSQL_USER: "Nama pengguna database"
        MYSQL_PASSWORD: "Kata sandi database"

      Parameter

      Deskripsi

      name

      Nama secret.

      namespace

      Nama namespace kluster.

      • MYSQL_HOST

      • MYSQL_DB_NAME

      • MYSQL_USER

      • MYSQL_PASSWORD

      Parameter untuk ApsaraDB RDS untuk MySQL. Untuk informasi selengkapnya, lihat (Usang, dialihkan ke "Langkah 1") Buat instans ApsaraDB RDS untuk MySQL dengan cepat dan (Usang, dialihkan ke "Langkah 1") Buat database dan akun.

Instal dan konfigurasi alur kerja

Jika Anda memilih Kubeflow Pipelines sebagai mesin alur kerja, Anda juga harus memilih metode Workflow Data Storage.

image

Cluster-internal MinIO

Jika Anda tidak memilih Alibaba Cloud OSS untuk penyimpanan data, MinIO bawaan di kluster akan digunakan secara default. Karena pertimbangan stabilitas dan SLA, metode ini hanya disarankan untuk tujuan pengujian dan tidak cocok untuk lingkungan produksi. Metode ini membuat disk berbayar baru setiap kali komponen diinstal. Anda harus mengelola dan melepaskan sumber daya disk tersebut.

Penting

Jika kluster gagal atau penyimpanan hilang, data mungkin hilang.

Suite AI cloud-native menggunakan StorageClass disk untuk membuat PVC dengan backend disk sebagai penyimpanan persisten untuk MinIO. Kluster ACK membuat dan melampirkan disk baru berukuran 20 GB. Disk ini berbayar. Siklus hidup disk ini tidak dikelola oleh ACK. Anda harus mengelola sumber daya disk Anda dan menghapusnya jika tidak lagi diperlukan. Untuk informasi selengkapnya tentang cara melepaskan disk, lihat Lepaskan disk.

Alibaba Cloud OSS

  1. Jika namespace kube-ai tidak ada di kluster, buatlah.

    kubectl create ns kube-ai
  2. Sebelum menginstal Kubeflow Pipelines dari suite AI cloud-native, buka Konsol Layanan Kontainer, klik nama kluster target, lalu di panel navigasi kiri, pilih Configuration Management > Secrets.

  3. Dari daftar drop-down Namespace di bagian atas halaman, pilih kube-ai.

  4. Di pojok kanan atas halaman, klik Create from YAML.

  5. Masukkan templat YAML berikut lalu klik Create. Kluster akan secara otomatis menerapkan file YAML untuk menghasilkan Secret bernama kubeai-oss.

    apiVersion: v1
    kind: Secret
    metadata:
      name: kubeai-oss
      namespace: kube-ai
    type: Opaque
    stringData:
      ENDPOINT: "https://oss-cn-beijing.aliyuncs.com"   
      ACCESS_KEY_ID: "****"     
      ACCESS_KEY_SECRET: "****"  

    Parameter

    Deskripsi

    name

    Nama secret.

    namespace

    Nama namespace kluster.

    Catatan

    namespace: kube-ai dibuat secara otomatis saat Anda menerapkan suite AI cloud-native. Anda tidak perlu membuatnya secara terpisah.

    ENDPOINT

    Titik akhir OSS. Contoh ini menggunakan titik akhir wilayah Tiongkok (Beijing). Untuk informasi selengkapnya tentang titik akhir, lihat Wilayah dan titik akhir OSS.

    • ACCESS_KEY_ID

    • ACCESS_KEY_SECRET

    Pasangan Kunci Akses akun Anda. Untuk mendapatkan pasangan Kunci Akses, lihat Buat AccessKey.

    Penting

    Untuk memastikan keamanan data, kami menyarankan Anda menggunakan AccessKey (AK) dari Pengguna Resource Access Management (RAM). Sebelum masuk sebagai pengguna RAM, Anda harus memberikan izin AliyunOSSFullAccess kepada pengguna RAM tersebut.

  6. Setelah membuat Secret, tunggu hingga bucket bernama mlpipeline-<clusterid> dibuat secara otomatis di Konsol OSS. Pembuatan bucket tersebut menunjukkan bahwa Anda telah berhasil mengonfigurasi Alibaba Cloud OSS sebagai metode penyimpanan data alur kerja. Untuk informasi selengkapnya tentang penagihan OSS, lihat Ikhtisar penagihan.

  7. Akhirnya, instal komponen Kubeflow Pipelines dari suite AI cloud-native.