Dalam skenario pelatihan model bahasa besar (LLM) dan inferensi model, model GPU tertentu mungkin tidak tersedia atau sumber daya GPU kehabisan stok di suatu wilayah. Dalam situasi ini, daya komputasi yang disediakan oleh wilayah tersebut mungkin tidak mencukupi, sehingga pekerjaan komputasi dapat tertunda. Kluster terdaftar yang disediakan oleh Distributed Cloud Container Platform for Kubernetes (ACK One) menggunakan node virtual dari Container Service for Kubernetes (ACK) untuk menambahkan sumber daya komputasi serverless di beberapa wilayah ke kluster Kubernetes secara mulus. Ini memungkinkan Anda menjadwalkan sumber daya GPU secara dinamis dan mengelola sumber daya GPU lintas wilayah secara terpusat. Dengan kluster terdaftar ACK One, Anda dapat mengatasi hambatan sumber daya dalam skenario multi-wilayah, memanfaatkan sumber daya komputasi heterogen sesuai permintaan, serta mencegah kegagalan penjadwalan akibat ketidaktersediaan model GPU atau inventaris yang tidak mencukupi. Hal ini membantu meningkatkan pemanfaatan sumber daya dan kontinuitas bisnis secara signifikan, sekaligus mengurangi kompleksitas dan biaya penyebaran cloud hibrid.
Cara kerjanya
Informasi wilayah pada gambar di atas menunjukkan ID wilayah dari sumber daya komputasi serverless. Sebagai contoh, ID wilayah China (Zhangjiakou) adalah cn-zhangjiakou.
Untuk setiap pod serverless yang Anda buat, node virtual ACK membuat instance komputasi serverless berbasis cloud. Anda tidak perlu memelihara node tambahan.
Pusat data terhubung ke Virtual Private Clouds (VPCs) di beberapa wilayah melalui sirkuit Express Connect.
Prasyarat
Buat kluster terdaftar ACK One dan hubungkan ke pusat data atau kluster Kubernetes dari penyedia layanan cloud lainnya (direkomendasikan Kubernetes 1.24 atau lebih baru). Untuk informasi lebih lanjut, lihat Buat kluster terdaftar ACK One.
Instal ack-virtual-node dan aktifkan penjadwalan daya komputasi serverless lintas wilayah
Instal ack-virtual-node.
CatatanJika ack-virtual-node sudah diinstal, pastikan versi yang diinstal adalah 2.13.0 atau lebih baru. Jika versi yang diinstal lebih lama dari 2.13.0, perbarui komponen.
Konfigurasikan ack-virtual-node.
Di halaman Add-ons, temukan ack-virtual-node dan klik Configuration.
Konfigurasikan parameter global.
Parameter
Deskripsi
Contoh
Specify whether to use VPC internal access
Menentukan apakah gambar dan API keduanya dapat diakses melalui titik akhir Virtual Private Cloud (VPC).
Dipilih
APIServerHost
Alamat IP server API dari kluster Kubernetes di pusat data.
192.168.1.1
APIServerPort
Port yang diekspos untuk server API dari kluster Kubernetes di pusat data.
6443
Specifies whether to enable multi-region virtual nodes
Menentukan apakah akan mengaktifkan penjadwalan daya komputasi serverless lintas wilayah. Jika Anda ingin mengaktifkan penjadwalan daya komputasi serverless lintas wilayah, Anda harus menentukan informasi wilayah.
Dipilih
Tentukan wilayah utama.
Parameter
Deskripsi
Contoh
Region ID
ID wilayah tempat daya komputasi serverless digunakan.
cn-beijing
VPC ID
ID VPC tempat daya komputasi serverless digunakan.
vpc-xxxxx
vSwitch ID(s)
ID vSwitch yang digunakan oleh daya komputasi serverless. Pisahkan beberapa ID dengan koma (,).
vsw-xxxxx,vsw-xxxxx
SecurityGroup ID
ID grup keamanan yang digunakan oleh daya komputasi serverless.
sg-xxxxx
Specifies whether to use the region of virtual nodes as the default region
Menentukan apakah akan menetapkan wilayah yang ditentukan sebagai wilayah utama.
PentingAnda hanya dapat menentukan satu wilayah utama.
Dipilih
Tentukan wilayah sekunder. Klik Add di pojok kanan bawah untuk menambahkan lebih banyak wilayah.
Parameter
Deskripsi
Contoh
Region ID
ID wilayah tempat daya komputasi serverless digunakan.
cn-hangzhou
VPC ID
ID VPC tempat daya komputasi serverless digunakan.
vpc-xxxxx
vSwitch ID(s)
ID vSwitch yang digunakan oleh daya komputasi serverless. Pisahkan beberapa ID dengan koma (,).
vsw-xxxxx,vsw-xxxxx
SecurityGroup ID
ID grup keamanan yang digunakan oleh daya komputasi serverless.
sg-xxxxx
Setelah konfigurasi selesai, klik OK.
Contoh
Skenario CPU
Gunakan wilayah default.
apiVersion: apps/v1 kind: Deployment metadata: labels: app: nginx-default-region name: nginx-deployment-default-region namespace: default spec: replicas: 1 selector: matchLabels: app: nginx-default-region template: metadata: labels: alibabacloud.com/acs: "true" alibabacloud.com/compute-class: general-purpose alibabacloud.com/compute-qos: default app: nginx-default-region spec: containers: - image: 'mirrors-ssl.aliyuncs.com/nginx:stable-alpine' imagePullPolicy: IfNotPresent name: nginx ports: - containerPort: 80 protocol: TCPTentukan wilayah daya komputasi serverless. Tambahkan label
alibabacloud.com/serverless-region-id: <RegionID>.apiVersion: apps/v1 kind: Deployment metadata: labels: app: nginx-specified-region name: nginx-deployment-specified-region namespace: default spec: replicas: 1 selector: matchLabels: app: nginx-specified-region template: metadata: labels: alibabacloud.com/acs: "true" alibabacloud.com/compute-class: general-purpose alibabacloud.com/compute-qos: default alibabacloud.com/serverless-region-id: cn-beijing # Tentukan wilayah. app: nginx-specified-region spec: containers: - image: 'mirrors-ssl.aliyuncs.com/nginx:stable-alpine' imagePullPolicy: IfNotPresent name: nginx ports: - containerPort: 80 protocol: TCP
Skenario GPU
Gunakan wilayah default.
apiVersion: apps/v1 kind: Deployment metadata: labels: app: nginx-gpu-default-region name: nginx-gpu-deployment-default-region namespace: default spec: replicas: 1 selector: matchLabels: app: nginx-gpu-default-region template: metadata: labels: alibabacloud.com/acs: "true" alibabacloud.com/compute-class: gpu alibabacloud.com/compute-qos: default alibabacloud.com/gpu-model-series: example-model # Model GPU. Tentukan model aktual yang ingin Anda gunakan, seperti T4. app: nginx-gpu-default-region spec: containers: - image: 'mirrors-ssl.aliyuncs.com/nginx:stable-alpine' imagePullPolicy: IfNotPresent name: nginx ports: - containerPort: 80 protocol: TCP resources: limits: cpu: 1 memory: 1Gi nvidia.com/gpu: "1" requests: cpu: 1 memory: 1Gi nvidia.com/gpu: "1"Tentukan wilayah daya komputasi serverless. Tambahkan label
alibabacloud.com/serverless-region-id: <RegionID>.apiVersion: apps/v1 kind: Deployment metadata: labels: app: nginx-gpu-specified-region name: nginx-gpu-deployment-specified-region namespace: default spec: replicas: 1 selector: matchLabels: app: nginx-gpu-specified-region template: metadata: labels: alibabacloud.com/acs: "true" alibabacloud.com/compute-class: gpu alibabacloud.com/compute-qos: default alibabacloud.com/gpu-model-series: example-model # Model GPU. Tentukan model aktual yang ingin Anda gunakan, seperti T4. alibabacloud.com/serverless-region-id: cn-beijing # Tentukan wilayah. app: nginx-gpu-specified-region spec: containers: - image: 'mirrors-ssl.aliyuncs.com/nginx:stable-alpine' imagePullPolicy: IfNotPresent name: nginx ports: - containerPort: 80 protocol: TCP resources: limits: cpu: 1 memory: 1Gi nvidia.com/gpu: "1" requests: cpu: 1 memory: 1Gi nvidia.com/gpu: "1"