Pelajari cara membuat Pod Elastic Container Instance (ECI) dengan tipe instans Elastic Compute Service (ECS) GPU tertentu dan mengubah versi driver GPU.
Spesifikasi instans
Untuk informasi selengkapnya tentang tipe instans ECS, lihat topik berikut:
Konfigurasi
Untuk menentukan tipe instans GPU, tambahkan anotasi k8s.aliyun.com/eci-use-specs ke metadata Pod. Setelah menentukan tipe instans, Anda harus mendeklarasikan sumber daya GPU yang diperlukan untuk setiap kontainer dengan menambahkan bidang nvidia.com/gpu di bawah resources.limits.
-
Bidang
nvidia.com/gpumenentukan jumlah GPU yang diperlukan oleh kontainer. Nilai ini wajib ditetapkan saat membuat Pod GPU; jika tidak, Pod tidak akan berhasil dimulai. -
Secara default, beberapa kontainer dapat berbagi GPU. Saat mengonfigurasi Pod, pastikan jumlah GPU yang diminta oleh satu kontainer tidak melebihi jumlah GPU yang tersedia pada tipe instans yang ditentukan.
Berikut adalah contoh konfigurasi:
apiVersion: apps/v1
kind: Deployment
metadata:
name: test
labels:
app: test
spec:
replicas: 2
selector:
matchLabels:
app: nginx
template:
metadata:
name: nginx-test
labels:
app: nginx
alibabacloud.com/eci: "true"
annotations:
k8s.aliyun.com/eci-use-specs: "ecs.gn6i-c4g1.xlarge,ecs.gn6i-c8g1.2xlarge" # Tentukan hingga lima tipe instans ECS GPU yang didukung.
spec:
containers:
- name: nginx
image: registry.cn-shanghai.aliyuncs.com/eci_open/nginx:1.14.2
resources:
limits:
nvidia.com/gpu: "1" # Jumlah GPU yang diperlukan oleh kontainer nginx. GPU dibagi secara default.
ports:
- containerPort: 80
- name: busybox
image: registry.cn-shanghai.aliyuncs.com/eci_open/busybox:1.30
command: ["sleep"]
args: ["999999"]
resources:
limits:
nvidia.com/gpu: "1" # Jumlah GPU yang diperlukan oleh kontainer busybox. GPU dibagi secara default.
Secara default, ECI secara otomatis menginstal driver dan versi CUDA yang didukung berdasarkan tipe instans yang dipercepat GPU yang Anda tentukan. Jika workload Anda memerlukan driver dan versi CUDA tertentu, gunakan anotasi k8s.aliyun.com/eci-gpu-driver-version untuk menentukannya.
Sebagai contoh, ketika Anda menentukan tipe instans ecs.gn6i-c4g1.xlarge, sistem menginstal driver Tesla 550 dengan CUDA 12.4 secara default. Anda dapat beralih ke driver Tesla 535 dengan CUDA 12.2 dengan menambahkan anotasi k8s.aliyun.com/eci-gpu-driver-version: tesla=535. Berikut adalah contoh YAML:
apiVersion: apps/v1
kind: Deployment
metadata:
name: test
labels:
app: test
spec:
replicas: 1
selector:
matchLabels:
app: nginx
template:
metadata:
name: nginx-test
labels:
app: nginx
alibabacloud.com/eci: "true"
annotations:
k8s.aliyun.com/eci-use-specs: ecs.gn6i-c4g1.xlarge # Tentukan tipe instans GPU yang mendukung penggantian versi driver.
k8s.aliyun.com/eci-gpu-driver-version: tesla=535 # Tentukan versi driver GPU.
spec:
containers:
- name: nginx
image: registry.cn-shanghai.aliyuncs.com/eci_open/nginx:1.14.2
resources:
limits:
nvidia.com/gpu: "1" # Jumlah GPU yang diperlukan oleh kontainer.