All Products
Search
Document Center

Container Service for Kubernetes:Gunakan resource GPU dan aktifkan berbagi GPU di Knative

Last Updated:Mar 26, 2026

Untuk menjalankan inferensi AI, komputasi berkinerja tinggi, atau beban kerja GPU lainnya di Knative, konfigurasikan Layanan Knative Anda agar meminta resource GPU. Anda dapat menetapkan GPU khusus ke layanan atau mengaktifkan berbagi GPU sehingga beberapa Pod membagi satu GPU fisik.

Prasyarat

Sebelum memulai, pastikan Anda telah:

  • Knative dideploy di kluster ACK Anda. Untuk informasi selengkapnya, lihat Deploy Knative.

Konfigurasikan GPU khusus

Tambahkan dua bidang berikut ke manifes Layanan Knative Anda:

  • Anotasi k8s.aliyun.com/eci-use-specs di spec.template.metadata.annotations — menentukan tipe instans ECS yang dipercepat GPU.

  • Batas resource nvidia.com/gpu di spec.containers.resources.limits — menentukan jumlah GPU yang dibutuhkan kontainer. Bidang ini wajib diisi. Jika diabaikan, Pod gagal dimulai.

apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: helloworld-go
spec:
  template:
    metadata:
      labels:
        app: helloworld-go
      annotations:
        k8s.aliyun.com/eci-use-specs: ecs.gn5i-c4g1.xlarge  # Tipe instans ECS yang dipercepat GPU
    spec:
      containers:
        - image: registry.cn-hangzhou.aliyuncs.com/knative-sample/helloworld-go:73fbdd56
          ports:
            - containerPort: 8080
          resources:
            limits:
              nvidia.com/gpu: '1'  # Jumlah GPU yang dibutuhkan. Bidang wajib — mengabaikannya menyebabkan Pod gagal saat startup.

Keluarga instans GPU yang didukung

Instance familyGPU chipContoh tipe instans
gn7iNVIDIA A10ecs.gn7i-c8g1.2xlarge
gn7ecs.gn7-c12g1.3xlarge
gn6vNVIDIA V100ecs.gn6v-c8g1.2xlarge
gn6eNVIDIA V100ecs.gn6e-c12g1.3xlarge
gn6iNVIDIA T4ecs.gn6i-c4g1.xlarge
gn5iNVIDIA P4ecs.gn5i-c2g1.large
gn5NVIDIA P100ecs.gn5-c4g1.xlarge
Keluarga instans gn5 mencakup disk lokal. Untuk memasang disk lokal ke instansi kontainer elastis, lihat Buat instansi kontainer elastis yang memiliki disk lokal terpasang.

Untuk daftar lengkap tipe instans ECS yang dipercepat GPU yang tersedia di wilayah Anda, lihat Tipe instans ECS yang tersedia untuk setiap wilayah. Untuk informasi umum tentang keluarga instans, lihat Ikhtisar keluarga instans.

Instansi kontainer elastis yang dipercepat GPU mendukung driver GPU NVIDIA versi 460.73.01 dan CUDA Toolkit versi 11.2.

Aktifkan berbagi GPU

Berbagi GPU memungkinkan beberapa Pod berbagi satu GPU fisik dengan membagi memori GPU-nya. Fitur ini cocok untuk beban kerja seperti layanan inferensi ringan atau lingkungan pengembangan.

  1. Aktifkan berbagi GPU pada node. Untuk petunjuknya, lihat Aktifkan berbagi GPU.

  2. Dalam manifes Layanan Knative Anda, atur aliyun.com/gpu-mem di bawah spec.containers.resources.limits untuk menentukan ukuran memori GPU (dalam GB) yang dialokasikan untuk setiap kontainer.

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: helloworld-go
      namespace: default
    spec:
      template:
        metadata:
          annotations:
            autoscaling.knative.dev/maxScale: "100"  # Jumlah maksimum replika Pod
            autoscaling.knative.dev/minScale: "0"    # Skala ke nol saat tidak aktif
        spec:
          containerConcurrency: 1  # Jumlah maksimum permintaan konkuren per replika Pod
          containers:
            - image: registry-vpc.cn-hangzhou.aliyuncs.com/hz-suoxing-test/test:helloworld-go
              name: user-container
              ports:
                - containerPort: 6666
                  name: http1
                  protocol: TCP
              resources:
                limits:
                  aliyun.com/gpu-mem: "3"  # Memori GPU yang dialokasikan ke kontainer ini, dalam GB

Langkah berikutnya