All Products
Search
Document Center

Container Service for Kubernetes:Konfigurasikan sumber daya GPU untuk Layanan Knative dan aktifkan berbagi GPU

Last Updated:Jul 06, 2025

Untuk menerapkan beban kerja yang memerlukan sumber daya GPU di Knative, seperti tugas AI dan komputasi berkinerja tinggi, tentukan persyaratan GPU dalam Layanan Knative guna membuat instans yang dipercepat GPU. Aktifkan fitur berbagi GPU agar beberapa pod dapat berbagi GPU, sehingga memaksimalkan penggunaan sumber daya.

Prasyarat

Knative telah diterapkan di kluster Anda. Untuk informasi lebih lanjut, lihat Terapkan Knative atau .

Konfigurasikan sumber daya GPU

Tambahkan anotasi k8s.aliyun.com/eci-use-specs ke bagian spec.template.metadata.annotations dari konfigurasi Layanan Knative untuk menentukan tipe instans ECS yang dipercepat GPU. Tambahkan bidang nvidia.com/gpu ke bagian spec.containers.resources.limits untuk menentukan jumlah sumber daya GPU yang dibutuhkan oleh Layanan Knative.

Berikut adalah contoh blok kode:

apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: helloworld-go
spec:
  template:
    metadata:
      labels:
        app: helloworld-go
      annotations:
        k8s.aliyun.com/eci-use-specs: ecs.gn5i-c4g1.xlarge  # Tentukan tipe instans ECS yang dipercepat GPU yang didukung oleh Knative. 
    spec:
      containers:
        - image: registry.cn-hangzhou.aliyuncs.com/knative-sample/helloworld-go:73fbdd56
          ports:
          - containerPort: 8080
          resources:
            limits:
              nvidia.com/gpu: '1'    # Tentukan jumlah GPU yang dibutuhkan oleh kontainer. Bidang ini wajib. Jika Anda tidak menentukan bidang ini, kesalahan akan muncul saat pod diluncurkan. 

Famili instans ECS yang dipercepat GPU berikut didukung:

  • gn7i, famili instans komputasi dioptimalkan dengan akselerasi GPU yang menggunakan GPU NVIDIA A10. Famili ini mencakup berbagai tipe instans, seperti ecs.gn7i-c8g1.2xlarge.

  • gn7. Famili ini mencakup berbagai tipe instans, seperti ecs.gn7-c12g1.3xlarge.

  • gn6v, famili instans komputasi dioptimalkan dengan akselerasi GPU yang menggunakan GPU NVIDIA V100. Famili ini mencakup berbagai tipe instans, seperti ecs.gn6v-c8g1.2xlarge.

  • gn6e, famili instans komputasi dioptimalkan dengan akselerasi GPU yang menggunakan GPU NVIDIA V100. Famili ini mencakup berbagai tipe instans, seperti ecs.gn6e-c12g1.3xlarge.

  • gn6i, famili instans komputasi dioptimalkan dengan akselerasi GPU yang menggunakan GPU NVIDIA T4. Famili ini mencakup berbagai tipe instans, seperti ecs.gn6i-c4g1.xlarge.

  • gn5i, famili instans komputasi dioptimalkan dengan akselerasi GPU yang menggunakan GPU NVIDIA P4. Famili ini mencakup berbagai tipe instans, seperti ecs.gn5i-c2g1.large.

  • gn5, famili instans komputasi dioptimalkan dengan akselerasi GPU yang menggunakan GPU NVIDIA P100. Famili ini mencakup berbagai tipe instans, seperti ecs.gn5-c4g1.xlarge.

    Famili instans gn5 dilengkapi dengan disk lokal. Anda dapat memasang disk lokal ke instans kontainer elastis. Untuk informasi lebih lanjut, lihat Buat Instans Kontainer Elastis dengan Disk Lokal Terpasang.

Catatan

Aktifkan berbagi GPU

  1. Lihat contoh untuk mengaktifkan fitur berbagi GPU pada node.

  2. Anda dapat mengonfigurasi bidang aliyun.com/gpu-mem di Layanan Knative untuk menentukan ukuran memori GPU. Contoh:

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: helloworld-go
      namespace: default
    spec:
      template:
        metadata:
          annotations:
            autoscaling.knative.dev/maxScale: "100"
            autoscaling.knative.dev/minScale: "0"
        spec:
          containerConcurrency: 1
          containers:
          - image: registry-vpc.cn-hangzhou.aliyuncs.com/hz-suoxing-test/test:helloworld-go
            name: user-container
            ports:
            - containerPort: 6666
              name: http1
              protocol: TCP
            resources:
              limits:
                aliyun.com/gpu-mem: "3" # Tentukan ukuran memori GPU.

Referensi

  • Anda dapat menerapkan model AI sebagai layanan inferensi di pod Knative, mengonfigurasi penskalaan otomatis, serta secara fleksibel mengalokasikan sumber daya GPU untuk meningkatkan pemanfaatan sumber daya GPU dan kinerja inferensi AI. Untuk informasi lebih lanjut, lihat Praktik Terbaik untuk Menerapkan Layanan Inferensi AI di Knative.

  • Untuk pertanyaan umum dan solusi tentang GPU, lihat FAQ GPU.