全部产品
Search
文档中心

Container Compute Service:Pemesanan kapasitas GPU

更新时间:Nov 09, 2025

Dalam lingkungan cloud, GPU merupakan sumber daya komputasi yang langka dan bernilai tinggi. Pengadaan GPU secara on-demand sering kali melibatkan ketidakpastian, yang dapat mengganggu atau menunda operasi bisnis kritis jika sumber daya tidak tersedia tepat waktu. Untuk mengatasi masalah ini, Alibaba Cloud Container Service (ACS) Serverless Kubernetes menyediakan dua mode pemesanan sumber daya guna memastikan jaminan kapasitas yang pasti untuk aplikasi GPU Anda.

Pemesanan kapasitas GPU Pod (Pemesanan Tingkat Pod)

  • Cara kerjanya: Pemesanan ini adalah pemesanan kapasitas standar berorientasi beban kerja. Anda perlu menentukan spesifikasi Pod (seperti 2×A10 GPU, 16 vCPU, 32 GiB memori) dan jumlah Pod yang akan dipesan (misalnya, 12). Platform akan memesan kapasitas komputasi yang mampu menampung tepat 12 Pod dengan spesifikasi tersebut.

  • Kepastian yang diberikan: Mode ini memberikan "kepastian kapasitas beban kerja". Anda dapat yakin bahwa setiap kali Anda mengajukan permintaan pembuatan Pod, sistem menjamin kemampuan untuk menjalankan 12 Pod sesuai spesifikasi yang ditentukan. Hal ini menyederhanakan perencanaan kapasitas karena Anda tidak perlu khawatir tentang spesifikasi node dasar atau fragmentasi sumber daya. Fokus Anda hanya pada kebutuhan Pod aplikasi.

  • Skenario:

    • Beban kerja homogen: Mode ini ideal jika aplikasi Anda (seperti pelatihan terdistribusi skala besar atau layanan inferensi online) terdiri dari banyak Pod dengan spesifikasi identik.

    • Operasi yang disederhanakan: Mode ini cocok jika Anda ingin menyerahkan kompleksitas perencanaan sumber daya dasar kepada platform dan hanya fokus pada kebutuhan kapasitas di tingkat aplikasi.

Pemesanan kapasitas GPU-HPN (Pemesanan Tingkat Node)

  • Cara kerjanya: Mode ini memesan dan mengunci kapasitas node komputasi GPU khusus untuk Anda dalam kolam sumber daya dasar ACS. Sumber daya ini dikunci untuk penggunaan eksklusif oleh akun Anda, memastikan bahwa selalu ada sumber daya perangkat keras aktif untuk menampung Pod GPU baru. Ini menghindari kegagalan penjadwalan Pod (status Pending) akibat batasan kolam sumber daya.

  • Kepastian yang diberikan: Mode ini memberikan "kepastian sumber daya fisik". Ini memastikan bahwa infrastruktur dasar (node GPU) tersedia saat Anda memerlukan ekspansi. Anda dapat memutuskan cara menjadwalkan dan menggabungkan Pod dengan spesifikasi berbeda pada node-node ini (dikenal sebagai "bin packing").

  • Skenario:

    • Beban kerja heterogen: Mode ini memberikan fleksibilitas maksimal jika Anda perlu menjalankan Pod GPU dengan berbagai spesifikasi dalam kolam sumber daya yang sama.

    • Kontrol sumber daya granular: Mode ini cocok jika Anda ingin menggunakan kebijakan penjadwalan kustom (seperti Taints/Tolerations, Node Affinity) untuk mengontrol tata letak fisik Pod secara tepat guna optimasi performa atau isolasi sumber daya.

Ringkasan dan perbandingan

Atribut

Pemesanan Kapasitas GPU Pod (Tingkat Pod)

Pemesanan Kapasitas GPU-HPN (Tingkat Node)

Objek Pemesanan

Jumlah Pod dengan spesifikasi tertentu.

Kapasitas node komputasi GPU dasar.

Granularitas Pemesanan

Beban kerja logis (seperti 12 Pod dengan 1A10GPU8C16G).

Sumber daya node fisik (seperti 2 node P16EN).

Tingkat Jaminan

Kepastian kapasitas beban kerja.

Kepastian sumber daya node fisik.

Fleksibilitas

Rendah (terikat pada spesifikasi Pod tertentu).

Sangat tinggi (dapat menjalankan Pod dengan spesifikasi fleksibel).

Kompleksitas Manajemen

Rendah (platform menangani pencocokan sumber daya).

Lebih tinggi (memerlukan tanggapan terhadap peristiwa manajemen node).

Rekomendasi Pemilihan

  • Aplikasi skala kecil dengan spesifikasi beragam.

  • Aplikasi dengan skala apa pun dengan spesifikasi seragam.

Aplikasi skala menengah hingga besar dengan spesifikasi kompleks dan bervariasi.

Dengan memilih mode pemesanan yang sesuai, Anda dapat secara efektif mengurangi risiko pengadaan sumber daya GPU berdasarkan kebutuhan bisnis yang berbeda untuk determinisme, memastikan operasi yang stabil dan andal dari aplikasi AI.