Instans Fleet dari Distributed Cloud Container Platform for Kubernetes (ACK One) menyediakan fitur distribusi pekerjaan untuk skenario multi-cluster dan hybrid cloud. Fitur ini memungkinkan penjadwalan terpusat serta distribusi beban kerja AI. Ketika satu kluster Container Service for Kubernetes (ACK) tidak dapat memenuhi persyaratan sumber daya untuk pelatihan AI berskala besar atau tugas inferensi, atau ketika ada sumber daya idle di beberapa kluster ACK, fitur ini mendistribusikan pekerjaan di seluruh kluster untuk mengoptimalkan pemanfaatan sumber daya.
Fitur
Distribusi pekerjaan multi-cluster ACK One menawarkan kemampuan berikut:
Dukungan jenis pekerjaan ganda: Kompatibel dengan framework PyTorchJob, SparkApplication, dan TFJob.
Penjadwalan gang multi-cluster: Mendistribusikan pekerjaan di seluruh kluster melalui alokasi sumber daya awal atau pemeriksaan sumber daya dinamis, memastikan penyebaran tugas yang berhasil ke sub-kluster dan meningkatkan efisiensi penjadwalan secara keseluruhan.
Manajemen kuota multi-tenant: Menerapkan batasan sumber daya per tenant menggunakan kuota namespace berbasis ElasticQuotaTree dalam lingkungan multi-tenant.
Penjadwalan berbasis prioritas: Memrioritaskan tugas penting untuk alokasi sumber daya berdasarkan
PriorityClassyang didefinisikan dalamPodTemplateuntuk pekerjaan AI.Konfigurasi kebijakan antrian tugas ganda: Mengizinkan kebijakan antrian fleksibel untuk mendukung optimasi pemanfaatan kluster dan mode jaminan prioritas tugas, mendukung pola penjadwalan blocking dan non-blocking.
Pengulangan penjadwalan pekerjaan saat gagal: Global Scheduler secara otomatis mengambil kembali pekerjaan yang gagal dan menjadwalkannya ulang ke kluster yang memenuhi syarat dengan sumber daya yang cukup.
Cara kerjanya
Pengiriman pekerjaan: Kirim pekerjaan tipe PyTorchJob, SparkApplications, atau TFJob dengan kebijakan distribusi
PropagationPolicyke instans Fleet.Validasi prioritas dan kuota: Instans Fleet melakukan penjadwalan kapasitas berdasarkan prioritas pekerjaan dan kuota tenant.
Penjadwalan global: Global Scheduler di instans Fleet menerapkan penjadwalan sumber daya dinamis multi-cluster dan penjadwalan gang untuk pekerjaan yang telah dikeluarkan dari antrian, memesan sumber daya atau memeriksa secara dinamis kluster yang memenuhi syarat. Jika penjadwalan gagal, pekerjaan akan dimasukkan kembali ke antrian.
Distribusi pekerjaan: Pekerjaan yang berhasil dijadwalkan didistribusikan ke kluster ACK yang ditentukan.
Percobaan ulang saat gagal: Jika pekerjaan gagal di sub-kluster, Global Scheduler mengambil kembali dan menjadwalkannya ulang ke kluster lain yang memenuhi syarat.