Dalam lingkungan kolaborasi multi-tim, Anda perlu mengalokasikan sumber daya komputasi secara tepat untuk setiap tim guna memastikan operasi yang efisien. Topik ini menjelaskan cara mengelola dan memanfaatkan sumber daya secara efisien dengan membuat kuota serta menetapkan sumber daya dalam kuota tersebut kepada tim yang berbeda.
Informasi latar belakang
Contoh
Sumber daya komputasi AI (128 GPU) dibeli untuk Tim A, Tim B, dan Tim C.
Tim A bertanggung jawab atas layanan inferensi dan memerlukan jaminan sumber daya.
Tim B dan Tim C adalah tim pelatihan yang bertanggung jawab atas pengiriman pekerjaan pelatihan.
Layanan inferensi Tim A memiliki prioritas lebih tinggi daripada pekerjaan pelatihan Tim B dan Tim C. Jika sumber daya inferensi yang diperlukan oleh Tim A tidak mencukupi, sistem dapat segera merebut kembali sumber daya yang digunakan untuk pelatihan guna memenuhi kebutuhan layanan inferensi.
Jumlah sumber daya komputasi yang digunakan oleh Tim B dan Tim C dapat meningkat atau menurun secara dinamis berdasarkan kebutuhan aktual.
Tim B dan Tim C dapat mengelola sumber daya dan pekerjaan mereka masing-masing.
Ikhtisar
Gambar di atas menunjukkan skenario contoh yang digunakan dalam topik ini. Berikut deskripsi solusi:
Buat kuota 128 GPU bernama Quota1 dan aktifkan sakelar perebutan tingkat anak. Kemudian, buat dua kuota tingkat anak untuk Quota1: Quota1.1 (48 GPU) dan Quota1.2 (80 GPU). Dalam gambar di atas, Quota1 memiliki hubungan induk-anak dengan Quota1.1 dan Quota1.2. Quota1 adalah kuota tingkat induk, sedangkan Quota1.1 dan Quota1.2 adalah kuota tingkat anak.
Buat ruang kerja bernama workspace-a untuk Tim A dan asosiasikan ruang kerja dengan Quota1. Terapkan layanan EAS pada Quota1 untuk inferensi model.
Buat ruang kerja bernama workspace-b untuk Tim B dan asosiasikan ruang kerja dengan Quota1.1. Buat pekerjaan DLC pada Quota1.1.
Buat ruang kerja bernama workspace-c untuk Tim C dan asosiasikan ruang kerja dengan Quota1.2. Buat instance DSW pada Quota1.2 untuk pengembangan model.
Prosedur
Siapkan sumber daya komputasi AI (sumber daya komputasi umum atau Sumber daya Lingjun). Untuk informasi lebih lanjut tentang cara membeli sumber daya, lihat Kolam Sumber Daya. Jika Anda telah membeli sumber daya komputasi AI, lewati langkah ini.
Buat kuota.
Buat kuota bernama Quota1 dan konfigurasikan parameter kunci berikut. Untuk informasi lebih lanjut tentang konfigurasi, lihat Kuota Sumber Daya Lingjun atau Kuota Sumber Daya Komputasi Umum.
Spesifikasi/Sumber Daya: Pilih sumber daya, seperti 128 GPU.
Child-level Preemption: Aktifkan sakelar ini.
Di kolom Actions Quota1, klik New Child-level Resource Quota untuk membuat kuota tingkat anak berikut. Untuk informasi lebih lanjut, lihat Tambah Kuota Sumber Daya Tingkat Anak.
Tambah kuota tingkat anak bernama Quota1.1, dan konfigurasikan parameter Spesifikasi/Sumber Daya untuk kuota tersebut, seperti 48 GPU.
Tambah kuota tingkat anak bernama Quota1.2, dan konfigurasikan parameter Spesifikasi/Sumber Daya untuk kuota tersebut, seperti 80 GPU.
Buat ruang kerja berikut dan asosiasikan ruang kerja dengan kuota. Untuk informasi lebih lanjut, lihat Buat dan Kelola Ruang Kerja.
Buat ruang kerja bernama workspace-a untuk Tim A dan asosiasikan ruang kerja dengan Quota1.
Buat ruang kerja bernama workspace-b untuk Tim B dan asosiasikan ruang kerja dengan Quota1.1.
Buat ruang kerja bernama workspace-c untuk Tim C dan asosiasikan ruang kerja dengan Quota1.2.
Berikan izin administrator ruang kerja kepada Tim A, Tim B, dan Tim C. Untuk informasi lebih lanjut, lihat Kelola Ruang Kerja. Anda juga dapat memberikan izin lainnya. Untuk informasi lebih lanjut, lihat Lampiran: Peran dan Izin.
Buat layanan inferensi dan pekerjaan pelatihan.
Tim A membuat layanan inferensi di workspace-a. Untuk informasi lebih lanjut, lihat Penyebaran Layanan.
Tim B membuat pekerjaan DLC di workspace-b. Untuk informasi lebih lanjut, lihat Kirim Pekerjaan Pelatihan.
Tim C membuat instance DSW di workspace-c. Untuk informasi lebih lanjut, lihat Buat Instance DSW.
Skenario
Skenario 1: Sumber daya inferensi tidak mencukupi, dan layanan inferensi merebut sumber daya pekerjaan pelatihan
Administrator harus membuka halaman Kuota Sumber Daya, klik kuota tingkat induk Quota1, dan aktifkan sakelar Perebutan Tingkat Anak di tab Ikhtisar.
Ketika Tim A menggunakan Quota1 untuk mengirim layanan inferensi baru di workspace-a, sumber daya menjadi tidak mencukupi karena Tim B dan Tim C menggunakan kuota tingkat anak untuk membuat pekerjaan pelatihan. Sistem merebut kembali sumber daya komputasi yang digunakan untuk menjalankan pekerjaan Tim B dan Tim C. Hal ini memastikan bahwa layanan inferensi Tim A berjalan sesuai harapan.
Skenario 2: Sumber daya Tim B dan Tim C dialokasikan ulang
Administrator mengalokasikan ulang sumber daya Quota1.1 dan Quota1.2 dengan menggunakan fitur penskalaan kuota berdasarkan kebutuhan Tim B dan Tim C. Untuk informasi lebih lanjut, lihat Perbesar atau Perkecil Kuota Sumber Daya.
Sebagai contoh, Anda dapat meningkatkan jumlah GPU Quota1.1 dari 48 menjadi 56 (8 GPU ditambahkan).
Sebagai contoh, Anda dapat mengurangi jumlah GPU Quota1.2 dari 80 menjadi 72 (8 GPU dikurangi).
Skenario 3: Izin untuk Tim B dan Tim C diisolasi
Quota1.1 dialokasikan ke workspace-b milik Tim B, dan Quota1.2 dialokasikan ke workspace-c milik Tim C. Tim B dan Tim C dapat mengelola izin atas sumber daya dan pekerjaan di ruang kerja masing-masing. Untuk informasi lebih lanjut, lihat Pusat Penjadwalan Ruang Kerja.