全部产品
Search
文档中心

Platform For AI:Gunakan sumber daya idle

更新时间:Jul 06, 2025

Topik ini menjelaskan cara menggunakan dan mengonfigurasi sumber daya idle secara efektif ketika Anda mengirimkan pekerjaan pelatihan dengan kuota sumber daya berlangganan di Deep Learning Containers (DLC).

Ikhtisar

Platform for AI (PAI) memungkinkan alokasi dan penugasan kuota yang fleksibel sesuai dengan skenario bisnis Anda. Pekerjaan pelatihan dari tim bisnis yang berbeda mengonsumsi kuota masing-masing. Namun, selama periode tertentu, beberapa kuota mungkin tetap idle, sementara yang lain mungkin mengalami antrean karena kekurangan kuota, menyebabkan ketidaksesuaian sumber daya dan inefisiensi.

Dalam konteks kluster berskala besar dan struktur organisasi yang kompleks, optimasi pemanfaatan sumber daya merupakan tujuan kritis bagi layanan komputasi. Untuk mengatasi tantangan ini, DLC menawarkan fitur sumber daya idle, yang memungkinkan Anda mengirimkan pekerjaan komputasi menggunakan sumber daya idle untuk meningkatkan pemanfaatan keseluruhan tanpa mengganggu operasi bisnis reguler.

Cara kerjanya:

  • Pekerjaan sumber daya idle menggunakan sumber daya idle dari kuota saat ini atau kuota lainnya tanpa dibatasi oleh total atau sisa sumber daya dalam kuota.

  • Ketika sumber daya idle yang dipinjam diperlukan untuk dikembalikan, pekerjaan sumber daya idle dihentikan dan sumber daya yang dipinjam secara otomatis dikembalikan.

  • Pekerjaan komputasi idle didukung oleh kemampuan AIMaster dan EasyCKPT dari PAI, yang secara otomatis meningkatkan pemulihan pekerjaan dan mencegah pemborosan daya komputasi.

Prasyarat

Kuota sumber daya berlangganan telah dibuat dan dikaitkan dengan ruang kerja. Kuota tersebut dapat berupa sumber daya komputasi umum atau sumber daya Lingjun. Untuk informasi lebih lanjut, lihat Ikhtisar.

Kirim pekerjaan DLC menggunakan sumber daya idle

  1. Saat mengirimkan pekerjaan pelatihan DLC melalui konsol, Anda dapat mengaktifkan Idle Resources di bagian Resource Information. Tabel berikut menjelaskan parameter utama. Untuk informasi lebih lanjut, lihat Kirim pekerjaan pelatihan.image

    Parameter

    Deskripsi

    Resource Quota

    Pilih kuota sumber daya komputasi umum atau kuota sumber daya Lingjun.

    Catatan

    Untuk melakukan pelatihan AI berperforma tinggi dan komputasi, gunakan sumber daya Lingjun. Sumber daya Lingjun hanya didukung di wilayah China (Ulanqab) dan Singapura.

    Idle Resources

    Nilai valid:

    • Acceptable: Pekerjaan dapat menggunakan sumber daya komputasi yang tidak terpakai atau sumber daya dari kuota terkait.

    • Only Idle Resources: Pekerjaan hanya menggunakan sumber daya komputasi idle dan tidak menggunakan sumber daya dari kuota terkait.

    Pekerjaan yang menggunakan sumber daya idle berjalan pada sumber daya di luar kuota terkait, yang dapat mengakibatkan penghentian pekerjaan jika sumber daya idle direklaim.

    Pastikan kode Anda mencakup mekanisme checkpoint untuk memfasilitasi pemulihan dan kelanjutan pekerjaan yang mulus. Untuk informasi lebih lanjut, lihat Gunakan EasyCkpt untuk menyimpan dan melanjutkan pelatihan model dasar.

    Automatic Fault Tolerance

    Untuk mengurangi risiko pekerjaan komputasi idle terganggu karena kelangkaan sumber daya, dan untuk meningkatkan efisiensi serta pemanfaatan daya komputasi yang efektif, kami merekomendasikan Anda mengaktifkan fitur Automatic Fault Tolerance. Ini memastikan bahwa ketika sumber daya idle direklaim, sistem secara mulus mengalokasikan sumber daya alternatif untuk melanjutkan pekerjaan. Untuk instruksi konfigurasi terperinci, lihat AIMaster: Mesin toleransi kesalahan elastis.image

  2. Monitor penggunaan sumber daya pekerjaan DLC.

    • Daftar pekerjaan DLC atau halaman detail pekerjaan menampilkan detail sumber daya idle.image

      • Dalam Kuota: Pekerjaan menggunakan sumber daya dalam kuota terkait.

      • Tidak Dalam Kuota: Pekerjaan menggunakan sumber daya komputasi idle.

    • Jika sumber daya idle yang digunakan oleh pekerjaan direbut atau direklaim, status pod pekerjaan di halaman detail berubah menjadi Preempted.

      Ketika pekerjaan non-idle dari grup kuota yang dipinjam dihapus dari antrian dan tidak dapat dijadwalkan karena sumber daya tidak mencukupi, sistem mereklaim sumber daya untuk grup kuota guna memfasilitasi penjadwalan pekerjaan. Pada titik ini, status pekerjaan sumber daya idle berubah menjadi Preempted.

Referensi

Untuk mengurangi risiko pekerjaan komputasi idle terganggu akibat kelangkaan sumber daya serta meningkatkan efisiensi dan pemanfaatan sumber daya komputasi secara efektif, kami merekomendasikan Anda menggunakan AIMaster: Mesin toleransi kesalahan elastis. AIMaster memastikan transisi yang lancar dan eksekusi tanpa gangguan jika pekerjaan direbut. Selain itu, kami merekomendasikan Anda gunakan EasyCkpt untuk menyimpan dan melanjutkan pelatihan model dasar. EasyCkpt adalah alat dari tim PAI, dirancang untuk meminimalkan hilangnya kemajuan pelatihan selama pekerjaan direbut dan memfasilitasi pemulihan serta kelanjutan pekerjaan secara otomatis.