Topik ini memberikan jawaban atas pertanyaan yang sering diajukan tentang Deep Learning Containers (DLC) dari Platform for AI (PAI).
T: Pelatihan model gagal dengan kesalahan: SupportsDistributedTraining false, harap atur InstanceCount=1
Penyebab: Tugas pelatihan saat ini menggunakan beberapa instance (jumlah node lebih dari 1), tetapi model ini tidak mendukung pelatihan terdistribusi.
Solusi: Atur jumlah node menjadi 1.

T: Pelatihan model gagal dengan kesalahan: gagal menyusun spesifikasi pekerjaan DLC, pembatasan sumber daya dipicu, Anda mencoba menggunakan lebih banyak sumber daya GPU daripada ambang batas.
Tugas pelatihan melebihi batas 2*GPU yang berjalan secara bersamaan. Tunggu tugas saat ini selesai sebelum memulai yang baru, atau ajukan tiket untuk meminta kuota yang lebih tinggi.
T: Apa yang harus saya lakukan jika muncul pesan kesalahan "exited with code 137"?
Jika muncul pesan kesalahan "keluar dengan kode 137", Anda dapat menggunakan instance dengan ukuran memori yang lebih besar, menambah jumlah node pekerja, atau memodifikasi ukuran memori yang dicadangkan dalam kode Anda.

Di Linux, kode kesalahan 137 menunjukkan bahwa proses dipaksa dihentikan oleh sinyal SIGKILL. Penyebab paling umum adalah penggunaan memori yang tinggi, juga dikenal sebagai kesalahan Memori Habis (OOM). Anda dapat mengidentifikasi penyebab kekurangan memori berdasarkan penggunaan memori node pekerja di detail tugas dan meningkatkan memori yang tersedia.
T: Apa yang harus saya lakukan jika status pekerjaan adalah Gagal atau Dikeluarkan dari Antrian?
Tabel berikut menjelaskan urutan status eksekusi tugas untuk DLC.
Jenis Pekerjaan | Urutan Status | |
Sumber daya bayar sesuai pemakaian | Sumber daya preemptible Lingjun |
|
Sumber daya Lingjun atau sumber daya publik komputasi umum |
| |
Sumber daya langganan |
| |
Apa yang harus dilakukan jika statusnya adalah Menyiapkan Lingkungan?
Jika tugas tetap berada dalam status Menyiapkan Lingkungan, kemungkinan karena Anda mengonfigurasi dataset tipe CPFS tanpa menyiapkan virtual private cloud (VPC). Untuk menyelesaikan masalah ini, buat ulang tugas, konfigurasikan dataset tipe CPFS dan VPC. Pastikan VPC yang dikonfigurasi sama dengan VPC CPFS. Untuk informasi lebih lanjut, lihat Kirim tugas pelatihan.
Apa yang harus dilakukan jika statusnya adalah Gagal?
Arahkan mouse Anda ke ikon
di halaman detail tugas atau lihat log untuk menemukan penyebab kegagalan eksekusi tugas. Untuk informasi lebih lanjut, lihat Lihat tugas pelatihan.
T: Bisakah saya mengubah pekerjaan yang menggunakan sumber daya publik menjadi sumber daya eksklusif?
Untuk mengubah sumber daya, Anda harus membuat ulang tugas. Klik Clone di kolom Actions tugas asli untuk membuat yang baru dengan konfigurasi yang sama. Kemudian, Anda dapat mengubah sumber daya. Untuk informasi lebih lanjut tentang penagihan, lihat Penagihan DLC.
T: Bagaimana cara menyiapkan beberapa node dan GPU di DLC?
Saat membuat tugas DLC, konfigurasikan perintah berikut. Untuk informasi lebih lanjut, lihat Kirim tugas pelatihan.
python -m torch.distributed.launch \ --nproc_per_node=2 \ --master_addr=${MASTER_ADDR} \ --master_port=${MASTER_PORT} \ --nnodes=${WORLD_SIZE} \ --node_rank=${RANK} \ train.py --epochs=100T: Bagaimana cara mengunduh model yang dilatih di DLC ke mesin lokal saya?
Saat mengirimkan tugas DLC, Anda dapat mengaitkan dataset dan mengonfigurasi perintah startup untuk menyimpan hasil pelatihan ke folder dataset yang dipasang.
Setelah pelatihan, file model secara otomatis disimpan ke jalur mount dataset. Kemudian, Anda dapat mengakses sistem file yang sesuai untuk mengunduh file model ke mesin lokal Anda.
Untuk informasi tentang cara mengaitkan dataset selama pengiriman tugas DLC, lihat Kirim tugas di konsol PAI.
Untuk informasi tentang cara mengunduh file dari Object Storage Service (OSS) ke mesin lokal Anda, lihat Mulai menggunakan konsol OSS.
Untuk informasi tentang cara mengunduh file dari sistem file NAS ke mesin lokal Anda, lihat Pasang sistem file pada fungsi Function Compute.
T: Bagaimana cara menggunakan gambar Docker di DLC?
Menggunakan gambar Docker untuk membuat tugas DLC: Anda dapat mendorong gambar Docker ke Alibaba Cloud Container Registry (ACR), lalu menambahkannya ke gambar kustom ruang kerja PAI, sehingga Anda dapat memilih gambar yang sesuai untuk memulai instans saat membuat tugas DLC.
Untuk mendorong gambar Docker ke Container Registry ACR, silakan merujuk ke Mendorong gambar ke dan menarik gambar dari repository gambar instance Container Registry Edisi Pribadi.
Untuk menambahkan gambar kustom PAI, silakan merujuk ke Gambar kustom.