全部产品
Search
文档中心

Platform For AI:FAQ DLC

更新时间:Nov 05, 2025

Topik ini memberikan jawaban atas pertanyaan yang sering diajukan tentang Deep Learning Containers (DLC) dari Platform for AI (PAI).

T: Pelatihan model gagal dengan kesalahan: SupportsDistributedTraining false, harap atur InstanceCount=1

  • Penyebab: Tugas pelatihan saat ini menggunakan beberapa instance (jumlah node lebih dari 1), tetapi model ini tidak mendukung pelatihan terdistribusi.

  • Solusi: Atur jumlah node menjadi 1.

    image

T: Pelatihan model gagal dengan kesalahan: gagal menyusun spesifikasi pekerjaan DLC, pembatasan sumber daya dipicu, Anda mencoba menggunakan lebih banyak sumber daya GPU daripada ambang batas.

Tugas pelatihan melebihi batas 2*GPU yang berjalan secara bersamaan. Tunggu tugas saat ini selesai sebelum memulai yang baru, atau ajukan tiket untuk meminta kuota yang lebih tinggi.

T: Apa yang harus saya lakukan jika muncul pesan kesalahan "exited with code 137"?

Jika muncul pesan kesalahan "keluar dengan kode 137", Anda dapat menggunakan instance dengan ukuran memori yang lebih besar, menambah jumlah node pekerja, atau memodifikasi ukuran memori yang dicadangkan dalam kode Anda.

image

Di Linux, kode kesalahan 137 menunjukkan bahwa proses dipaksa dihentikan oleh sinyal SIGKILL. Penyebab paling umum adalah penggunaan memori yang tinggi, juga dikenal sebagai kesalahan Memori Habis (OOM). Anda dapat mengidentifikasi penyebab kekurangan memori berdasarkan penggunaan memori node pekerja di detail tugas dan meningkatkan memori yang tersedia.

T: Apa yang harus saya lakukan jika status pekerjaan adalah Gagal atau Dikeluarkan dari Antrian?

Tabel berikut menjelaskan urutan status eksekusi tugas untuk DLC.

Jenis Pekerjaan

Urutan Status

Sumber daya bayar sesuai pemakaian

Sumber daya preemptible Lingjun

Creating -> Bidding -> Environment Preparing -> Running -> Succeeded / Failed / Stopped

Sumber daya Lingjun atau sumber daya publik komputasi umum

Creating -> Environment Preparing -> Running -> Succeeded / Failed / Stopped

Sumber daya langganan

Creating -> Queued -> Environment Preparing -> Running -> Succeeded / Failed / Stopped

  • Apa yang harus dilakukan jika statusnya adalah Menyiapkan Lingkungan?

    Jika tugas tetap berada dalam status Menyiapkan Lingkungan, kemungkinan karena Anda mengonfigurasi dataset tipe CPFS tanpa menyiapkan virtual private cloud (VPC). Untuk menyelesaikan masalah ini, buat ulang tugas, konfigurasikan dataset tipe CPFS dan VPC. Pastikan VPC yang dikonfigurasi sama dengan VPC CPFS. Untuk informasi lebih lanjut, lihat Kirim tugas pelatihan.

  • Apa yang harus dilakukan jika statusnya adalah Gagal?

    Arahkan mouse Anda ke ikon image.png di halaman detail tugas atau lihat log untuk menemukan penyebab kegagalan eksekusi tugas. Untuk informasi lebih lanjut, lihat Lihat tugas pelatihan.

T: Bisakah saya mengubah pekerjaan yang menggunakan sumber daya publik menjadi sumber daya eksklusif?

Untuk mengubah sumber daya, Anda harus membuat ulang tugas. Klik Clone di kolom Actions tugas asli untuk membuat yang baru dengan konfigurasi yang sama. Kemudian, Anda dapat mengubah sumber daya. Untuk informasi lebih lanjut tentang penagihan, lihat Penagihan DLC.

T: Bagaimana cara menyiapkan beberapa node dan GPU di DLC?

Saat membuat tugas DLC, konfigurasikan perintah berikut. Untuk informasi lebih lanjut, lihat Kirim tugas pelatihan.

python -m torch.distributed.launch \ --nproc_per_node=2 \ --master_addr=${MASTER_ADDR} \ --master_port=${MASTER_PORT} \ --nnodes=${WORLD_SIZE} \ --node_rank=${RANK} \ train.py --epochs=100

T: Bagaimana cara mengunduh model yang dilatih di DLC ke mesin lokal saya?

Saat mengirimkan tugas DLC, Anda dapat mengaitkan dataset dan mengonfigurasi perintah startup untuk menyimpan hasil pelatihan ke folder dataset yang dipasang.

imageSetelah pelatihan, file model secara otomatis disimpan ke jalur mount dataset. Kemudian, Anda dapat mengakses sistem file yang sesuai untuk mengunduh file model ke mesin lokal Anda.

T: Bagaimana cara menggunakan gambar Docker di DLC?