全部产品
Search
文档中心

Platform For AI:FAQ Model Gallery

更新时间:Nov 05, 2025

Topik ini menjawab pertanyaan umum tentang penyebaran dan fine-tuning model di PAI-Model Gallery.

T: Bagaimana cara memeriksa apakah pemikiran mendalam diaktifkan untuk evaluasi model di PAI-Model Gallery?

Untuk menentukan apakah pemikiran mendalam digunakan dalam evaluasi model, periksa konfigurasi penyebaran defaultnya. Informasi ini tersedia di halaman deskripsi model di PAI-Model Gallery. Semua model dievaluasi menggunakan pengaturan penyebaran default mereka.

T: Bagaimana cara menyebar model setelah melatihnya di PAI-Model Gallery?

  1. Navigasikan ke PAI-Model Gallery > Task Management.

  2. Temukan tugas pelatihan yang telah selesai dan klik untuk membuka halaman detailnya.

  3. Klik tombol Deploy di pojok kanan atas.

image

T: Bagaimana cara menangani tugas pelatihan yang gagal di PAI-Model Gallery?

Jika tugas pelatihan gagal, Anda dapat menyelidiki penyebabnya dengan memeriksa diagnostik tugas atau log. Penyebab umum kegagalan adalah format set data yang salah.

Berikut dua cara untuk menemukan detail kesalahan:

  • Periksa Diagnostik Tugas: Di PAI-Model Gallery, buka Task Management > Training Tasks. Klik tugas yang gagal untuk membuka halaman Task Details. Arahkan kursor ke status Failed untuk melihat ringkasan kesalahan.

    image

  • Periksa Log Tugas: Pada Task Management > Training Tasks, pilih tab Task log untuk melihat pesan kesalahan lengkap.

    image

    Tabel berikut mencantumkan pesan kesalahan umum dan solusinya:

    Jenis kesalahan

    Pesan kesalahan

    Solusi

    Kesalahan input/output

    ValueError: saluran output ${your OSS uri} harus berupa direktori

    Verifikasi bahwa jalur keluaran yang ditentukan dalam pengaturan pelatihan Anda adalah direktori, bukan file.

    ValueError: train harus berupa file

    Verifikasi bahwa jalur input yang ditentukan mengarah ke file, bukan direktori.

    FileNotFoundError

    Pastikan file yang valid ada di jalur input yang ditentukan.

    JSONDecodeError

    Verifikasi bahwa file JSON input diformat dengan benar.

    ValueError: Input data must be a json file or a jsonl file!

    Pastikan file input dalam format JSON atau JSONL.

    KeyError: ${some key name}

    Kesalahan ini sering terjadi pada dataset JSON. Tinjau dokumentasi model dan verifikasi bahwa semua pasangan kunci-nilai dalam dataset Anda sesuai dengan format yang diminta.

    ValueError: Unrecognized model in /ml/input/data/model/.

    File model dalam format yang tidak dikenali oleh PyTorch.

    UnicodeDecoderError

    Verifikasi bahwa file input memiliki pengkodean karakter yang benar.

    Kesalahan input/output

    Pastikan Anda memiliki izin baca untuk jalur input dan izin baca/tulis untuk jalur keluaran.

    NotADirectoryError: [Errno 20] Not a directory:

    Verifikasi bahwa jalur input atau output yang ditentukan adalah direktori.

    Pengaturan hiperparameter

    ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -9) local_rank: 0 (pid: 51) of binary: /usr/bin/python (and there are no related subprocess logs)

    Instans memiliki memori (RAM) yang tidak cukup, menyebabkan kesalahan Out of Memory (OOM) saat memuat model. Pilih tipe instans dengan lebih banyak memori.

    torch.cuda.OutOfMemoryError: CUDA kehabisan memori

    Instans memiliki memori GPU yang tidak cukup. Untuk menyelesaikan ini, pilih tipe instans GPU dengan lebih banyak VRAM, atau kurangi hiperparameter yang intensif memori seperti lora_dim

    atau batch_size

    ValueError: Tidak ada tanda kutip penutup

    system prompt

    atau parameter string lainnya berisi tanda kutip yang tidak tertutup ("

    ), mencegah pembuatan perintah pelatihan. Pastikan semua tanda kutip dipasangkan dengan benar.

    Konfigurasi sumber daya dari tipe instans

    Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run

    Kesalahan ini menunjukkan masalah presisi. Model menggunakan format BF16, yang memerlukan GPU dengan arsitektur Ampere atau lebih baru (misalnya, A10, A100). Melatih pada GPU yang lebih lama mengonversi parameter ke FP16, yang dapat menyebabkan kesalahan underflow ini.

    RuntimeError: CUDA error: uncorrectable ECC error encountered

    Ini menunjukkan kesalahan perangkat keras pada instans GPU yang mendasarinya. Coba lagi tugas pelatihan. Jika gagal lagi, coba tipe instans atau wilayah yang berbeda.

    MemoryError: WARNING Insufficient free disk space

    Disk instans penuh. Pilih tipe instans dengan lebih banyak ruang disk.

    Kesalahan batas pengguna

    failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold

    Ini menunjukkan bahwa Anda telah melebihi kuota GPU Anda. Secara default, tugas pelatihan dibatasi hingga 2 GPU bersamaan. Tunggu tugas yang sedang berjalan selesai, atau ajukan tiket untuk meminta peningkatan kuota.

T: Bagaimana cara melakukan debugging online untuk model yang disebarkan dengan PAI-EAS?

Setelah model Anda berhasil disebarkan sebagai layanan di PAI-EAS (Elastic Algorithm Service), Anda dapat menggunakan alat debugging online bawaan.

  1. Temukan layanan Anda yang telah disebarkan: Navigasikan ke PAI-Model Gallery > Task Management > Deployment Tasks. Ini akan mengarahkan ulang Anda ke Konsol PAI-EAS tempat Anda dapat melihat layanan yang disebarkan.

    image

  2. Buka alat Online Debugging: Di halaman PAI-EAS, temukan layanan Anda. Di kolom Operation, klik Online Debugging.

    image

  3. Konfigurasikan dan kirim permintaan:

    1. Pertama, temukan format permintaan yang diperlukan di halaman deskripsi model di PAI-Model Gallery. Sebagai contoh, model yang disebarkan menggunakan metode BladeLLM mungkin mengharapkan permintaan POST ke jalur tertentu seperti /v1/chat/completions, dengan body JSON yang ditentukan.

      image

      image

    2. Selanjutnya, di UI Online Debugging, tambahkan jalur (misalnya, /v1/chat/completions) ke URL Permintaan.

      image

    3. Terakhir, isi Request Body menggunakan contoh dari halaman deskripsi model dan klik Kirim Permintaan.

T: Mengapa saya mendapatkan kesalahan 503 "no healthy upstream" saat memanggil model saya yang disebarkan dengan PAI-EAS?

Kesalahan 503 Service Unavailable dengan pesan no healthy upstream menunjukkan bahwa instans layanan kehabisan sumber daya dan tidak dapat memproses permintaan baru.

image

  • Penyebab: Sumber daya instans (CPU, memori, atau memori GPU) sepenuhnya digunakan, sehingga tidak ada kapasitas untuk permintaan baru.

  • Solusi: Tindakan yang benar tergantung pada jenis sumber daya Anda:

    • Sumber Daya Publik: Pool sumber daya bersama sementara kelebihan beban. Coba lagi selama jam-jam non-puncak, atau sebarkan ulang model Anda ke wilayah yang berbeda atau dengan spesifikasi instans yang berbeda.

    • Sumber Daya Khusus (Grup Sumber Daya EAS): Grup sumber daya Anda kekurangan skala. Pastikan grup memiliki CPU, memori, dan memori GPU yang cukup untuk menangani beban. Sebagai praktik terbaik, pertahankan buffer sumber daya setidaknya 20%.

T: Mengapa saya mendapatkan kesalahan "SupportsDistributedTraining false, please set InstanceCount=1" selama pelatihan model?

  • Penyebab: Kesalahan ini terjadi karena model yang dipilih tidak mendukung pelatihan terdistribusi, tetapi tugas dikonfigurasi untuk berjalan pada lebih dari satu node (InstanceCount > 1).

  • Solusi: Atur Jumlah Node menjadi 1 dalam konfigurasi tugas pelatihan Anda dan mulai ulang tugas.

    image