全部產品
Search
文件中心

Platform For AI:Model Gallery常見問題

更新時間:Nov 04, 2025

本文為您介紹在PAI-Model Gallery中部署或微調訓練模型時常見的問題及解決方式。

Q:Model Gallery的模型評測是開了深度思考嗎?

Model Gallery提供的模型,以及通過Model Gallery進行二次訓練的模型,其評測時所採用的是Model Gallery預設的部署配置。請參考模型介紹頁說明以及預設部署配置等進行判斷。

Q:如何部署Model Gallery訓練的模型

進入Model Gallery的任務管理,找到訓練任務進入詳情頁面,單擊頁面右上方的部署按鈕進行部署。

image

Q:訓練任務失敗後,如何排查失敗原因?

訓練任務失敗有很多可能的原因,比如使用者準備的資料集格式不符合要求等。您可以嘗試通過以下方式排查失敗原因:

  • 查看任務診斷:在PAI-Model Gallery > 任務管理 > 訓練任務中單擊指定任務,在任務詳情頁簽下滑鼠移至上方於失敗,系統會顯示錯誤原因及解決辦法。

    image

  • 查看任務日誌:在任務管理 > 訓練任務中單擊指定任務,在任務日誌頁簽下查看錯誤資訊:

    image

    具體錯誤資訊對應解決方案如下:

    錯誤類型

    錯誤資訊

    解決辦法

    輸入/輸出錯誤相關

    ValueError: output channel ${your OSS uri} must be directory

    檢查訓練設定的輸出路徑是否為檔案夾,系統要求輸出路徑必須是一個檔案夾。

    ValueError:train must be a file

    檢查選擇的輸入路徑是否為檔案,系統要求輸入路徑必須是檔案。

    FileNotFoundError

    檢查選擇的輸入路徑是否存在符合要求的檔案。

    JSONDecodeError

    檢查輸入的JSON檔案格式是否正確。

    ValueError: Input data must be a json file or a jsonl file!

    檢查輸入檔案是否符合要求,要求為JSON或JSONL檔案。

    KeyError:${some key name}

    多見於JSON格式訓練集檔案,根據模型說明頁面檢查訓練集檔案各個key-value值是否符合模型要求。

    ValueError: Unrecognized model in /ml/input/data/model/.

    PyTorch無法識別提供的模型檔案。

    UnicodeDecoderError

    檢查輸入檔案的編碼格式是否正確。

    Input/output error

    檢查輸入路徑是否具有讀許可權,輸出路徑是否具有讀寫權限

    NotADirectoryError: [Errno 20] Not a directory:

    檢查輸入/輸出路徑是否為檔案夾。

    超參數配置相關

    ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -9) local_rank: 0 (pid: 51) of binary: /usr/bin/python(且沒有相關subprocess的日誌)

    當前機型記憶體不足,載入模型時OOM(Out of Memory),請選擇記憶體更大的機型。

    torch.cuda.OutOfMemoryError: CUDA out of memory

    當前機型顯存不足,需要選擇顯存更大的GPU機型或者降低涉及顯存的相關超參數配置,如:lora dim,batch size。

    ValueError: No closing quotation

    提供的system prompt(也可能是其他參數)中出現了單個",導致演算法產生training command失敗。需要刪除單個",或補齊成對出現。

    機型資源配置相關

    Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run

    該模型參數格式為BF16,建議使用Ampere或更先進架構的GPU進行模型訓練,例如A10/A100等。使用Ampere之前架構的GPU進行訓練會將參數轉換為FP16格式。

    RuntimeError: CUDA error: uncorrectable ECC error encountered

    選擇的機型硬體錯誤。可換一個機型訓練,或換個Region嘗試。

    MemoryError: WARNING Insufficient free disk space

    選擇的機型記憶體不夠。需更換更大記憶體的機型。

    使用者限制相關

    failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold

    訓練任務當前限制最多同時運行2*GPU,超過會觸發資源限制。請等待正在運行中的訓練任務完成再啟動,或提交工單申請增加配額。

Q:如何線上調試已部署的模型?

  1. 當模型部署成功之後,在Model Gallery > 任務管理 > 部署任務中查看已部署的服務。

    image

  2. 在EAS頁面單擊上一步已部署服務操作列的線上調試

    image

  3. 配置線上調試請求參數。

    1. 在模型介紹頁面(從Model Gallery頁面單擊模型卡片即可進入)查看對應部署方式的調用方法。例如,您通過BladeLLM方式部署了DeepSeek-R1-Distill-Qwen-7B模型,通過向/v1/chat/completions路徑發送 HTTP POST請求,對應的請求樣本如下:

      image

      image

    2. 配置並發送請求。

      請求URL後面追加上一步中的/v1/chat/completions,請求Body根據上一步中的請求樣本進行添加。

      image

Q:線上調試時報錯“no healthy upstream”

線上調試時報錯,錯誤碼為503,錯誤提示為“no healthy upstream”:

image

  • 報錯原因:執行個體運行時資源不足,如CPU、記憶體和顯存被過度佔用,導致沒有足夠的緩衝餘量。

  • 解決方案:

    • 當資源類型為公用資源時,建議稍後在非高峰時段再嘗試調用,或更換其他資源規格和地區。

    • 當資源類型為專屬資源(EAS資源群組)時,確保專屬資源群組為執行個體預留足夠的CPU、記憶體和顯存(建議至少保留20%空閑資源作為緩衝)。

Q:模型訓練時報錯:SupportsDistributedTraining false, please set InstanceCount=1

  • 報錯原因:當前訓練任務啟用了多個執行個體(節點數大於1),但該模型不支援分布式訓練。

  • 解決方案:將節點數量設定為1。

    image