本文為您介紹在PAI-Model Gallery中部署或微調訓練模型時常見的問題及解決方式。
Q:Model Gallery的模型評測是開了深度思考嗎?
Model Gallery提供的模型,以及通過Model Gallery進行二次訓練的模型,其評測時所採用的是Model Gallery預設的部署配置。請參考模型介紹頁說明以及預設部署配置等進行判斷。
Q:如何部署Model Gallery訓練的模型
進入Model Gallery的任務管理,找到訓練任務進入詳情頁面,單擊頁面右上方的部署按鈕進行部署。

Q:訓練任務失敗後,如何排查失敗原因?
訓練任務失敗有很多可能的原因,比如使用者準備的資料集格式不符合要求等。您可以嘗試通過以下方式排查失敗原因:
查看任務診斷:在PAI-Model Gallery > 任務管理 > 訓練任務中單擊指定任務,在任務詳情頁簽下滑鼠移至上方於失敗,系統會顯示錯誤原因及解決辦法。

查看任務日誌:在任務管理 > 訓練任務中單擊指定任務,在任務日誌頁簽下查看錯誤資訊:

具體錯誤資訊對應解決方案如下:
錯誤類型
錯誤資訊
解決辦法
輸入/輸出錯誤相關
ValueError: output channel ${your OSS uri} must be directory
檢查訓練設定的輸出路徑是否為檔案夾,系統要求輸出路徑必須是一個檔案夾。
ValueError:train must be a file
檢查選擇的輸入路徑是否為檔案,系統要求輸入路徑必須是檔案。
FileNotFoundError
檢查選擇的輸入路徑是否存在符合要求的檔案。
JSONDecodeError
檢查輸入的JSON檔案格式是否正確。
ValueError: Input data must be a json file or a jsonl file!
檢查輸入檔案是否符合要求,要求為JSON或JSONL檔案。
KeyError:${some key name}
多見於JSON格式訓練集檔案,根據模型說明頁面檢查訓練集檔案各個key-value值是否符合模型要求。
ValueError: Unrecognized model in /ml/input/data/model/.
PyTorch無法識別提供的模型檔案。
UnicodeDecoderError
檢查輸入檔案的編碼格式是否正確。
Input/output error
檢查輸入路徑是否具有讀許可權,輸出路徑是否具有讀寫權限
NotADirectoryError: [Errno 20] Not a directory:
檢查輸入/輸出路徑是否為檔案夾。
超參數配置相關
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -9) local_rank: 0 (pid: 51) of binary: /usr/bin/python(且沒有相關subprocess的日誌)
當前機型記憶體不足,載入模型時OOM(Out of Memory),請選擇記憶體更大的機型。
torch.cuda.OutOfMemoryError: CUDA out of memory
當前機型顯存不足,需要選擇顯存更大的GPU機型或者降低涉及顯存的相關超參數配置,如:lora dim,batch size。
ValueError: No closing quotation
提供的system prompt(也可能是其他參數)中出現了單個
",導致演算法產生training command失敗。需要刪除單個",或補齊成對出現。機型資源配置相關
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run
該模型參數格式為BF16,建議使用Ampere或更先進架構的GPU進行模型訓練,例如A10/A100等。使用Ampere之前架構的GPU進行訓練會將參數轉換為FP16格式。
RuntimeError: CUDA error: uncorrectable ECC error encountered
選擇的機型硬體錯誤。可換一個機型訓練,或換個Region嘗試。
MemoryError: WARNING Insufficient free disk space
選擇的機型記憶體不夠。需更換更大記憶體的機型。
使用者限制相關
failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold
訓練任務當前限制最多同時運行2*GPU,超過會觸發資源限制。請等待正在運行中的訓練任務完成再啟動,或提交工單申請增加配額。
Q:如何線上調試已部署的模型?
當模型部署成功之後,在Model Gallery > 任務管理 > 部署任務中查看已部署的服務。

在EAS頁面單擊上一步已部署服務操作列的線上調試。

配置線上調試請求參數。
在模型介紹頁面(從Model Gallery頁面單擊模型卡片即可進入)查看對應部署方式的調用方法。例如,您通過BladeLLM方式部署了DeepSeek-R1-Distill-Qwen-7B模型,通過向
/v1/chat/completions路徑發送 HTTP POST請求,對應的請求樣本如下:

配置並發送請求。
請求URL後面追加上一步中的
/v1/chat/completions,請求Body根據上一步中的請求樣本進行添加。
Q:線上調試時報錯“no healthy upstream”
線上調試時報錯,錯誤碼為503,錯誤提示為“no healthy upstream”:

報錯原因:執行個體運行時資源不足,如CPU、記憶體和顯存被過度佔用,導致沒有足夠的緩衝餘量。
解決方案:
當資源類型為公用資源時,建議稍後在非高峰時段再嘗試調用,或更換其他資源規格和地區。
當資源類型為專屬資源(EAS資源群組)時,確保專屬資源群組為執行個體預留足夠的CPU、記憶體和顯存(建議至少保留20%空閑資源作為緩衝)。
Q:模型訓練時報錯:SupportsDistributedTraining false, please set InstanceCount=1
報錯原因:當前訓練任務啟用了多個執行個體(節點數大於1),但該模型不支援分布式訓練。
解決方案:將節點數量設定為1。
