背景資訊
隨著大語言模型(LLM)參數量呈現指數級增長(如開源模型DeepSeekV3-671B已達700GB+規模),模型載入耗時已成為影響推理服務效率的關鍵瓶頸。這一現象在以下情境中尤為突出:
彈性擴容情境:模型載入時間直接影響服務擴充的敏捷性。
多執行個體部署情境:並發從遠端儲存(OSS/NAS/CPFS)拉模數型導致頻寬競爭,進一步降低模型載入效率。
針對上述挑戰,PAI推理服務創新性地發布了模型權重服務功能(Model Weight Service, MoWS),其核心技術特徵包括:
分布式緩衝架構:利用節點記憶體資源構建權重緩衝池。
高速傳輸機制:基於RDMA的機間互聯實現低延遲資料轉送。
智能分區策略:支援並行分區傳輸與完整性校正。
記憶體共用最佳化:實現單機多進程間零拷貝權重共用。
權重智能預取:利用閑置時間提前預讀模型權重。
高效緩衝策略:保證模型分區在執行個體間負載平衡。
實際部署表明,該方案在超大規模執行個體叢集中可實現:
擴容速度提升 10 倍(對比傳統拉模數式)。
頻寬利用率提高60%+。
服務冷啟動時間縮短至秒級。

通過充分利用多執行個體之間的頻寬資源,實現模型權重的高效快速傳輸。模型權重服務不僅支援模型權重的本機快取,還能夠實現權重的跨執行個體共用。在處理大規模參數模型以及在大規模執行個體部署的情境中,MoWS能夠顯著提升服務的擴縮容效率和啟動速度。
使用方式
登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS。
單擊部署服務,然後在自訂模型部署地區,單擊自訂部署。
在自定义部署頁面,配置以下關鍵參數,其他參數配置說明,請參見自訂部署。
在环境信息的镜像配置中,選擇官方镜像,選擇鏡像倉庫vllm中帶有mows標識的鏡像版本。
重要在運行命令中,需增加
--load-format=mows參數,支援vllm/sglang推理引擎。在資源資訊的資源類型處選擇EAS资源组或资源配额。
在服务功能中開啟模型权重服务(MoWS)的功能項,並進行內容如下配置。

配置項
描述
樣本
模型权重路径
必選,模型權重路徑,OSS/NAS/CPFS掛載路徑。
/mnt/data/llm_models/Qwen2-7B-Instruct/占用最大内存
必選,MoWS 所使用記憶體資源(單一實例),單位GB。
200
crc32文件路径
可選,用於載入模型的時候進行資料校正。填寫crc32 檔案名稱,上述配置的模型權重路徑的相對路徑。
檔案格式為[crc32] [relative_file_path]
預設值:"crc32.txt"
crc32.txt
其內容為
3d531b22 model-00004-of-00004.safetensors 1ba28546 model-00003-of-00004.safetensors b248a8c0 model-00002-of-00004.safetensors 09b46987 model-00001-of-00004.safetensors网卡类型
可選,如果網卡硬體為 EIC 網卡,需要選擇EIC网卡。
非EIC網卡
效能收益
在Qwen3-8B的模型評測中,推理服務的冷啟動時間長度TP99從235秒降低至24秒,冷啟動時間長度降幅89.8%;執行個體擴容時間長度降低至5.7秒,擴容時間長度降幅97.6%。

在Qwen3-32B的模型評測中,推理服務的冷啟動時間長度953秒降低至82秒,冷啟動時間長度降幅91.4%;執行個體擴容時間長度降低至17秒,擴容時間長度降幅98.2%。
