全部產品
Search
文件中心

Platform For AI:模型權重服務

更新時間:Jan 22, 2026

背景資訊

隨著大語言模型(LLM)參數量呈現指數級增長(如開源模型DeepSeekV3-671B已達700GB+規模),模型載入耗時已成為影響推理服務效率的關鍵瓶頸。這一現象在以下情境中尤為突出:

  1. 彈性擴容情境:模型載入時間直接影響服務擴充的敏捷性。

  2. 多執行個體部署情境:並發從遠端儲存(OSS/NAS/CPFS)拉模數型導致頻寬競爭,進一步降低模型載入效率。

針對上述挑戰,PAI推理服務創新性地發布了模型權重服務功能(Model Weight Service, MoWS),其核心技術特徵包括:

  • 分布式緩衝架構:利用節點記憶體資源構建權重緩衝池。

  • 高速傳輸機制:基於RDMA的機間互聯實現低延遲資料轉送。

  • 智能分區策略:支援並行分區傳輸與完整性校正。

  • 記憶體共用最佳化:實現單機多進程間零拷貝權重共用。

  • 權重智能預取:利用閑置時間提前預讀模型權重。

  • 高效緩衝策略:保證模型分區在執行個體間負載平衡。

實際部署表明,該方案在超大規模執行個體叢集中可實現:

  1. 擴容速度提升 10 倍(對比傳統拉模數式)。

  2. 頻寬利用率提高60%+。

  3. 服務冷啟動時間縮短至秒級。

image.png

通過充分利用多執行個體之間的頻寬資源,實現模型權重的高效快速傳輸。模型權重服務不僅支援模型權重的本機快取,還能夠實現權重的跨執行個體共用。在處理大規模參數模型以及在大規模執行個體部署的情境中,MoWS能夠顯著提升服務的擴縮容效率和啟動速度。

使用方式

  1. 登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS

  2. 單擊部署服務,然後在自訂模型部署地區,單擊自訂部署

  3. 自定义部署頁面,配置以下關鍵參數,其他參數配置說明,請參見自訂部署

    • 环境信息镜像配置中,選擇官方镜像,選擇鏡像倉庫vllm中帶有mows標識的鏡像版本。

      image

      重要

      在運行命令中,需增加--load-format=mows參數,支援vllm/sglang推理引擎。

    • 資源資訊的資源類型處選擇EAS资源组资源配额

    • 服务功能中開啟模型权重服务(MoWS)的功能項,並進行內容如下配置。

      image

      配置項

      描述

      樣本

      模型权重路径

      必選,模型權重路徑,OSS/NAS/CPFS掛載路徑。

      /mnt/data/llm_models/Qwen2-7B-Instruct/

      占用最大内存

      必選,MoWS 所使用記憶體資源(單一實例),單位GB。

      200

      crc32文件路径

      可選,用於載入模型的時候進行資料校正。填寫crc32 檔案名稱,上述配置的模型權重路徑的相對路徑。

      • 檔案格式為[crc32] [relative_file_path]

      • 預設值:"crc32.txt"

      單擊查看crc32檔案產生方式

      在模型權重目錄下,執行以下命令產生crc32檔案:

      apt-get install -y libarchive-zip-perl
      find . -type f | xargs -I {} -P $(nproc) sh -c 'echo "$(crc32 {}) {}"' | sed 's|^\(.*\) \./|\1 |' > crc32.txt

      crc32.txt

      其內容為

      3d531b22 model-00004-of-00004.safetensors
      1ba28546 model-00003-of-00004.safetensors
      b248a8c0 model-00002-of-00004.safetensors
      09b46987 model-00001-of-00004.safetensors

      网卡类型

      可選,如果網卡硬體為 EIC 網卡,需要選擇EIC网卡

      非EIC網卡

效能收益

在Qwen3-8B的模型評測中,推理服務的冷啟動時間長度TP99從235秒降低至24秒,冷啟動時間長度降幅89.8%;執行個體擴容時間長度降低至5.7秒,擴容時間長度降幅97.6%

image.png

在Qwen3-32B的模型評測中,推理服務的冷啟動時間長度953秒降低至82秒,冷啟動時間長度降幅91.4%;執行個體擴容時間長度降低至17秒,擴容時間長度降幅98.2%

image.png