推理服務通過掛載OSS或NAS讀模數型檔案,受網路頻寬影響,存在延時問題。EAS提供模型緩衝加速功能,將模型檔案快取到記憶體中,提高讀取速度,減少延時。本文介紹如何配置模型緩衝加速及其加速效果。
工作原理
模型緩衝加速支援以下兩種緩衝方式:
本機快取:利用推理服務自身的空閑記憶體緩衝模型檔案,以檔案系統目錄形式呈現。適用於服務擴容情境——同一服務的多個執行個體組成P2P網路,新執行個體可直接從已有緩衝的執行個體擷取資料,無需回源OSS/NAS。
本機快取 + 預熱緩衝:基於本機快取,再額外部署一個獨立的預熱快取服務,提前將模型檔案載入到記憶體中。適用於全新部署情境,彌補本機快取無法解決的首次冷啟動問題。
配置完成後,推理服務執行個體會掛載一個加速目錄,業務程式直接讀取該目錄的模型檔案,無需修改代碼。模型載入的優先順序如下:
冷啟動:優先從預熱快取服務擷取(如已配置);未配置則從OSS/NAS拉取並緩衝到本地。
擴容:優先命中本機快取(支援LRU淘汰);未命中時預熱快取服務擷取;仍未命中再回源OSS/NAS。
注意事項
為保持資料一致性,掛載的加速目錄是唯讀,無法寫操作。
如需添加模型檔案,請在來源目錄中新增檔案,加速目錄會讀取來源目錄中的檔案。
不建議直接更新或刪除來源目錄中的模型檔案,這可能導致讀取到緩衝的髒資料。
配置模型本機快取
自訂部署
登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS。
單擊部署服务,然後在自定义模型部署地區,單擊自定义部署。
關鍵參數說明如下,其他請參見自訂部署。
在环境信息地區,配置存储挂载,將模型檔案掛載到容器目錄。比如選擇OSS:
Uri:模型檔案所在的OSS路徑,如
oss://path/to/models/Qwen3-8B/。挂载路径:掛載到容器中的路徑,如
/mnt/models/Qwen3-8B/。
在服务功能地區,開啟分布式缓存加速開關,配置以下參數:
參數
描述
占用最大内存
緩衝佔用的最大記憶體,單位GB,超過限制時按LRU策略淘汰。樣本:
20GB。源路径
需加速檔案的來源目錄。填寫OSS/NAS掛載到容器的路徑。
加速路径
本機快取的路徑。業務程式從該目錄讀模數型,須與源路徑不同。樣本:
/mnt/models/Qwen3-8B-fast/。模型缓存预热服务
(可選)選擇已部署的模型預熱快取服務。適用於全新部署或對冷啟動速度有較高要求的情境(例如模型檔案較大、需要頻繁擴容)。如需使用,請先部署模型預熱快取服務。
在环境信息地區,修改运行命令,將命令中原本的模型檔案源路徑改為加速路徑。以部署LLM服務為例:
vllm serve /mnt/models/Qwen3-8B-fast/
參數配置完成後,單擊部署。
JSON部署
登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS。
在模型在线服务 (EAS)頁面,單擊部署服务,然後在自定义模型部署地區,單擊JSON独立部署。
輸入JSON配置,樣本如下。
{ "cloud": { "computing": { "instances": [ { "type": "ecs.gn6e-c12g1.3xlarge" } ] }, "networking": { "security_group_id": "your-security-group-id", "vpc_id": "your-vpc-id", "vswitch_id": "your-vswitch-id" } }, "containers": [ { "image": "eas-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai-eas/vllm:0.11.2-py312-mows0.5.1", "port": 8000, "script": "vllm serve /mnt/models/Qwen3-8B/" } ], "metadata": { "cpu": 12, "disk": "30Gi", "gpu": 1, "instance": 1, "memory": 92000, "name": "vllm_test", "workspace_id": "your-workspace-id" }, "storage": [ { "mount_path": "/mnt/models/Qwen3-8B/", "oss": { "path": "oss://path/to/models/Qwen3-8B/", "readOnly": false } }, { "cache": { "capacity": "10G", "path": "/mnt/models/Qwen3-8B/", "cacheroot_service": "your-cacheroot-service" }, "mount_path": "/mnt/models/Qwen3-8B-fast/" } ] }記憶體緩衝加速相關參數說明如下,其他參數配置說明,請參見JSON部署。
參數
描述
containers.script
將運行命令中指向模型檔案的路徑,從源路徑(OSS/NAS掛載目錄)改為加速路徑,使業務程式從加速目錄讀模數型。
storage[].cache
capacity
被加速檔案佔用的最大記憶體,單位GB。被加速檔案佔用的最大記憶體,超過限制時採用LRU策略淘汰。
path
需加速檔案的來源目錄。填寫OSS/NAS掛載到容器的路徑。
preload
表示在拉起服務時將檔案快取到記憶體中。設定為
"/"。cacheroot_service
預熱快取服務的名稱。
storage[].mount_path
OSS/NAS掛載到容器中的路徑。
單擊部署。
部署模型預熱快取服務
模型預熱快取服務是用於積極式載入指定模型緩衝的獨立服務,能夠為啟用模型緩衝加速的推理服務提供高速訪問的資料來源。適用於LLM、AI生圖、AI生視頻等需要使用OSS/NAS掛載大型模型檔案的情境。
推理服務中模型緩衝加速的源路徑所對應的OSS地址,必須與模型預熱快取服務掛載的OSS地址保持一致,否則預熱緩衝將無法生效。
例如,推理服務中緩衝加速配置的源路徑為/mnt/models/Qwen3-8B/,對應OSS地址oss://path/to/models/Qwen3-8B/,則預熱快取服務也必須掛載oss://path/to/models/Qwen3-8B/。
在推理服务頁簽,單擊部署服务,然後在场景化模型部署地區,單擊模型预热缓存服务部署。
配置以下關鍵參數,然後單擊部署。
參數
說明
基本信息
部署资源
根據所需記憶體大小選擇資源。
缓存配置
缓存路径
要緩衝的模型目錄,支援掛載多個路徑。
占用最大内存
必填。預熱快取服務可使用的最大記憶體。
网络信息
专有网络
必填。必須與推理服務所在VPC保持一致,否則預熱快取服務將無法被推理服務訪問。
关联负载均衡NLB
必須開啟。預設由系統自動建立NLB。
加速效果
參考如下資料瞭解模型緩衝加速效果,您的最終加速效果以實際情況為準。
Qwen3-32B
模型:Qwen3-32B(62G)
機器:ml.gu8is.c64m512.4-gu60 | 64核512G+4張GU60(48G) | L20
部署模式 | 模型載入耗時 | 模型載入速率 | 服務就緒耗時 |
常規(無緩衝加速) | 01:05 | 7.63Gbit/s | 01:43 |
冷啟動加速(預熱緩衝) | 00:21 | 23.62Gbit/s | 01:01 |
擴容加速(本機快取) | 00:18 | 27.55Gbit/s | 00:58 |
MiniMax-M2
模型:MiniMax-M2(215G)
機器:ml.gu8tf.8.40xlarge | 160vcpu+1800GB+8*GU8T | H20(96G)
部署模式 | 模型載入耗時 | 模型載入速率 | 服務就緒耗時 |
常規(無緩衝加速) | 06:42 | 4.28Gbit/s | 09:16 |
冷啟動加速(預熱緩衝) | 01:49 | 15.78Gbit/s | 04:49 |
擴容加速(本機快取) | 01:42 | 16.86Gbit/s | 04:34 |
DeepSeek-V3.2
模型:DeepSeek-V3.2(643G)
機器:ml.gu8tef.8.46xlarge | 184vcpu+1800GB+8*GU8TE | H20-3e(141G)
部署模式 | 模型載入耗時 | 模型載入速率 | 服務就緒耗時 |
常規(無緩衝加速) | 12:33 | 6.83Gbit/s | 27:41 |
冷啟動加速(預熱緩衝) | 02:43 | 31.56Gbit/s | 13:01 |
擴容加速(本機快取) | 01:58 | 43.60Gbit/s | 12:49 |