EAS服務部署：配置模型緩衝加速 - Platform For AI

推理服務通過掛載OSS或NAS讀模數型檔案，受網路頻寬影響，存在延時問題。EAS提供模型緩衝加速功能，將模型檔案快取到記憶體中，提高讀取速度，減少延時。本文介紹如何配置模型緩衝加速及其加速效果。

工作原理

模型緩衝加速支援以下兩種緩衝方式：

本機快取：利用推理服務自身的空閑記憶體緩衝模型檔案，以檔案系統目錄形式呈現。適用於服務擴容情境——同一服務的多個執行個體組成P2P網路，新執行個體可直接從已有緩衝的執行個體擷取資料，無需回源OSS/NAS。
本機快取 + 預熱緩衝：基於本機快取，再額外部署一個獨立的預熱快取服務，提前將模型檔案載入到記憶體中。適用於全新部署情境，彌補本機快取無法解決的首次冷啟動問題。

配置完成後，推理服務執行個體會掛載一個加速目錄，業務程式直接讀取該目錄的模型檔案，無需修改代碼。模型載入的優先順序如下：

冷啟動：優先從預熱快取服務擷取（如已配置）；未配置則從OSS/NAS拉取並緩衝到本地。
擴容：優先命中本機快取（支援LRU淘汰）；未命中時預熱快取服務擷取；仍未命中再回源OSS/NAS。

注意事項

為保持資料一致性，掛載的加速目錄是唯讀，無法寫操作。
如需添加模型檔案，請在來源目錄中新增檔案，加速目錄會讀取來源目錄中的檔案。
不建議直接更新或刪除來源目錄中的模型檔案，這可能導致讀取到緩衝的髒資料。

配置模型本機快取

自訂部署

登入PAI控制台，在頁面上方選擇目標地區，並在右側選擇目標工作空間，然後單擊進入EAS。
單擊部署服务，然後在自定义模型部署地區，單擊自定义部署。

關鍵參數說明如下，其他請參見自訂部署。

在环境信息地區，配置存储挂载，將模型檔案掛載到容器目錄。比如選擇OSS：
- Uri：模型檔案所在的OSS路徑，如oss://path/to/models/Qwen3-8B/。
- 挂载路径：掛載到容器中的路徑，如/mnt/models/Qwen3-8B/。

在服务功能地區，開啟分布式缓存加速開關，配置以下參數：

參數	描述
占用最大内存	緩衝佔用的最大記憶體，單位GB，超過限制時按LRU策略淘汰。樣本：`20` GB。
源路径	需加速檔案的來源目錄。填寫OSS/NAS掛載到容器的路徑。
加速路径	本機快取的路徑。業務程式從該目錄讀模數型，須與源路徑不同。樣本：`/mnt/models/Qwen3-8B-fast/`。
模型缓存预热服务	（可選）選擇已部署的模型預熱快取服務。適用於全新部署或對冷啟動速度有較高要求的情境（例如模型檔案較大、需要頻繁擴容）。如需使用，請先部署模型預熱快取服務。

在环境信息地區，修改运行命令，將命令中原本的模型檔案源路徑改為加速路徑。以部署LLM服務為例：
```
vllm serve /mnt/models/Qwen3-8B-fast/
```

參數配置完成後，單擊部署。

JSON部署

登入PAI控制台，在頁面上方選擇目標地區，並在右側選擇目標工作空間，然後單擊進入EAS。
在模型在线服务 (EAS)頁面，單擊部署服务，然後在自定义模型部署地區，單擊JSON独立部署。

輸入JSON配置，樣本如下。

{
    "cloud": {
        "computing": {
            "instances": [
                {
                    "type": "ecs.gn6e-c12g1.3xlarge"
                }
            ]
        },
        "networking": {
            "security_group_id": "your-security-group-id",
            "vpc_id": "your-vpc-id",
            "vswitch_id": "your-vswitch-id"
        }
    },
    "containers": [
        {
            "image": "eas-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai-eas/vllm:0.11.2-py312-mows0.5.1",
            "port": 8000,
            "script": "vllm serve /mnt/models/Qwen3-8B/"
        }
    ],
    "metadata": {
        "cpu": 12,
        "disk": "30Gi",
        "gpu": 1,
        "instance": 1,
        "memory": 92000,
        "name": "vllm_test",
        "workspace_id": "your-workspace-id"
    },
    "storage": [
        {
            "mount_path": "/mnt/models/Qwen3-8B/",
            "oss": {
                "path": "oss://path/to/models/Qwen3-8B/",
                "readOnly": false
            }
        },
        {
            "cache": {
                "capacity": "10G",
                "path": "/mnt/models/Qwen3-8B/",
                "cacheroot_service": "your-cacheroot-service"
            },
            "mount_path": "/mnt/models/Qwen3-8B-fast/"
        }
    ]
}

記憶體緩衝加速相關參數說明如下，其他參數配置說明，請參見JSON部署。

參數		描述
containers.script		將運行命令中指向模型檔案的路徑，從源路徑（OSS/NAS掛載目錄）改為加速路徑，使業務程式從加速目錄讀模數型。
storage[].cache	capacity	被加速檔案佔用的最大記憶體，單位GB。被加速檔案佔用的最大記憶體，超過限制時採用LRU策略淘汰。
	path	需加速檔案的來源目錄。填寫OSS/NAS掛載到容器的路徑。
	preload	表示在拉起服務時將檔案快取到記憶體中。設定為`"/"`。
	cacheroot_service	預熱快取服務的名稱。
storage[].mount_path		OSS/NAS掛載到容器中的路徑。

單擊部署。

部署模型預熱快取服務

模型預熱快取服務是用於積極式載入指定模型緩衝的獨立服務，能夠為啟用模型緩衝加速的推理服務提供高速訪問的資料來源。適用於LLM、AI生圖、AI生視頻等需要使用OSS/NAS掛載大型模型檔案的情境。

重要

推理服務中模型緩衝加速的源路徑所對應的OSS地址，必須與模型預熱快取服務掛載的OSS地址保持一致，否則預熱緩衝將無法生效。

例如，推理服務中緩衝加速配置的源路徑為/mnt/models/Qwen3-8B/，對應OSS地址oss://path/to/models/Qwen3-8B/，則預熱快取服務也必須掛載oss://path/to/models/Qwen3-8B/。

在推理服务頁簽，單擊部署服务，然後在场景化模型部署地區，單擊模型预热缓存服务部署。

配置以下關鍵參數，然後單擊部署。

參數		說明
基本信息	部署资源	根據所需記憶體大小選擇資源。
缓存配置	缓存路径	要緩衝的模型目錄，支援掛載多個路徑。
缓存配置	占用最大内存	必填。預熱快取服務可使用的最大記憶體。
网络信息	专有网络	必填。必須與推理服務所在VPC保持一致，否則預熱快取服務將無法被推理服務訪問。
网络信息	关联负载均衡NLB	必須開啟。預設由系統自動建立NLB。

加速效果

參考如下資料瞭解模型緩衝加速效果，您的最終加速效果以實際情況為準。

Qwen3-32B

模型：Qwen3-32B（62G）

機器：ml.gu8is.c64m512.4-gu60 | 64核512G+4張GU60(48G) | L20

部署模式	模型載入耗時	模型載入速率	服務就緒耗時
常規（無緩衝加速）	01:05	7.63Gbit/s	01:43
冷啟動加速（預熱緩衝）	00:21	23.62Gbit/s	01:01
擴容加速（本機快取）	00:18	27.55Gbit/s	00:58

MiniMax-M2

模型：MiniMax-M2（215G）

機器：ml.gu8tf.8.40xlarge | 160vcpu+1800GB+8*GU8T | H20(96G)

部署模式	模型載入耗時	模型載入速率	服務就緒耗時
常規（無緩衝加速）	06:42	4.28Gbit/s	09:16
冷啟動加速（預熱緩衝）	01:49	15.78Gbit/s	04:49
擴容加速（本機快取）	01:42	16.86Gbit/s	04:34

DeepSeek-V3.2

模型：DeepSeek-V3.2（643G）

機器：ml.gu8tef.8.46xlarge | 184vcpu+1800GB+8*GU8TE | H20-3e(141G)

部署模式	模型載入耗時	模型載入速率	服務就緒耗時
常規（無緩衝加速）	12:33	6.83Gbit/s	27:41
冷啟動加速（預熱緩衝）	02:43	31.56Gbit/s	13:01
擴容加速（本機快取）	01:58	43.60Gbit/s	12:49