全部產品
Search
文件中心

Platform For AI:模型緩衝加速

更新時間:Apr 04, 2026

推理服務通過掛載OSS或NAS讀模數型檔案,受網路頻寬影響,存在延時問題。EAS提供模型緩衝加速功能,將模型檔案快取到記憶體中,提高讀取速度,減少延時。本文介紹如何配置模型緩衝加速及其加速效果。

工作原理

模型緩衝加速支援以下兩種緩衝方式:

  • 本機快取:利用推理服務自身的空閑記憶體緩衝模型檔案,以檔案系統目錄形式呈現。適用於服務擴容情境——同一服務的多個執行個體組成P2P網路,新執行個體可直接從已有緩衝的執行個體擷取資料,無需回源OSS/NAS。

  • 本機快取 + 預熱緩衝:基於本機快取,再額外部署一個獨立的預熱快取服務,提前將模型檔案載入到記憶體中。適用於全新部署情境,彌補本機快取無法解決的首次冷啟動問題。

配置完成後,推理服務執行個體會掛載一個加速目錄,業務程式直接讀取該目錄的模型檔案,無需修改代碼。模型載入的優先順序如下:

  • 冷啟動:優先從預熱快取服務擷取(如已配置);未配置則從OSS/NAS拉取並緩衝到本地。

  • 擴容:優先命中本機快取(支援LRU淘汰);未命中時預熱快取服務擷取;仍未命中再回源OSS/NAS。

注意事項

  • 為保持資料一致性,掛載的加速目錄是唯讀,無法寫操作。

  • 如需添加模型檔案,請在來源目錄中新增檔案,加速目錄會讀取來源目錄中的檔案。

  • 不建議直接更新或刪除來源目錄中的模型檔案,這可能導致讀取到緩衝的髒資料。

配置模型本機快取

自訂部署

  1. 登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS

  2. 單擊部署服务,然後在自定义模型部署地區,單擊自定义部署

  3. 關鍵參數說明如下,其他請參見自訂部署

    1. 环境信息地區,配置存储挂载,將模型檔案掛載到容器目錄。比如選擇OSS:

      • Uri:模型檔案所在的OSS路徑,如oss://path/to/models/Qwen3-8B/

      • 挂载路径:掛載到容器中的路徑,如/mnt/models/Qwen3-8B/

    2. 服务功能地區,開啟分布式缓存加速開關,配置以下參數:

      參數

      描述

      占用最大内存

      緩衝佔用的最大記憶體,單位GB,超過限制時按LRU策略淘汰。樣本:20 GB。

      源路径

      需加速檔案的來源目錄。填寫OSS/NAS掛載到容器的路徑。

      加速路径

      本機快取的路徑。業務程式從該目錄讀模數型,須與源路徑不同。樣本:/mnt/models/Qwen3-8B-fast/

      模型缓存预热服务

      (可選)選擇已部署的模型預熱快取服務。適用於全新部署或對冷啟動速度有較高要求的情境(例如模型檔案較大、需要頻繁擴容)。如需使用,請先部署模型預熱快取服務

    3. 环境信息地區,修改运行命令,將命令中原本的模型檔案源路徑改為加速路徑。以部署LLM服務為例:

      vllm serve /mnt/models/Qwen3-8B-fast/
  4. 參數配置完成後,單擊部署

JSON部署

  1. 登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS

  2. 模型在线服务 (EAS)頁面,單擊部署服务,然後在自定义模型部署地區,單擊JSON独立部署

  3. 輸入JSON配置,樣本如下。

    {
        "cloud": {
            "computing": {
                "instances": [
                    {
                        "type": "ecs.gn6e-c12g1.3xlarge"
                    }
                ]
            },
            "networking": {
                "security_group_id": "your-security-group-id",
                "vpc_id": "your-vpc-id",
                "vswitch_id": "your-vswitch-id"
            }
        },
        "containers": [
            {
                "image": "eas-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai-eas/vllm:0.11.2-py312-mows0.5.1",
                "port": 8000,
                "script": "vllm serve /mnt/models/Qwen3-8B/"
            }
        ],
        "metadata": {
            "cpu": 12,
            "disk": "30Gi",
            "gpu": 1,
            "instance": 1,
            "memory": 92000,
            "name": "vllm_test",
            "workspace_id": "your-workspace-id"
        },
        "storage": [
            {
                "mount_path": "/mnt/models/Qwen3-8B/",
                "oss": {
                    "path": "oss://path/to/models/Qwen3-8B/",
                    "readOnly": false
                }
            },
            {
                "cache": {
                    "capacity": "10G",
                    "path": "/mnt/models/Qwen3-8B/",
                    "cacheroot_service": "your-cacheroot-service"
                },
                "mount_path": "/mnt/models/Qwen3-8B-fast/"
            }
        ]
    }

    記憶體緩衝加速相關參數說明如下,其他參數配置說明,請參見JSON部署

    參數

    描述

    containers.script

    將運行命令中指向模型檔案的路徑,從源路徑(OSS/NAS掛載目錄)改為加速路徑,使業務程式從加速目錄讀模數型。

    storage[].cache

    capacity

    被加速檔案佔用的最大記憶體,單位GB。被加速檔案佔用的最大記憶體,超過限制時採用LRU策略淘汰。

    path

    需加速檔案的來源目錄。填寫OSS/NAS掛載到容器的路徑。

    preload

    表示在拉起服務時將檔案快取到記憶體中。設定為"/"

    cacheroot_service

    預熱快取服務的名稱。

    storage[].mount_path

    OSS/NAS掛載到容器中的路徑。

  4. 單擊部署

部署模型預熱快取服務

模型預熱快取服務是用於積極式載入指定模型緩衝的獨立服務,能夠為啟用模型緩衝加速的推理服務提供高速訪問的資料來源。適用於LLM、AI生圖、AI生視頻等需要使用OSS/NAS掛載大型模型檔案的情境。

重要

推理服務中模型緩衝加速的源路徑所對應的OSS地址,必須與模型預熱快取服務掛載的OSS地址保持一致,否則預熱緩衝將無法生效。

例如,推理服務中緩衝加速配置的源路徑為/mnt/models/Qwen3-8B/,對應OSS地址oss://path/to/models/Qwen3-8B/,則預熱快取服務也必須掛載oss://path/to/models/Qwen3-8B/

  1. 推理服务頁簽,單擊部署服务,然後在场景化模型部署地區,單擊模型预热缓存服务部署

  2. 配置以下關鍵參數,然後單擊部署

    參數

    說明

    基本信息

    部署资源

    根據所需記憶體大小選擇資源。

    缓存配置

    缓存路径

    要緩衝的模型目錄,支援掛載多個路徑。

    占用最大内存

    必填。預熱快取服務可使用的最大記憶體。

    网络信息

    专有网络

    必填。必須與推理服務所在VPC保持一致,否則預熱快取服務將無法被推理服務訪問。

    关联负载均衡NLB

    必須開啟。預設由系統自動建立NLB。

加速效果

參考如下資料瞭解模型緩衝加速效果,您的最終加速效果以實際情況為準。

Qwen3-32B

模型:Qwen3-32B(62G)

機器:ml.gu8is.c64m512.4-gu60 | 64核512G+4張GU60(48G) | L20

部署模式

模型載入耗時

模型載入速率

服務就緒耗時

常規(無緩衝加速)

01:05

7.63Gbit/s

01:43

冷啟動加速(預熱緩衝)

00:21

23.62Gbit/s

01:01

擴容加速(本機快取)

00:18

27.55Gbit/s

00:58

MiniMax-M2

模型:MiniMax-M2(215G)

機器:ml.gu8tf.8.40xlarge | 160vcpu+1800GB+8*GU8T | H20(96G)

部署模式

模型載入耗時

模型載入速率

服務就緒耗時

常規(無緩衝加速)

06:42

4.28Gbit/s

09:16

冷啟動加速(預熱緩衝)

01:49

15.78Gbit/s

04:49

擴容加速(本機快取)

01:42

16.86Gbit/s

04:34

DeepSeek-V3.2

模型:DeepSeek-V3.2(643G)

機器:ml.gu8tef.8.46xlarge | 184vcpu+1800GB+8*GU8TE | H20-3e(141G)

部署模式

模型載入耗時

模型載入速率

服務就緒耗時

常規(無緩衝加速)

12:33

6.83Gbit/s

27:41

冷啟動加速(預熱緩衝)

02:43

31.56Gbit/s

13:01

擴容加速(本機快取)

01:58

43.60Gbit/s

12:49