All Products
Search
Document Center

Platform For AI:Akselerasi cache model

Last Updated:Apr 08, 2026

Cache file model di memori untuk mempercepat pembacaan dari jalur OSS atau NAS yang dimasang dan mengurangi latensi startup layanan.

Cara kerja

Akselerasi cache model mendukung dua metode caching:

  • Local cache: Menggunakan memori idle dari layanan inferensi untuk menyimpan cache file model dan mengeksposnya sebagai direktori sistem file. Saat skala keluar, beberapa instans dari layanan yang sama membentuk jaringan P2P. Instans baru menarik data dari instans yang sudah memiliki cache, bukan mengambil langsung dari OSS atau NAS.

  • Local cache + cache warm-up: Meningkatkan local cache dengan layanan cache warm-up khusus yang memuat awal (preload) file model ke dalam memori. Ini mengatasi masalah cold start yang tidak dapat diselesaikan oleh local cache saja.

Setelah dikonfigurasi, setiap instans layanan inferensi memasang jalur terakselerasi. Aplikasi Anda membaca file model dari jalur ini tanpa perubahan kode. Prioritas pemuatan model:

  • Cold start: Mengambil data dari layanan cache warm-up jika dikonfigurasi. Jika tidak, menarik data dari OSS atau NAS dan menyimpannya di cache lokal.

  • Scale-out: Memberi prioritas pada local cache, yang menggunakan kebijakan penggantian Least Recently Used (LRU). Jika terjadi cache miss, beralih ke layanan cache warm-up, lalu ke OSS atau NAS.

Batasan

  • Jalur terakselerasi bersifat read-only untuk memastikan konsistensi data.

  • Untuk menambahkan file model baru, tambahkan ke jalur sumber. File tersebut akan secara otomatis di-cache dan tersedia melalui jalur terakselerasi.

  • Jangan memperbarui atau menghapus file di jalur sumber secara langsung. Hal ini dapat menyebabkan cache menyajikan data yang kedaluwarsa.

Konfigurasikan cache model lokal

Penerapan kustom

  1. Masuk ke Konsol PAI. Pilih Wilayah di bagian atas halaman. Lalu, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).

  2. Klik Deploy Service. Di bagian Custom Model Deployment, klik Custom Deployment.

  3. Konfigurasikan parameter utama berikut. Untuk parameter lainnya, lihat Custom Deployment.

    1. Di bagian Environment Information, konfigurasikan Mount storage untuk memasang file model ke direktori kontainer. Misalnya, saat memasang dari OSS:

      • Uri: Jalur OSS file model, seperti oss://path/to/models/Qwen3-8B/.

      • Mount Path: Jalur dalam kontainer tempat file akan dimasang, seperti /mnt/models/Qwen3-8B/.

    2. Di bagian Features, aktifkan sakelar Distributed cache acceleration dan konfigurasikan parameter berikut:

      Parameter

      Deskripsi

      Maximum Memory Usage

      Memori maksimum untuk cache, dalam GB. Jika melebihi batas, kebijakan penggantian LRU diterapkan. Contoh: 20 GB.

      Source Path

      Direktori sumber file yang akan diakselerasi. Masukkan jalur mount tempat penyimpanan OSS atau NAS dipasang ke kontainer.

      Accelerated Path

      Jalur cache lokal tempat aplikasi Anda membaca model. Harus berbeda dari jalur sumber. Contoh: /mnt/models/Qwen3-8B-fast/.

      Model Cache Prefetch Service

      (Opsional) Pilih layanan cache warm-up yang telah diterapkan untuk mengurangi waktu cold start. Untuk menggunakan opsi ini, pertama-tama terapkan layanan cache warm-up.

    3. Di bagian Environment Information, ubah Command to Run untuk mengganti jalur file model dari jalur sumber ke jalur terakselerasi. Misalnya, saat menerapkan layanan LLM:

      vllm serve /mnt/models/Qwen3-8B-fast/
  4. Setelah dikonfigurasi, klik Deploy.

Penerapan JSON

  1. Masuk ke Konsol PAI. Pilih Wilayah di bagian atas halaman. Lalu, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).

  2. Di halaman Elastic Algorithm Service (EAS), klik Deploy Service. Di bagian Custom Model Deployment, klik JSON Deployment.

  3. Masukkan konfigurasi JSON. Contoh:

    {
        "cloud": {
            "computing": {
                "instances": [
                    {
                        "type": "ecs.gn6e-c12g1.3xlarge"
                    }
                ]
            },
            "networking": {
                "security_group_id": "your-security-group-id",
                "vpc_id": "your-vpc-id",
                "vswitch_id": "your-vswitch-id"
            }
        },
        "containers": [
            {
                "image": "eas-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai-eas/vllm:0.11.2-py312-mows0.5.1",
                "port": 8000,
                "script": "vllm serve /mnt/models/Qwen3-8B/"
            }
        ],
        "metadata": {
            "cpu": 12,
            "disk": "30Gi",
            "gpu": 1,
            "instance": 1,
            "memory": 92000,
            "name": "vllm_test",
            "workspace_id": "your-workspace-id"
        },
        "storage": [
            {
                "mount_path": "/mnt/models/Qwen3-8B/",
                "oss": {
                    "path": "oss://path/to/models/Qwen3-8B/",
                    "readOnly": false
                }
            },
            {
                "cache": {
                    "capacity": "10G",
                    "path": "/mnt/models/Qwen3-8B/",
                    "cacheroot_service": "your-cacheroot-service"
                },
                "mount_path": "/mnt/models/Qwen3-8B-fast/"
            }
        ]
    }

    Tabel berikut menjelaskan parameter yang terkait dengan akselerasi cache model. Untuk parameter lainnya, lihat JSON Deployment.

    Parameter

    Deskripsi

    containers.script

    Ubah jalur file model dari jalur sumber (jalur mount OSS atau NAS) ke jalur terakselerasi.

    storage[].cache

    capacity

    Memori cache maksimum, dalam GB. Kebijakan penggantian LRU diterapkan jika melebihi batas.

    path

    Direktori sumber file yang akan diakselerasi. Masukkan jalur mount tempat penyimpanan OSS atau NAS dipasang ke kontainer.

    preload

    Atur ke "/" untuk menyimpan cache semua file dari jalur sumber saat layanan dimulai.

    cacheroot_service

    Nama layanan cache warm-up.

    storage[].mount_path

    Jalur mount untuk objek penyimpanan. Dalam blok cache, ini adalah jalur terakselerasi. Dalam blok oss atau nas, ini adalah jalur sumber.

  4. Klik Deploy.

Terapkan layanan cache warm-up

Layanan cache warm-up memuat awal file model ke dalam memori dan berfungsi sebagai sumber data berkecepatan tinggi untuk layanan inferensi yang telah mengaktifkan akselerasi cache model.

Penting

Jalur OSS yang dipasang oleh layanan cache warm-up harus sesuai dengan jalur OSS yang digunakan sebagai source path dalam konfigurasi akselerasi cache layanan inferensi. Jika tidak, cache warm-up tidak berlaku.

Sebagai contoh, jika jalur sumber untuk akselerasi cache dalam layanan inferensi adalah /mnt/models/Qwen3-8B/, yang sesuai dengan jalur OSS oss://path/to/models/Qwen3-8B/, maka layanan cache warm-up juga harus memasang oss://path/to/models/Qwen3-8B/.

  1. Di tab Inference Service, klik Deploy Service. Di bagian Scenario-based Model Deployment, klik Model Warm-up Cache Service Deployment.

  2. Konfigurasikan parameter utama berikut, lalu klik Deploy.

    Parameter

    Deskripsi

    Basic Information

    Deployment

    Pilih tipe instans dengan memori yang cukup untuk menampung file model.

    Cache Configuration

    Cache Path

    Direktori model yang akan di-cache. Mendukung beberapa jalur.

    Maximum Memory Usage

    Memori maksimum untuk layanan cache warm-up.

    Network Information

    VPC

    Wajib diisi. Harus menggunakan VPC yang sama dengan layanan inferensi. Jika tidak, layanan inferensi tidak dapat mengakses layanan cache warm-up.

    Associate NLB

    Harus diaktifkan. NLB dibuat secara otomatis secara default.

Hasil benchmark kinerja

Hasil benchmark untuk akselerasi cache model. Hasil aktual dapat bervariasi.

Qwen3-32B

Model: Qwen3-32B (62 GB)

Mesin: ml.gu8is.c64m512.4-gu60 | 64-core 512 GB + 4× GU60(48G) | L20

Mode penerapan

Waktu pemuatan model

Kecepatan pemuatan model

Waktu kesiapan layanan

Standard (tanpa akselerasi cache)

01:05

7,63 Gbit/s

01:43

Akselerasi cold start (dengan cache warm-up)

00:21

23,62 Gbit/s

01:01

Akselerasi scale-out (dengan local cache)

00:18

27,55 Gbit/s

00:58

MiniMax-M2

Model: MiniMax-M2 (215 GB)

Mesin: ml.gu8tf.8.40xlarge | 160vcpu+1800 GB + 8*GU8T | H20(96G)

Mode penerapan

Waktu pemuatan model

Kecepatan pemuatan model

Waktu kesiapan layanan

Standard (tanpa akselerasi cache)

06:42

4,28 Gbit/s

09:16

Akselerasi cold start (dengan cache warm-up)

01:49

15,78 Gbit/s

04:49

Akselerasi scale-out (dengan local cache)

01:42

16,86 Gbit/s

04:34

DeepSeek-V3.2

Model: DeepSeek-V3.2 (643 GB)

Mesin: ml.gu8tef.8.46xlarge | 184vcpu+1800GB+8*GU8TE | H20-3e(141G)

Mode penerapan

Waktu pemuatan model

Kecepatan pemuatan model

Waktu kesiapan layanan

Standard (tanpa akselerasi cache)

12:33

6,83 Gbit/s

27:41

Akselerasi cold start (dengan cache warm-up)

02:43

31,56 Gbit/s

13:01

Akselerasi scale-out (dengan local cache)

01:58

43,60 Gbit/s

12:49