Cache file model di memori untuk mempercepat pembacaan dari jalur OSS atau NAS yang dimasang dan mengurangi latensi startup layanan.
Cara kerja
Akselerasi cache model mendukung dua metode caching:
-
Local cache: Menggunakan memori idle dari layanan inferensi untuk menyimpan cache file model dan mengeksposnya sebagai direktori sistem file. Saat skala keluar, beberapa instans dari layanan yang sama membentuk jaringan P2P. Instans baru menarik data dari instans yang sudah memiliki cache, bukan mengambil langsung dari OSS atau NAS.
-
Local cache + cache warm-up: Meningkatkan local cache dengan layanan cache warm-up khusus yang memuat awal (preload) file model ke dalam memori. Ini mengatasi masalah cold start yang tidak dapat diselesaikan oleh local cache saja.
Setelah dikonfigurasi, setiap instans layanan inferensi memasang jalur terakselerasi. Aplikasi Anda membaca file model dari jalur ini tanpa perubahan kode. Prioritas pemuatan model:
-
Cold start: Mengambil data dari layanan cache warm-up jika dikonfigurasi. Jika tidak, menarik data dari OSS atau NAS dan menyimpannya di cache lokal.
-
Scale-out: Memberi prioritas pada local cache, yang menggunakan kebijakan penggantian Least Recently Used (LRU). Jika terjadi cache miss, beralih ke layanan cache warm-up, lalu ke OSS atau NAS.
Batasan
-
Jalur terakselerasi bersifat read-only untuk memastikan konsistensi data.
-
Untuk menambahkan file model baru, tambahkan ke jalur sumber. File tersebut akan secara otomatis di-cache dan tersedia melalui jalur terakselerasi.
-
Jangan memperbarui atau menghapus file di jalur sumber secara langsung. Hal ini dapat menyebabkan cache menyajikan data yang kedaluwarsa.
Konfigurasikan cache model lokal
Penerapan kustom
-
Masuk ke Konsol PAI. Pilih Wilayah di bagian atas halaman. Lalu, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
-
Klik Deploy Service. Di bagian Custom Model Deployment, klik Custom Deployment.
-
Konfigurasikan parameter utama berikut. Untuk parameter lainnya, lihat Custom Deployment.
-
Di bagian Environment Information, konfigurasikan Mount storage untuk memasang file model ke direktori kontainer. Misalnya, saat memasang dari OSS:
-
Uri: Jalur OSS file model, seperti
oss://path/to/models/Qwen3-8B/. -
Mount Path: Jalur dalam kontainer tempat file akan dimasang, seperti
/mnt/models/Qwen3-8B/.
-
-
Di bagian Features, aktifkan sakelar Distributed cache acceleration dan konfigurasikan parameter berikut:
Parameter
Deskripsi
Maximum Memory Usage
Memori maksimum untuk cache, dalam GB. Jika melebihi batas, kebijakan penggantian LRU diterapkan. Contoh:
20GB.Source Path
Direktori sumber file yang akan diakselerasi. Masukkan jalur mount tempat penyimpanan OSS atau NAS dipasang ke kontainer.
Accelerated Path
Jalur cache lokal tempat aplikasi Anda membaca model. Harus berbeda dari jalur sumber. Contoh:
/mnt/models/Qwen3-8B-fast/.Model Cache Prefetch Service
(Opsional) Pilih layanan cache warm-up yang telah diterapkan untuk mengurangi waktu cold start. Untuk menggunakan opsi ini, pertama-tama terapkan layanan cache warm-up.
-
Di bagian Environment Information, ubah Command to Run untuk mengganti jalur file model dari jalur sumber ke jalur terakselerasi. Misalnya, saat menerapkan layanan LLM:
vllm serve /mnt/models/Qwen3-8B-fast/
-
-
Setelah dikonfigurasi, klik Deploy.
Penerapan JSON
-
Masuk ke Konsol PAI. Pilih Wilayah di bagian atas halaman. Lalu, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
-
Di halaman Elastic Algorithm Service (EAS), klik Deploy Service. Di bagian Custom Model Deployment, klik JSON Deployment.
-
Masukkan konfigurasi JSON. Contoh:
{ "cloud": { "computing": { "instances": [ { "type": "ecs.gn6e-c12g1.3xlarge" } ] }, "networking": { "security_group_id": "your-security-group-id", "vpc_id": "your-vpc-id", "vswitch_id": "your-vswitch-id" } }, "containers": [ { "image": "eas-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai-eas/vllm:0.11.2-py312-mows0.5.1", "port": 8000, "script": "vllm serve /mnt/models/Qwen3-8B/" } ], "metadata": { "cpu": 12, "disk": "30Gi", "gpu": 1, "instance": 1, "memory": 92000, "name": "vllm_test", "workspace_id": "your-workspace-id" }, "storage": [ { "mount_path": "/mnt/models/Qwen3-8B/", "oss": { "path": "oss://path/to/models/Qwen3-8B/", "readOnly": false } }, { "cache": { "capacity": "10G", "path": "/mnt/models/Qwen3-8B/", "cacheroot_service": "your-cacheroot-service" }, "mount_path": "/mnt/models/Qwen3-8B-fast/" } ] }Tabel berikut menjelaskan parameter yang terkait dengan akselerasi cache model. Untuk parameter lainnya, lihat JSON Deployment.
Parameter
Deskripsi
containers.script
Ubah jalur file model dari jalur sumber (jalur mount OSS atau NAS) ke jalur terakselerasi.
storage[].cache
capacity
Memori cache maksimum, dalam GB. Kebijakan penggantian LRU diterapkan jika melebihi batas.
path
Direktori sumber file yang akan diakselerasi. Masukkan jalur mount tempat penyimpanan OSS atau NAS dipasang ke kontainer.
preload
Atur ke
"/"untuk menyimpan cache semua file dari jalur sumber saat layanan dimulai.cacheroot_service
Nama layanan cache warm-up.
storage[].mount_path
Jalur mount untuk objek penyimpanan. Dalam blok
cache, ini adalah jalur terakselerasi. Dalam blokossataunas, ini adalah jalur sumber. -
Klik Deploy.
Terapkan layanan cache warm-up
Layanan cache warm-up memuat awal file model ke dalam memori dan berfungsi sebagai sumber data berkecepatan tinggi untuk layanan inferensi yang telah mengaktifkan akselerasi cache model.
Jalur OSS yang dipasang oleh layanan cache warm-up harus sesuai dengan jalur OSS yang digunakan sebagai source path dalam konfigurasi akselerasi cache layanan inferensi. Jika tidak, cache warm-up tidak berlaku.
Sebagai contoh, jika jalur sumber untuk akselerasi cache dalam layanan inferensi adalah /mnt/models/Qwen3-8B/, yang sesuai dengan jalur OSS oss://path/to/models/Qwen3-8B/, maka layanan cache warm-up juga harus memasang oss://path/to/models/Qwen3-8B/.
-
Di tab Inference Service, klik Deploy Service. Di bagian Scenario-based Model Deployment, klik Model Warm-up Cache Service Deployment.
-
Konfigurasikan parameter utama berikut, lalu klik Deploy.
Parameter
Deskripsi
Basic Information
Deployment
Pilih tipe instans dengan memori yang cukup untuk menampung file model.
Cache Configuration
Cache Path
Direktori model yang akan di-cache. Mendukung beberapa jalur.
Maximum Memory Usage
Memori maksimum untuk layanan cache warm-up.
Network Information
VPC
Wajib diisi. Harus menggunakan VPC yang sama dengan layanan inferensi. Jika tidak, layanan inferensi tidak dapat mengakses layanan cache warm-up.
Associate NLB
Harus diaktifkan. NLB dibuat secara otomatis secara default.
Hasil benchmark kinerja
Hasil benchmark untuk akselerasi cache model. Hasil aktual dapat bervariasi.
Qwen3-32B
Model: Qwen3-32B (62 GB)
Mesin: ml.gu8is.c64m512.4-gu60 | 64-core 512 GB + 4× GU60(48G) | L20
|
Mode penerapan |
Waktu pemuatan model |
Kecepatan pemuatan model |
Waktu kesiapan layanan |
|
Standard (tanpa akselerasi cache) |
01:05 |
7,63 Gbit/s |
01:43 |
|
Akselerasi cold start (dengan cache warm-up) |
00:21 |
23,62 Gbit/s |
01:01 |
|
Akselerasi scale-out (dengan local cache) |
00:18 |
27,55 Gbit/s |
00:58 |
MiniMax-M2
Model: MiniMax-M2 (215 GB)
Mesin: ml.gu8tf.8.40xlarge | 160vcpu+1800 GB + 8*GU8T | H20(96G)
|
Mode penerapan |
Waktu pemuatan model |
Kecepatan pemuatan model |
Waktu kesiapan layanan |
|
Standard (tanpa akselerasi cache) |
06:42 |
4,28 Gbit/s |
09:16 |
|
Akselerasi cold start (dengan cache warm-up) |
01:49 |
15,78 Gbit/s |
04:49 |
|
Akselerasi scale-out (dengan local cache) |
01:42 |
16,86 Gbit/s |
04:34 |
DeepSeek-V3.2
Model: DeepSeek-V3.2 (643 GB)
Mesin: ml.gu8tef.8.46xlarge | 184vcpu+1800GB+8*GU8TE | H20-3e(141G)
|
Mode penerapan |
Waktu pemuatan model |
Kecepatan pemuatan model |
Waktu kesiapan layanan |
|
Standard (tanpa akselerasi cache) |
12:33 |
6,83 Gbit/s |
27:41 |
|
Akselerasi cold start (dengan cache warm-up) |
02:43 |
31,56 Gbit/s |
13:01 |
|
Akselerasi scale-out (dengan local cache) |
01:58 |
43,60 Gbit/s |
12:49 |