Informasi latar belakang
Pertumbuhan eksponensial dalam parameter untuk Large Language Models (LLMs), dengan beberapa model open-source seperti DeepSeekV3-671B melebihi 700 GB, telah menjadikan waktu pemuatan model sebagai hambatan kritis untuk inferensi yang efisien. Tantangan ini sangat terlihat dalam dua skenario utama:
Skala elastis keluar: Waktu pemuatan model secara langsung memengaruhi kegesitan peningkatan kapasitas layanan.
Penyebaran multi-instans: Ketika beberapa instans secara bersamaan menarik model dari penyimpanan jarak jauh, seperti Object Storage Service (OSS), Apsara File Storage NAS (NAS), atau Cloud Parallel File System (CPFS), hal ini menyebabkan persaingan lebar pita jaringan, yang lebih memperlambat pemuatan model.
Untuk mengatasi tantangan-tantangan ini, Platform for AI (PAI) Inference Service memperkenalkan Model Weight Service (MoWS). MoWS menggunakan beberapa teknologi inti:
Arsitektur caching terdistribusi: Menggunakan memori node untuk membangun kumpulan cache bobot.
Transportasi berkecepatan tinggi: Mencapai transfer data latensi rendah menggunakan interkoneksi berbasis RDMA.
Sharding cerdas: Mendukung sharding data paralel dengan pemeriksaan integritas.
Berbagi memori: Memungkinkan berbagi bobot tanpa salinan di antara beberapa proses pada satu mesin.
Pra-pemuatan cerdas: Memuat bobot model secara proaktif selama periode idle.
Caching efisien: Memastikan bahwa shard model diseimbangkan beban di seluruh instans.
Dalam praktiknya, solusi ini memberikan peningkatan performa yang signifikan dalam penyebaran kluster berskala besar:
Meningkatkan kecepatan penskalaan sebesar 10x dibandingkan metode tradisional berbasis tarik.
Meningkatkan pemanfaatan bandwidth lebih dari 60%.
Mengurangi waktu cold start layanan menjadi detik.

Dengan sepenuhnya memanfaatkan sumber daya bandwidth di antara beberapa instans, MoWS memungkinkan transportasi bobot model yang cepat dan efisien. Ini tidak hanya menyimpan bobot model secara lokal tetapi juga membaginya di antara instans. Untuk skenario yang melibatkan model berparameter besar dan penyebaran instans berskala besar, MoWS secara signifikan meningkatkan efisiensi penskalaan layanan dan kecepatan startup.
Penggunaan
Masuk ke Konsol PAI. Pilih Wilayah di bagian atas halaman. Kemudian, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
Klik Deploy Service, lalu Custom Deployment.
Di halaman Custom Deployment, konfigurasikan parameter kunci berikut. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Parameter untuk penyebaran kustom di Konsol.
Di bawah Environment Information > Image Configuration, pilih Alibaba Cloud Image dan pilih versi citra dengan pengenal mows dari repositori citra vllm.

Di bagian Resource Information, pilih EAS Resource Group atau Resource Quota sebagai jenis sumber daya.
Di bagian Features, aktifkan fitur Model Weight Service (MoWS) dan konfigurasikan parameter berikut.

Item Konfigurasi
Deskripsi
Contoh
Jalur Bobot Model
Wajib. Jalur bobot model. Jalur tersebut dapat berupa jalur mount OSS, NAS, atau CPFS.
/mnt/data/llm_models/Qwen2-7B-Instruct/Penggunaan Memori Maksimum
Wajib. Sumber daya memori yang digunakan oleh MoWS untuk satu instans. Satuan: GB.
200
Jalur File CRC32
Opsional. Menentukan file crc32 untuk verifikasi data selama pemuatan model. Jalur tersebut relatif terhadap Jalur Bobot Model.
Format file adalah [crc32] [jalur_file_relatif].
Nilai default: "crc32.txt".
crc32.txt
Isinya adalah sebagai berikut:
3d531b22 model-00004-of-00004.safetensors 1ba28546 model-00003-of-00004.safetensors b248a8c0 model-00002-of-00004.safetensors 09b46987 model-00001-of-00004.safetensorsTipe NIC
Pilih EIC jika instans Anda menggunakan perangkat keras akselerasi EIC.
NIC Non-EIC
Manfaat performa
Dalam uji performa dengan model Qwen3-8B, MoWS mengurangi waktu cold start P99 untuk layanan inferensi dari 235 detik menjadi 24 detik — pengurangan sebesar 89,8% — dan memotong waktu penskalaan instans menjadi 5,7 detik, pengurangan sebesar 97,6%.

Dalam uji performa dengan model Qwen3-32B, MoWS mengurangi waktu cold start dari 953 detik menjadi 82 detik — pengurangan sebesar 91,4% — dan memotong waktu penskalaan instans menjadi 17 detik, pengurangan sebesar 98,2%.
