Informasi latar belakang
Jumlah parameter dalam model bahasa besar (large language models/LLMs) meningkat secara eksponensial. Sebagai contoh, model open source DeepSeekV3-671B berukuran lebih dari 700 GB. Akibatnya, waktu pemuatan model menjadi hambatan utama yang mengganggu efisiensi layanan inferensi, terutama dalam skenario berikut:
Penskalaan elastis: Waktu pemuatan model secara langsung memengaruhi kelincahan penskalaan layanan.
Penerapan multi-instans: Menarik model secara bersamaan dari penyimpanan remote, seperti OSS, NAS, atau CPFS, menyebabkan persaingan bandwidth dan semakin mengurangi efisiensi pemuatan model.
Untuk mengatasi tantangan tersebut, PAI-EAS telah merilis fitur Model Weight Service (MoWS). Fitur teknis intinya meliputi hal-hal berikut:
Arsitektur cache terdistribusi: Memanfaatkan sumber daya memori node untuk membangun pool cache bobot.
Mekanisme transport berkecepatan tinggi: Mencapai transfer data dengan latensi rendah melalui koneksi antarmesin berbasis Remote Direct Memory Access (RDMA).
Strategi sharding cerdas: Mendukung transfer shard secara paralel dan pemeriksaan integritas.
Optimisasi berbagi memori: Mengimplementasikan pembagian bobot zero-copy di antara beberapa proses pada satu mesin.
Pra-ambil bobot cerdas: Membaca bobot model sebelumnya selama periode idle.
Kebijakan cache efisien: Menjamin penyeimbangan beban shard model di seluruh instans.
Dalam kluster instans berskala besar, solusi ini menghasilkan hal berikut:
Kecepatan penskalaan meningkat 10 kali lipat dibandingkan mode pull tradisional.
Pemanfaatan bandwidth meningkat lebih dari 60%.
Waktu cold start layanan berkurang hingga hitungan detik.

MoWS memanfaatkan sepenuhnya sumber daya bandwidth antarbeberapa instans untuk mencapai transfer bobot model yang cepat dan efisien. Model Weight Service tidak hanya mendukung caching lokal bobot model, tetapi juga memungkinkan berbagi bobot lintas instans. Untuk model dengan parameter besar atau penerapan instans berskala besar, MoWS secara signifikan meningkatkan efisiensi penskalaan layanan dan kecepatan startup.
Prosedur
Masuk ke Konsol PAI. Pilih Wilayah di bagian atas halaman. Kemudian, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
Klik Deploy Service. Di bagian Custom Model Deployment, klik Custom Deployment.
Pada halaman Custom Deployment, konfigurasikan parameter kunci berikut. Untuk informasi selengkapnya tentang parameter lainnya, lihat Custom Deployment.
Pada bagian Image Configuration di bawah Environment Information, pilih Alibaba Cloud Image. Dari repository image vllm, pilih versi gambar yang diberi tag mows.
PentingPada perintah startup, tambahkan parameter
--load-format=mows, yang didukung oleh mesin inferensi vllm dan sglang.Pada bagian Resource Information, atur Jenis Resource ke EAS Resource Group atau Resource Quota.
Pada bagian Features, aktifkan Model Weight Service (MoWS) dan konfigurasikan parameter sebagai berikut.

Item Konfigurasi
Deskripsi
Contoh
Model Weight Path
Wajib diisi. Jalur bobot model. Ini dapat berupa jalur mount OSS, NAS, atau CPFS.
/mnt/data/llm_models/Qwen2-7B-Instruct/Maximum Memory Usage
Wajib diisi. Jumlah sumber daya memori yang digunakan oleh MoWS untuk satu instans. Satuan: GB.
200
CRC32 File Path
Opsional. Digunakan untuk validasi data saat model dimuat. Masukkan nama file crc32. Ini merupakan jalur relatif terhadap jalur bobot model yang dikonfigurasi di atas.
Format file: [crc32] [relative_file_path]
Nilai default: "crc32.txt"
crc32.txt
Isinya adalah:
3d531b22 model-00004-of-00004.safetensors 1ba28546 model-00003-of-00004.safetensors b248a8c0 model-00002-of-00004.safetensors 09b46987 model-00001-of-00004.safetensorsNIC Type
Opsional. Jika perangkat keras menggunakan network interface controller (NIC) Elastic Interconnect Card (EIC), pilih EIC.
Non-EIC NIC
Manfaat performa
Dalam evaluasi model Qwen3-8B, waktu cold start TP99 untuk layanan inferensi berkurang dari 235 detik menjadi 24 detik, yaitu penurunan sebesar 89,8%. Waktu scale-out instans berkurang menjadi 5,7 detik, yaitu penurunan sebesar 97,6%.

Dalam evaluasi model Qwen3-32B, waktu cold start untuk layanan inferensi berkurang dari 953 detik menjadi 82 detik, yaitu penurunan sebesar 91,4%. Waktu scale-out instans berkurang menjadi 17 detik, yaitu penurunan sebesar 98,2%.
