Layanan bobot model - Platform For AI

Informasi latar belakang

Jumlah parameter dalam model bahasa besar (large language models/LLMs) meningkat secara eksponensial. Sebagai contoh, model open source DeepSeekV3-671B berukuran lebih dari 700 GB. Akibatnya, waktu pemuatan model menjadi hambatan utama yang mengganggu efisiensi layanan inferensi, terutama dalam skenario berikut:

Penskalaan elastis: Waktu pemuatan model secara langsung memengaruhi kelincahan penskalaan layanan.
Penerapan multi-instans: Menarik model secara bersamaan dari penyimpanan remote, seperti OSS, NAS, atau CPFS, menyebabkan persaingan bandwidth dan semakin mengurangi efisiensi pemuatan model.

Untuk mengatasi tantangan tersebut, PAI-EAS telah merilis fitur Model Weight Service (MoWS). Fitur teknis intinya meliputi hal-hal berikut:

Arsitektur cache terdistribusi: Memanfaatkan sumber daya memori node untuk membangun pool cache bobot.
Mekanisme transport berkecepatan tinggi: Mencapai transfer data dengan latensi rendah melalui koneksi antarmesin berbasis Remote Direct Memory Access (RDMA).
Strategi sharding cerdas: Mendukung transfer shard secara paralel dan pemeriksaan integritas.
Optimisasi berbagi memori: Mengimplementasikan pembagian bobot zero-copy di antara beberapa proses pada satu mesin.
Pra-ambil bobot cerdas: Membaca bobot model sebelumnya selama periode idle.
Kebijakan cache efisien: Menjamin penyeimbangan beban shard model di seluruh instans.

Dalam kluster instans berskala besar, solusi ini menghasilkan hal berikut:

Kecepatan penskalaan meningkat 10 kali lipat dibandingkan mode pull tradisional.
Pemanfaatan bandwidth meningkat lebih dari 60%.
Waktu cold start layanan berkurang hingga hitungan detik.

MoWS memanfaatkan sepenuhnya sumber daya bandwidth antarbeberapa instans untuk mencapai transfer bobot model yang cepat dan efisien. Model Weight Service tidak hanya mendukung caching lokal bobot model, tetapi juga memungkinkan berbagi bobot lintas instans. Untuk model dengan parameter besar atau penerapan instans berskala besar, MoWS secara signifikan meningkatkan efisiensi penskalaan layanan dan kecepatan startup.

Prosedur

Masuk ke Konsol PAI. Pilih Wilayah di bagian atas halaman. Kemudian, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
Klik Deploy Service. Di bagian Custom Model Deployment, klik Custom Deployment.

Pada halaman Custom Deployment, konfigurasikan parameter kunci berikut. Untuk informasi selengkapnya tentang parameter lainnya, lihat Custom Deployment.

Pada bagian Image Configuration di bawah Environment Information, pilih Alibaba Cloud Image. Dari repository image vllm, pilih versi gambar yang diberi tag mows.
Penting
Pada perintah startup, tambahkan parameter --load-format=mows, yang didukung oleh mesin inferensi vllm dan sglang.
Pada bagian Resource Information, atur Jenis Resource ke EAS Resource Group atau Resource Quota.

Pada bagian Features, aktifkan Model Weight Service (MoWS) dan konfigurasikan parameter sebagai berikut.

Item Konfigurasi	Deskripsi	Contoh
Model Weight Path	Wajib diisi. Jalur bobot model. Ini dapat berupa jalur mount OSS, NAS, atau CPFS.	`/mnt/data/llm_models/Qwen2-7B-Instruct/`
Maximum Memory Usage	Wajib diisi. Jumlah sumber daya memori yang digunakan oleh MoWS untuk satu instans. Satuan: GB.	200
CRC32 File Path	Opsional. Digunakan untuk validasi data saat model dimuat. Masukkan nama file crc32. Ini merupakan jalur relatif terhadap jalur bobot model yang dikonfigurasi di atas. Format file: [crc32] [relative_file_path] Nilai default: "crc32.txt" Klik untuk melihat cara menghasilkan file crc32 Di folder bobot model, jalankan perintah berikut untuk menghasilkan file crc32: `apt-get install -y libarchive-zip-perl find . -type f \| xargs -I {} -P $(nproc) sh -c 'echo "$(crc32 {}) {}"' \| sed 's\|^$.*$ \./\|\1 \|' > crc32.txt`	crc32.txt Isinya adalah: `3d531b22 model-00004-of-00004.safetensors 1ba28546 model-00003-of-00004.safetensors b248a8c0 model-00002-of-00004.safetensors 09b46987 model-00001-of-00004.safetensors`
NIC Type	Opsional. Jika perangkat keras menggunakan network interface controller (NIC) Elastic Interconnect Card (EIC), pilih EIC.	Non-EIC NIC

Manfaat performa

Dalam evaluasi model Qwen3-8B, waktu cold start TP99 untuk layanan inferensi berkurang dari 235 detik menjadi 24 detik, yaitu penurunan sebesar 89,8%. Waktu scale-out instans berkurang menjadi 5,7 detik, yaitu penurunan sebesar 97,6%.

Dalam evaluasi model Qwen3-32B, waktu cold start untuk layanan inferensi berkurang dari 953 detik menjadi 82 detik, yaitu penurunan sebesar 91,4%. Waktu scale-out instans berkurang menjadi 17 detik, yaitu penurunan sebesar 98,2%.