全部产品
Search
文档中心

Platform For AI:Model Weight Service

更新时间:Jan 22, 2026

Informasi latar belakang

Jumlah parameter dalam model bahasa besar (large language models/LLMs) meningkat secara eksponensial. Sebagai contoh, model open source DeepSeekV3-671B berukuran lebih dari 700 GB. Akibatnya, waktu pemuatan model menjadi hambatan utama yang mengganggu efisiensi layanan inferensi, terutama dalam skenario berikut:

  1. Penskalaan elastis: Waktu pemuatan model secara langsung memengaruhi kelincahan penskalaan layanan.

  2. Penerapan multi-instans: Menarik model secara bersamaan dari penyimpanan remote, seperti OSS, NAS, atau CPFS, menyebabkan persaingan bandwidth dan semakin mengurangi efisiensi pemuatan model.

Untuk mengatasi tantangan tersebut, PAI-EAS telah merilis fitur Model Weight Service (MoWS). Fitur teknis intinya meliputi hal-hal berikut:

  • Arsitektur cache terdistribusi: Memanfaatkan sumber daya memori node untuk membangun pool cache bobot.

  • Mekanisme transport berkecepatan tinggi: Mencapai transfer data dengan latensi rendah melalui koneksi antarmesin berbasis Remote Direct Memory Access (RDMA).

  • Strategi sharding cerdas: Mendukung transfer shard secara paralel dan pemeriksaan integritas.

  • Optimisasi berbagi memori: Mengimplementasikan pembagian bobot zero-copy di antara beberapa proses pada satu mesin.

  • Pra-ambil bobot cerdas: Membaca bobot model sebelumnya selama periode idle.

  • Kebijakan cache efisien: Menjamin penyeimbangan beban shard model di seluruh instans.

Dalam kluster instans berskala besar, solusi ini menghasilkan hal berikut:

  1. Kecepatan penskalaan meningkat 10 kali lipat dibandingkan mode pull tradisional.

  2. Pemanfaatan bandwidth meningkat lebih dari 60%.

  3. Waktu cold start layanan berkurang hingga hitungan detik.

image.png

MoWS memanfaatkan sepenuhnya sumber daya bandwidth antarbeberapa instans untuk mencapai transfer bobot model yang cepat dan efisien. Model Weight Service tidak hanya mendukung caching lokal bobot model, tetapi juga memungkinkan berbagi bobot lintas instans. Untuk model dengan parameter besar atau penerapan instans berskala besar, MoWS secara signifikan meningkatkan efisiensi penskalaan layanan dan kecepatan startup.

Prosedur

  1. Masuk ke Konsol PAI. Pilih Wilayah di bagian atas halaman. Kemudian, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).

  2. Klik Deploy Service. Di bagian Custom Model Deployment, klik Custom Deployment.

  3. Pada halaman Custom Deployment, konfigurasikan parameter kunci berikut. Untuk informasi selengkapnya tentang parameter lainnya, lihat Custom Deployment.

    • Pada bagian Image Configuration di bawah Environment Information, pilih Alibaba Cloud Image. Dari repository image vllm, pilih versi gambar yang diberi tag mows.

      image

      Penting

      Pada perintah startup, tambahkan parameter --load-format=mows, yang didukung oleh mesin inferensi vllm dan sglang.

    • Pada bagian Resource Information, atur Jenis Resource ke EAS Resource Group atau Resource Quota.

    • Pada bagian Features, aktifkan Model Weight Service (MoWS) dan konfigurasikan parameter sebagai berikut.

      image

      Item Konfigurasi

      Deskripsi

      Contoh

      Model Weight Path

      Wajib diisi. Jalur bobot model. Ini dapat berupa jalur mount OSS, NAS, atau CPFS.

      /mnt/data/llm_models/Qwen2-7B-Instruct/

      Maximum Memory Usage

      Wajib diisi. Jumlah sumber daya memori yang digunakan oleh MoWS untuk satu instans. Satuan: GB.

      200

      CRC32 File Path

      Opsional. Digunakan untuk validasi data saat model dimuat. Masukkan nama file crc32. Ini merupakan jalur relatif terhadap jalur bobot model yang dikonfigurasi di atas.

      • Format file: [crc32] [relative_file_path]

      • Nilai default: "crc32.txt"

      Klik untuk melihat cara menghasilkan file crc32

      Di folder bobot model, jalankan perintah berikut untuk menghasilkan file crc32:

      apt-get install -y libarchive-zip-perl
      find . -type f | xargs -I {} -P $(nproc) sh -c 'echo "$(crc32 {}) {}"' | sed 's|^\(.*\) \./|\1 |' > crc32.txt

      crc32.txt

      Isinya adalah:

      3d531b22 model-00004-of-00004.safetensors
      1ba28546 model-00003-of-00004.safetensors
      b248a8c0 model-00002-of-00004.safetensors
      09b46987 model-00001-of-00004.safetensors

      NIC Type

      Opsional. Jika perangkat keras menggunakan network interface controller (NIC) Elastic Interconnect Card (EIC), pilih EIC.

      Non-EIC NIC

Manfaat performa

Dalam evaluasi model Qwen3-8B, waktu cold start TP99 untuk layanan inferensi berkurang dari 235 detik menjadi 24 detik, yaitu penurunan sebesar 89,8%. Waktu scale-out instans berkurang menjadi 5,7 detik, yaitu penurunan sebesar 97,6%.

image.png

Dalam evaluasi model Qwen3-32B, waktu cold start untuk layanan inferensi berkurang dari 953 detik menjadi 82 detik, yaitu penurunan sebesar 91,4%. Waktu scale-out instans berkurang menjadi 17 detik, yaitu penurunan sebesar 98,2%.

image.png