全部产品
Search
文档中心

Platform For AI:Layanan bobot model

更新时间:Nov 06, 2025

Informasi latar belakang

Pertumbuhan eksponensial dalam parameter untuk Large Language Models (LLMs), dengan beberapa model open-source seperti DeepSeekV3-671B melebihi 700 GB, telah menjadikan waktu pemuatan model sebagai hambatan kritis untuk inferensi yang efisien. Tantangan ini sangat terlihat dalam dua skenario utama:

  1. Skala elastis keluar: Waktu pemuatan model secara langsung memengaruhi kegesitan peningkatan kapasitas layanan.

  2. Penyebaran multi-instans: Ketika beberapa instans secara bersamaan menarik model dari penyimpanan jarak jauh, seperti Object Storage Service (OSS), Apsara File Storage NAS (NAS), atau Cloud Parallel File System (CPFS), hal ini menyebabkan persaingan lebar pita jaringan, yang lebih memperlambat pemuatan model.

Untuk mengatasi tantangan-tantangan ini, Platform for AI (PAI) Inference Service memperkenalkan Model Weight Service (MoWS). MoWS menggunakan beberapa teknologi inti:

  • Arsitektur caching terdistribusi: Menggunakan memori node untuk membangun kumpulan cache bobot.

  • Transportasi berkecepatan tinggi: Mencapai transfer data latensi rendah menggunakan interkoneksi berbasis RDMA.

  • Sharding cerdas: Mendukung sharding data paralel dengan pemeriksaan integritas.

  • Berbagi memori: Memungkinkan berbagi bobot tanpa salinan di antara beberapa proses pada satu mesin.

  • Pra-pemuatan cerdas: Memuat bobot model secara proaktif selama periode idle.

  • Caching efisien: Memastikan bahwa shard model diseimbangkan beban di seluruh instans.

Dalam praktiknya, solusi ini memberikan peningkatan performa yang signifikan dalam penyebaran kluster berskala besar:

  1. Meningkatkan kecepatan penskalaan sebesar 10x dibandingkan metode tradisional berbasis tarik.

  2. Meningkatkan pemanfaatan bandwidth lebih dari 60%.

  3. Mengurangi waktu cold start layanan menjadi detik.

image.png

Dengan sepenuhnya memanfaatkan sumber daya bandwidth di antara beberapa instans, MoWS memungkinkan transportasi bobot model yang cepat dan efisien. Ini tidak hanya menyimpan bobot model secara lokal tetapi juga membaginya di antara instans. Untuk skenario yang melibatkan model berparameter besar dan penyebaran instans berskala besar, MoWS secara signifikan meningkatkan efisiensi penskalaan layanan dan kecepatan startup.

Penggunaan

  1. Masuk ke Konsol PAI. Pilih Wilayah di bagian atas halaman. Kemudian, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).

  2. Klik Deploy Service, lalu Custom Deployment.

  3. Di halaman Custom Deployment, konfigurasikan parameter kunci berikut. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Parameter untuk penyebaran kustom di Konsol.

    • Di bawah Environment Information > Image Configuration, pilih Alibaba Cloud Image dan pilih versi citra dengan pengenal mows dari repositori citra vllm.

      image

    • Di bagian Resource Information, pilih EAS Resource Group atau Resource Quota sebagai jenis sumber daya.

    • Di bagian Features, aktifkan fitur Model Weight Service (MoWS) dan konfigurasikan parameter berikut.

      image

      Item Konfigurasi

      Deskripsi

      Contoh

      Jalur Bobot Model

      Wajib. Jalur bobot model. Jalur tersebut dapat berupa jalur mount OSS, NAS, atau CPFS.

      /mnt/data/llm_models/Qwen2-7B-Instruct/

      Penggunaan Memori Maksimum

      Wajib. Sumber daya memori yang digunakan oleh MoWS untuk satu instans. Satuan: GB.

      200

      Jalur File CRC32

      Opsional. Menentukan file crc32 untuk verifikasi data selama pemuatan model. Jalur tersebut relatif terhadap Jalur Bobot Model.

      • Format file adalah [crc32] [jalur_file_relatif].

      • Nilai default: "crc32.txt".

      Klik untuk melihat cara menghasilkan file crc32

      Untuk menghasilkan file crc32, jalankan perintah berikut di direktori bobot model:

      apt-get install -y libarchive-zip-perl
      find . -type f | xargs -I {} -P $(nproc) sh -c 'echo "$(crc32 {}) {}"' | sed 's|^\(.*\) \./|\1 |' > crc32.txt

      crc32.txt

      Isinya adalah sebagai berikut:

      3d531b22 model-00004-of-00004.safetensors
      1ba28546 model-00003-of-00004.safetensors
      b248a8c0 model-00002-of-00004.safetensors
      09b46987 model-00001-of-00004.safetensors

      Tipe NIC

      Pilih EIC jika instans Anda menggunakan perangkat keras akselerasi EIC.

      NIC Non-EIC

Manfaat performa

Dalam uji performa dengan model Qwen3-8B, MoWS mengurangi waktu cold start P99 untuk layanan inferensi dari 235 detik menjadi 24 detik — pengurangan sebesar 89,8% — dan memotong waktu penskalaan instans menjadi 5,7 detik, pengurangan sebesar 97,6%.

image.png

Dalam uji performa dengan model Qwen3-32B, MoWS mengurangi waktu cold start dari 953 detik menjadi 82 detik — pengurangan sebesar 91,4% — dan memotong waktu penskalaan instans menjadi 17 detik, pengurangan sebesar 98,2%.

image.png