Gunakan Elastic Algorithm Service (EAS) untuk menerapkan model sebagai layanan inferensi online secara cepat. Topik ini menjelaskan cara menerapkan dan memanggil layanan menggunakan EAS, dengan contoh penerapan model bahasa besar Qwen3-0.6B menggunakan framework vLLM.
Topik ini hanya menggunakan penerapan kustom model bahasa besar (LLM) untuk membantu Anda memahami EAS. Untuk menerapkan LLM di lingkungan produksi, kami menyarankan Anda menggunakan penerapan berbasis skenario melalui Penerapan model bahasa besar LLM atau penerapan satu klik dari Model Gallery. Opsi tersebut lebih cepat dan mudah.
Prasyarat
Gunakan akun root Anda untuk mengaktifkan PAI dan membuat ruang kerja. Masuk ke Konsol PAI. Di pojok kiri atas, pilih Wilayah tempat Anda ingin mengaktifkan PAI, lalu klik otorisasi satu klik untuk mengaktifkan layanan.
Informasi penagihan
Dalam topik ini, layanan model dibuat menggunakan Sumber daya publik dengan metode penagihan bayar sesuai penggunaan. Untuk informasi selengkapnya tentang aturan penagihan, lihat informasi penagihan EAS.
Persiapan
Untuk menerapkan layanan model, Anda harus menyiapkan file model dan file kode, seperti antarmuka web. Jika citra resmi Alibaba Cloud tidak memenuhi kebutuhan penerapan Anda, buatlah custom image.
Siapkan file model
Jalankan kode Python berikut untuk mengunduh file model Qwen3-0.6B yang digunakan dalam contoh ini. File tersebut akan diunduh ke jalur default ~/.cache/modelscope/hub.
# Unduh model
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3-0.6B')Siapkan file kode
Framework vLLM memungkinkan Anda dengan mudah membangun layanan API yang kompatibel dengan OpenAI API. Untuk contoh ini, Anda tidak perlu menyiapkan file kode kustom.
Jika Anda memiliki logika bisnis yang kompleks atau persyaratan API khusus, tulislah kode sendiri. Misalnya, Anda dapat menggunakan Flask untuk membuat antarmuka API sederhana seperti pada contoh berikut.
Unggah file ke OSS
Gunakan tool ossutil untuk mengunggah file model dan kode ke OSS. Selanjutnya, Anda dapat memasang Bucket OSS ke layanan Anda untuk membaca file model.
Anda juga dapat menggunakan opsi penyimpanan lainnya. Untuk informasi selengkapnya, lihat Pemasangan penyimpanan.
Anda dapat mengemas semua file penerapan yang diperlukan ke dalam sebuah image. Namun, pendekatan ini tidak disarankan karena alasan berikut:
Untuk memperbarui atau melakukan iterasi pada model, Anda harus membangun ulang dan mengunggah ulang image, sehingga meningkatkan beban maintenance.
File model yang besar secara signifikan menambah ukuran image, sehingga memperlambat proses pulling image dan mengurangi efisiensi startup layanan.
Siapkan runtime image
Anda dapat menggunakan vllm>=0.8.5 untuk membuat titik akhir API yang kompatibel dengan OpenAI bagi model Qwen3-0.6B. Citra EAS resmi vllm:0.11.2-mows0.5.1 memenuhi persyaratan ini dan digunakan dalam topik ini.
Jika tidak tersedia citra resmi yang sesuai, Anda harus membuat custom image. Jika Anda melatih model di instans DSW, gunakan fitur pembuatan image instans DSW untuk memastikan konsistensi antara lingkungan pelatihan dan penerapan Anda.
Terapkan layanan
-
Masuk ke Konsol PAI. Pilih Wilayah di bagian atas halaman, lalu pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
-
Klik Deploy Service. Di bagian Custom Model Deployment, klik Custom Deployment.
Konfigurasikan parameter penerapan. Atur parameter utama sebagai berikut; pertahankan nilai default untuk parameter lainnya.
Deployment Method adalah penerapan berbasis image.
Image Configuration: Pilih
vllm:0.11.2-mows0.5.1dari daftar Alibaba Cloud Image.Mount storage: Topik ini menjelaskan cara menyimpan file model di OSS. Misalnya, jika jalurnya adalah
oss://examplebucket/models/Qwen/Qwen3-0___6B, pilih OSS dan konfigurasikan sebagai berikut.Uri: Jalur OSS tempat model disimpan. Dalam contoh ini, atur parameter ini menjadi
oss://examplebucket/models/.Mount Path: Jalur tujuan pada instans layanan tempat penyimpanan dipasang, misalnya
/mnt/data/.
Run command: Citra resmi mencakup perintah run default. Anda dapat memodifikasi perintah sesuai kebutuhan. Dalam contoh ini, atur parameter ini menjadi
vllm serve /mnt/data/Qwen/Qwen3-0___6B.Untuk Resource Type, pilih Public Resources. Kemudian, pilih Resource Specification
ecs.gn7i-c16g1.4xlarge. Untuk informasi selengkapnya, lihat Konfigurasi resource.
Klik Deploy. Penerapan layanan memerlukan waktu sekitar 5 menit. Ketika Service Status berubah menjadi Running, layanan berhasil diterapkan.
Debugging online
Setelah layanan diterapkan, Anda dapat menggunakan fitur debugging online untuk menguji apakah layanan berjalan sesuai harapan. Konfigurasikan metode permintaan, URI, dan badan permintaan berdasarkan layanan model Anda.
Lakukan langkah-langkah berikut untuk debugging layanan secara online:
Pada tab Inference Service, klik layanan target untuk membuka halaman ikhtisarnya, lalu beralih ke tab Online Debugging.
Pada bagian Request Parameter Online Tuning di halaman debugging, atur parameter permintaan dan klik Send Request. Parameter permintaan adalah sebagai berikut:
Antarmuka chat: Tambahkan
/v1/chat/completionske URL yang sudah ada.Header: Tambahkan header permintaan. Atur kunci menjadi
Content-Typedan nilainya menjadiapplication/json.
Body:
{ "model": "/mnt/data/Qwen/Qwen3-0___6B", "messages": [ { "role": "user", "content": "Hello!" } ], "max_tokens": 1024 }
Tanggapan ditampilkan pada gambar berikut.

Pemanggilan layanan
Dapatkan endpoint dan token
Secara default, layanan dalam topik ini menggunakan Shared Gateway. Setelah layanan diterapkan, Anda dapat memperoleh endpoint dan token dari halaman detail layanan.
Pada tab Inference Service, klik nama layanan target untuk membuka halaman Overview. Di bagian Basic Information, klik View Endpoint Information.
Pada panel Invocation Method, ambil endpoint dan token. Berdasarkan kebutuhan Anda, pilih endpoint Internet atau VPC. Selanjutnya, nilai-nilai ini akan disebut sebagai <EAS_ENDPOINT> dan <EAS_TOKEN>.

Panggil layanan menggunakan curl atau Python
Kode berikut memberikan contoh:
curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/****/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
"model": "/mnt/data/Qwen/Qwen3-0___6B",
"messages": [
{
"role": "user",
"content": "Hello!"
}
],
"max_tokens": 1024
}' import requests
# Ganti dengan endpoint aktual Anda
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/***/v1/chat/completions'
# Ganti nilai Authorization dengan token aktual Anda
headers = {
"Content-Type": "application/json",
"Authorization": "*********5ZTM1ZDczg5OT**********",
}
# Format data permintaan sesuai kebutuhan model Anda
data = {
"model": "/mnt/data/Qwen/Qwen3-0___6B",
"messages": [
{
"role": "user",
"content": "Hello!"
}
],
"max_tokens": 1024
}
# Kirim permintaan
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)Hentikan atau hapus layanan
Layanan EAS yang dibuat dalam topik ini menggunakan Sumber daya publik dan ditagih berdasarkan metode bayar sesuai penggunaan. Untuk menghindari biaya yang tidak perlu, hentikan atau hapus layanan ketika tidak lagi diperlukan.

Referensi
Untuk meningkatkan efisiensi layanan LLM, lihat Penerapan Router cerdas LLM.
Untuk informasi selengkapnya tentang fitur EAS, lihat Ikhtisar EAS.