EAS memungkinkan Anda dengan cepat menerapkan model sebagai layanan inferensi online. Topik ini menggunakan penerapan model Qwen3-0.6B dengan kerangka kerja vLLM sebagai contoh untuk membimbing Anda melalui proses penerapan dan pemanggilan layanan.
Topik ini menggunakan penerapan kustom model bahasa besar (LLM) sebagai contoh untuk membantu Anda dengan cepat memulai dengan EAS. Untuk penerapan aktual model LLM, kami menyarankan Anda menggunakan penerapan LLM berbasis skenario atau menerapkan model dengan satu klik dari Model Gallery. Metode-metode ini lebih nyaman dan lebih cepat.
Prasyarat
Gunakan akun utama Alibaba Cloud Anda untuk mengaktifkan PAI dan membuat ruang kerja. Masuk ke Konsol PAI, pilih wilayah di pojok kiri atas, lalu selesaikan otorisasi satu klik dan aktivasi produk.
Penagihan
Topik ini menggunakan sumber daya publik untuk membuat layanan model. Metode penagihannya adalah bayar sesuai penggunaan. Untuk informasi lebih lanjut tentang aturan penagihan, lihat penagihan EAS.
Persiapan
Untuk menerapkan layanan model, biasanya Anda perlu menyiapkan file model dan file kode, seperti antarmuka web. Jika gambar platform resmi tidak memenuhi persyaratan penerapan Anda, Anda juga harus membuat gambar Anda sendiri.
Siapkan file model
Untuk mendapatkan file model Qwen3-0.6B untuk contoh ini, jalankan kode Python berikut. File tersebut diunduh dari ModelScope ke jalur default ~/.cache/modelscope/hub.
# Unduh model
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3-0.6B')Siapkan file kode
Kerangka kerja vLLM memudahkan pembuatan layanan API yang kompatibel dengan OpenAI API. Oleh karena itu, Anda tidak perlu menyiapkan file kode terpisah.
Jika Anda memiliki logika bisnis yang kompleks atau persyaratan API tertentu, Anda harus menyiapkan file kode Anda sendiri. Sebagai contoh, kode berikut menggunakan Flask untuk membuat antarmuka API sederhana.
Unggah file ke OSS
Gunakan ossutil untuk mengunggah file model dan kode ke OSS. Anda kemudian dapat membaca file model dengan memasang OSS ke layanan.
Selain OSS, Anda dapat menggunakan metode penyimpanan lainnya. Untuk informasi lebih lanjut, lihat konfigurasi penyimpanan.
Anda juga dapat mengemas semua file yang diperlukan ke dalam gambar untuk penerapan. Namun, kami tidak merekomendasikan metode ini karena alasan berikut:
Pembaruan atau iterasi model memerlukan Anda untuk membangun ulang dan mengunggah ulang gambar, yang meningkatkan biaya pemeliharaan.
File model besar secara signifikan meningkatkan ukuran gambar. Ini menyebabkan waktu penarikan gambar lebih lama dan memengaruhi efisiensi startup layanan.
Siapkan gambar
Model Qwen3-0.6B dapat menggunakan vllm>=0.8.5 untuk membuat titik akhir API yang kompatibel dengan OpenAI. Gambar resmi EAS vllm:0.8.5.post1-mows0.2.1 memenuhi persyaratan ini. Oleh karena itu, topik ini menggunakan gambar resmi.
Jika tidak ada gambar resmi yang memenuhi persyaratan Anda, Anda harus membuat gambar kustom. Jika Anda mengembangkan dan melatih model di DSW, Anda dapat membuat gambar instance DSW untuk memastikan konsistensi antara lingkungan pengembangan dan penerapan.
Penerapan layanan
Masuk ke Konsol PAI. Pilih wilayah di bagian atas halaman. Kemudian, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
Klik Deploy Service. Di bagian Custom Model Deployment, klik Custom Deployment.
Konfigurasikan parameter penerapan. Konfigurasikan parameter utama sebagai berikut dan pertahankan nilai default untuk parameter lainnya.
Deployment Method: Pilih Penerapan Berbasis Gambar.
Image Configuration: Dalam daftar Alibaba Cloud Image, pilih
vllm:0.8.5.post1-mows0.2.1.Directly Mount: Topik ini menyimpan file model di OSS pada jalur
oss://examplebucket/models/Qwen/Qwen3-0___6B. Oleh karena itu, pilih OSS dan konfigurasinya sebagai berikut.Uri: Jalur OSS tempat model berada. Atur ini ke
oss://examplebucket/models/.Mount Path: Jalur tujuan di instans layanan tempat file dipasang, seperti
/mnt/data/.
Perintah: Gambar resmi memiliki perintah startup default yang terkait dengannya. Anda dapat memodifikasinya sesuai kebutuhan. Untuk contoh ini, ubah menjadi
vllm serve /mnt/data/Qwen/Qwen3-0___6B.Resource Type: Pilih Public Resources. Untuk Resource Specification, pilih
ecs.gn7i-c16g1.4xlarge. Jika Anda ingin menggunakan tipe sumber daya lain, lihat konfigurasi sumber daya.
Klik Deploy. Penerapan layanan memakan waktu sekitar 5 menit. Ketika Service Status berubah menjadi Running, layanan berhasil diterapkan.
Debugging online
Setelah layanan diterapkan, Anda dapat menggunakan fitur debugging online untuk menguji apakah layanan berjalan dengan benar. Anda dapat mengonfigurasi metode permintaan, jalur permintaan, dan badan permintaan berdasarkan layanan model spesifik Anda.
Metode debugging online untuk layanan yang diterapkan dalam topik ini adalah sebagai berikut:
Di tab Inference Service, klik layanan tujuan untuk masuk ke halaman ikhtisar layanan. Beralihlah ke tab Online Debugging.
Di bagian Online Debugging > Request Parameters halaman debugging, atur parameter permintaan dan klik Send Request. Parameter permintaan adalah sebagai berikut:
Antarmuka obrolan: Tambahkan
/v1/chat/completionske URL yang ada.Header: Tambahkan header permintaan. Atur kunci ke
Content-Typedan nilainya keapplication/json.
Body:
{ "model": "/mnt/data/Qwen/Qwen3-0___6B", "messages": [ { "role": "user", "content": "Halo!" } ], "max_tokens": 1024 }
Tanggapan ditampilkan pada gambar berikut.

Pemanggilan layanan
Peroleh endpoint dan token
Penerapan ini menggunakan gateway bersama secara default. Setelah penerapan selesai, Anda dapat memperoleh endpoint dan token yang diperlukan untuk pemanggilan dari informasi ikhtisar layanan.
Di tab Inference Service, klik nama layanan Anda untuk masuk ke halaman Overview. Di bagian Basic Information, klik View Endpoint Information.
Di panel Invocation Method, Anda dapat memperoleh endpoint dan token. Pilih endpoint Internet atau VPC sesuai kebutuhan. Topik ini menggunakan <EAS_ENDPOINT> dan <EAS_TOKEN> untuk mewakili endpoint dan token, masing-masing.

Gunakan curl atau Python untuk pemanggilan
Kode berikut memberikan contoh:
curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/****/v1/chat/completions
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
"model": "/mnt/data/Qwen/Qwen3-0___6B",
"messages": [
{
"role": "user",
"content": "Halo!"
}
],
"max_tokens": 1024
}' import requests
# Ganti dengan endpoint sebenarnya.
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/***/v1/chat/completions'
# Untuk header, atur nilai Authorization ke token sebenarnya.
headers = {
"Content-Type": "application/json",
"Authorization": "*********5ZTM1ZDczg5OT**********",
}
# Bangun permintaan layanan berdasarkan format data yang diperlukan oleh model tertentu.
data = {
"model": "/mnt/data/Qwen/Qwen3-0___6B",
"messages": [
{
"role": "user",
"content": "Halo!"
}
],
"max_tokens": 1024
}
# Kirim permintaan.
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)Hentikan atau hapus layanan
Topik ini menggunakan sumber daya publik untuk membuat layanan EAS, yang ditagih berdasarkan metode bayar sesuai penggunaan. Saat Anda tidak lagi memerlukan layanan tersebut, hentikan atau hapus layanan untuk menghindari biaya lebih lanjut.

Referensi
Untuk meningkatkan efisiensi layanan LLM, lihat Gunakan LLM Intelligent Router untuk meningkatkan efisiensi inferensi.
Untuk informasi lebih lanjut tentang fitur EAS, lihat Ikhtisar EAS.