Mulai menggunakan EAS untuk menerapkan model pembelajaran mesin sebagai layanan inferensi real-time - Platform For AI

Elastic Algorithm Service (EAS) memungkinkan Anda menerapkan model sebagai layanan inferensi real-time dengan cepat. Topik ini menggunakan penerapan model Qwen3-0.6B dengan framework vLLM sebagai contoh untuk memandu Anda melalui proses penerapan dan pemanggilan layanan.

Catatan

Topik ini menggunakan penerapan kustom model bahasa besar (LLM) sebagai contoh untuk membantu Anda memulai EAS dengan cepat. Untuk penerapan aktual model LLM, gunakan penerapan LLM berbasis skenario atau terapkan model dengan satu klik dari Model Gallery. Metode-metode tersebut lebih nyaman dan cepat.

Penting

Pertimbangan Biaya: Panduan ini menggunakan sumber daya publik dengan metode bayar sesuai penggunaan. Perkiraan biaya: ¥2–5 untuk tutorial lengkap. Selalu hentikan atau hapus layanan saat tidak digunakan untuk menghindari biaya yang tidak perlu.

Prasyarat

Akun Alibaba Cloud aktif dengan izin root
Layanan PAI diaktifkan di ruang kerja Anda
Keakraban dasar dengan konsep komputasi awan

Gunakan akun root Anda untuk mengaktifkan PAI dan membuat ruang kerja. Masuk ke Konsol PAI, pilih wilayah di pojok kiri atas, lalu selesaikan otorisasi satu klik dan aktivasi produk.

Penagihan

Topik ini menggunakan sumber daya publik untuk membuat layanan model. Metode penagihannya adalah bayar sesuai penggunaan. Untuk informasi selengkapnya tentang aturan penagihan, lihat penagihan EAS.

Persiapan

Untuk menerapkan layanan model, Anda biasanya perlu menyiapkan file model dan file kode, seperti antarmuka web. Jika Alibaba Cloud Image untuk platform tidak memenuhi kebutuhan penerapan Anda, Anda juga harus membuat runtime image sendiri.

Siapkan file model

Untuk mendapatkan file model Qwen3-0.6B pada contoh ini, jalankan kode Python berikut. File tersebut diunduh dari ModelScope ke jalur default ~/.cache/modelscope/hub.

Catatan: Model akan disimpan ke ~/.cache/modelscope/hub secara default.

# Unduh model
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3-0.6B')

Siapkan file kode

Framework vLLM memudahkan pembuatan layanan API yang kompatibel dengan OpenAI API. Oleh karena itu, Anda tidak perlu menyiapkan file kode terpisah.

Jika Anda memiliki logika bisnis yang kompleks atau persyaratan API tertentu, siapkan file kode Anda sendiri. Misalnya, kode berikut menggunakan Flask untuk membuat antarmuka API sederhana.

Lihat contoh file kode

from flask import Flask

app = Flask(__name__)

@app.route('/hello/model')
def hello_world():
    # Anda dapat memanggil model di sini untuk mendapatkan hasil.
    return 'Hello World'

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=8000)

Unggah file ke OSS

Gunakan ossutil untuk mengunggah file model dan kode ke OSS. Anda kemudian dapat membaca file model dengan memasang OSS ke layanan.

Praktik Terbaik: Gunakan bucket OSS regional untuk performa optimal dan susun model dalam jalur direktori terstruktur.

Selain OSS, Anda dapat menggunakan metode penyimpanan lainnya. Untuk informasi selengkapnya, lihat konfigurasi penyimpanan.

Catatan

Anda juga dapat mengemas semua file yang diperlukan ke dalam runtime image untuk penerapan. Namun, metode ini tidak disarankan karena alasan berikut:

Pembaruan atau iterasi model mengharuskan Anda membangun ulang dan mengunggah ulang runtime image, yang meningkatkan biaya pemeliharaan.
File model besar secara signifikan menambah ukuran runtime image. Hal ini menyebabkan waktu tarik (pull) image lebih lama dan memengaruhi efisiensi startup layanan.

Siapkan runtime image

Anda dapat menggunakan model Qwen3-0.6B dengan vllm>=0.8.5 untuk membuat titik akhir API yang kompatibel dengan OpenAI. Citra resmi vllm:0.8.5.post1-mows0.2.1 yang disediakan oleh EAS memenuhi persyaratan ini. Oleh karena itu, topik ini menggunakan citra resmi tersebut.

Jika tidak ada Alibaba Cloud Image yang memenuhi kebutuhan Anda, Anda harus membuat custom image. Jika Anda mengembangkan dan melatih model di instans DSW, Anda dapat membuat citra instans DSW untuk memastikan konsistensi antara lingkungan pengembangan dan penerapan.

Penerapan layanan

Masuk ke Konsol PAI. Pilih wilayah di bagian atas halaman. Kemudian, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
Klik Deploy Service. Di bagian Custom Model Deployment, klik Custom Deployment.
Konfigurasikan parameter penerapan. Atur parameter utama sebagai berikut dan pertahankan nilai default untuk parameter lainnya.
- Deployment Method: Image-based Deployment.
- Image Configuration: Di daftar Alibaba Cloud Image, pilih vllm:0.8.5.post1-mows0.2.1.
- Mount Storage: Topik ini menyimpan file model di OSS pada jalur oss://examplebucket/models/Qwen/Qwen3-0___6B. Oleh karena itu, pilih OSS dan konfigurasikan sebagai berikut.
  - Uri: Jalur OSS tempat model berada. Atur ke oss://examplebucket/models/.
  - Mount Path: Jalur tujuan di instans layanan tempat file dipasang, misalnya /mnt/data/.
- Command: Alibaba Cloud Image memiliki perintah startup default yang terkait dengannya. Anda dapat mengubahnya sesuai kebutuhan. Untuk contoh ini, ubah menjadi vllm serve /mnt/data/Qwen/Qwen3-0___6B.
- Resource Type: Pilih Public Resources. Atur Resource Specification ke ecs.gn7i-c16g1.4xlarge. Jika ingin menggunakan jenis sumber daya lain, lihat konfigurasi sumber daya.
Klik Deploy. Penerapan layanan memerlukan waktu sekitar 5 menit. Saat Service Status berubah menjadi Running, layanan berhasil diterapkan.
Tips: Pantau progres penerapan di log penerapan untuk pembaruan status real-time.

Debugging online

Setelah layanan diterapkan, Anda dapat menggunakan fitur debugging online untuk menguji apakah layanan berjalan dengan benar. Anda dapat mengonfigurasi metode permintaan, jalur permintaan, dan badan permintaan berdasarkan layanan model spesifik Anda.

Metode debugging online untuk layanan yang diterapkan dalam topik ini adalah sebagai berikut:

Di tab Inference Service, klik layanan tujuan untuk membuka halaman ikhtisar layanan. Beralihlah ke tab Online Debugging.
Di bagian Online Debugging Request Parameters pada halaman debugging, atur parameter permintaan dan klik Send Request. Parameter permintaan adalah sebagai berikut:
- Antarmuka chat: Tambahkan /v1/chat/completions ke URL yang ada.
- Header: Tambahkan header permintaan. Atur kunci ke Content-Type dan nilai ke application/json.
- Body:
```
{
  "model": "/mnt/data/Qwen/Qwen3-0___6B",
  "messages": [
    {
      "role": "user",
      "content": "Hello!"
    }
  ],
  "max_tokens": 1024
}
```
Tanggapan ditampilkan pada gambar berikut.
Daftar Periksa Validasi:
- ✓ Kode status HTTP 200 diterima
- ✓ Tanggapan berisi teks yang dihasilkan
- ✓ Waktu tanggapan < 5 detik untuk kueri sederhana

Pemanggilan layanan

Dapatkan endpoint dan token

Penerapan ini menggunakan Shared Gateway secara default. Setelah penerapan selesai, Anda dapat memperoleh endpoint dan token yang diperlukan untuk pemanggilan dari informasi ikhtisar layanan.

Di tab Inference Services, klik nama layanan target untuk membuka halaman Overview-nya. Di bagian Basic Information, klik View Endpoint Information.
Di panel Invocation Method, peroleh endpoint dan token. Pilih endpoint internet atau VPC sesuai kebutuhan. Contoh berikut menggunakan <EAS_ENDPOINT> dan <EAS_TOKEN> sebagai placeholder untuk nilai-nilai tersebut.

Gunakan curl atau Python untuk pemanggilan

Kode berikut memberikan contoh:

curl

curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/****/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
  "model": "/mnt/data/Qwen/Qwen3-0___6B",
  "messages": [
    {
      "role": "user",
      "content": "Hello!"
    }
  ],
  "max_tokens": 1024
}'

Python

import requests

# Ganti dengan endpoint yang sebenarnya.
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/***/v1/chat/completions'
# Untuk header, atur nilai Authorization ke token yang sebenarnya.
headers = {
    "Content-Type": "application/json",
    "Authorization": "*********5ZTM1ZDczg5OT**********",
}
# Buat permintaan layanan berdasarkan format data yang dibutuhkan oleh model tertentu.
data = {
  "model": "/mnt/data/Qwen/Qwen3-0___6B",
  "messages": [
    {
      "role": "user",
      "content": "Hello!"
    }
  ],
  "max_tokens": 1024
}
# Kirim permintaan.
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)

Hentikan atau hapus layanan

Topik ini menggunakan sumber daya publik untuk membuat layanan EAS, yang ditagih berdasarkan metode bayar sesuai penggunaan. Saat Anda tidak lagi memerlukan layanan tersebut, hentikan atau hapus untuk menghindari biaya tambahan.

Tips Manajemen: Untuk jeda sementara, gunakan "Stop" untuk mempertahankan konfigurasi. Untuk penghapusan permanen, gunakan "Delete" untuk membebaskan semua sumber daya.

Referensi

Untuk meningkatkan efisiensi layanan LLM, lihat Terapkan Router cerdas LLM.
Untuk informasi selengkapnya tentang fitur EAS, lihat Ikhtisar EAS.