全部产品
Search
文档中心

Platform For AI:Memulai Cepat untuk Layanan Online Model EAS

更新时间:Aug 28, 2025

EAS memungkinkan Anda dengan cepat menerapkan model sebagai layanan inferensi online. Topik ini menggunakan penerapan model Qwen3-0.6B dengan kerangka kerja vLLM sebagai contoh untuk membimbing Anda melalui proses penerapan dan pemanggilan layanan.

Catatan

Topik ini menggunakan penerapan kustom model bahasa besar (LLM) sebagai contoh untuk membantu Anda dengan cepat memulai dengan EAS. Untuk penerapan aktual model LLM, kami menyarankan Anda menggunakan penerapan LLM berbasis skenario atau menerapkan model dengan satu klik dari Model Gallery. Metode-metode ini lebih nyaman dan lebih cepat.

Prasyarat

Gunakan akun utama Alibaba Cloud Anda untuk mengaktifkan PAI dan membuat ruang kerja. Masuk ke Konsol PAI, pilih wilayah di pojok kiri atas, lalu selesaikan otorisasi satu klik dan aktivasi produk.

Penagihan

Topik ini menggunakan sumber daya publik untuk membuat layanan model. Metode penagihannya adalah bayar sesuai penggunaan. Untuk informasi lebih lanjut tentang aturan penagihan, lihat penagihan EAS.

Persiapan

Untuk menerapkan layanan model, biasanya Anda perlu menyiapkan file model dan file kode, seperti antarmuka web. Jika gambar platform resmi tidak memenuhi persyaratan penerapan Anda, Anda juga harus membuat gambar Anda sendiri.

Siapkan file model

Untuk mendapatkan file model Qwen3-0.6B untuk contoh ini, jalankan kode Python berikut. File tersebut diunduh dari ModelScope ke jalur default ~/.cache/modelscope/hub.

# Unduh model
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3-0.6B')

Siapkan file kode

Kerangka kerja vLLM memudahkan pembuatan layanan API yang kompatibel dengan OpenAI API. Oleh karena itu, Anda tidak perlu menyiapkan file kode terpisah.

Jika Anda memiliki logika bisnis yang kompleks atau persyaratan API tertentu, Anda harus menyiapkan file kode Anda sendiri. Sebagai contoh, kode berikut menggunakan Flask untuk membuat antarmuka API sederhana.

Lihat contoh file kode

from flask import Flask

app = Flask(__name__)

@app.route('/hello/model')
def hello_world():
    # Anda dapat memanggil model di sini untuk mendapatkan hasil.
    return 'Hello World'

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=8000)

Unggah file ke OSS

Gunakan ossutil untuk mengunggah file model dan kode ke OSS. Anda kemudian dapat membaca file model dengan memasang OSS ke layanan.

Selain OSS, Anda dapat menggunakan metode penyimpanan lainnya. Untuk informasi lebih lanjut, lihat konfigurasi penyimpanan.

Catatan

Anda juga dapat mengemas semua file yang diperlukan ke dalam gambar untuk penerapan. Namun, kami tidak merekomendasikan metode ini karena alasan berikut:

  • Pembaruan atau iterasi model memerlukan Anda untuk membangun ulang dan mengunggah ulang gambar, yang meningkatkan biaya pemeliharaan.

  • File model besar secara signifikan meningkatkan ukuran gambar. Ini menyebabkan waktu penarikan gambar lebih lama dan memengaruhi efisiensi startup layanan.

Siapkan gambar

Model Qwen3-0.6B dapat menggunakan vllm>=0.8.5 untuk membuat titik akhir API yang kompatibel dengan OpenAI. Gambar resmi EAS vllm:0.8.5.post1-mows0.2.1 memenuhi persyaratan ini. Oleh karena itu, topik ini menggunakan gambar resmi.

Jika tidak ada gambar resmi yang memenuhi persyaratan Anda, Anda harus membuat gambar kustom. Jika Anda mengembangkan dan melatih model di DSW, Anda dapat membuat gambar instance DSW untuk memastikan konsistensi antara lingkungan pengembangan dan penerapan.

Penerapan layanan

  1. Masuk ke Konsol PAI. Pilih wilayah di bagian atas halaman. Kemudian, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).

  2. Klik Deploy Service. Di bagian Custom Model Deployment, klik Custom Deployment.

  3. Konfigurasikan parameter penerapan. Konfigurasikan parameter utama sebagai berikut dan pertahankan nilai default untuk parameter lainnya.

    • Deployment Method: Pilih Penerapan Berbasis Gambar.

    • Image Configuration: Dalam daftar Alibaba Cloud Image, pilih vllm:0.8.5.post1-mows0.2.1.

    • Directly Mount: Topik ini menyimpan file model di OSS pada jalur oss://examplebucket/models/Qwen/Qwen3-0___6B. Oleh karena itu, pilih OSS dan konfigurasinya sebagai berikut.

      • Uri: Jalur OSS tempat model berada. Atur ini ke oss://examplebucket/models/.

      • Mount Path: Jalur tujuan di instans layanan tempat file dipasang, seperti /mnt/data/.

    • Perintah: Gambar resmi memiliki perintah startup default yang terkait dengannya. Anda dapat memodifikasinya sesuai kebutuhan. Untuk contoh ini, ubah menjadi vllm serve /mnt/data/Qwen/Qwen3-0___6B.

    • Resource Type: Pilih Public Resources. Untuk Resource Specification, pilih ecs.gn7i-c16g1.4xlarge. Jika Anda ingin menggunakan tipe sumber daya lain, lihat konfigurasi sumber daya.

  4. Klik Deploy. Penerapan layanan memakan waktu sekitar 5 menit. Ketika Service Status berubah menjadi Running, layanan berhasil diterapkan.

Debugging online

Setelah layanan diterapkan, Anda dapat menggunakan fitur debugging online untuk menguji apakah layanan berjalan dengan benar. Anda dapat mengonfigurasi metode permintaan, jalur permintaan, dan badan permintaan berdasarkan layanan model spesifik Anda.

Metode debugging online untuk layanan yang diterapkan dalam topik ini adalah sebagai berikut:

  1. Di tab Inference Service, klik layanan tujuan untuk masuk ke halaman ikhtisar layanan. Beralihlah ke tab Online Debugging.

  2. Di bagian Online Debugging > Request Parameters halaman debugging, atur parameter permintaan dan klik Send Request. Parameter permintaan adalah sebagai berikut:

    • Antarmuka obrolan: Tambahkan /v1/chat/completions ke URL yang ada.

    • Header: Tambahkan header permintaan. Atur kunci ke Content-Type dan nilainya ke application/json.

      image

    • Body:

      {
        "model": "/mnt/data/Qwen/Qwen3-0___6B",
        "messages": [
          {
            "role": "user",
            "content": "Halo!"
          }
        ],
        "max_tokens": 1024
      }
  3. Tanggapan ditampilkan pada gambar berikut.

    image

Pemanggilan layanan

Peroleh endpoint dan token

Penerapan ini menggunakan gateway bersama secara default. Setelah penerapan selesai, Anda dapat memperoleh endpoint dan token yang diperlukan untuk pemanggilan dari informasi ikhtisar layanan.

  1. Di tab Inference Service, klik nama layanan Anda untuk masuk ke halaman Overview. Di bagian Basic Information, klik View Endpoint Information.

  2. Di panel Invocation Method, Anda dapat memperoleh endpoint dan token. Pilih endpoint Internet atau VPC sesuai kebutuhan. Topik ini menggunakan <EAS_ENDPOINT> dan <EAS_TOKEN> untuk mewakili endpoint dan token, masing-masing.

    image

Gunakan curl atau Python untuk pemanggilan

Kode berikut memberikan contoh:

curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/****/v1/chat/completions
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
  "model": "/mnt/data/Qwen/Qwen3-0___6B",
  "messages": [
    {
      "role": "user",
      "content": "Halo!"
    }
  ],
  "max_tokens": 1024
}' 
import requests

# Ganti dengan endpoint sebenarnya.
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/***/v1/chat/completions'
# Untuk header, atur nilai Authorization ke token sebenarnya.
headers = {
    "Content-Type": "application/json",
    "Authorization": "*********5ZTM1ZDczg5OT**********",
}
# Bangun permintaan layanan berdasarkan format data yang diperlukan oleh model tertentu.
data = {
  "model": "/mnt/data/Qwen/Qwen3-0___6B",
  "messages": [
    {
      "role": "user",
      "content": "Halo!"
    }
  ],
  "max_tokens": 1024
}
# Kirim permintaan.
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)

Hentikan atau hapus layanan

Topik ini menggunakan sumber daya publik untuk membuat layanan EAS, yang ditagih berdasarkan metode bayar sesuai penggunaan. Saat Anda tidak lagi memerlukan layanan tersebut, hentikan atau hapus layanan untuk menghindari biaya lebih lanjut.

image

Referensi