Menyebar model bahasa besar di PAI-EAS - Platform For AI

PAI-EAS menyediakan solusi satu klik untuk menyebar model bahasa besar (LLM) populer seperti DeepSeek dan Qwen, sehingga menghilangkan kebutuhan akan konfigurasi lingkungan yang kompleks, penyetelan kinerja, dan manajemen biaya yang biasanya diperlukan dalam penerapan manual.

Mulai cepat: Menyebar model open source

Contoh ini menyebarkan model open source Qwen3-8B. Proses yang sama berlaku untuk model lain yang didukung.

Langkah 1: Buat layanan

Masuk ke Konsol PAI. Pilih wilayah di bagian atas halaman, lalu pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
Klik Deploy Service. Di bagian Scenario-based Model Deployment, klik LLM Deployment.

Konfigurasikan parameter utama berikut:

Parameter	Nilai
Model Settings	Pilih Public Model, lalu cari dan pilih Qwen3-8B.
Inference Engine	Pilih vLLM (direkomendasikan, kompatibel dengan API OpenAI).
Deployment Template	Pilih Single Machine. Sistem secara otomatis mengisi tipe instans dan image yang direkomendasikan.

Klik Deploy. Proses penerapan memerlukan waktu sekitar 5 menit. Ketika status layanan berubah menjadi Running, penerapan berhasil.
Catatan
Jika layanan gagal diterapkan, lihat Masalah penerapan dan status layanan.

Langkah 2: Verifikasi dengan debugging online

Setelah layanan berhasil diterapkan, gunakan debugging online untuk memverifikasi bahwa layanan berjalan dengan benar.

Klik nama layanan untuk membuka halaman detail, lalu beralih ke tab Online Debugging.

Konfigurasikan parameter permintaan berikut:

Parameter	Nilai
Request method	POST
URL path	Tambahkan `/v1/chat/completions` ke URL yang ada. Contohnya: `/api/predict/llm_qwen3_8b_test/v1/chat/completions`.
Body	`{ "model": "Qwen3-8B", "messages": [ {"role": "user", "content": "Hello!"} ], "max_tokens": 1024 }`
Headers	Pastikan header permintaan mencakup `Content-Type: application/json`.

Klik Send Request. Anda seharusnya menerima tanggapan yang berisi balasan dari model.

Kode status 200 dan badan respons yang berisi objek JSON chat.completion menunjukkan bahwa layanan berjalan dengan benar. Balasan model terdapat pada bidang content.

Panggil layanan melalui API

Sebelum melakukan pemanggilan, buka tab Overview pada halaman detail layanan, klik View Endpoint Information, dan dapatkan titik akhir dan token.

Kode berikut menunjukkan cara memanggil layanan.

cURL

curl -X POST <EAS_ENDPOINT>/v1/chat/completions \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<model_name>",
        "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello"
        }
        ],
        "max_tokens":1024,
        "temperature": 0.7,
        "top_p": 0.8,
        "stream":true
    }'

Di mana:

Ganti <EAS_ENDPOINT> dan <EAS_TOKEN> dengan titik akhir dan token layanan Anda.
Ganti <model_name> dengan nama model. Untuk vLLM/SGLang, dapatkan nama model dengan memanggil titik akhir API <EAS_ENDPOINT>/v1/models.
```
curl -X GET <EAS_ENDPOINT>/v1/models -H "Authorization: <EAS_TOKEN>"
```

OpenAI SDK

Kami merekomendasikan menggunakan SDK Python resmi untuk berinteraksi dengan layanan. Pastikan Anda telah menginstal OpenAI SDK: pip install openai.

from openai import OpenAI

# 1. Konfigurasikan client
# Ganti <EAS_TOKEN> dengan token layanan yang telah diterapkan.
openai_api_key = "<EAS_TOKEN>"
# Ganti <EAS_ENDPOINT> dengan titik akhir layanan yang telah diterapkan.
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

# 2. Dapatkan nama model.
# Untuk BladeLLM, setel model = "". BladeLLM tidak menggunakan parameter model atau mendukung pengambilan dengan client.models.list().
# Parameter ini diatur sebagai string kosong untuk memenuhi persyaratan OpenAI SDK.
models = client.models.list()
model = models.data[0].id
print(model)

# 3. Kirim permintaan chat.
# Output streaming (stream=True) dan non-streaming (stream=False) didukung.
stream = True
chat_completion = client.chat.completions.create(
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "hello"},          
    ],
    model=model,
    top_p=0.8,
    temperature=0.7,
    max_tokens=1024,
    stream=stream,
)

if stream:
    for chunk in chat_completion:
        print(chunk.choices[0].delta.content, end="")
else:
    result = chat_completion.choices[0].message.content
    print(result)

Python requests library

Jika Anda lebih memilih untuk tidak menggunakan OpenAI SDK, Anda dapat menggunakan library requests.

import json
import requests

# Ganti <EAS_ENDPOINT> dengan titik akhir layanan yang telah diterapkan.
EAS_ENDPOINT = "<EAS_ENDPOINT>"
# Ganti <EAS_TOKEN> dengan token layanan yang telah diterapkan.
EAS_TOKEN = "<EAS_TOKEN>"
# Ganti <model_name> dengan nama model. Anda dapat mendapatkan nama model dengan memanggil titik akhir API <EAS_ENDPOINT>/v1/models.
# (Untuk BladeLLM, API ini tidak didukung. Anda dapat menghilangkan bidang "model" atau mengaturnya ke "".)
model = "<model_name>"

url = f"{EAS_ENDPOINT}/v1/chat/completions"
headers = {
    "Content-Type": "application/json",
    "Authorization": EAS_TOKEN,
}

stream = True
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "hello"},
]

req = {
    "messages": messages,
    "stream": stream,
    "temperature": 0.7,
    "top_p": 0.8,
    "max_tokens": 1024,
    "model": model,
}
response = requests.post(
    url,
    json=req,
    headers=headers,
    stream=stream,
)

if stream:
    for chunk in response.iter_lines(chunk_size=8192, decode_unicode=False):
        msg = chunk.decode("utf-8")
        # Kode berikut menangani respons streaming dalam format Server-Sent Events (SSE).
        if msg.startswith("data:"):
            info = msg[6:]
            if info == "[DONE]":
                break
            else:
                resp = json.loads(info)
                if resp["choices"][0]["delta"].get("content") is not None:
                    print(resp["choices"][0]["delta"]["content"], end="", flush=True)
else:
    resp = json.loads(response.text)
    print(resp["choices"][0]["message"]["content"])

Buat UI web lokal dengan Gradio

Gradio adalah library Python yang ramah pengguna untuk membuat antarmuka interaktif secara cepat bagi model pembelajaran mesin Anda.

Unduh kode
Tautan GitHub | Tautan OSS
Siapkan lingkungan
Diperlukan Python 3.10 atau versi lebih baru. Instal dependensi: pip install openai gradio.
Jalankan aplikasi web
Jalankan perintah berikut di terminal Anda. Ganti <EAS_ENDPOINT> dan <EAS_TOKEN> dengan titik akhir dan token layanan yang telah diterapkan.
```
python webui_client.py --eas_endpoint "<EAS_ENDPOINT>" --eas_token "<EAS_TOKEN>"
```
Setelah aplikasi dimulai, URL lokal—biasanya http://127.0.0.1:7860—akan ditampilkan. Buka URL ini di browser untuk mengakses UI web.

Integrasikan dengan aplikasi pihak ketiga

Anda dapat mengintegrasikan layanan PAI-EAS dengan berbagai klien dan alat pengembangan yang mendukung API OpenAI. Parameter konfigurasi utamanya adalah titik akhir layanan, token, dan nama model.

Dify

Instal penyedia model yang kompatibel dengan OpenAI-API
Di pojok kanan atas halaman, klik foto profil Anda dan pilih Settings. Di panel navigasi kiri, klik Model Providers. Jika OpenAI-API-compatible tidak ada di Model List, temukan di daftar di bawah dan klik Install.
Tambahkan model
Pada kartu OpenAI-API-compatible, klik Add Model di pojok kanan bawah dan konfigurasikan parameter berikut:
- Model type: Pilih LLM.
- Model name: Untuk penerapan vLLM, kirim permintaan GET ke titik akhir API /v1/models untuk mendapatkan nama model. Untuk contoh ini, masukkan Qwen3-8B.
- API key: Masukkan token layanan PAI-EAS.
- API endpoint URL: Masukkan titik akhir publik layanan PAI-EAS. Catatan: URL harus diakhiri dengan /v1.
Uji layanan
1. Di halaman utama Dify, klik Create Blank App, pilih tipe Chatflow, masukkan nama aplikasi dan informasi lainnya, lalu klik Create.
2. Klik node LLM dan pilih model yang telah Anda tambahkan. Untuk mengonfigurasi node, pilih Qwen3-8B CHAT dari kategori OpenAI-API-compatible. Di prompt SYSTEM, masukkan deskripsi peran dan referensikan variabel konteks sys.query. Di area USER, tambahkan variabel sys.query dan sys.files. Anda dapat menyesuaikan parameter model seperti Max Tokens (default 512), Presence Penalty, dan Thought Mode sesuai kebutuhan.
3. Klik Preview di pojok kanan atas dan masukkan pertanyaan.
  Bot memproses pertanyaan melalui workflow dan mengembalikan balasan. Bagian atas area percakapan menampilkan Deeply thought dan waktu pemrosesan.

Chatbox

Buka Chatbox untuk mengunduh dan menginstal klien untuk perangkat Anda, atau klik Launch Web App untuk menggunakan versi web. Contoh ini menggunakan Mac dengan chip M3.
Tambahkan penyedia model. Klik Settings, tambahkan penyedia model, masukkan nama seperti pai, dan pilih OpenAI API Compatible sebagai API Mode.
Pilih penyedia model pai dan konfigurasikan parameter berikut.
- API key: Masukkan token layanan PAI-EAS.
- API host: Masukkan titik akhir publik layanan PAI-EAS. Catatan: URL harus diakhiri dengan /v1.
- API path: Biarkan kosong.
- Model: Klik Get untuk menambahkan model. Jika mesin inferensi adalah BladeLLM yang tidak mendukung pengambilan API, klik New untuk memasukkan nama model secara manual.
Uji percakapan. Klik New Chat dan pilih layanan model di pojok kanan bawah kotak input teks.
Bagian atas antarmuka percakapan menampilkan prompt sistem, seperti You are a helpful assistant.. Masukkan pertanyaan seperti "Who are you?" di kotak input teks dan kirim. Area Deeply thought yang dapat dilipat dan waktu pemrosesan ditampilkan di bagian atas area balasan asisten, diikuti oleh balasan model.

Cherry Studio

Instal klien
Kunjungi Cherry Studio untuk mengunduh dan menginstal klien.
Anda juga dapat mengunduhnya dari https://github.com/CherryHQ/cherry-studio/releases.
Konfigurasikan layanan model.
1. Klik ikon pengaturan di pojok kiri bawah. Di bagian Model Service, klik Add. Untuk Provider Name, masukkan nama kustom seperti PAI, dan atur tipe penyedia ke OpenAI. Klik OK.
2. Di bidang API key, masukkan token layanan PAI-EAS. Di bidang API address, masukkan titik akhir publik layanan PAI-EAS.
3. Klik Add. Di bidang Model ID , masukkan nama model. Untuk penerapan vLLM, kirim permintaan GET ke titik akhir API /v1/models untuk mendapatkan nama model. Untuk contoh ini, masukkan Qwen3-8B. Perhatikan bahwa nama tersebut bersifat case-sensitive. Saat Anda memasukkan API address, jangan sertakan sufiks /v1. Jika URL Anda diakhiri dengan #, klien secara otomatis menggunakan path /v1/chat/completions. Setelah konfigurasi selesai, area Model secara otomatis mengidentifikasi dan mencantumkan model yang tersedia, seperti Qwen3-8B.
4. Klik Test di sebelah kotak input API key untuk memverifikasi konektivitas.
Uji model dengan cepat
Kembali ke kotak dialog, pilih model di bagian atas, dan mulai percakapan.
Sebagai contoh, masukkan Who are you? dan kirim pesan. Model Qwen3-8B membalas dengan perkenalan diri, yang mengonfirmasi bahwa model siap digunakan.

Penagihan

Biaya mencakup tetapi tidak terbatas pada hal-hal berikut. Untuk informasi lebih lanjut, lihat Penagihan Elastic Algorithm Service (EAS).

Biaya komputasi: Ini adalah komponen biaya utama. Saat Anda membuat layanan PAI-EAS, pilih metode penagihan bayar sesuai penggunaan atau langganan untuk sumber daya, tergantung kebutuhan Anda.
Biaya penyimpanan: Jika Anda menggunakan model kustom, file model disimpan di Object Storage Service (OSS). Anda dikenai biaya penyimpanan OSS berdasarkan penggunaan penyimpanan Anda.

Penggunaan di produksi

Pilih model yang tepat

Tentukan kasus penggunaan Anda:
- Percakapan umum: Pastikan memilih model yang telah disesuaikan dengan instruksi (instruction-tuned), bukan model dasar, agar model dapat memahami dan mengikuti instruksi Anda.
- Generasi kode: Pilih model khusus untuk kode, seperti model dari seri Qwen3-Coder. Model-model ini biasanya lebih unggul dibanding model tujuan umum dalam tugas terkait kode.
- Tugas spesifik domain: Jika tugas Anda sangat spesifik, seperti di bidang keuangan atau hukum, pertimbangkan untuk mencari model yang telah menjalani fine-tuning di domain tersebut, atau lakukan fine-tuning sendiri pada model tujuan umum.
Kinerja dan biaya: Model dengan lebih banyak parameter umumnya lebih kuat, tetapi juga memerlukan lebih banyak daya komputasi untuk diterapkan dan menghasilkan biaya inferensi yang lebih tinggi. Kami merekomendasikan memulai dengan model yang lebih kecil, seperti model 7B-parameter, untuk memvalidasi kinerjanya. Jika kinerja tidak memenuhi kebutuhan Anda, Anda dapat mencoba model yang lebih besar secara bertahap.
Konsultasikan tolok ukur otoritatif: Rujuk tolok ukur yang diakui industri seperti OpenCompass dan LMSys Chatbot Arena. Tolok ukur tersebut mengevaluasi model dalam hal penalaran, pengkodean, matematika, dan lainnya, yang dapat membantu memandu pemilihan Anda.

Pilih mesin inferensi yang tepat

vLLM/SGLang: Sebagai pilihan utama di komunitas open source, mesin-mesin ini memiliki dukungan model yang luas dan dokumentasi komunitas yang lengkap, sehingga mudah diintegrasikan dan diperbaiki jika terjadi masalah.
BladeLLM: Ini adalah mesin inferensi proprietary yang dikembangkan oleh tim Alibaba Cloud PAI. Mesin ini dioptimalkan secara mendalam untuk model tertentu, terutama seri Qwen, dan dapat mencapai kinerja lebih tinggi serta penggunaan Memori GPU lebih rendah.

Optimalkan inferensi

Penerapan routing cerdas LLM: Fitur ini mendistribusikan permintaan secara dinamis berdasarkan metrik real-time seperti throughput token dan pemanfaatan Memori GPU. Fitur ini menyeimbangkan alokasi daya komputasi dan memori di beberapa instans inferensi. Fitur ini ideal untuk penerapan dengan beberapa instans inferensi dan beban permintaan yang tidak merata, karena meningkatkan pemanfaatan sumber daya kluster dan stabilitas sistem.
Menyebar model MoE berdasarkan expert parallelism dan pemisahan Prefill-Decode: Untuk model Mixture-of-Experts (MoE), Anda dapat menggunakan teknologi seperti expert parallelism (EP) dan pemisahan Prefill-Decode (PD) untuk meningkatkan throughput inferensi dan mengurangi biaya penerapan.

FAQ

Q: Layanan macet di status "Pending"

Ikuti langkah-langkah berikut untuk memecahkan masalah:

Periksa status instans: Di halaman daftar layanan, klik nama layanan untuk membuka halaman detail layanan. Di bagian Service Instance, periksa status instans. Jika menampilkan Out of Stock, artinya kelompok sumber daya publik kekurangan sumber daya.
Solusi (berdasarkan prioritas):
1. Opsi 1: Ubah tipe instans. Kembali ke halaman penerapan dan pilih model GPU yang berbeda.
2. Opsi 2: Gunakan sumber daya khusus. Untuk Resource Type, pilih kelompok sumber daya khusus. Anda harus membuat kelompok sumber daya ini terlebih dahulu.
Langkah pencegahan:
1. Kami merekomendasikan agar Pengguna perusahaan membuat kelompok sumber daya khusus untuk menghindari masalah ketersediaan di kelompok sumber daya publik.
2. Saat jam sibuk, kami merekomendasikan pengujian di beberapa Wilayah.

Q: Kesalahan pemanggilan API

Pemanggilan API mengembalikan kesalahan Unsupported Media Type: Only 'application/json' is allowed
Pastikan header permintaan mencakup Content-Type: application/json.
Pemanggilan API mengembalikan kesalahan The model '<model_name>' does not exist.
Mesin inferensi vLLM mengharuskan bidang model ditentukan dengan benar. Panggil titik akhir /v1/models dengan permintaan GET untuk mendapatkan nama model.

Untuk pertanyaan lainnya, lihat FAQ EAS.