Setelah layanan EAS diterapkan, sebuah shared gateway disediakan secara default. Anda dapat menggunakan gateway ini untuk memanggil layanan inferensi model yang telah diterapkan melalui titik akhir publik atau alamat VPC.
Kami menyarankan menggunakan shared gateway untuk lingkungan pengembangan dan pengujian. Untuk lingkungan produksi, gunakan dedicated gateway.
Pilih alamat pemanggilan
Setelah shared gateway diterapkan, dua jenis alamat pemanggilan disediakan secara default:
Alamat pemanggilan | Deskripsi | Kasus Penggunaan |
public endpoint | Shared gateway EAS meneruskan permintaan ke layanan target. Metode ini cocok untuk lingkungan apa pun yang memiliki akses ke internet publik. |
|
VPC address | Cocok untuk skenario di mana aplikasi Anda dan layanan EAS diterapkan di wilayah yang sama. Penting Dibandingkan dengan pemanggilan melalui internet publik, pemanggilan melalui VPC menawarkan latensi lebih rendah karena menghindari beban jaringan publik dan lebih hemat biaya karena traffic dalam VPC biasanya gratis. |
|
Panggil layanan
Langkah 1: Dapatkan titik akhir dan token
Setelah Anda menerapkan layanan, sistem secara otomatis menghasilkan titik akhir dan token otorisasi.
Konsol menyediakan titik akhir dasar. Saat menyusun URL permintaan lengkap, Anda harus menambahkan path API yang benar ke titik akhir dasar ini. Path yang salah merupakan penyebab paling umum dari error 404 Not Found.
Pada tab Inference Service, klik nama layanan target untuk membuka halaman Overview.
Pada bagian Basic Information, klik View Endpoint Information.
Pada panel Invocation Method, salin titik akhir dan token:
Sesuaikan kebutuhan Anda, pilih public endpoint atau VPC address.
Contoh berikut menggunakan <EAS_ENDPOINT> sebagai placeholder untuk titik akhir dan <EAS_TOKEN> sebagai placeholder untuk token.

Langkah 2: Susun dan kirim permintaan
Format permintaan sama, baik Anda menggunakan public endpoint maupun VPC address. Permintaan standar mencakup elemen-elemen berikut:
Elemen | Deskripsi |
Metode | Metode paling umum adalah POST dan GET. |
Path permintaan (URL) | Format: <EAS_ENDPOINT> + path API. Contoh: |
Otorisasi (Wajib) |
|
Content-Type |
|
Request body | Spesifikasi API dari model yang diterapkan menentukan formatnya. Badan permintaan tidak boleh melebihi 1 MB saat dikirim melalui gateway. |
Contoh pemanggilan
Contoh berikut menunjukkan cara memanggil layanan model DeepSeek-R1-Distill-Qwen-7B yang diterapkan dengan vLLM. Asumsikan bahwa <EAS_ENDPOINT> adalah http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test.
Request body:
{
"model": "DeepSeek-R1-Distill-Qwen-7B",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "hello!"
}
]
}Contoh kode:
curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
"model": "DeepSeek-R1-Distill-Qwen-7B",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "hello!"
}
]
}' import requests
# Ganti dengan endpoint aktual Anda.
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions'
# Nilai Authorization pada header adalah token aktual Anda.
headers = {
"Content-Type": "application/json",
"Authorization": "*********5ZTM1ZDczg5OT**********",
}
# Susun permintaan layanan berdasarkan format data yang dibutuhkan oleh model tertentu.
data = {
"model": "DeepSeek-R1-Distill-Qwen-7B",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "hello!"
}
]
}
# Kirim permintaan.
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)Untuk informasi lebih lanjut tentang pemanggilan layanan Large Language Model (LLM), lihat LLM service invocation.
Skenario penerapan lainnya
Model yang diterapkan dari Model Gallery: Halaman Overview untuk model biasanya menyediakan contoh pemanggilan API, termasuk path URL lengkap dan format permintaan.
Perintah cURL
Parameter umum:
Parameter
Deskripsi
Contoh
-XMenentukan metode HTTP.
-X POST-HMenambahkan header permintaan.
-H "Content-Type: application/json"-dMenambahkan badan permintaan.
-d '{"key": "value"}'
Kode Python
Contoh berikut menggunakan model Qwen3-Reranker-8B untuk menunjukkan cara memanggil layanan dengan kode Python. Perhatikan bahwa URL dan badan permintaannya berbeda dari contoh cURL. Selalu ikuti petunjuk pada halaman Overview model.

Penerapan berbasis skenario:
Layanan yang diterapkan dengan processor generik (seperti TensorFlow, Caffe, dan PMML): Lihat Susun permintaan layanan berdasarkan processor generik.
Layanan kustom lainnya: Format permintaan ditentukan oleh format input data yang didefinisikan dalam custom image atau kode Anda.
Model yang dilatih sendiri: Metode pemanggilannya sama seperti model aslinya.
FAQ
Untuk masalah umum dan solusi terkait pemanggilan layanan, lihat Service Invocation FAQ.