Elastic Algorithm Service (EAS) menyediakan Shared Gateway dan dedicated gateway untuk memanggil layanan inferensi model yang telah diterapkan. Anda dapat mengakses layanan tersebut melalui Internet atau jaringan pribadi. Prosesnya serupa untuk kedua metode tersebut—pilih jenis gateway dan metode akses yang paling sesuai dengan kebutuhan Anda.
Pilih jenis gateway
EAS menawarkan Shared Gateway dan dedicated gateway. Perbedaannya dijelaskan di bawah ini:
Perbandingan | Shared Gateway | Dedicated Gateway |
Public Network Invocation | Didukung secara default | Didukung, tetapi harus diaktifkan terlebih dahulu |
Private network access | Didukung secara default | Didukung, tetapi harus diaktifkan terlebih dahulu |
Biaya | Gratis | Memerlukan pembayaran tambahan |
Bandwidth | Shared | Dedicated |
Skema penggunaan | Layanan di lingkungan staging dengan traffic rendah yang tidak memerlukan kebijakan akses kustom | Layanan dengan traffic tinggi yang memerlukan keamanan, stabilitas, dan performa tinggi |
Metode konfigurasi | Konfigurasi default. Siap digunakan. | Harus dibuat terlebih dahulu, lalu dipilih saat deployment. Untuk informasi selengkapnya, lihat Use a dedicated gateway. |
Rekomendasi:
Gunakan Shared Gateway untuk lingkungan pengembangan dan pengujian.
Gunakan dedicated gateway untuk lingkungan produksi.
Pilih metode akses
Internet endpoint
Gunakan metode ini jika lingkungan Anda memiliki akses Internet. Permintaan akan diteruskan ke layanan yang telah diterapkan melalui EAS Shared Gateway.
Skenario:
Memanggil layanan dari luar Alibaba Cloud
Pengembangan dan pengujian lokal
Integrasi dengan aplikasi eksternal
VPC address
Gunakan metode ini ketika aplikasi Anda dan layanan EAS diterapkan di Wilayah yang sama. Jaringan VPC dalam Wilayah yang sama dapat membuat koneksi VPC untuk komunikasi yang aman.
Skenario:
Aplikasi berjalan di Alibaba Cloud di Wilayah yang sama dengan layanan EAS.
Diperlukan latensi dan biaya lebih rendah.
Layanan tidak boleh diekspos ke Internet.
Dibandingkan dengan pemanggilan melalui Internet, pemanggilan dalam VPC lebih cepat karena menghindari overhead performa jaringan dari akses Internet. Metode ini juga lebih murah karena traffic jaringan pribadi biasanya gratis.
Cara memanggil layanan
Memanggil layanan EAS memerlukan tiga elemen utama:
Titik akhir layanan (service endpoint)
Token otorisasi
Permintaan yang disusun sesuai spesifikasi API model
Langkah 1: Dapatkan titik akhir dan token
Setelah Anda menerapkan layanan, sistem secara otomatis menghasilkan titik akhir dan token otorisasi.
Konsol menyediakan titik akhir dasar. Biasanya Anda perlu menambahkan path API yang benar untuk membentuk URL permintaan lengkap. Path yang salah merupakan penyebab paling umum dari error 404 Not Found.
Pada tab Inference Service, klik nama layanan target untuk membuka halaman Overview.
Pada bagian Basic Information, klik View Endpoint Information.
Pada panel Invocation Method, salin titik akhir dan token:
Pilih Internet endpoint atau VPC endpoint sesuai kebutuhan.
Contoh berikut menggunakan <EAS_ENDPOINT> untuk titik akhir dan <EAS_TOKEN> untuk token.

Langkah 2: Susun dan kirim permintaan
Format permintaan sama, baik Anda menggunakan Internet endpoint maupun VPC endpoint. Permintaan standar biasanya mencakup empat elemen inti berikut:
Metode: Metode paling umum adalah POST dan GET.
URL:
Format: <EAS_ENDPOINT> + path API
Contoh:
http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test+/v1/chat/completion
Header:
Authorization: <EAS_TOKEN>(Diperlukan untuk otorisasi)Content-Type: application/json(Biasanya diperlukan untuk permintaan POST)
Badan permintaan (Body): Formatnya, seperti JSON, bergantung pada spesifikasi API model yang diterapkan.
PentingSaat memanggil melalui gateway, ukuran badan permintaan tidak boleh melebihi 1 MB.
Contoh pemanggilan
Untuk memanggil layanan model DeepSeek-R1-Distill-Qwen-7B yang diterapkan dengan vLLM, Anda memerlukan elemen-elemen berikut:
Metode: POST
Path permintaan: <EAS_ENDPOINT>/v1/chat/completions (API chat)
Headers:
Authorization: <Token>
Content-Type: application/json
Request body:
{ "model": "DeepSeek-R1-Distill-Qwen-7B", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "hello!" } ] }
Contoh kode:
Asumsikan <EAS_ENDPOINT> adalah http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test.
curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
"model": "DeepSeek-R1-Distill-Qwen-7B",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "hello!"
}
]
}' import requests
# Ganti dengan endpoint aktual Anda.
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions'
# Nilai Authorization pada header adalah token aktual Anda.
headers = {
"Content-Type": "application/json",
"Authorization": "*********5ZTM1ZDczg5OT**********",
}
# Susun permintaan layanan berdasarkan format data yang dibutuhkan oleh model tertentu.
data = {
"model": "DeepSeek-R1-Distill-Qwen-7B",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "hello!"
}
]
}
# Kirim permintaan.
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)Untuk informasi selengkapnya tentang pemanggilan layanan Large Language Model (LLM), lihat LLM service invocation.
Skema penggunaan lainnya
Model yang diterapkan dari Model Gallery: Halaman Overview untuk model-model ini biasanya menyediakan contoh pemanggilan API, termasuk path URL lengkap dan format permintaan.
Perintah cURL
Sintaks dasar:
curl [options] [URL]Parameter umum (opsi):
-X: Menentukan metode HTTP, seperti-X POST.-H: Menambahkan header permintaan, seperti-H "Content-Type: application/json".-d: Menambahkan badan permintaan, seperti-d '{"key": "value"}'.

Kode Python
Kode Python berikut menggunakan model Qwen3-Reranker-8B sebagai contoh. Perhatikan bahwa URL dan badan permintaannya berbeda dari contoh perintah cURL. Pastikan untuk merujuk pada deskripsi model yang sesuai.

Deployment berbasis skenario:
Layanan yang diterapkan menggunakan processor generik, termasuk TensorFlow, Caffe, dan PMML: Untuk informasi selengkapnya, lihat Construct a service request based on a generic processor.
Layanan kustom lainnya: Format permintaan ditentukan oleh format input data yang Anda definisikan dalam custom image atau kode Anda.
Model yang Anda latih sendiri: Metode pemanggilannya sama dengan model aslinya.
FAQ
Untuk pertanyaan umum dan solusi terkait pemanggilan layanan, lihat Service Invocation FAQ.