全部产品
Search
文档中心

Platform For AI:Panggil layanan melalui Internet atau jaringan pribadi menggunakan gateway

更新时间:Mar 04, 2026

Elastic Algorithm Service (EAS) menyediakan Shared Gateway dan dedicated gateway untuk memanggil layanan inferensi model yang telah diterapkan. Anda dapat mengakses layanan tersebut melalui Internet atau jaringan pribadi. Prosesnya serupa untuk kedua metode tersebut—pilih jenis gateway dan metode akses yang paling sesuai dengan kebutuhan Anda.

Pilih jenis gateway

EAS menawarkan Shared Gateway dan dedicated gateway. Perbedaannya dijelaskan di bawah ini:

Perbandingan

Shared Gateway

Dedicated Gateway

Public Network Invocation

Didukung secara default

Didukung, tetapi harus diaktifkan terlebih dahulu

Private network access

Didukung secara default

Didukung, tetapi harus diaktifkan terlebih dahulu

Biaya

Gratis

Memerlukan pembayaran tambahan

Bandwidth

Shared

Dedicated

Skema penggunaan

Layanan di lingkungan staging dengan traffic rendah yang tidak memerlukan kebijakan akses kustom

Layanan dengan traffic tinggi yang memerlukan keamanan, stabilitas, dan performa tinggi

Metode konfigurasi

Konfigurasi default. Siap digunakan.

Harus dibuat terlebih dahulu, lalu dipilih saat deployment. Untuk informasi selengkapnya, lihat Use a dedicated gateway.

Rekomendasi:

  • Gunakan Shared Gateway untuk lingkungan pengembangan dan pengujian.

  • Gunakan dedicated gateway untuk lingkungan produksi.

Pilih metode akses

Internet endpoint

Gunakan metode ini jika lingkungan Anda memiliki akses Internet. Permintaan akan diteruskan ke layanan yang telah diterapkan melalui EAS Shared Gateway.

Skenario:

  • Memanggil layanan dari luar Alibaba Cloud

  • Pengembangan dan pengujian lokal

  • Integrasi dengan aplikasi eksternal

VPC address

Gunakan metode ini ketika aplikasi Anda dan layanan EAS diterapkan di Wilayah yang sama. Jaringan VPC dalam Wilayah yang sama dapat membuat koneksi VPC untuk komunikasi yang aman.

Skenario:

  • Aplikasi berjalan di Alibaba Cloud di Wilayah yang sama dengan layanan EAS.

  • Diperlukan latensi dan biaya lebih rendah.

  • Layanan tidak boleh diekspos ke Internet.

Penting

Dibandingkan dengan pemanggilan melalui Internet, pemanggilan dalam VPC lebih cepat karena menghindari overhead performa jaringan dari akses Internet. Metode ini juga lebih murah karena traffic jaringan pribadi biasanya gratis.

Cara memanggil layanan

Memanggil layanan EAS memerlukan tiga elemen utama:

  • Titik akhir layanan (service endpoint)

  • Token otorisasi

  • Permintaan yang disusun sesuai spesifikasi API model

Langkah 1: Dapatkan titik akhir dan token

Setelah Anda menerapkan layanan, sistem secara otomatis menghasilkan titik akhir dan token otorisasi.

Penting

Konsol menyediakan titik akhir dasar. Biasanya Anda perlu menambahkan path API yang benar untuk membentuk URL permintaan lengkap. Path yang salah merupakan penyebab paling umum dari error 404 Not Found.

  1. Pada tab Inference Service, klik nama layanan target untuk membuka halaman Overview.

  2. Pada bagian Basic Information, klik View Endpoint Information.

  3. Pada panel Invocation Method, salin titik akhir dan token:

    • Pilih Internet endpoint atau VPC endpoint sesuai kebutuhan.

    • Contoh berikut menggunakan <EAS_ENDPOINT> untuk titik akhir dan <EAS_TOKEN> untuk token.

    image

Langkah 2: Susun dan kirim permintaan

Format permintaan sama, baik Anda menggunakan Internet endpoint maupun VPC endpoint. Permintaan standar biasanya mencakup empat elemen inti berikut:

  • Metode: Metode paling umum adalah POST dan GET.

  • URL:

    • Format: <EAS_ENDPOINT> + path API

    • Contoh: http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test + /v1/chat/completion

  • Header:

    • Authorization: <EAS_TOKEN> (Diperlukan untuk otorisasi)

    • Content-Type: application/json (Biasanya diperlukan untuk permintaan POST)

  • Badan permintaan (Body): Formatnya, seperti JSON, bergantung pada spesifikasi API model yang diterapkan.

    Penting

    Saat memanggil melalui gateway, ukuran badan permintaan tidak boleh melebihi 1 MB.

Contoh pemanggilan

Untuk memanggil layanan model DeepSeek-R1-Distill-Qwen-7B yang diterapkan dengan vLLM, Anda memerlukan elemen-elemen berikut:

  • Metode: POST

  • Path permintaan: <EAS_ENDPOINT>/v1/chat/completions (API chat)

  • Headers:

    • Authorization: <Token>

    • Content-Type: application/json

  • Request body:

    {
        "model": "DeepSeek-R1-Distill-Qwen-7B",
        "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
        ]
    }

Contoh kode:

Asumsikan <EAS_ENDPOINT> adalah http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test.

curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant."
    },
    {
        "role": "user",
        "content": "hello!"
    }
    ]
}' 
import requests

# Ganti dengan endpoint aktual Anda.
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions'
# Nilai Authorization pada header adalah token aktual Anda.
headers = {
    "Content-Type": "application/json",
    "Authorization": "*********5ZTM1ZDczg5OT**********",
}
# Susun permintaan layanan berdasarkan format data yang dibutuhkan oleh model tertentu.
data = {
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
    ]
}
# Kirim permintaan.
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)

Untuk informasi selengkapnya tentang pemanggilan layanan Large Language Model (LLM), lihat LLM service invocation.

Skema penggunaan lainnya

  • Model yang diterapkan dari Model Gallery: Halaman Overview untuk model-model ini biasanya menyediakan contoh pemanggilan API, termasuk path URL lengkap dan format permintaan.

    Perintah cURL

    Sintaks dasar: curl [options] [URL]

    Parameter umum (opsi):

    • -X: Menentukan metode HTTP, seperti -X POST.

    • -H: Menambahkan header permintaan, seperti -H "Content-Type: application/json".

    • -d: Menambahkan badan permintaan, seperti -d '{"key": "value"}'.

    image

    Kode Python

    Kode Python berikut menggunakan model Qwen3-Reranker-8B sebagai contoh. Perhatikan bahwa URL dan badan permintaannya berbeda dari contoh perintah cURL. Pastikan untuk merujuk pada deskripsi model yang sesuai.

    image

  • Deployment berbasis skenario:

  • Layanan yang diterapkan menggunakan processor generik, termasuk TensorFlow, Caffe, dan PMML: Untuk informasi selengkapnya, lihat Construct a service request based on a generic processor.

  • Layanan kustom lainnya: Format permintaan ditentukan oleh format input data yang Anda definisikan dalam custom image atau kode Anda.

  • Model yang Anda latih sendiri: Metode pemanggilannya sama dengan model aslinya.

FAQ

Untuk pertanyaan umum dan solusi terkait pemanggilan layanan, lihat Service Invocation FAQ.