All Products
Search
Document Center

Platform For AI:Panggil layanan melalui shared gateway (titik akhir publik/VPC)

Last Updated:Jun 25, 2026

Setelah layanan EAS diterapkan, sebuah shared gateway disediakan secara default. Anda dapat menggunakan gateway ini untuk memanggil layanan inferensi model yang telah diterapkan melalui titik akhir publik atau alamat VPC.

Penting

Kami menyarankan menggunakan shared gateway untuk lingkungan pengembangan dan pengujian. Untuk lingkungan produksi, gunakan dedicated gateway.

Pilih alamat pemanggilan

Setelah shared gateway diterapkan, dua jenis alamat pemanggilan disediakan secara default:

Alamat pemanggilan

Deskripsi

Kasus Penggunaan

public endpoint

Shared gateway EAS meneruskan permintaan ke layanan target. Metode ini cocok untuk lingkungan apa pun yang memiliki akses ke internet publik.

  • Memanggil dari luar Alibaba Cloud

  • Pengembangan dan pengujian lokal

VPC address

Cocok untuk skenario di mana aplikasi Anda dan layanan EAS diterapkan di wilayah yang sama.

Penting

Dibandingkan dengan pemanggilan melalui internet publik, pemanggilan melalui VPC menawarkan latensi lebih rendah karena menghindari beban jaringan publik dan lebih hemat biaya karena traffic dalam VPC biasanya gratis.

  • Memanggil dari dalam Alibaba Cloud (di wilayah yang sama dengan layanan EAS)

  • Membutuhkan latensi dan biaya lebih rendah

  • Mencegah layanan terpapar ke internet publik

Jika aplikasi Anda dan layanan EAS berada di wilayah berbeda, Anda tidak dapat menggunakan alamat VPC dari shared gateway untuk mengakses layanan tersebut, meskipun VPC-nya saling terhubung. Dalam kasus ini, Anda hanya dapat mengakses layanan dengan menggunakan alamat IP instans dan port-nya. Namun, karena alamat IP berubah saat layanan dimulai ulang atau diperbarui, kami menyarankan menggunakan dedicated gateway.

Panggil layanan

Langkah 1: Dapatkan titik akhir dan token

Setelah Anda menerapkan layanan, sistem secara otomatis menghasilkan titik akhir dan token otorisasi.

Penting

Konsol menyediakan titik akhir dasar. Saat menyusun URL permintaan lengkap, Anda harus menambahkan path API yang benar ke titik akhir dasar ini. Path yang salah merupakan penyebab paling umum dari error 404 Not Found.

  1. Pada tab Inference Service, klik nama layanan target untuk membuka halaman Overview.

  2. Pada bagian Basic Information, klik View Endpoint Information.

  3. Pada panel Invocation Method, salin titik akhir dan token:

    • Sesuaikan kebutuhan Anda, pilih public endpoint atau VPC address.

    • Contoh berikut menggunakan <EAS_ENDPOINT> sebagai placeholder untuk titik akhir dan <EAS_TOKEN> sebagai placeholder untuk token.

    image

Langkah 2: Susun dan kirim permintaan

Format permintaan sama, baik Anda menggunakan public endpoint maupun VPC address. Permintaan standar mencakup elemen-elemen berikut:

Elemen

Deskripsi

Metode

Metode paling umum adalah POST dan GET.

Path permintaan (URL)

Format: <EAS_ENDPOINT> + path API. Contoh: http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions

Otorisasi (Wajib)

Authorization: <EAS_TOKEN>, digunakan untuk autentikasi.

Content-Type

Content-Type: application/json, biasanya diperlukan untuk permintaan POST.

Request body

Spesifikasi API dari model yang diterapkan menentukan formatnya. Badan permintaan tidak boleh melebihi 1 MB saat dikirim melalui gateway.

Contoh pemanggilan

Contoh berikut menunjukkan cara memanggil layanan model DeepSeek-R1-Distill-Qwen-7B yang diterapkan dengan vLLM. Asumsikan bahwa <EAS_ENDPOINT> adalah http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test.

Request body:

{
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant."
    },
    {
        "role": "user",
        "content": "hello!"
    }
    ]
}

Contoh kode:

curl http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: *********5ZTM1ZDczg5OT**********" \
-X POST \
-d '{
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant."
    },
    {
        "role": "user",
        "content": "hello!"
    }
    ]
}' 
import requests

# Ganti dengan endpoint aktual Anda.
url = 'http://16********.cn-hangzhou.pai-eas.aliyuncs.com/api/predict/test/v1/chat/completions'
# Nilai Authorization pada header adalah token aktual Anda.
headers = {
    "Content-Type": "application/json",
    "Authorization": "*********5ZTM1ZDczg5OT**********",
}
# Susun permintaan layanan berdasarkan format data yang dibutuhkan oleh model tertentu.
data = {
    "model": "DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
    ]
}
# Kirim permintaan.
resp = requests.post(url, json=data, headers=headers)
print(resp)
print(resp.content)

Untuk informasi lebih lanjut tentang pemanggilan layanan Large Language Model (LLM), lihat LLM service invocation.

Skenario penerapan lainnya

  • Model yang diterapkan dari Model Gallery: Halaman Overview untuk model biasanya menyediakan contoh pemanggilan API, termasuk path URL lengkap dan format permintaan.

    Perintah cURL

    Parameter umum:

    Parameter

    Deskripsi

    Contoh

    -X

    Menentukan metode HTTP.

    -X POST

    -H

    Menambahkan header permintaan.

    -H "Content-Type: application/json"

    -d

    Menambahkan badan permintaan.

    -d '{"key": "value"}'

    image

    Kode Python

    Contoh berikut menggunakan model Qwen3-Reranker-8B untuk menunjukkan cara memanggil layanan dengan kode Python. Perhatikan bahwa URL dan badan permintaannya berbeda dari contoh cURL. Selalu ikuti petunjuk pada halaman Overview model.

    image

  • Penerapan berbasis skenario:

  • Layanan yang diterapkan dengan processor generik (seperti TensorFlow, Caffe, dan PMML): Lihat Susun permintaan layanan berdasarkan processor generik.

  • Layanan kustom lainnya: Format permintaan ditentukan oleh format input data yang didefinisikan dalam custom image atau kode Anda.

  • Model yang dilatih sendiri: Metode pemanggilannya sama seperti model aslinya.

FAQ

Untuk masalah umum dan solusi terkait pemanggilan layanan, lihat Service Invocation FAQ.