AI Fallback | Konfigurasi Model Cadangan untuk AI Gateway - API Gateway

Ketika layanan model untuk Model API gagal akibat error atau beban tinggi, AI Fallback mengarahkan permintaan ke model cadangan untuk menjaga ketersediaan.

Apa Itu AI Fallback

AI Fallback beralih ke model cadangan ketika model utama tidak tersedia, sehingga meningkatkan ketersediaan dan mencegah kegagalan permintaan.

Konfigurasi yang tepat secara signifikan meningkatkan tingkat keberhasilan permintaan AI.

Anda dapat mengonfigurasi satu atau beberapa model cadangan. Jika model utama tidak tersedia, gerbang memanggil model cadangan secara berurutan dan mengembalikan respons pertama yang berhasil.

Setiap model cadangan memiliki parameter berikut:

Service name: Layanan model cadangan. Pilih dari layanan yang tersedia pada instans.
Model name: Gunakan pass-through atau tentukan model tertentu, seperti Qwen-plus.

Trigger conditions

AI Fallback dipicu ketika layanan model mengembalikan kode status HTTP 4xx atau 5xx.

Prasyarat

Sebuah gateway instance telah dibuat.
Sebuah service telah dibuat.

Konfigurasi AI Fallback

Masuk ke AI Gateway console dan pilih Instance. Di bilah menu atas, pilih Wilayah, lalu klik ID instans target.

Di panel navigasi sebelah kiri, klik Model API. Aktifkan Fallback saat membuat atau mengedit Model API.

Create a Model API: Klik Create API dan aktifkan Fallback di halaman konfigurasi Model API.
Edit a Model API: Di kolom Actions untuk API target, klik Edit. Di halaman konfigurasi Model API, aktifkan Fallback.

Parameter		Deskripsi
Fallback		Mengaktifkan layanan fallback. Gerbang memanggil layanan ini sesuai urutan prioritas menurun. Catatan Anda dapat menggunakan kembali layanan yang sama untuk beberapa kebijakan fallback.
Fallback on backend service errors only		Jika diaktifkan, fallback hanya dipicu oleh error layanan backend. Jika dinonaktifkan, fallback juga dipicu oleh permintaan yang dibatasi laju (rate-limited) atau dicegat (intercepted).
Fallback List		Pilih layanan fallback.
		Default-nya adalah pass-through, yang meneruskan nama model dari permintaan asli ke layanan cadangan.
First packet timeout		Timeout dalam milidetik untuk paket pertama dari respons streaming. Hanya berlaku untuk respons streaming. Atur ke 0 untuk menonaktifkan. Jika diatur ke nilai bukan nol, gerbang akan melakukan fallback jika tidak ada respons yang tiba dalam periode ini.