Batch API dirancang untuk skenario yang tidak memerlukan respons real-time. API ini memproses volume besar permintaan data secara asinkron dengan biaya hanya 50% dari harga respons real-time dan kompatibel dengan OpenAI, sehingga ideal untuk pekerjaan batch seperti evaluasi dan pelabelan data berskala besar.
Alur kerja
Pemrosesan batch asinkron:
Kirim tugas: Unggah file yang berisi beberapa permintaan untuk membuat tugas batch.
Pemrosesan asinkron: Sistem memproses tugas dari antrian di latar belakang. Anda dapat memantau progres dan status tugas melalui Konsol atau menggunakan API.
Unduh hasilnya: Setelah tugas selesai, sistem menghasilkan file hasil berisi respons yang berhasil dan file error berisi detail kegagalan (jika ada).
Ketersediaan
Wilayah Beijing
Model yang didukung:
Model generasi teks: Versi stabil dan beberapa versi
latestQwen Max, Plus, Flash, dan Long. Juga mendukung seri QwQ (qwq-plus) serta model pihak ketiga seperti deepseek-r1 dan deepseek-v3.Model multimodal: Versi stabil dan beberapa versi
latestQwen VL Max, Plus, dan Flash. Juga mendukung model Qwen OCR.Model text embedding: Model text-embedding-v4.
Wilayah Singapura
Model yang didukung: qwen-max, qwen-plus, dan qwen-turbo.
Mulai
Langkah 1: Siapkan file batch Anda
Siapkan file .jsonl berkode UTF-8 yang memenuhi persyaratan berikut:
Format: Satu objek JSON per baris, masing-masing menggambarkan satu permintaan.
Batas ukuran: Maksimal 50.000 permintaan per file dan ukuran file tidak melebihi 500 MB.
Untuk file yang melebihi batas ini, pisahkan menjadi batch yang lebih kecil.
Batas baris: Setiap objek JSON maksimal 6 MB dan berada dalam jendela konteks model.
Konsistensi: Semua permintaan dalam satu file harus menargetkan titik akhir API (
url) yang sama dan menggunakan model yang sama (body.model).Identifier unik: Setiap permintaan memerlukan
custom_idyang unik dalam file tersebut, yang dapat digunakan untuk mereferensikan hasil setelah tugas selesai.
Contoh permintaan
Contoh berikut berisi 2 permintaan yang dikirim ke Qwen-Max:
{"custom_id":"1","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"Hello!"}]}}
{"custom_id":"2","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is 2+2?"}]}}Alat pembuatan batch JSONL
Gunakan alat ini untuk menghasilkan file JSONL dengan cepat. Untuk menghindari masalah kinerja, jangan memproses lebih dari 10.000 baris sekaligus. Jika volume datanya besar, proses data tersebut dalam batch.
Langkah 2: Buat batch
Buat dan kelola tugas batch melalui Konsol atau Batch API.
Konsol
(1) Buat batch
Pada halaman Batches, klik Create Batch Task.
Pada kotak dialog yang muncul, masukkan Task Name dan Task Description. Atur Maximum Waiting Time (1 hingga 14 hari) dan unggah file JSONL.
Klik Download Sample File untuk mendapatkan templat.

Klik Confirm.
(2) Lihat dan kelola batch
Lihat:
Halaman daftar tugas menampilkan Progress (permintaan yang diproses/jumlah total permintaan) dan Status setiap batch.
Untuk menemukan batch dengan cepat, cari berdasarkan nama atau ID tugas, atau filter berdasarkan ruang kerja.

Kelola:
Batalkan: Batalkan tugas dengan status `in_progress` pada kolom Actions.
Pemecahan masalah: Untuk tugas dengan status `failed`, arahkan kursor ke status tersebut untuk melihat ringkasan. Unduh file error untuk melihat detailnya.

(3) Unduh dan analisis hasilnya
Setelah tugas selesai, klik View Results untuk mengunduh file output:
File hasil: Berisi semua permintaan yang berhasil beserta hasil
response-nya.File error (jika ada): Berisi semua permintaan yang gagal beserta detail
error-nya.
Kedua file tersebut berisi bidang custom_id. Gunakan bidang ini untuk mencocokkan hasil dengan data masukan awal guna menghubungkan hasil atau menemukan kesalahan.
API
Untuk lingkungan produksi yang memerlukan otomatisasi dan integrasi, gunakan Batch API yang kompatibel dengan OpenAI. Alur kerja utama:
Create a batch
Panggil titik akhirPOST /v1/batchesuntuk membuat tugas dan catatbatch_idyang dikembalikan.Poll the status
Gunakanbatch_iduntuk menanyakan titik akhirGET /v1/batches/{batch_id}. Saat bidangstatusberubah menjadicompleted, catatoutput_file_idyang dikembalikan dan hentikan polling.Download the results
Gunakanoutput_file_iduntuk memanggil titik akhirGET /v1/files/{output_file_id}/contentguna mengunduh file hasil.
Untuk definisi API, parameter, dan contoh kode, lihat Referensi Batch API.
Langkah 3: Lihat statistik data (Opsional)
Pada halaman Model Observation, filter dan lihat statistik penggunaan untuk batch.
Lihat ikhtisar data: Pilih rentang Time (maksimal 30 hari). Atur Inference Type ke Batch Inference:
Data pemantauan: Statistik agregat untuk semua model dalam rentang waktu tersebut, seperti jumlah total panggilan dan total kegagalan.
Model: Data terperinci untuk tiap model, seperti jumlah total panggilan, laju kegagalan, dan durasi rata-rata panggilan.

Untuk melihat data inferensi yang berusia lebih dari 30 hari, buka halaman Bills.
Lihat detail model: Pada daftar Models, klik Monitor pada kolom Actions untuk model tertentu guna melihat detail Call Statistics-nya, seperti jumlah total panggilan dan penggunaan.

Data penggunaan batch dicatat berdasarkan waktu akhir tugas dan mungkin mengalami penundaan 1 hingga 2 jam. Tugas dengan status in_progress tidak tersedia hingga tugas tersebut selesai.
Data pemantauan memiliki penundaan 1 hingga 2 jam.
Status batch
validating: File batch sedang divalidasi terhadap spesifikasi JSONL dan persyaratan format API.
in_progress: File batch telah divalidasi dan sedang diproses.
completed: Batch telah selesai. File output dan error siap diunduh.
failed: Validasi file batch gagal. Biasanya disebabkan oleh kesalahan tingkat file, seperti format JSONL tidak valid atau ukuran file terlalu besar. Tidak ada permintaan yang diproses, dan tidak ada file output yang dihasilkan.
expired: Batch tidak dapat diselesaikan dalam waktu tunggu maksimum yang ditetapkan saat pembuatan. Tetapkan waktu tunggu yang lebih lama.
cancelled: Batch telah dibatalkan. Permintaan yang belum diproses dihentikan.
Penagihan
Harga satuan: Token input dan output untuk permintaan yang berhasil dikenai biaya sebesar 50% dari harga standar API sinkron untuk model tersebut. Detail harga: Model.
Cakupan:
Hanya permintaan yang berhasil dieksekusi dalam suatu tugas yang dikenai biaya.
Kegagalan parsing file, kegagalan eksekusi, atau kesalahan permintaan tingkat baris tidak dikenai biaya.
Untuk tugas yang dibatalkan, permintaan yang berhasil diselesaikan sebelum pembatalan tetap dikenai biaya.
Batch ditagih secara terpisah dan tidak mendukung rencana penghematan, kuota gratis pengguna baru, atau fitur seperti cache konteks.
FAQ
Apakah saya perlu membeli atau mengaktifkan sesuatu tambahan untuk menggunakan inferensi batch?
Tidak. Setelah Alibaba Cloud Model Studio diaktifkan, Anda dapat memanggil Batch API dengan API Key Anda. Penggunaan ditagih secara pay-as-you-go dan dipotong dari saldo akun Anda.
Mengapa tugas saya langsung gagal setelah dikirim (status berubah menjadi
failed)?Hal ini biasanya disebabkan oleh kesalahan tingkat file. Periksa hal berikut:
Format: File harus dalam format JSONL ketat, dengan satu objek JSON lengkap per baris.
Ukuran: Ukuran file dan jumlah baris tidak boleh melebihi batas yang tercantum di Langkah 1: Siapkan file batch Anda.
Konsistensi model:
body.modelharus identik untuk semua permintaan dalam file. Model dan wilayah harus mendukung batch.
Berapa lama waktu yang dibutuhkan untuk memproses suatu tugas?
Waktu pemrosesan bergantung pada beban sistem. Dalam kondisi beban berat, batch mungkin menunggu dalam antrian hingga sumber daya tersedia. Hasil akan dikembalikan dalam waktu tunggu maksimum yang Anda tetapkan, baik batch berhasil maupun gagal.
Kode error
Jika panggilan gagal dan mengembalikan pesan error, lihat Pesan error untuk solusinya.