All Products
Search
Document Center

Alibaba Cloud Model Studio:Inferensi batch

Last Updated:Mar 26, 2026

Proses volume besar permintaan secara asinkron dengan biaya 50% dari inferensi real-time. Inferensi batch kompatibel dengan OpenAI dan ideal untuk evaluasi model, pelabelan data, serta beban kerja massal lainnya.

Alur kerja

Alur kerja:

  1. Kirimkan tugas: Unggah file yang berisi beberapa permintaan.

  2. Proses secara asinkron: Sistem memproses tugas dalam antrian latar belakang. Anda dapat memantau progres dan status tugas melalui Konsol atau API.

  3. Unduh hasil: Saat tugas selesai, sistem menghasilkan file hasil yang berisi respons sukses dan file error yang berisi detail kegagalan (jika ada).

Ketersediaan

Internasional

Dalam mode penyebaran internasional, baik titik akhir maupun penyimpanan data berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh wilayah global, tidak termasuk Tiongkok daratan.

Model yang didukung: qwen-max, qwen-plus, qwen-flash, qwen-turbo.

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, baik titik akhir maupun penyimpanan data berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model hanya tersedia di Tiongkok daratan.

Model yang didukung:

  • Model generasi teks: Versi stabil Qwen-Max, Plus, Flash, dan Long, serta beberapa versi latest. Seri QwQ (qwq-plus) dan beberapa model pihak ketiga (deepseek-r1, deepseek-v3) juga didukung.

  • Model multimodal: Versi stabil Qwen-VL-Max, Plus, dan Flash, ditambah beberapa versi latest. Model Qwen-OCR juga didukung.

  • Model text embedding: text-embedding-v4.

Nama model yang didukung

Penting
  • Beberapa model mendukung mode thinking. Saat diaktifkan, mode ini menghasilkan token thinking dan meningkatkan biaya.

  • Seri qwen3.5 (seperti qwen3.5-plus dan qwen3.5-flash) mengaktifkan mode thinking secara default. Saat menggunakan model hybrid-thinking, atur eksplisit parameter enable_thinking (true atau false).

Langkah penggunaan

Langkah 1: Siapkan file input

Sebelum membuat tugas, siapkan file yang memenuhi persyaratan berikut:

  • Format: JSONL berkode UTF-8 (satu objek JSON independen per baris).

  • Batas skala: Maksimal 50.000 permintaan per file, ukuran maksimum 500 MB.

    Pisahkan set data yang lebih besar menjadi tugas terpisah.
  • Batas per permintaan: Maksimal 6 MB per objek JSON, dalam batas jendela konteks model.

  • Konsistensi: Semua permintaan harus menggunakan model yang sama.

  • Identifier unik: Setiap permintaan harus menyertakan bidang custom_id unik dalam file. Identifier ini digunakan untuk mencocokkan permintaan dengan hasilnya.

File contoh

Anda dapat mengunduh file contoh test_model.jsonl.

{"custom_id":"1","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"Hello!"}]}}
{"custom_id":"2","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is 2+2?"}]}}

Alat pembuatan batch JSONL

Gunakan alat ini untuk menghasilkan file JSONL dengan cepat.

Alat pembuatan batch JSONL
Pilih mode:

Langkah 2: Kirim dan lihat hasil

(1) Buat tugas

  1. Pada halaman Batch inference, klik Create Batch.

  2. Dalam kotak dialog, masukkan Task Name dan Description, atur Maximum Waiting Time (1 hingga 14 hari), lalu unggah file JSONL Anda.

    Klik Download Sample File untuk mengunduh templat.

    image

  3. Jika sudah siap, klik Confirm.

Lihat dan kelola tugas

  • Lihat:

    • Pada halaman daftar tugas, lihat Progress (permintaan diproses/total) dan Status setiap tugas.

    • Cari berdasarkan nama atau ID tugas, atau filter berdasarkan ruang kerja untuk menemukan tugas tertentu dengan cepat.image

  • Kelola:

    • Batalkan: Batalkan tugas yang sedang Berjalan dari kolom Actions.

    • Pemecahan masalah: Untuk tugas yang gagal, arahkan kursor ke status untuk melihat ringkasan error dan unduh file error untuk informasi detail.image

Unduh dan analisis hasil

Saat tugas selesai, klik View Results untuk mengunduh file output:image

  • File hasil: Berisi semua permintaan sukses dan hasil response-nya.

  • File error (jika ada): Berisi semua permintaan gagal dan detail error-nya.

Kedua file menyertakan custom_id untuk mencocokkan hasil dengan permintaan input.

Langkah 3: Lihat statistik penggunaan (opsional)

Pada halaman Model Monitoring, filter dan lihat statistik penggunaan untuk inferensi batch.

  • Lihat ikhtisar data: Pilih Time (maksimal 30 hari) dan atur Inference Type ke Batches untuk menampilkan:

    • Data pemantauan: Statistik ringkasan untuk semua model dalam periode yang dipilih, termasuk total pemanggilan dan kegagalan.

    • Daftar model: Metrik detail untuk setiap model, termasuk total pemanggilan, laju kegagalan, dan durasi pemanggilan rata-rata.

    image

    Untuk melihat data inferensi yang lebih dari 30 hari, buka halaman Bills.
  • Lihat detail model: Di Models, klik Actions untuk model tertentu, lalu pilih Monitor untuk melihat Call Statistics seperti jumlah pemanggilan dan volume penggunaan.image

Penting
  • Data pemanggilan dicatat saat tugas selesai. Tugas yang sedang Berjalan tidak menampilkan data pemanggilan hingga selesai.

  • Data pemantauan memiliki keterlambatan 1 hingga 2 jam.

Referensi API

Gunakan API yang kompatibel dengan OpenAI untuk mengotomatiskan pembuatan dan pengelolaan tugas batch. Alur kerja inti:

  1. Unggah file

    Panggil POST /v1/files untuk mengunggah file Anda dan catat ID file yang dikembalikan.

  2. Buat tugas
    Panggil titik akhir POST /v1/batches dengan ID file dari unggahan untuk membuat tugas, lalu catat batch_id yang dikembalikan.

  3. Poll status
    Gunakan batch_id untuk melakukan polling ke titik akhir GET /v1/batches/{batch_id}. Saat bidang status berubah menjadi completed, catat output_file_id dan hentikan polling.

  4. Unduh hasil
    Gunakan output_file_id untuk memanggil titik akhir GET /v1/files/{output_file_id}/content guna mengunduh file hasil.

Untuk definisi dan contoh lengkap API Batch, lihat Kompatibel dengan OpenAI - Batch (input file).

Siklus hidup tugas

  • validating: Sistem sedang memverifikasi format file (JSONL) dan validitas permintaan.

  • in_progress: Sistem sedang memproses permintaan.

  • completed: File hasil dan error siap diunduh.

  • failed: Validasi gagal (format salah atau ukuran file melebihi batas). Tidak ada permintaan yang dieksekusi.

  • expired: Tugas melebihi waktu tunggu maksimum. Buat tugas baru dengan timeout lebih lama untuk mencoba ulang.

  • cancelled: Tugas dibatalkan secara manual. Permintaan yang belum dimulai dihentikan.

Penagihan

  • Harga satuan: Token input dan output untuk semua permintaan sukses dikenai biaya sebesar 50% dari harga inferensi real-time untuk model yang bersangkutan. Untuk informasi lebih lanjut, lihat Daftar model.

  • Cakupan penagihan:

    • Hanya permintaan yang berhasil dieksekusi dalam suatu tugas yang ditagih.

    • Permintaan yang gagal karena error parsing file, kegagalan eksekusi tugas, atau error tingkat baris tidak dikenai biaya.

    • Untuk tugas yang dibatalkan, permintaan yang berhasil diselesaikan sebelum pembatalan tetap ditagih secara normal.

Catatan
  • Inferensi batch merupakan item penagihan terpisah. Tidak memenuhi syarat untuk diskon, seperti subscription (Savings Plan) atau kuota gratis untuk pengguna baru. Fitur ini juga tidak mendukung fitur seperti context cache.

  • Beberapa model, seperti qwen3.5-plus dan qwen3.5-flash, memiliki mode thinking yang diaktifkan secara default. Mode ini menghasilkan token thinking tambahan yang ditagih dengan harga token output dan meningkatkan biaya. Untuk mengontrol biaya, atur parameter `enable_thinking` berdasarkan kompleksitas tugas. Untuk informasi lebih lanjut, lihat Deep thinking.

FAQ

  1. Apakah saya perlu membeli atau mengaktifkan sesuatu tambahan?

    Tidak diperlukan pengaturan tambahan. Aktifkan Studio Model dan bayar sesuai pemakaian.

  2. Mengapa tugas saya langsung gagal setelah dikirim (status berubah menjadi failed)?

    Hal ini biasanya menunjukkan error tingkat file. Tugas tidak menjalankan permintaan inferensi apa pun. Periksa hal berikut:

    • Format file: Pastikan menggunakan format JSONL ketat dengan satu objek JSON lengkap per baris.

    • Skala file: Pastikan ukuran file dan jumlah baris tidak melebihi batas. Untuk detailnya, lihat Siapkan file input.

    • Konsistensi model: Pastikan bidang body.model identik di semua permintaan dan model tersebut tersedia di wilayah Anda.

  3. Berapa lama waktu yang dibutuhkan untuk tugas batch?

    Waktu pemrosesan tergantung pada beban sistem. Tugas mungkin mengantri selama jam sibuk. Hasil dikembalikan dalam batas waktu yang ditentukan.

Kode error

Jika pemanggilan gagal dengan pesan error, lihat Pesan error.