全部产品
Search
文档中心

Alibaba Cloud Model Studio:Inferensi batch

更新时间:Feb 04, 2026

Untuk skenario inferensi yang tidak memerlukan respons real-time, Anda dapat menggunakan Application Programming Interface (API) Batch untuk memproses volume besar permintaan data secara asinkron. Layanan ini kompatibel dengan OpenAI dan hanya dikenai biaya 50% dari harga inferensi real-time, sehingga ideal untuk pekerjaan batch seperti evaluasi model dan anotasi data.

Alur kerja

Alur kerja inferensi batch bersifat asinkron:

  1. Kirim tugas: Unggah file yang berisi beberapa permintaan untuk membuat tugas inferensi batch.

  2. Pemrosesan asinkron: Sistem memproses tugas dari antrian di latar belakang. Anda dapat menanyakan kemajuan dan status tugas melalui konsol atau menggunakan API.

  3. Unduh hasil: Setelah tugas selesai, sistem menghasilkan file hasil yang berisi respons sukses dan file error yang berisi detail kegagalan apa pun.

Cakupan

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model yang didukung:

  • Model generasi teks: Versi stabil dan beberapa versi latest dari Qwen-Max, Qwen-Plus, Qwen-Flash, dan Qwen-Long. Juga mendukung seri QwQ (qwq-plus) serta model pihak ketiga seperti deepseek-r1 dan deepseek-v3.

  • Model multimodal: Versi stabil dan beberapa versi latest dari Qwen-VL-Max, Qwen-VL-Plus, dan Qwen-VL-Flash. Juga Qwen-OCR.

  • Model text embedding: text-embedding-v4.

Daftar nama model yang didukung

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model yang didukung: qwen-max, qwen-plus, qwen-flash, dan qwen-turbo.

Cara menggunakan

Langkah 1: Siapkan file input

Sebelum membuat tugas inferensi batch, Anda harus menyiapkan file yang memenuhi persyaratan berikut:

  • Format: JSON Lines (JSONL) berkode UTF-8, dengan satu objek JSON independen per baris.

  • Batas ukuran: Satu file dapat berisi hingga 50.000 permintaan dan tidak boleh lebih besar dari 500 MB.

    Jika volume data Anda melebihi batas ini, Anda harus membagi data menjadi beberapa file dan mengirimkannya sebagai tugas terpisah.
  • Batas baris: Setiap objek JSON harus berukuran maksimal 6 MB dan tidak melebihi panjang konteks model.

  • Konsistensi: Semua permintaan dalam satu file harus menggunakan model yang sama.

  • Pengenal unik: Setiap permintaan harus menyertakan bidang `custom_id` yang unik dalam file tersebut. ID ini digunakan untuk mencocokkan hasil.

Contoh permintaan

{"custom_id":"1","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"Hello!"}]}}
{"custom_id":"2","method":"POST","url":"/v1/chat/completions","body":{"model":"qwen-max","messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is 2+2?"}]}}

Alat pembuat batch JSONL

Gunakan alat ini untuk menghasilkan file JSONL dengan cepat.

Alat pembuat batch JSONL
Pilih mode:

Langkah 2: Kirim dan lihat hasil

Anda dapat membuat dan mengelola tugas menggunakan konsol atau API.

Konsol

(1) Buat tugas inferensi batch

  1. Pada halaman Batch Inference, klik Create Batch Inference Task.

  2. Pada kotak dialog yang muncul, masukkan Task Name dan Description, atur Maximum Wait Time (1 hingga 14 hari), lalu unggah file JSONL tersebut.

    Anda dapat mengklik Download Sample File untuk mendapatkan templat.

    image

  3. Setelah menyelesaikan pengaturan, klik Confirm.

(2) Lihat dan kelola tugas

  • Lihat:

    • Pada halaman daftar tugas, Anda dapat melihat Progress (permintaan yang diproses/jumlah total permintaan) dan Status setiap tugas.

    • Untuk menemukan tugas dengan cepat, Anda dapat mencari berdasarkan nama atau ID tugas, atau memfilter berdasarkan ruang kerja.image

  • Kelola:

    • Batalkan: Anda dapat membatalkan tugas yang berstatus "in_progress" dari kolom Actions.

    • Pemecahan masalah: Untuk tugas dengan status "failed", Anda dapat mengarahkan kursor ke status tersebut untuk melihat ringkasan. Anda juga dapat mengunduh file error untuk melihat detailnya.image

(3) Unduh dan analisis hasil

Setelah tugas selesai, Anda dapat mengklik View Results untuk mengunduh file output:image

  • File hasil: Mencatat semua permintaan sukses beserta hasil response-nya.

  • File error (jika ada): Mencatat semua permintaan gagal beserta detail error-nya.

Kedua file tersebut berisi bidang custom_id. Anda dapat menggunakan bidang ini untuk mencocokkan output dengan data input asli guna menghubungkan hasil atau menemukan kesalahan.

API

Untuk lingkungan produksi yang memerlukan otomatisasi dan integrasi, Anda dapat menggunakan Batch API yang kompatibel dengan OpenAI. Alur kerja utamanya adalah sebagai berikut:

  1. Buat tugas
    Panggil titik akhir POST /v1/batches untuk membuat tugas dan catat batch_id yang dikembalikan.

  2. Poll status
    Gunakan batch_id untuk melakukan polling pada titik akhir GET /v1/batches/{batch_id}. Saat bidang status berubah menjadi completed, catat output_file_id yang dikembalikan dan hentikan polling.

  3. Unduh hasil
    Gunakan output_file_id untuk memanggil titik akhir GET /v1/files/{output_file_id}/content guna mengunduh file hasil.

Untuk definisi API lengkap, informasi parameter, dan contoh kode, lihat OpenAI-compatible Batch API.

Langkah 3: Lihat statistik data (opsional)

Pada halaman Model Monitoring, Anda dapat memfilter dan melihat statistik penggunaan untuk inferensi batch.

  • Lihat ikhtisar data: Anda dapat memilih Time Range (maksimal 30 hari) dan mengatur Inference Type ke Batch Inference untuk melihat informasi berikut:

    • Data pemantauan: Bagian ini menampilkan statistik ringkasan untuk semua model dalam periode waktu yang ditentukan, seperti jumlah total panggilan dan kegagalan.

    • Daftar model: Bagian ini mencantumkan data rinci untuk setiap model, seperti jumlah total panggilan, tingkat kegagalan, dan durasi panggilan rata-rata.

    image

    Untuk melihat data inferensi yang lebih dari 30 hari lalu, Anda dapat menuju halaman Bills.
  • Lihat detail model: Pada Model List, Anda dapat mengklik Monitoring di kolom Actions untuk model tertentu guna melihat detail Call Statistics-nya, seperti jumlah panggilan dan penggunaan.image

Penting
  • Data panggilan inferensi batch dicatat berdasarkan waktu selesai tugas. Untuk tugas yang sedang berlangsung, informasi panggilan baru tersedia setelah tugas selesai.

  • Data pemantauan mungkin mengalami keterlambatan 1 hingga 2 jam.

Siklus hidup

  • validating: Sistem sedang memvalidasi format file data yang diunggah sesuai spesifikasi JSONL dan memeriksa apakah setiap permintaan dalam file memenuhi persyaratan format API.

  • in_progress: File telah lolos validasi, dan sistem telah mulai memproses permintaan inferensi dalam file tersebut baris demi baris.

  • completed: File hasil dan error telah ditulis dan siap diunduh.

  • failed: Tugas gagal selama status `validating`. Kegagalan ini biasanya disebabkan oleh error tingkat file, seperti format JSONL tidak valid atau ukuran file terlalu besar. Dalam status ini, sistem tidak menjalankan permintaan inferensi apa pun, dan tidak ada file hasil yang dihasilkan.

  • expired: Tugas dihentikan oleh sistem karena waktu eksekusinya melebihi waktu tunggu maksimum yang ditetapkan saat tugas dibuat. Jika tugas gagal karena alasan ini, Anda dapat menetapkan waktu tunggu yang lebih lama saat membuat tugas baru.

  • cancelled: Tugas dibatalkan. Permintaan yang belum diproses dalam tugas tersebut dihentikan.

Penagihan

  • Harga satuan: Token input dan output untuk semua permintaan sukses ditagih sebesar 50% dari harga inferensi real-time untuk model yang sesuai. Untuk informasi lebih lanjut, lihat Model List.

  • Cakupan penagihan:

    • Hanya permintaan yang berhasil dieksekusi dalam tugas yang ditagih.

    • Kegagalan parsing file, kegagalan eksekusi tugas, atau error permintaan tingkat baris tidak dikenai biaya.

    • Untuk tugas yang dibatalkan, permintaan yang telah berhasil diselesaikan sebelum pembatalan tetap ditagih.

Penting

Inferensi batch merupakan item yang dapat ditagih secara terpisah. Fitur ini tidak mendukung diskon seperti subscription (rencana penghematan) dan kuota gratis pengguna baru, atau fitur seperti context cache.

FAQ

  1. Apakah saya perlu membeli atau mengaktifkan sesuatu tambahan untuk menggunakan inferensi batch?

    Tidak. Selama Alibaba Cloud Model Studio telah diaktifkan, Anda akan dikenai biaya berdasarkan skema pay-as-you-go. Biaya tersebut dipotong dari saldo akun Anda.

  2. Mengapa tugas saya gagal segera setelah dikirim (status berubah menjadi failed)?

    Kegagalan ini biasanya disebabkan oleh error tingkat file, dan tidak ada permintaan inferensi yang dimulai. Anda dapat memeriksa hal berikut:

    • Format file: Pastikan file dalam format JSONL ketat, dengan satu objek JSON lengkap per baris.

    • Ukuran file: Pastikan ukuran file dan jumlah baris tidak melebihi batas. Untuk informasi lebih lanjut, lihat Prepare the input file.

    • Konsistensi model: Periksa bahwa bidang body.model identik untuk semua permintaan dalam file dan bahwa model tersebut didukung di wilayah saat ini.

  3. Berapa lama waktu yang dibutuhkan untuk memproses tugas?

    Waktu pemrosesan bergantung pada beban sistem. Saat sistem sibuk, tugas mungkin masuk antrian menunggu sumber daya. Hasil, baik sukses maupun gagal, dikembalikan dalam waktu tunggu maksimum yang ditentukan.

    Kode error

    Jika panggilan gagal dan pesan error dikembalikan, lihat Error messages untuk solusinya.