Ringkasan event client Qwen-Omni-Realtime API - Model Studio

Topik ini menjelaskan peristiwa klien untuk API Qwen-Omni-Realtime.

Untuk informasi lebih lanjut, lihat Real-time multimodal.

session.update

Setelah membangun koneksi WebSocket, kirim peristiwa ini untuk memperbarui konfigurasi sesi default. Ketika layanan menerima peristiwa session.update, ia memvalidasi parameter. Jika parameter valid, layanan memperbarui sesi dan mengembalikan konfigurasi lengkap. Jika tidak, layanan mengembalikan kesalahan.

tipe string (Diperlukan)

Tipe peristiwa. Selalu session.update.

{
    "event_id": "event_ToPZqeobitzUJnt3QqtWg",
    "type": "session.update",
    "session": {
        "modalities": [
            "text",
            "audio"
        ],
        "voice": "Chelsie",
        "input_audio_format": "pcm16",
        "output_audio_format": "pcm24",
        "instructions": "Anda adalah agen layanan pelanggan AI untuk hotel bintang lima. Harap jawab pertanyaan pelanggan tentang jenis kamar, fasilitas, harga, dan kebijakan reservasi dengan akurat dan dalam sikap yang ramah. Selalu tanggapi dengan sikap profesional dan membantu. Jangan berikan informasi yang belum dikonfirmasi atau informasi di luar cakupan layanan hotel.",
        "turn_detection": {
            "type": "server_vad",
            "threshold": 0.5,
            "silence_duration_ms": 800
        }
    }
}

sesi objek (Opsional)

Konfigurasi sesi.

Properti

modalitas array (Opsional)

Modalitas keluaran model. Nilai yang valid:

["text"]
Hanya mengeluarkan teks.
["text","audio"] (Default)
Mengeluarkan teks dan audio.

suara string (Opsional)

Suara untuk audio yang dihasilkan. Untuk daftar suara yang didukung, lihat Daftar Suara.

Suara default:

Qwen3-Omni-Flash-Realtime: Cherry
Qwen-Omni-Turbo-Realtime: Chelsie

format_audio_masukan string (Opsional)

Format audio masukan pengguna. Saat ini hanya mendukung pcm16.

format_audio_keluaran string (Opsional)

Format audio keluaran. Saat ini hanya mendukung pcm24.

keluaran_halus boolean | null (Opsional)

Parameter ini hanya berlaku untuk model Qwen3-Omni-Flash-Realtime.

Menentukan apakah akan mengaktifkan gaya balasan percakapan. Nilai yang valid:

true (Default): Balasan percakapan.
false: Balasan bergaya formal, tulisan.
Ini mungkin tidak bekerja dengan baik untuk konten yang sulit dibaca.
null: Model secara otomatis memilih gaya balasan percakapan atau tulisan.

instruksi string (Opsional)

Pesan sistem yang menetapkan tujuan atau peran untuk model.

deteksi_giliran objek (Opsional)

Konfigurasi deteksi aktivitas suara (VAD). Setel ini ke null untuk menonaktifkan VAD dan memicu balasan model secara manual. Jika parameter ini tidak diberikan, sistem mengaktifkan VAD dengan parameter default.

Properti

tipe string (Opsional)

Tipe VAD sisi server. Selalu server_vad. Nilai defaultnya adalah server_vad.

ambang batas float (Opsional)

Tingkat sensitivitas VAD. Nilai yang lebih rendah membuat VAD lebih sensitif dan lebih mungkin mendeteksi suara lemah, termasuk kebisingan latar belakang, sebagai ucapan. Nilai yang lebih tinggi membuatnya kurang sensitif dan memerlukan ucapan yang lebih jelas dan keras untuk memicu deteksi.

Nilainya berkisar dari [-1.0, 1.0]. Nilai defaultnya adalah 0.5.

durasi_diam_ms integer (Opsional)

Durasi minimum diam setelah ucapan berakhir untuk memicu balasan model. Nilai yang lebih rendah menghasilkan respons yang lebih cepat tetapi dapat menyebabkan model merespons salah selama jeda singkat dalam ucapan.

Nilai defaultnya adalah 800. Parameter berkisar dari 200 hingga 6000.

response.create

Peristiwa response.create menginstruksikan layanan untuk membuat respons model. Dalam mode VAD, layanan secara otomatis membuat respons model, sehingga Anda tidak perlu mengirim peristiwa ini.

Layanan merespons dengan peristiwa response.created, satu atau lebih item dan peristiwa konten (seperti conversation.item.created dan response.content_part.added), dan akhirnya peristiwa response.done untuk menunjukkan bahwa respons telah selesai.

tipe string (Diperlukan)

Tipe peristiwa. Selalu response.create.

{
    "type": "response.create",
    "event_id": "event_1718624400000"
}

response.cancel

Klien mengirim peristiwa ini untuk membatalkan respons yang sedang berlangsung. Jika tidak ada respons yang dapat dibatalkan, layanan merespons dengan peristiwa kesalahan.

tipe string (Diperlukan)

Tipe peristiwa. Selalu response.cancel.

{
    "event_id": "event_B4o9RHSTWobB5OQdEHLTo",
    "type": "response.cancel"
}

input_audio_buffer.append

Menambahkan byte audio ke buffer audio masukan.

tipe string (Diperlukan)

Tipe peristiwa. Selalu input_audio_buffer.append.

{
    "event_id": "event_B4o9RHSTWobB5OQdEHLTo",
    "type": "input_audio_buffer.append",
    "audio": "UklGR..."
}

audio string (Diperlukan)

Data audio yang dienkripsi Base64.

input_audio_buffer.commit

Mengirimkan buffer audio masukan pengguna untuk membuat item pesan pengguna baru dalam percakapan. Jika buffer audio masukan kosong, layanan mengembalikan peristiwa kesalahan.

Mode VAD: Klien tidak perlu mengirim peristiwa ini. Layanan secara otomatis mengirimkan buffer audio.
Mode Manual: Klien harus mengirimkan buffer audio untuk membuat item pesan pengguna.

Mengirimkan buffer audio masukan tidak menciptakan respons dari model. Layanan merespons dengan peristiwa input_audio_buffer.committed.

Jika klien telah mengirim peristiwa input_image_buffer.append, peristiwa input_audio_buffer.commit mengirimkan buffer gambar bersama dengan buffer audio.

tipe string (Diperlukan)

Tipe peristiwa. Selalu input_audio_buffer.commit.

{
    "event_id": "event_B4o9RHSTWobB5OQdEHLTo",
    "type": "input_audio_buffer.commit"
}

input_audio_buffer.clear

Menghapus byte audio dari buffer. Layanan merespons dengan peristiwa input_audio_buffer.cleared.

tipe string (Diperlukan)

Tipe peristiwa. Selalu input_audio_buffer.clear.

{
    "event_id": "event_xxx",
    "type": "input_audio_buffer.clear"
}

input_image_buffer.append

Menambahkan data gambar ke buffer gambar. Gambar bisa berasal dari file lokal atau ditangkap secara real-time dari aliran video.

Batasan berikut berlaku untuk input gambar:

Format gambar harus JPG atau JPEG. Direkomendasikan: 480p atau 720p. Maksimum: 1080p.
Ukuran satu gambar tidak boleh melebihi 500 KB sebelum enkode Base64.
Data gambar harus dikodekan Base64.
Kirim gambar ke layanan dengan frekuensi maksimum 2 gambar per detik.
Sebelum Anda mengirim peristiwa input_image_buffer.append, Anda harus mengirim setidaknya satu peristiwa input_audio_buffer.append.

Buffer gambar dikirimkan bersama dengan buffer audio melalui peristiwa input_audio_buffer.commit.

tipe string (Diperlukan)

Tipe peristiwa. Selalu input_image_buffer.append.

{
    "event_id": "event_xxx",
    "type": "input_image_buffer.append",
    "image": "xxx"
}

gambar string (Diperlukan)

Data gambar yang dienkripsi Base64.