Topik ini menjelaskan peristiwa klien untuk API Qwen-Omni-Realtime.
Untuk informasi lebih lanjut, lihat Real-time multimodal.
session.update
Setelah membangun koneksi WebSocket, kirim peristiwa ini untuk memperbarui konfigurasi sesi default. Ketika layanan menerima peristiwa session.update, ia memvalidasi parameter. Jika parameter valid, layanan memperbarui sesi dan mengembalikan konfigurasi lengkap. Jika tidak, layanan mengembalikan kesalahan.
tipe string (Diperlukan) Tipe peristiwa. Selalu session.update. | {
"event_id": "event_ToPZqeobitzUJnt3QqtWg",
"type": "session.update",
"session": {
"modalities": [
"text",
"audio"
],
"voice": "Chelsie",
"input_audio_format": "pcm16",
"output_audio_format": "pcm24",
"instructions": "Anda adalah agen layanan pelanggan AI untuk hotel bintang lima. Harap jawab pertanyaan pelanggan tentang jenis kamar, fasilitas, harga, dan kebijakan reservasi dengan akurat dan dalam sikap yang ramah. Selalu tanggapi dengan sikap profesional dan membantu. Jangan berikan informasi yang belum dikonfirmasi atau informasi di luar cakupan layanan hotel.",
"turn_detection": {
"type": "server_vad",
"threshold": 0.5,
"silence_duration_ms": 800
}
}
}
|
sesi objek (Opsional) Konfigurasi sesi. Properti modalitas array (Opsional) Modalitas keluaran model. Nilai yang valid: suara string (Opsional) Suara untuk audio yang dihasilkan. Untuk daftar suara yang didukung, lihat Daftar Suara. Suara default: format_audio_masukan string (Opsional) Format audio masukan pengguna. Saat ini hanya mendukung pcm16. format_audio_keluaran string (Opsional) Format audio keluaran. Saat ini hanya mendukung pcm24. keluaran_halus boolean | null (Opsional) Parameter ini hanya berlaku untuk model Qwen3-Omni-Flash-Realtime. Menentukan apakah akan mengaktifkan gaya balasan percakapan. Nilai yang valid: true (Default): Balasan percakapan.
false: Balasan bergaya formal, tulisan.
Ini mungkin tidak bekerja dengan baik untuk konten yang sulit dibaca. null: Model secara otomatis memilih gaya balasan percakapan atau tulisan.
instruksi string (Opsional) Pesan sistem yang menetapkan tujuan atau peran untuk model. deteksi_giliran objek (Opsional) Konfigurasi deteksi aktivitas suara (VAD). Setel ini ke null untuk menonaktifkan VAD dan memicu balasan model secara manual. Jika parameter ini tidak diberikan, sistem mengaktifkan VAD dengan parameter default. Properti tipe string (Opsional) Tipe VAD sisi server. Selalu server_vad. Nilai defaultnya adalah server_vad. ambang batas float (Opsional) Tingkat sensitivitas VAD. Nilai yang lebih rendah membuat VAD lebih sensitif dan lebih mungkin mendeteksi suara lemah, termasuk kebisingan latar belakang, sebagai ucapan. Nilai yang lebih tinggi membuatnya kurang sensitif dan memerlukan ucapan yang lebih jelas dan keras untuk memicu deteksi. Nilainya berkisar dari [-1.0, 1.0]. Nilai defaultnya adalah 0.5. durasi_diam_ms integer (Opsional) Durasi minimum diam setelah ucapan berakhir untuk memicu balasan model. Nilai yang lebih rendah menghasilkan respons yang lebih cepat tetapi dapat menyebabkan model merespons salah selama jeda singkat dalam ucapan. Nilai defaultnya adalah 800. Parameter berkisar dari 200 hingga 6000. |
response.create
Peristiwa response.create menginstruksikan layanan untuk membuat respons model. Dalam mode VAD, layanan secara otomatis membuat respons model, sehingga Anda tidak perlu mengirim peristiwa ini.
Layanan merespons dengan peristiwa response.created, satu atau lebih item dan peristiwa konten (seperti conversation.item.created dan response.content_part.added), dan akhirnya peristiwa response.done untuk menunjukkan bahwa respons telah selesai.
tipe string (Diperlukan) Tipe peristiwa. Selalu response.create. | {
"type": "response.create",
"event_id": "event_1718624400000"
}
|
response.cancel
Klien mengirim peristiwa ini untuk membatalkan respons yang sedang berlangsung. Jika tidak ada respons yang dapat dibatalkan, layanan merespons dengan peristiwa kesalahan.
tipe string (Diperlukan) Tipe peristiwa. Selalu response.cancel. | {
"event_id": "event_B4o9RHSTWobB5OQdEHLTo",
"type": "response.cancel"
}
|
input_audio_buffer.append
Menambahkan byte audio ke buffer audio masukan.
tipe string (Diperlukan) Tipe peristiwa. Selalu input_audio_buffer.append. | {
"event_id": "event_B4o9RHSTWobB5OQdEHLTo",
"type": "input_audio_buffer.append",
"audio": "UklGR..."
}
|
audio string (Diperlukan) Data audio yang dienkripsi Base64. |
input_audio_buffer.commit
Mengirimkan buffer audio masukan pengguna untuk membuat item pesan pengguna baru dalam percakapan. Jika buffer audio masukan kosong, layanan mengembalikan peristiwa kesalahan.
Mengirimkan buffer audio masukan tidak menciptakan respons dari model. Layanan merespons dengan peristiwa input_audio_buffer.committed.
Jika klien telah mengirim peristiwa input_image_buffer.append, peristiwa input_audio_buffer.commit mengirimkan buffer gambar bersama dengan buffer audio.
tipe string (Diperlukan) Tipe peristiwa. Selalu input_audio_buffer.commit. | {
"event_id": "event_B4o9RHSTWobB5OQdEHLTo",
"type": "input_audio_buffer.commit"
}
|
input_audio_buffer.clear
Menghapus byte audio dari buffer. Layanan merespons dengan peristiwa input_audio_buffer.cleared.
tipe string (Diperlukan) Tipe peristiwa. Selalu input_audio_buffer.clear. | {
"event_id": "event_xxx",
"type": "input_audio_buffer.clear"
}
|
input_image_buffer.append
Menambahkan data gambar ke buffer gambar. Gambar bisa berasal dari file lokal atau ditangkap secara real-time dari aliran video.
Batasan berikut berlaku untuk input gambar:
Format gambar harus JPG atau JPEG. Direkomendasikan: 480p atau 720p. Maksimum: 1080p.
Ukuran satu gambar tidak boleh melebihi 500 KB sebelum enkode Base64.
Data gambar harus dikodekan Base64.
Kirim gambar ke layanan dengan frekuensi maksimum 2 gambar per detik.
Sebelum Anda mengirim peristiwa input_image_buffer.append, Anda harus mengirim setidaknya satu peristiwa input_audio_buffer.append.
Buffer gambar dikirimkan bersama dengan buffer audio melalui peristiwa input_audio_buffer.commit.
tipe string (Diperlukan) Tipe peristiwa. Selalu input_image_buffer.append. | {
"event_id": "event_xxx",
"type": "input_image_buffer.append",
"image": "xxx"
}
|
gambar string (Diperlukan) Data gambar yang dienkripsi Base64. |