Dokumen ini menjelaskan event yang dikirim oleh client ke server selama sesi WebSocket dengan API Qwen-ASR Realtime.
Panduan pengguna: Untuk ikhtisar model, fitur-fiturnya, dan contoh kode lengkap, lihat Pengenalan ucapan real-time – Qwen.
session.update
Memperbarui konfigurasi sesi. Kirim event ini segera setelah koneksi WebSocket terbentuk. Jika tidak dikirim, sistem akan menggunakan konfigurasi default.
Setelah server berhasil memproses event ini, event <a baseurl="t3166998_v2_0_1.xdita" data-node="5877974" data-root="85177" data-tag="xref" href="t2996392.xdita#424ef2e774q9p" id="7cf3cacc9elyp">session.updated</a> akan dikirim sebagai konfirmasi.
| |
input_audio_buffer.append
Menambahkan blok data audio ke buffer input server. Ini merupakan event inti untuk streaming audio.
Perbedaan antar skenario:
Mode VAD: Buffer audio digunakan untuk deteksi aktivitas suara. Server secara otomatis menentukan kapan audio dikirim untuk pengenalan.
Mode non-VAD: Client dapat mengontrol jumlah data audio dalam setiap event. Ukuran maksimum bidang
audiodalam satu eventinput_audio_buffer.appendadalah 15 MiB. Streaming blok audio yang lebih kecil untuk respons yang lebih cepat.
Penting: Server tidak mengirim tanggapan konfirmasi apa pun untuk event input_audio_buffer.append.
| |
input_audio_buffer.commit
Dalam mode non-VAD, event ini secara manual memicu pengenalan. Event ini memberi tahu server bahwa client telah selesai mengirim ucapan lengkap. Server kemudian mengenali seluruh data audio dalam buffer saat ini sebagai satu kesatuan.
Nonaktif di: mode VAD.
Setelah pemrosesan berhasil, server mengirim event <a baseurl="t3166998_v2_0_1.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#1108a3764an0e" id="db12619007qx8">input_audio_buffer.committed</a> sebagai konfirmasi.
| |
session.finish
Mengakhiri sesi saat ini.
Alur respons server:
Jika ucapan terdeteksi: Setelah pengenalan ucapan akhir selesai, server mengirim event
<a baseurl="t3166998_v2_3_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#403ecacd74qqg" id="08b47ad71aid9">conversation.item.input_audio_transcription.completed</a>, yang berisi hasil pengenalan. Server kemudian mengirim event<a baseurl="t3166998_v2_3_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="5c32b2c857nkp">session.finished</a>untuk menandakan berakhirnya sesi.Jika tidak ada ucapan yang terdeteksi: Server langsung mengirim event
<a baseurl="t3166998_v2_3_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="9e19545606n7y">session.finished</a>.
Setelah menerima event <a baseurl="t3166998_v2_3_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="b7b837b1baejl">session.finished</a>, klien harus memutus koneksi.
| |