Layanan pengenalan ucapan real-time Qwen menggunakan protokol WebSocket untuk menerima dan mentranskripsikan aliran audio real-time. Layanan ini mendukung alur interaksi dalam mode Voice Activity Detection (VAD) dan mode Manual.
Panduan pengguna: Untuk ikhtisar model, fitur-fiturnya, serta contoh kode lengkap, lihat Pengenalan ucapan real-time – Qwen.
URL
Saat menyusun URL, ganti <model_name> dengan nama model yang diinginkan.
wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime?model=<model_name>Headers
"Authorization": "bearer <your_dashscope_api_key>"Mode VAD (default)
Server secara otomatis mendeteksi awal dan akhir ucapan untuk segmentasi kalimat. Klien terus-menerus mengirim aliran audio. Server mengembalikan hasil pengenalan akhir setelah mendeteksi akhir kalimat. Mode ini cocok untuk skenario seperti percakapan real-time dan notulen rapat.
Cara mengaktifkan: Konfigurasikan parameter session.turn_detection pada event <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#af43722339yva" id="f415df484bty2">session.update</a> klien.
Klien mengirimkan
<a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#a42f8e9111n72" id="faa11a01363ph">input_audio_buffer.append</a>untuk menambahkan audio ke buffer.Server akan mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#038d846199nbm" id="e57999d7d75x2">input_audio_buffer.speech_started</a>saat mendeteksi ucapan.Catatan: Jika klien mengirim
<a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#147ce70052d4z" id="1babff85a515w">session.finish</a>untuk mengakhiri sesi sebelum menerima event ini, server mengembalikan<a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="b9a7930666vod">session.finished</a>. Klien kemudian harus memutuskan koneksi.Klien terus mengirimkan
<a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#a42f8e9111n72" id="a47b01d18di96">input_audio_buffer.append</a>.Setelah semua audio dikirim, klien mengirimkan
<a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#147ce70052d4z" id="57965635e88ep">session.finish</a>ke server untuk mengakhiri sesi saat ini.Ketika server mendeteksi akhir ucapan, server akan mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#3d73b074cak7k" id="edfedfd2d7c5y">input_audio_buffer.speech_stopped</a>.Server mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#1108a3764an0e" id="2e078709572bg">input_audio_buffer.committed</a>.Server mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#04dabbb9b6eto" id="cdac132b56mr8">conversation.item.created</a>.Server mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#ba1b5cdd79fxu" id="88770cc04a474">conversation.item.input_audio_transcription.text</a>, yang berisi hasil pengenalan ucapan waktu nyata.Server mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#403ecacd74qqg" id="d106b3abdeftu">conversation.item.input_audio_transcription.completed</a>, yang berisi hasil akhir pengenalan ucapan.Server mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="986942b054msw">session.finished</a>untuk memberi tahu klien bahwa proses pengenalan telah selesai. Klien kemudian harus memutuskan koneksi.
Manual mode
Klien mengontrol segmentasi kalimat dengan mengirimkan audio untuk kalimat lengkap dan kemudian mengirimkan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#d6d5cd90f3q4c" id="ce9546e267afs">input_audio_buffer.commit</a> ke server. Mode ini cocok untuk skenario di mana klien dapat menentukan batas kalimat dengan jelas, seperti mengirimkan pesan suara di aplikasi chat.
Cara mengaktifkan: Anda dapat mengatur parameter session.turn_detection ke null dalam event <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#af43722339yva" id="13e449c7a9dlh">session.update</a> klien.
Klien menambahkan audio ke buffer dengan mengirimkan
<a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#a42f8e9111n72" id="d91c549aa2rfc">input_audio_buffer.append</a>.Klien mengirimkan buffer audio input dengan mengirimkan
<a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#d6d5cd90f3q4c" id="a89a2741dfg6s">input_audio_buffer.commit</a>. Pengiriman ini membuat item pesan pengguna baru dalam percakapan.Klien mengirimkan
<a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#147ce70052d4z" id="b94b1208d1nuq">session.finish</a>ke server untuk mengakhiri sesi saat ini.Server mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#1108a3764an0e" id="220a72ccb1c48">input_audio_buffer.committed</a>.Server mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#ba1b5cdd79fxu" id="6653f06dbb0xh">conversation.item.input_audio_transcription.text</a>, yang berisi hasil pengenalan ucapan waktu nyata.Server mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#403ecacd74qqg" id="94758316c0k7b">conversation.item.input_audio_transcription.completed</a>, yang berisi hasil akhir pengenalan ucapan.Server mengembalikan
<a baseurl="t3168243_v1_2_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="7de5158c54nil">session.finished</a>untuk memberi tahu klien bahwa proses pengenalan telah selesai. Klien kemudian harus memutuskan koneksi.