全部产品
Search
文档中心

Alibaba Cloud Model Studio:Alur interaksi untuk Qwen-ASR-Realtime

更新时间:Jan 17, 2026

Layanan pengenalan ucapan real-time Qwen menggunakan protokol WebSocket untuk menerima dan mentranskripsikan aliran audio real-time. Layanan ini mendukung alur interaksi dalam mode Voice Activity Detection (VAD) dan mode Manual.

Panduan pengguna: Untuk ikhtisar model, fitur-fiturnya, serta contoh kode lengkap, lihat Pengenalan ucapan real-time – Qwen.

URL

Saat menyusun URL, ganti <model_name> dengan nama model yang diinginkan.

wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime?model=<model_name>

Headers

"Authorization": "bearer <your_dashscope_api_key>"

Mode VAD (default)

Server secara otomatis mendeteksi awal dan akhir ucapan untuk segmentasi kalimat. Klien terus-menerus mengirim aliran audio. Server mengembalikan hasil pengenalan akhir setelah mendeteksi akhir kalimat. Mode ini cocok untuk skenario seperti percakapan real-time dan notulen rapat.

Cara mengaktifkan: Konfigurasikan parameter session.turn_detection pada event <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#af43722339yva" id="f415df484bty2">session.update</a> klien.

image
  • Klien mengirimkan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#a42f8e9111n72" id="faa11a01363ph">input_audio_buffer.append</a> untuk menambahkan audio ke buffer.

  • Server akan mengembalikan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#038d846199nbm" id="e57999d7d75x2">input_audio_buffer.speech_started</a> saat mendeteksi ucapan.

    Catatan: Jika klien mengirim <a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#147ce70052d4z" id="1babff85a515w">session.finish</a> untuk mengakhiri sesi sebelum menerima event ini, server mengembalikan <a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="b9a7930666vod">session.finished</a>. Klien kemudian harus memutuskan koneksi.

  • Klien terus mengirimkan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#a42f8e9111n72" id="a47b01d18di96">input_audio_buffer.append</a>.

  • Setelah semua audio dikirim, klien mengirimkan <a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#147ce70052d4z" id="57965635e88ep">session.finish</a> ke server untuk mengakhiri sesi saat ini.

  • Ketika server mendeteksi akhir ucapan, server akan mengembalikan <a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#3d73b074cak7k" id="edfedfd2d7c5y">input_audio_buffer.speech_stopped</a>.

  • Server mengembalikan <a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#1108a3764an0e" id="2e078709572bg">input_audio_buffer.committed</a>.

  • Server mengembalikan <a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#04dabbb9b6eto" id="cdac132b56mr8">conversation.item.created</a>.

  • Server mengembalikan <a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#ba1b5cdd79fxu" id="88770cc04a474">conversation.item.input_audio_transcription.text</a>, yang berisi hasil pengenalan ucapan waktu nyata.

  • Server mengembalikan <a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#403ecacd74qqg" id="d106b3abdeftu">conversation.item.input_audio_transcription.completed</a>, yang berisi hasil akhir pengenalan ucapan.

  • Server mengembalikan <a baseurl="t3168243_v1_2_0.xdita" comment_68b92c1a-ed03-4214-a43a-1d0212b3e45d="comment" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="986942b054msw">session.finished</a> untuk memberi tahu klien bahwa proses pengenalan telah selesai. Klien kemudian harus memutuskan koneksi.

Manual mode

Klien mengontrol segmentasi kalimat dengan mengirimkan audio untuk kalimat lengkap dan kemudian mengirimkan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#d6d5cd90f3q4c" id="ce9546e267afs">input_audio_buffer.commit</a> ke server. Mode ini cocok untuk skenario di mana klien dapat menentukan batas kalimat dengan jelas, seperti mengirimkan pesan suara di aplikasi chat.

Cara mengaktifkan: Anda dapat mengatur parameter session.turn_detection ke null dalam event <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#af43722339yva" id="13e449c7a9dlh">session.update</a> klien.

image
  • Klien menambahkan audio ke buffer dengan mengirimkan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#a42f8e9111n72" id="d91c549aa2rfc">input_audio_buffer.append</a>.

  • Klien mengirimkan buffer audio input dengan mengirimkan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#d6d5cd90f3q4c" id="a89a2741dfg6s">input_audio_buffer.commit</a>. Pengiriman ini membuat item pesan pengguna baru dalam percakapan.

  • Klien mengirimkan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#147ce70052d4z" id="b94b1208d1nuq">session.finish</a> ke server untuk mengakhiri sesi saat ini.

  • Server mengembalikan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#1108a3764an0e" id="220a72ccb1c48">input_audio_buffer.committed</a>.

  • Server mengembalikan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#ba1b5cdd79fxu" id="6653f06dbb0xh">conversation.item.input_audio_transcription.text</a>, yang berisi hasil pengenalan ucapan waktu nyata.

  • Server mengembalikan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#403ecacd74qqg" id="94758316c0k7b">conversation.item.input_audio_transcription.completed</a>, yang berisi hasil akhir pengenalan ucapan.

  • Server mengembalikan <a baseurl="t3168243_v1_2_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="7de5158c54nil">session.finished</a> untuk memberi tahu klien bahwa proses pengenalan telah selesai. Klien kemudian harus memutuskan koneksi.