Server-side events WebSocket di Qwen-ASR-Realtime Dijelaskan - Model Studio

Topik ini menjelaskan event yang dikirim server ke klien selama sesi WebSocket dengan API Qwen-ASR-Realtime.

Panduan pengguna: Untuk ikhtisar model, fitur-fiturnya, dan contoh kode lengkap, lihat Pengenalan ucapan real-time – Qwen.

error

Event ini dikirim ke klien ketika server mendeteksi suatu error, baik dari sisi klien maupun server.

Parameter	Type	Description
type	string	Jenis event. Nilainya tetap `error`.
event_id	string	ID event.
error.type	string	Jenis error.
error.code	string	Kode kesalahan.
error.message	string	Pesan kesalahan spesifik. Untuk solusi, lihat Pesan kesalahan.
error.param	string	Parameter yang terkait dengan kesalahan tersebut.
error.event_id	string	ID event yang terkait dengan kesalahan tersebut.

{
  "event_id": "event_B2uoU7VOt1AAITsPRPH9n",
  "type": "error",
  "error": {
    "type": "invalid_request_error",
    "code": "invalid_value",
    "message": "Invalid value: 'whisper-1xx'. Supported values are: 'whisper-1'.",
    "param": "session.input_audio_transcription.model",
    "event_id": "event_123"
  }
}

session.created

Ini adalah event pertama yang dikirim server setelah klien berhasil terhubung. Event ini berisi konfigurasi default yang ditetapkan server untuk sesi tersebut.

Parameter	Type	Description
type	string	Jenis event. Nilainya tetap `session.created`.
event_id	string	ID event.
session.id	string	ID sesi WebSocket saat ini.
session.object	string	Nilainya tetap `realtime.session`.
session.model	string	Nama model.
session.modalities	array[string]	Modalitas output model. Nilainya tetap `["text"]`.
session.input_audio_format	string	Format audio input.
session.input_audio_transcription	object	Parameter konfigurasi untuk pengenalan ucapan. Untuk informasi selengkapnya, lihat parameter `input_audio_transcription` pada event session.update dari client.
session.turn_detection	object	Konfigurasi Voice Activity Detection (VAD).
session.turn_detection.type	string	Nilainya tetap `server_vad`.
session.turn_detection.threshold	float	Ambang batas deteksi VAD.
session.turn_detection.silence_duration_ms	integer	Durasi jeda yang digunakan sebagai ambang deteksi VAD, dalam milidetik (ms).

{
    "event_id": "event_1234",
    "type": "session.created",
    "session": {
        "id": "sess_001",
        "object": "realtime.session",
        "model": "qwen3-asr-flash-realtime",
        "modalities": ["text"],
        "input_audio_format": "pcm16",
        "input_audio_transcription": null,
        "turn_detection": {
            "type": "server_vad",
            "threshold": 0.5,
            "silence_duration_ms": 200
        }
    }
}

session.updated

Server mengirim event ini setelah berhasil memproses event session.update dari klien. Jika terjadi error selama pemrosesan, server akan mengirim event error sebagai gantinya.

Parameter	Type	Description
type	string	Jenis event. Nilainya adalah `session.updated`.

Untuk deskripsi parameter lainnya, lihat session.created.

{
    "event_id": "event_1234",
    "type": "session.updated",
    "session": {
        "id": "sess_001",
        "object": "realtime.session",
        "model": "gpt-4o-realtime-preview-2024-12-17",
        "modalities": ["text"],
        "input_audio_format": "pcm16",
        "input_audio_transcription": null,
        "turn_detection": {
            "type": "server_vad",
            "threshold": 0.5,
            "silence_duration_ms": 200
        }
    }
}

input_audio_buffer.speech_started

Event ini hanya dikirim dalam mode VAD. Server mengirimnya ketika mendeteksi awal ucapan dalam buffer audio.

Event ini dapat terjadi setiap kali audio ditambahkan ke buffer, kecuali jika awal ucapan telah terdeteksi sebelumnya.

Parameter	Type	Description
type	string	Jenis event. Nilainya tetap `input_audio_buffer.speech_started`.
event_id	string	ID event.
audio_start_ms	integer	Waktu dalam milidetik sejak audio mulai ditulis ke buffer hingga ucapan pertama kali terdeteksi selama sesi.
item_id	string	ID item pesan pengguna yang akan dibuat.

{
  "event_id": "event_B1lV7FPbgTv9qGxPI1tH4",
  "type": "input_audio_buffer.speech_started",
  "audio_start_ms": 64,
  "item_id": "item_B1lV7jWLscp4mMV8hSs8c"
}

input_audio_buffer.speech_stopped

Event ini hanya dikirim dalam mode VAD. Server mengirimnya ketika mendeteksi akhir ucapan dalam buffer audio.

Setelah event ini dipicu, server segera mengirim event conversation.item.created, yang berisi item pesan pengguna yang dibuat dari buffer audio.

Parameter	Type	Description
type	string	Jenis event. Nilainya tetap `input_audio_buffer.speech_stopped`.
event_id	string	ID event.
audio_end_ms	integer	Waktu yang berlalu dalam milidetik sejak awal sesi hingga ucapan berhenti.
item_id	string	ID item pesan pengguna yang dibuat saat ucapan berhenti.

{
  "event_id": "event_B3GGEYh2orwNIdhUagZPz",
  "type": "input_audio_buffer.speech_stopped",
  "audio_end_ms": 28128,
  "item_id": "item_B3GGE8ry4yqbqJGzrVhEM"
}

input_audio_buffer.committed

Mode VAD: Server mengirim event ini setelah klien selesai mengirim data audio menggunakan event input_audio_buffer.append.
Mode manual: Server mengirim event ini setelah klien selesai mengirim data audio menggunakan event input_audio_buffer.append dan kemudian mengirim event input_audio_buffer.commit.

Parameter	Type	Description
type	string	Jenis event. Nilainya tetap `input_audio_buffer.committed`.
event_id	string	ID event.
previous_item_id	string	ID item percakapan sebelumnya.
item_id	string	ID item percakapan pengguna yang akan dibuat.

{
    "event_id": "event_1121",
    "type": "input_audio_buffer.committed",
    "previous_item_id": "msg_001",
    "item_id": "msg_002"
}

conversation.item.created

Server mengirim event ini ketika sebuah item percakapan baru dibuat.

Parameter	Type	Description
type	string	Jenis event. Nilainya tetap `conversation.item.created`.
event_id	string	ID event.
previous_item_id	string	ID item percakapan sebelumnya.
item	object	Item yang akan ditambahkan ke percakapan.
item.id	string	ID unik item percakapan.
item.object	string	Nilainya tetap `realtime.item`.
item.type	string	Nilainya tetap `message`.
item.status	string	Status item percakapan.
item.role	string	Peran pengirim pesan.
item.content	array[object]	Konten pesan.
item.content.type	string	Nilainya tetap `input_audio`.
item.content.transcript	string	Nilainya tetap `null`. Hasil pengenalan lengkap disediakan dalam event conversation.item.input_audio_transcription.completed.

{
  "type": "conversation.item.created",
  "event_id": "event_B3GGKbCfBZTpqFHZ0P8vg",
  "previous_item_id": "item_B3GGE8ry4yqbqJGzrVhEM",
  "item": {
    "id": "item_B3GGEPlolCqdMiVbYIf5L",
    "object": "realtime.item",
    "type": "message",
    "status": "completed",
    "role": "user",
    "content": [
      {
        "type": "input_audio",
        "transcript": null
      }
    ]
  }
}

conversation.item.input_audio_transcription.text

Event ini dikirim secara berkala untuk memberikan hasil pengenalan secara real-time.

Parameter	Type	Description
type	string	Jenis event. Nilainya tetap `conversation.item.input_audio_transcription.text`.
event_id	string	ID event.
item_id	string	ID item percakapan terkait.
content_index	integer	Indeks bagian konten yang berisi audio.
language	string	Bahasa audio yang dikenali. Jika bahasa ditentukan dalam parameter permintaan `language`, nilai ini akan sesuai dengan bahasa yang ditentukan. Nilai yang mungkin: zh: Tiongkok (Mandarin, Sichuan, Minnan, dan Wu) yue: Kanton en: Inggris ja: Jepang de: Jerman ko: Korea ru: Rusia fr: Prancis pt: Portugis ar: Arab it: Italia es: Spanyol hi: Hindi id: Bahasa Indonesia th: Bahasa Thai tr: Turki uk: Ukraina vi: Bahasa Vietnam
emotion	string	Emosi yang terdeteksi dalam audio. Emosi berikut didukung: `surprised` `neutral` `happy` `sad` `disgusted` `angry` `fearful`
text	string	Awalan teks yang telah dikonfirmasi. Ini adalah bagian dari kalimat saat ini yang telah dikonfirmasi oleh model dan tidak akan berubah.
stash	string	Akhiran teks yang telah dikenali sebagian. Ini adalah draf sementara yang mengikuti bagian yang telah dikonfirmasi. Model masih memproses draf ini dan mungkin melakukan koreksi.

{
  "event_id": "event_R7Pfu8QVBfP5HmpcbEFSd",
  "type": "conversation.item.input_audio_transcription.text",
  "item_id": "item_MpJQPNQzqVRc9aC9zMwSj",
  "content_index": 0,
  "language": "en",
  "emotion": "neutral",
  "text": "",
  "stash": "Beijing's"
}

Kapan saja, Anda dapat memperoleh pratinjau kalimat paling lengkap dengan menggabungkan kedua bidang ini: pratinjau kalimat real-time = text + stash.

Klik untuk melihat contoh

Misalnya, asumsikan pengguna mengucapkan, "Cuacanya bagus hari ini, cerah dan terang."

Tabel berikut menunjukkan aliran acara yang mungkin Anda terima dan menjelaskan cara menafsirkannya:

Timestamp	Progres ucapan pengguna	Tanggapan API (text dan stash)	Tampilan UI (text + stash)
T1	“Tersebut...”	text: "" stash: "The"	Cuaca
T2	"...cuaca adalah..."	text: "" stash: "Cuacanya adalah"	Cuaca adalah
T3	"...hari ini bagus"	text: "Cuaca" stash: "cuaca hari ini bagus"	Cuacanya bagus hari ini (Catatan: “The” telah dikonfirmasi dan dipindahkan ke bidang teks.)
T4	(Jeda singkat)	text: "Cuacanya bagus hari ini," stash: ""	Cuacanya bagus hari ini, (Klausa pertama telah sepenuhnya dikonfirmasi.)
T5	"...cerah dan..."	text: "Cuacanya bagus hari ini," stash: "cerah dan"	Cuacanya bagus hari ini, cerah dan
T6	"...terang."	text: "Cuacanya bagus hari ini," stash: "cerah dan terang."	Cuacanya bagus hari ini, cerah dan terang.
T7	(Pengguna berhenti berbicara)	-	Gunakan konten transkrip dari event conversation.item.input_audio_transcription.completed sebagai hasil akhir.

conversation.item.input_audio_transcription.completed

Event ini mengirimkan hasil pengenalan akhir ke klien dan menandai akhir dari sebuah item percakapan.

Parameter	Type	Description
type	string	Jenis event. Nilainya tetap `conversation.item.input_audio_transcription.completed`.
event_id	string	ID event.
item_id	string	ID item percakapan terkait.
content_index	integer	Indeks bagian konten yang berisi audio.
language	string	Bahasa audio yang dikenali. Jika bahasa ditentukan dalam parameter permintaan `language`, nilai ini akan sesuai dengan bahasa yang ditentukan. Nilai yang mungkin: zh: Tiongkok (Mandarin, Sichuan, Minnan, dan Wu) yue: Kanton en: Inggris ja: Jepang de: Jerman ko: Korea ru: Rusia fr: Prancis pt: Portugis ar: Arab it: Italia es: Spanyol hi: Hindi id: Indonesia th: Thailand tr: Turki uk: Ukraina vi: Vietnam
emotion	string	Emosi yang terdeteksi dalam audio. Emosi berikut didukung: `surprised` `neutral` `happy` `sad` `disgusted` `angry` `fearful`
transcript	string	Hasil transkripsi.

{
  "event_id": "event_B3GGEjPT2sLzjBM74W6kB",
  "type": "conversation.item.input_audio_transcription.completed",
  "item_id": "item_B3GGC53jGOuIFcjZkmEQ9",
  "content_index": 0,
  "language": "en",
  "emotion": "neutral",
  "transcript": "What's the weather like today?"
}

conversation.item.input_audio_transcription.failed

Server mengirim event ini jika pengenalan gagal untuk audio input. Event ini ditangani secara terpisah dari event error lainnya untuk membantu klien mengidentifikasi item spesifik yang gagal.

Parameter	Type	Description
type	string	Jenis event. Nilainya tetap `conversation.item.input_audio_transcription.failed`.
item_id	string	ID item percakapan terkait.
content_index	integer	Indeks bagian konten yang berisi audio.
error.code	string	Kode kesalahan.
error.message	string	Pesan kesalahan.
error.param	string	Parameter yang terkait dengan kesalahan tersebut.

{
  "type": "conversation.item.input_audio_transcription.failed",
  "item_id": "<item_id>",
  "content_index": 0,
  "error": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>"
  }
}

session.finished

Sesi telah selesai dan semua pengenalan audio dalam sesi saat ini telah lengkap.

Event ini hanya dikirim setelah klien mengirimkan event <a baseurl="t3167042_v2_1_0.xdita" data-node="6184310" data-root="85177" data-tag="xref" href="t3166998.xdita#147ce70052d4z" id="51096614e2809">session.finish</a>. Klien dapat memutuskan koneksi setelah menerima event ini.

Parameter	Type	Description
type	string	Jenis event. Nilainya adalah `session.finished`.
event_id	string	ID event.

{
  "event_id": "event_2239",
  "type": "session.finished"
}