Ringkasan WebSocket Client Events untuk Live Translator - Model Studio

Topik ini menjelaskan event klien untuk API qwen3-livetranslate-flash-realtime.

Referensi: Terjemahan audio dan video Real-time - Qwen.

session.update

Setelah membuat koneksi WebSocket, kirim event ini untuk memperbarui konfigurasi sesi default.

Setelah menerima event session.update, layanan akan memvalidasi parameter. Jika parameternya tidak valid, layanan mengembalikan fault. Jika valid, layanan memperbarui dan mengembalikan konfigurasi lengkapnya.

type string (Required)

Jenis event. Nilai ini harus diatur ke session.update.

{
  "event_id": "event_ToPZqeobitzUJnt3QqtWg",
  "type": "session.update",
  "session": {
    "modalities": [
      "text",
      "audio"
    ],
    "voice": "Cherry",
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm24",
    "input_audio_transcription": {
      "model": "qwen3-asr-flash-realtime",
      "language": "zh"
    },
    "translation": {
      "language": "en"
    }
  }
}

session object (Optional)

Konfigurasi sesi.

Properties

modalities array (Optional)

Modalitas output model. Nilai yang valid:

["text"]
Hanya menghasilkan teks.
["text","audio"] (Default)
Menghasilkan teks dan audio.

voice string (Optional)

Voice untuk audio yang dihasilkan. Nilai yang valid: Voice yang didukung. Nilai default: Cherry.

input_audio_transcription object (Optional)

Konfigurasi untuk audio input.

Properties

model string (Optional)

Model pengenalan suara. Jika parameter ini dikonfigurasi, server mengembalikan hasil pengenalan suara (teks asli dalam bahasa sumber) dari audio input bersamaan dengan terjemahannya. Hasil tersebut dikirim melalui event conversation.item.input_audio_transcription.text dan conversation.item.input_audio_transcription.completed.

Nilai yang valid: qwen3-asr-flash-realtime.

language string (Optional)

Bahasa sumber untuk terjemahan. Nilai yang valid: Bahasa yang didukung. Nilai default: en.

input_audio_format string (Optional)

Format audio input. Saat ini, parameter ini hanya dapat diatur ke pcm16.

output_audio_format string (Optional)

Format audio output. Saat ini, parameter ini hanya dapat diatur ke pcm24.

translation object (Optional)

Konfigurasi terjemahan.

Properties

language string (Optional)

Bahasa target untuk terjemahan. Nilai yang valid: Bahasa yang didukung. Nilai default: en.

input_audio_buffer.append

Event ini menambahkan byte audio ke buffer audio input. Layanan menggunakan buffer ini untuk mendeteksi ucapan dan menentukan kapan harus mengirimkannya.

type string (Required)

Jenis event. Nilai ini harus diatur ke input_audio_buffer.append.

{
    "event_id": "event_xxx",
    "type": "input_audio_buffer.append",
    "audio": "xxx"
}

audio string (Required)

Data audio yang dikodekan Base64.

input_image_buffer.append

Event ini menambahkan data gambar ke buffer gambar. Gambar dapat berasal dari file lokal atau diambil secara real-time dari aliran video.

Batasan berikut berlaku untuk input gambar:

Format gambar harus JPG atau JPEG. Untuk performa optimal, resolusi 480p atau 720p direkomendasikan. Resolusi maksimum adalah 1080p.
Ukuran satu gambar tidak boleh melebihi 500 KB sebelum dikodekan Base64.
Data gambar harus dikodekan Base64.
Frekuensi penambahan gambar ke buffer tidak boleh melebihi 2 gambar per detik.
Anda harus mengirim setidaknya satu event input_audio_buffer.append sebelum mengirim event input_image_buffer.append.

type string (Required)

Jenis event. Nilai ini harus diatur ke input_image_buffer.append.

{
    "event_id": "event_xxx",
    "type": "input_image_buffer.append",
    "image": "xxx"
}

image string (Required)

Data gambar yang dikodekan Base64.

session.finish

Kirim event ini untuk mengakhiri sesi saat ini. Setelah mengirim event ini, server merespons sebagai berikut:

Jika ucapan terdeteksi: Server menyelesaikan pengenalan ucapan dan mengirim event conversation.item.input_audio_transcription.completed dengan hasil pengenalan. Kemudian, server mengirim event session.finished untuk menandakan bahwa sesi telah berakhir.
Tidak ada ucapan yang terdeteksi: Server langsung mengirim event <a baseurl="t3144643_v2_0_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="2e9bac97be3so">session.finished</a>.

Klien harus memutuskan koneksi setelah menerima event <a baseurl="t3144643_v2_0_0.xdita" data-node="6184673" data-root="85177" data-tag="xref" href="t3167042.xdita#6eaa77339djdv" id="45d09216c5qsi">session.finished</a>.

type string (Required)

Jenis event. Nilai ini harus diatur ke session.finish.

{
    "event_id": "event_xxx",
    "type": "session.finish"
}