qwen3-livetranslate-flash-realtime adalah model terjemahan real-time yang ditingkatkan dengan penglihatan. Model ini mendukung terjemahan antara 18 bahasa, seperti Tiongkok, Inggris, Rusia, dan Prancis. Model ini memproses masukan audio dan citra dari aliran video real-time atau file video lokal, menggunakan konteks visual untuk meningkatkan akurasi terjemahan serta menghasilkan teks dan audio terjemahan berkualitas tinggi secara real-time.
Untuk demo online, lihat Penerapan satu klik menggunakan Function Compute.
Cara menggunakan
1. Konfigurasi koneksi
Model qwen3-livetranslate-flash-realtime terhubung melalui protokol WebSocket. Koneksi memerlukan item konfigurasi berikut:
Item konfigurasi | Deskripsi |
Titik akhir | Situs Tiongkok: wss://dashscope.aliyuncs.com/api-ws/v1/realtime Titik akhir internasional: wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime |
Parameter kueri | Parameter kueri adalah `model`. Anda harus mengaturnya ke nama model yang ingin diakses. Contoh: |
Header pesan | Gunakan Bearer Token untuk autentikasi: Authorization: Bearer DASHSCOPE_API_KEY DASHSCOPE_API_KEY adalah Kunci API yang Anda minta dari Alibaba Cloud Model Studio. |
Gunakan kode contoh Python berikut untuk membuat koneksi.
2. Konfigurasi bahasa, modalitas keluaran, dan suara
Untuk mengonfigurasi pengaturan ini, kirim event klien session.update:
Bahasa
Bahasa sumber: Konfigurasikan menggunakan parameter
session.input_audio_transcription.language.Nilai default adalah
en(Inggris).Bahasa target: Konfigurasikan menggunakan parameter
session.translation.language.Nilai default adalah
en(Inggris).
Untuk daftar bahasa yang didukung, lihat Bahasa yang didukung.
Modalitas keluaran
Gunakan parameter
session.modalitiesuntuk mengatur modalitas keluaran. Anda dapat mengaturnya ke["text"](keluaran hanya teks) atau["text","audio"](keluaran teks dan audio).Timbre
Gunakan parameter
session.voiceuntuk mengatur suara. Untuk informasi selengkapnya, lihat Suara yang didukung.
3. Masukkan audio dan citra
Klien mengirim data audio dan citra yang dikodekan Base64 menggunakan event input_audio_buffer.append dan input_image_buffer.append. Masukan audio wajib, sedangkan masukan citra opsional.
Citra dapat berasal dari file lokal atau ditangkap secara real-time dari aliran video.
Server secara otomatis mendeteksi awal dan akhir audio serta memicu respons model.
4. Terima respons model
Ketika server mendeteksi akhir audio, model mulai merespons. Format respons bergantung pada modalitas keluaran yang dikonfigurasi.
Keluaran hanya teks
Server mengembalikan teks terjemahan lengkap dalam event response.text.done.
Keluaran teks dan audio
Teks
Teks terjemahan lengkap dikembalikan dalam event response.audio_transcript.done.
Audio
Data audio bertahap yang dikodekan Base64 dikembalikan dalam event response.audio.delta.
Model yang didukung
qwen3-livetranslate-flash-realtime adalah model terjemahan audio dan video real-time multibahasa. Model ini dapat mengenali 18 bahasa dan menerjemahkannya menjadi audio dalam 10 bahasa secara real-time.
Fitur utama:
Dukungan multibahasa: Mendukung 18 bahasa, seperti Tiongkok, Inggris, Prancis, Jerman, Rusia, Jepang, dan Korea, serta 6 dialek Tiongkok, termasuk Mandarin, Kanton, dan Sichuan.
Peningkatan visi: Menggunakan konten visual untuk meningkatkan akurasi terjemahan. Model ini menganalisis gerakan bibir, tindakan, dan teks di layar guna meningkatkan terjemahan di lingkungan bising atau untuk kata-kata dengan banyak makna.
Latensi 3 detik: Mencapai latensi interpretasi simultan serendah 3 detik.
Interpretasi simultan tanpa kehilangan kualitas: Menggunakan teknologi prediksi unit semantik untuk menyelesaikan masalah urutan kata antarbahasa. Kualitas terjemahan real-time mendekati terjemahan offline.
Suara alami: Menghasilkan ucapan alami seperti manusia. Model ini secara otomatis menyesuaikan nada dan emosi berdasarkan audio sumber.
Model | Versi | Jendela konteks | Masukan maksimum | Keluaran maksimum |
(Token) | ||||
qwen3-livetranslate-flash-realtime Kemampuan saat ini setara dengan qwen3-livetranslate-flash-realtime-2025-09-22 | Stabil | 53.248 | 49.152 | 4.096 |
qwen3-livetranslate-flash-realtime-2025-09-22 | Cuplikan | |||
Memulai
Persiapkan lingkungan
Versi Python Anda harus 3.10 atau lebih baru.
Pertama, instal pyaudio.
macOS
brew install portaudio && pip install pyaudioDebian/Ubuntu
sudo apt-get install python3-pyaudio or pip install pyaudioCentOS
sudo yum install -y portaudio portaudio-devel && pip install pyaudioWindows
pip install pyaudioSetelah instalasi selesai, gunakan pip untuk menginstal dependensi WebSocket yang diperlukan:
pip install websocket-client==1.8.0 websocketsBuat klien
Buat file Python baru secara lokal, beri nama
livetranslate_client.py, lalu salin kode berikut ke dalam file tersebut:Berinteraksi dengan model
Di folder yang sama dengan
livetranslate_client.py, buat file Python lain bernamamain.py, lalu salin kode berikut ke dalam file tersebut:Jalankan
main.pydan ucapkan kalimat yang ingin Anda terjemahkan ke mikrofon. Model menyediakan audio dan teks terjemahan secara real-time. Sistem secara otomatis mendeteksi ucapan Anda dan mengirim audio ke server, sehingga tidak diperlukan tindakan manual.
Gunakan citra untuk meningkatkan akurasi terjemahan
Model qwen3-livetranslate-flash-realtime dapat menerima masukan citra untuk membantu terjemahan audio. Ini berguna untuk skenario yang melibatkan homonim atau pengenalan kata benda proper yang tidak umum. Anda dapat mengirim maksimal dua citra per detik.
Unduh contoh citra berikut secara lokal: face_mask.png dan mask.png.
Unduh kode berikut ke folder yang sama dengan livetranslate_client.py, lalu jalankan. Ucapkan "What is mask?" ke mikrofon. Saat Anda memasukkan citra masker medis, model menerjemahkan frasa tersebut menjadi “What is medical mask?”. Saat Anda memasukkan citra masker pesta, model menerjemahkan frasa tersebut menjadi “What is masquerade mask?”.
import os
import time
import json
import asyncio
import contextlib
import functools
from livetranslate_client import LiveTranslateClient
IMAGE_PATH = "mask_medical.png"
# IMAGE_PATH = "mask_masquerade.png"
def print_banner():
print("=" * 60)
print(" Didukung oleh Qwen qwen3-livetranslate-flash-realtime — Contoh interaksi satu putaran (masker)")
print("=" * 60 + "\n")
async def stream_microphone_once(client: LiveTranslateClient, image_bytes: bytes):
pa = client.pyaudio_instance
stream = pa.open(
format=client.input_format,
channels=client.input_channels,
rate=client.input_rate,
input=True,
frames_per_buffer=client.input_chunk,
)
print(f"[INFO] Perekaman dimulai. Silakan berbicara...")
loop = asyncio.get_event_loop()
last_img_time = 0.0
frame_interval = 0.5 # 2 fps
try:
while client.is_connected:
data = await loop.run_in_executor(None, stream.read, client.input_chunk)
await client.send_audio_chunk(data)
# Tambahkan frame citra setiap 0,5 detik
now = time.time()
if now - last_img_time >= frame_interval:
await client.send_image_frame(image_bytes)
last_img_time = now
finally:
stream.stop_stream()
stream.close()
async def main():
print_banner()
api_key = os.environ.get("DASHSCOPE_API_KEY")
if not api_key:
print("[ERROR] Pertama, konfigurasikan KUNCI API di variabel lingkungan DASHSCOPE_API_KEY.")
return
client = LiveTranslateClient(api_key=api_key, target_language="zh", voice="Cherry", audio_enabled=True)
def on_text(text: str):
print(text, end="", flush=True)
try:
await client.connect()
client.start_audio_player()
message_task = asyncio.create_task(client.handle_server_messages(on_text))
with open(IMAGE_PATH, "rb") as f:
img_bytes = f.read()
await stream_microphone_once(client, img_bytes)
await asyncio.sleep(15)
finally:
await client.close()
if not message_task.done():
message_task.cancel()
with contextlib.suppress(asyncio.CancelledError):
await message_task
if __name__ == "__main__":
asyncio.run(main())Penerapan satu klik menggunakan Function Compute
Konsol saat ini tidak mendukung demo ini. Anda dapat menerapkannya dengan satu klik sebagai berikut:
Buka Templat Function Compute, masukkan Kunci API Anda, lalu klik Create and Deploy Default Environment untuk mencobanya secara online.
Tunggu sekitar satu menit. Di Environment Details > Environment Context, ambil titik akhirnya. Ubah
httpmenjadihttpspada titik akhir (misalnya, https://qwen-livetranslate-flash-realtime-intl.fcv3.xxx.ap-southeast-1.fc.devsapp.net/) dan gunakan tautan tersebut untuk berinteraksi dengan model.PentingTautan ini menggunakan sertifikat tanda tangan sendiri dan hanya untuk pengujian sementara. Saat pertama kali mengaksesnya, browser Anda akan menampilkan peringatan keamanan. Ini adalah perilaku yang diharapkan. Jangan gunakan ini di lingkungan produksi. Untuk melanjutkan, ikuti instruksi browser Anda, seperti mengklik "Advanced" → "Proceed to (unsafe)".
Untuk mengaktifkan izin Resource Access Management (RAM), ikuti petunjuk di layar.
Anda dapat melihat kode sumber proyek di bawah Resource Information – Function Resources.
Function Compute dan Alibaba Cloud Model Studio keduanya menawarkan kuota gratis untuk pengguna baru. Kuota ini dapat menutupi biaya pengujian sederhana. Setelah kuota gratis habis, Anda dikenai biaya berdasarkan bayar sesuai penggunaan. Biaya hanya dikenakan saat layanan diakses.
Alur interaksi
Alur interaksi untuk terjemahan ucapan real-time mengikuti model berbasis event WebSocket standar, di mana server secara otomatis mendeteksi awal dan akhir ucapan serta merespons.
Siklus hidup | Event klien | Server event |
Inisialisasi sesi | session.update Konfigurasi sesi | session.created Sesi dibuat session.updated Konfigurasi sesi diperbarui |
Input audio pengguna | input_audio_buffer.append Tambahkan audio ke buffer input_image_buffer.append Tambahkan citra ke buffer | Tidak ada |
Keluaran audio server | Tidak ada | response.created Server mulai menghasilkan respons response.output_item.added Konten keluaran baru dalam respons response.content_part.added Konten keluaran baru ditambahkan ke pesan asisten response.audio_transcript.text Teks transkrip yang dihasilkan secara bertahap response.audio.delta Audio yang dihasilkan secara bertahap dari model response.audio_transcript.done Transkripsi teks selesai response.audio.done Generasi audio selesai response.content_part.done Streaming konten teks atau audio untuk pesan asisten selesai response.output_item.done Streaming seluruh item output untuk pesan asisten selesai response.done Respons selesai |
Referensi API
Untuk informasi selengkapnya, lihat Terjemahan audio dan video real-time (Qwen-Livetranslate).
Penagihan
Audio: Setiap detik audio masukan atau keluaran menghabiskan 12,5 token.
Citra: Setiap masukan ukuran 28 × 28 piksel menghabiskan 0,5 token.
Untuk harga berdasarkan token, lihat Daftar Model.
Bahasa yang didukung
Kode bahasa dalam tabel berikut dapat digunakan untuk menentukan bahasa sumber dan target.
Beberapa bahasa target hanya mendukung keluaran teks, bukan keluaran audio.
Kode bahasa | Bahasa | Modalitas output yang didukung |
en | Inggris | Audio + Teks |
zh | Tiongkok | Audio + Teks |
ru | Rusia | Audio + Teks |
fr | Prancis | Audio + Teks |
de | Jerman | Audio + Teks |
pt | Portugis | Audio + Teks |
es | Spanyol | Audio + Teks |
it | Italia | Audio + Teks |
id | Bahasa Indonesia | Teks |
ko | Korea | Audio + Teks |
ja | Jepang | Audio + Teks |
vi | Bahasa Vietnam | Teks |
th | Thai | Teks |
ar | Arab | Teks |
yue | Bahasa Kanton | Audio + Teks |
hi | Hindi | Teks |
el | Yunani | Teks |
tr | Turki | Teks |
Suara yang didukung
Nama |
| Efek | Deskripsi | Bahasa yang didukung |
Ceri | Cherry | Wanita muda yang ceria, ramah, dan tulus. | Tiongkok, Inggris, Prancis, Jerman, Rusia, Italia, Spanyol, Portugis, Jepang, Korea | |
Do not eat the fish. | Nofish | Desainer yang tidak bisa mengucapkan konsonan retrofleks. | Tiongkok, Inggris, Prancis, Jerman, Rusia, Italia, Spanyol, Portugis, Jepang, Korea | |
Shanghai - Jada | Jada | Perempuan Shanghainese yang lincah dan energetik. | Tiongkok | |
Beijing - Dylan | Dylan | Pemuda yang tumbuh di gang-gang Beijing. | Tiongkok | |
Sichuan - Sunny | Sunny | Gadis Sichuan dengan suara manis. | Tiongkok | |
Tianjin - Peter | Peter | Xiangsheng Tianjin: Seni peran pendukung. | Tiongkok | |
Kanton - Kiki | Kiki | Sahabat baik dari Hong Kong dengan suara manis. | Bahasa Kanton | |
Cheng Chuan, Sichuan | Eric | Pria dari Chengdu, Sichuan, dengan suara yang menonjol di antara keramaian. | Tiongkok |