Pilih model yang sesuai untuk sintesis suara, kloning suara, dan desain suara.
Halaman ini mencantumkan model untuk sintesis suara dan layanan suara, termasuk versi sebelumnya. Jawab dua pertanyaan berikut untuk mempersempit pilihan Anda:
-
Apakah Anda memerlukan suara kustom, atau apakah suara bawaan sudah mencukupi?
-
Apakah Anda memerlukan keluaran streaming real-time, atau apakah non-streaming dapat diterima?
Sintesis suara standar atau suara kustom?
Sintesis suara standar
Gunakan suara bawaan tanpa konfigurasi tambahan. Pilih model dan suara untuk memulai sintesis.
Internasional
|
Model |
Series |
Keunggulan utama |
|
|
CosyVoice |
Kualitas tinggi, dengan pustaka suara yang kaya |
|
|
CosyVoice |
Sintesis cepat |
|
|
Qwen3-TTS |
Latensi rendah, kualitas tinggi |
|
|
Qwen3-TTS |
Latensi rendah, kualitas tinggi (versi Snapshot) |
|
|
Qwen3-TTS |
Latensi rendah, kualitas tinggi (versi Snapshot) |
|
|
Qwen3-TTS |
Keluaran streaming Real-time, latensi rendah |
|
|
Qwen3-TTS |
Keluaran streaming Real-time, latensi rendah (versi Snapshot) |
|
|
Qwen3-TTS |
Keluaran streaming Real-time, latensi rendah (versi Snapshot) |
|
|
Qwen3-TTS |
Kontrol instruksi (laju bicara, emosi, dan gaya) |
|
|
Qwen3-TTS |
Kontrol instruksi (laju bicara, emosi, dan gaya) (versi Snapshot) |
|
|
Qwen3-TTS |
Keluaran streaming Real-time dan kontrol instruksi (laju bicara, emosi, dan gaya) |
|
|
Qwen3-TTS |
Keluaran streaming Real-time dan kontrol instruksi (laju bicara, emosi, dan gaya) (versi Snapshot) |
China daratan
|
Model |
Series |
Keunggulan utama |
|
|
CosyVoice |
Kualitas tinggi, dengan pustaka suara yang terus diperbarui |
|
|
CosyVoice |
Sintesis cepat |
|
|
CosyVoice |
Kualitas tinggi, dengan pustaka suara yang kaya |
|
|
CosyVoice |
Sintesis cepat |
|
|
CosyVoice |
Sintesis berkualitas tinggi versi lama |
|
|
CosyVoice |
Sintesis dasar versi lama |
|
|
Qwen3-TTS |
Latensi rendah, kualitas tinggi |
|
|
Qwen3-TTS |
Latensi rendah, kualitas tinggi (versi Snapshot) |
|
|
Qwen3-TTS |
Latensi rendah, kualitas tinggi (versi Snapshot) |
|
|
Qwen3-TTS |
Keluaran streaming Real-time, latensi rendah |
|
|
Qwen3-TTS |
Keluaran streaming Real-time, latensi rendah (versi Snapshot) |
|
|
Qwen3-TTS |
Keluaran streaming Real-time, latensi rendah (versi Snapshot) |
|
|
Qwen3-TTS |
Kontrol instruksi (laju bicara, emosi, dan gaya) |
|
|
Qwen3-TTS |
Kontrol instruksi (laju bicara, emosi, dan gaya) (versi Snapshot) |
|
|
Qwen3-TTS |
Keluaran streaming Real-time dan kontrol instruksi (laju bicara, emosi, dan gaya) |
|
|
Qwen3-TTS |
Keluaran streaming Real-time dan kontrol instruksi (laju bicara, emosi, dan gaya) (versi Snapshot) |
|
|
MiniMax |
Sintesis suara beresolusi tinggi |
|
|
MiniMax |
Sintesis suara fidelitas tinggi |
|
|
MiniMax |
Sintesis cepat dengan latensi rendah |
|
|
MiniMax |
Sintesis cepat dengan latensi rendah |
Suara kustom
Buat suara unik dari sampel audio atau deskripsi teks.
Internasional
|
Model |
Series |
Keunggulan utama |
|
|
Qwen3-TTS |
Kloning suara dari sampel audio |
|
|
Qwen3-TTS |
Kloning suara Real-time |
|
|
Qwen3-TTS |
Kloning suara Real-time |
|
|
Qwen3-TTS |
Desain suara dari deskripsi teks |
|
|
Qwen3-TTS |
Desain suara Real-time |
|
|
Qwen3-TTS |
Desain suara Real-time |
|
|
Qwen Voice Cloning |
Kloning suara (pendaftaran dan management suara) |
|
|
Qwen Voice Design |
Desain suara (membuat suara dari teks) |
Kloning suara vs. desain suara: Kloning suara menduplikasi suara tertentu dari sampel audio. Desain suara membuat suara baru berdasarkan deskripsi teks, seperti "suara perempuan hangat dengan nada rendah". Gunakan kloning suara jika Anda memiliki suara target. Gunakan desain suara jika Anda ingin membuat suara dari awal.
Kontrol ekspresi suara
Tersedia tiga opsi, diurutkan berdasarkan tingkat fleksibilitas:
-
Kontrol instruksi (
qwen3-tts-instruct-flash,qwen3-tts-instruct-flash-realtime): Gunakan bahasa alami untuk menggambarkan gaya ekspresi yang diinginkan serta mengontrol laju bicara, emosi, dan gaya sesuai permintaan. -
Desain suara (
qwen3-tts-vd-*): Membuat suara kustom dari deskripsi teks. Ideal untuk menciptakan suara merek tanpa sampel audio. -
Kloning suara (
qwen3-tts-vc-*): Menyalin suara yang ada dari sampel audio. Cocok untuk mereplikasi suara orang tertentu.
Perbandingan lengkap
|
Model |
Series |
Streaming |
Suara kustom |
Kontrol instruksi |
|
|
CosyVoice |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
CosyVoice |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
CosyVoice |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
CosyVoice |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
CosyVoice |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
Qwen3-TTS |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
Qwen3-TTS |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
Qwen3-TTS |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
Qwen3-TTS |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
Qwen3-TTS |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
Qwen3-TTS |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
Qwen3-TTS |
Didukung |
Tidak didukung |
Didukung |
|
|
Qwen3-TTS |
Didukung |
Tidak didukung |
Didukung |
|
|
Qwen3-TTS |
Didukung |
Tidak didukung |
Didukung |
|
|
Qwen3-TTS |
Didukung |
Tidak didukung |
Didukung |
|
|
Voice cloning |
Tidak didukung |
Didukung |
Tidak didukung |
|
|
Voice cloning |
Didukung |
Didukung |
Tidak didukung |
|
|
Voice cloning |
Didukung |
Didukung |
Tidak didukung |
|
|
Voice design |
Tidak didukung |
Didukung |
Tidak didukung |
|
|
Voice design |
Didukung |
Didukung |
Tidak didukung |
|
|
Voice design |
Didukung |
Didukung |
Tidak didukung |
|
|
Qwen-TTS (Legacy) |
Tidak didukung (generasi seluruh teks) |
Tidak didukung |
Tidak didukung |
|
|
Qwen-TTS (Legacy) |
Tidak didukung (generasi seluruh teks) |
Tidak didukung |
Tidak didukung |
|
|
Qwen-TTS (Legacy) |
Tidak didukung (generasi seluruh teks) |
Tidak didukung |
Tidak didukung |
|
|
Qwen-TTS (Legacy) |
Tidak didukung (generasi seluruh teks) |
Tidak didukung |
Tidak didukung |
|
|
Qwen-TTS (Legacy) |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
Qwen-TTS (Legacy) |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
Qwen-TTS (Legacy) |
Didukung |
Tidak didukung |
Tidak didukung |
|
|
Voice service |
N/A |
Didukung (pendaftaran suara) |
Tidak didukung |
|
|
Voice service |
N/A |
Didukung (desain suara) |
Tidak didukung |
Model lama (Qwen-TTS, penagihan berbasis token)
Model Qwen-TTS lama menggunakan penagihan berbasis token dan dapat diakses melalui HTTP atau WebSocket. Jika Anda telah bermigrasi ke Qwen3-TTS, gunakan model sintesis suara standar di atas.
Internasional
|
Model |
Metode akses |
Deskripsi |
|
|
HTTP |
Sintesis non-streaming, penagihan berbasis token |
|
|
HTTP |
Sintesis non-streaming, penagihan berbasis token |
|
|
HTTP |
Versi Snapshot, penagihan berbasis token |
|
|
HTTP |
Versi Snapshot, penagihan berbasis token |
|
|
WebSocket |
Sintesis streaming, penagihan berbasis token |
|
|
WebSocket |
Sintesis streaming, penagihan berbasis token |
|
|
WebSocket |
Versi Snapshot, sintesis streaming, penagihan berbasis token |