Model sintesis suara - TTS, kloning suara, desain suara - Alibaba Cloud Model Studio

Pilih model yang tepat untuk skenario teks-ke-ucapan, kloning suara, dan desain suara.

Sintesis suara standar atau suara kustom?

Model TTS mengonversi teks menjadi ucapan yang terdengar alami. Tentukan apakah suara bawaan atau suara kustom lebih sesuai dengan kebutuhan Anda:

	Standard speech synthesis	Custom voices
Voice source	Built-in voice library, ready to use	Cloned from an audio sample or created from a text description
Getting started	No extra setup required — select a model and voice to start synthesizing	Provide an audio sample or text description to create a voice
Use cases	Customer service bots, audiobook narration, news broadcasts, e-commerce live streaming	Brand-specific voices, virtual streamers, game character dubbing
Recommended models	`cosyvoice-v3-plus`	`cosyvoice-v3.5-plus` (voice cloning + voice design)

Gunakan sintesis suara standar jika suara bawaan memenuhi kebutuhan Anda dan Anda menginginkan pengaturan tanpa konfigurasi tambahan.
Gunakan suara kustom jika Anda memerlukan suara eksklusif merek, ingin mereplikasi pembicara tertentu, atau perlu membuat suara karakter baru.

Kloning suara atau desain suara?

Suara kustom menawarkan dua metode pembuatan:

	Voice cloning	Voice design
Input	An audio sample from the target speaker	A text description of the desired voice (for example, "warm, low-pitched female voice")
Result	Synthesized speech closely resembles the original speaker	A brand-new voice generated from scratch based on the description
Use cases	Reusing a brand spokesperson or streamer's voice, virtual streamers, personalized voice assistants	Brand voice customization (no recordings available), game or animation character dubbing, creative content production
Recommended models	`cosyvoice-v3.5-plus`, `cosyvoice-v3.5-flash`	`cosyvoice-v3.5-plus`, `cosyvoice-v3.5-flash`
Voice management service	`voice-enrollment` (register and manage voices)	`voice-enrollment` (register and manage voices)

Gunakan kloning suara jika Anda memiliki rekaman pembicara target dan ingin mereproduksi suara tersebut.
Gunakan desain suara jika tidak tersedia rekaman dan Anda ingin membuat suara berdasarkan deskripsi teks.

WebSocket atau HTTP?

WebSocket: Streaming dua arah yang mendukung input dan output streaming. Audio dikembalikan saat sedang disintesis, memberikan latensi terendah. Paling cocok untuk skenario real-time seperti bot layanan pelanggan, asisten suara, dan pusat panggilan.
HTTP: Menerima input teks lengkap dengan output audio yang dikirimkan dalam segmen. Paling cocok untuk narasi buku audio, pembuatan konten, dan produksi offline.

Model CosyVoice menggunakan nama model yang sama untuk WebSocket maupun HTTP. Model Qwen menggunakan akhiran -realtime untuk WebSocket; model tanpa akhiran tersebut menggunakan HTTP.

Model WebSocket CosyVoice dan Qwen dapat diakses melalui SDK DashScope (Java, Python). Model lainnya memerlukan pemanggilan langsung menggunakan protokol WebSocket atau HTTP yang sesuai.

Akses WebSocket: Real-time speech synthesis. Akses HTTP: Non-real-time speech synthesis.

Instruction control

Gunakan instruksi dalam bahasa alami untuk mengontrol laju ucapan, emosi, dan gaya per permintaan—misalnya, "berbicara dengan lembut pada kecepatan sedikit lebih lambat" atau "gunakan gaya siaran yang bersemangat." Fitur ini ideal untuk konten yang ekspresif secara emosional, siaran profesional, dan narasi buku audio.

Model yang didukung: CosyVoice (cosyvoice-v3.5-plus, cosyvoice-v3.5-flash, cosyvoice-v3-flash) dan Qwen-TTS (qwen3-tts-instruct-flash-realtime, qwen3-tts-instruct-flash). Real-time speech synthesis > Instruction control.

Model yang direkomendasikan

Tabel berikut mencantumkan model yang direkomendasikan untuk setiap skenario. Kunjungi Model Gallery untuk katalog lengkap.

Model ID	Series	API	Voice cloning	Voice design	Instruction control
`cosyvoice-v3.5-plus`	CosyVoice	WebSocket	Supported	Supported	Supported
`cosyvoice-v3-plus`	CosyVoice	WebSocket	Supported	Supported	Unsupported

Semua model

CosyVoice

Beberapa model CosyVoice mendukung markup SSML dan membaca rumus LaTeX secara lisan.

Model ID	API	Voice cloning	Voice design	Instruction control
`cosyvoice-v3.5-plus`	WebSocket	Supported	Supported	Supported
`cosyvoice-v3.5-flash`	WebSocket	Supported	Supported	Supported
`cosyvoice-v3-plus`	WebSocket	Supported	Supported	Unsupported
`cosyvoice-v3-flash`	WebSocket	Supported	Supported	Supported
`cosyvoice-v2`	WebSocket	Supported	Unsupported	Unsupported

Bahasa yang didukung (berdasarkan versi):

cosyvoice-v3.5-plus dan cosyvoice-v3.5-flash (tidak ada suara sistem):
- Voice cloning: Bahasa Tionghoa (Mandarin; dialek Kanton, Timur Laut, Gansu, Guizhou, Henan, Hubei, Jiangxi, Min Nan, Ningxia, Shanxi, Shaanxi, Shandong, Shanghainese, Sichuan, Tianjin, dan Yunnan melalui instruction control), Inggris, Prancis, Jerman, Jepang, Korea, Rusia, Portugis, Thailand, Indonesia, dan Vietnam
- Voice design: Bahasa Mandarin dan Inggris
cosyvoice-v3-plus:
- Suara sistem: Bahasa Mandarin dan Inggris (beragam tergantung suara)
- Voice cloning: Bahasa Tionghoa (Mandarin; dialek Kanton, Timur Laut, Gansu, Guizhou, Henan, Hubei, Jiangxi, Min Nan, Ningxia, Shanxi, Shaanxi, Shandong, Shanghainese, Sichuan, Tianjin, dan Yunnan melalui instruction control), Inggris, Prancis, Jerman, Jepang, Korea, dan Rusia
- Voice design: Bahasa Mandarin dan Inggris
cosyvoice-v3-flash:
- Suara sistem (beragam tergantung suara): Bahasa Mandarin (dengan dialek Kanton, Timur Laut, Henan, Hunan, Shaanxi, Shandong, Sichuan, Anhui, dan Min Nan — beberapa didukung langsung oleh suara sistem, sisanya dapat dikonfigurasi melalui instruction control), Inggris
- Voice cloning: Bahasa Tionghoa (Mandarin; dialek Kanton, Timur Laut, Gansu, Guizhou, Henan, Hubei, Jiangxi, Min Nan, Ningxia, Shanxi, Shaanxi, Shandong, Shanghainese, Sichuan, Tianjin, dan Yunnan melalui instruction control), Inggris, Prancis, Jerman, Jepang, Korea, Rusia, Portugis, Thailand, Indonesia, dan Vietnam
- Voice design: Bahasa Mandarin dan Inggris
cosyvoice-v2 (tanpa voice design):
- Suara sistem: Bahasa Mandarin (dengan dialek Kanton, Timur Laut, Min Nan, dan Shaanxi), Inggris, Jepang, dan Korea (beragam tergantung suara)
- Voice cloning: Bahasa Mandarin dan Inggris

Qwen3-TTS

Model ID	API	Voice cloning	Voice design	Instruction control
`qwen3-tts-flash`	HTTP	Unsupported	Unsupported	Unsupported
`qwen3-tts-flash-2025-11-27`	HTTP	Unsupported	Unsupported	Unsupported
`qwen3-tts-flash-2025-09-18`	HTTP	Unsupported	Unsupported	Unsupported
`qwen3-tts-flash-realtime`	WebSocket	Unsupported	Unsupported	Unsupported
`qwen3-tts-flash-realtime-2025-11-27`	WebSocket	Unsupported	Unsupported	Unsupported
`qwen3-tts-flash-realtime-2025-09-18`	WebSocket	Unsupported	Unsupported	Unsupported
`qwen3-tts-instruct-flash`	HTTP	Unsupported	Unsupported	Supported
`qwen3-tts-instruct-flash-2026-01-26`	HTTP	Unsupported	Unsupported	Supported
`qwen3-tts-instruct-flash-realtime`	WebSocket	Unsupported	Unsupported	Supported
`qwen3-tts-instruct-flash-realtime-2026-01-22`	WebSocket	Unsupported	Unsupported	Supported
`qwen3-tts-vc-2026-01-22`	HTTP	Supported	Unsupported	Unsupported
`qwen3-tts-vc-realtime-2026-01-15`	WebSocket	Supported	Unsupported	Unsupported
`qwen3-tts-vc-realtime-2025-11-27`	WebSocket	Supported	Unsupported	Unsupported
`qwen3-tts-vd-2026-01-26`	HTTP	Unsupported	Supported	Unsupported
`qwen3-tts-vd-realtime-2026-01-15`	WebSocket	Unsupported	Supported	Unsupported
`qwen3-tts-vd-realtime-2025-12-16`	WebSocket	Unsupported	Supported	Unsupported

Bahasa yang didukung (berdasarkan seri):

Seri Qwen3-TTS-Flash (suara sistem) — qwen3-tts-flash, qwen3-tts-flash-2025-11-27, qwen3-tts-flash-2025-09-18, qwen3-tts-flash-realtime, qwen3-tts-flash-realtime-2025-11-27, qwen3-tts-flash-realtime-2025-09-18: Bahasa Tionghoa (Mandarin; dialek Beijing, Shanghai, Sichuan, Nanjing, Shaanxi, Min Nan, Tianjin, dan Kanton, beragam tergantung suara), Inggris, Jerman, Italia, Portugis, Spanyol, Jepang, Korea, Prancis, dan Rusia
Seri Qwen3-TTS-Instruct-Flash (suara sistem) — qwen3-tts-instruct-flash, qwen3-tts-instruct-flash-2026-01-26, qwen3-tts-instruct-flash-realtime, qwen3-tts-instruct-flash-realtime-2026-01-22: Bahasa Mandarin, Inggris, Jerman, Italia, Portugis, Spanyol, Jepang, Korea, Prancis, dan Rusia
Seri Qwen3-TTS-VC (kloning suara) — qwen3-tts-vc-2026-01-22, qwen3-tts-vc-realtime-2026-01-15, qwen3-tts-vc-realtime-2025-11-27: Bahasa Mandarin, Inggris, Jerman, Italia, Portugis, Spanyol, Jepang, Korea, Prancis, dan Rusia
Seri Qwen3-TTS-VD (desain suara) — qwen3-tts-vd-2026-01-26, qwen3-tts-vd-realtime-2026-01-15, qwen3-tts-vd-realtime-2025-12-16: Bahasa Mandarin, Inggris, Jerman, Italia, Portugis, Spanyol, Jepang, Korea, Prancis, dan Rusia

Qwen-TTS (legacy, penagihan berbasis token)

Model Qwen-TTS lawas yang ditagih berdasarkan token. Jika Anda telah bermigrasi ke Qwen3-TTS, gunakan model yang direkomendasikan sebelumnya.

Model ID	API	Description
`qwen-tts`	HTTP	Non-streaming synthesis, billed by token
`qwen-tts-latest`	HTTP	Non-streaming synthesis, billed by token
`qwen-tts-2025-05-22`	HTTP	Snapshot version, billed by token
`qwen-tts-2025-04-10`	HTTP	Snapshot version, billed by token
`qwen-tts-realtime`	WebSocket	Streaming synthesis, billed by token
`qwen-tts-realtime-latest`	WebSocket	Streaming synthesis, billed by token
`qwen-tts-realtime-2025-07-15`	WebSocket	Snapshot version, streaming synthesis, billed by token

Bahasa yang didukung (berdasarkan seri):

Seri Qwen-TTS (suara sistem) — qwen-tts, qwen-tts-latest, qwen-tts-2025-05-22, qwen-tts-2025-04-10: Bahasa Tionghoa (Mandarin; dialek Beijing, Shanghai, dan Sichuan, beragam tergantung suara), Inggris, Jerman, Italia, Portugis, Spanyol, Jepang, Korea, Prancis, dan Rusia
Seri Qwen-TTS-Realtime (suara sistem) — qwen-tts-realtime, qwen-tts-realtime-latest, qwen-tts-realtime-2025-07-15: Bahasa Mandarin, Inggris, Jerman, Italia, Portugis, Spanyol, Jepang, Korea, Prancis, dan Rusia