Sintesis Suara, juga dikenal sebagai Text-to-Speech (TTS), adalah teknologi yang mengonversi teks menjadi suara alami. Teknologi ini menggunakan algoritma pembelajaran mesin untuk menganalisis data ucapan secara ekstensif serta mempelajari ritme, intonasi, dan pola pelafalan suatu bahasa, sehingga mampu menghasilkan ucapan menyerupai manusia dari input teks.
Fitur utama
Menghasilkan suara berkualitas tinggi dan terdengar alami secara real-time, mendukung berbagai bahasa seperti Mandarin dan Inggris.
Menawarkan dua metode kustomisasi suara: Voice Cloning dan Voice Design.
Mendukung input dan output streaming dengan latensi rendah untuk interaksi real-time.
Memungkinkan penyesuaian Speech Rate, Pitch, Volume, dan Bitrate guna memberikan kontrol detail halus atas output audio.
Mendukung format audio utama dan laju sampel output hingga 48 kHz.
Ketersediaan
Model yang Didukung:
Internasional
Dalam mode penyebaran internasional, Titik Akses dan Penyimpanan Data berlokasi di Wilayah Singapura. Resource komputasi Inferensi Model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.
Saat memanggil model berikut, pilih Kunci API untuk Wilayah Singapura:
CosyVoice: cosyvoice-v3-plus, cosyvoice-v3-flash
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, Titik Akses dan Penyimpanan Data berlokasi di Wilayah Beijing. Resource komputasi Inferensi Model dibatasi hanya untuk Tiongkok daratan.
Saat memanggil model berikut, pilih Kunci API untuk Wilayah Beijing:
CosyVoice: cosyvoice-v3.5-plus, cosyvoice-v3.5-flash, cosyvoice-v3-plus, cosyvoice-v3-flash, cosyvoice-v2, cosyvoice-v1
Untuk informasi selengkapnya, lihat Daftar Model.
Pemilihan model
Skenario | Model yang Direkomendasikan | Alasan | Catatan |
Membuat Suara Merek Unik dari Teks | cosyvoice-v3.5-plus | Mendukung Voice Design, yang membuat suara kustom hanya dari teks—tanpa memerlukan sampel audio. Ideal untuk membangun suara merek eksklusif dari awal. | cosyvoice-v3.5-plus hanya tersedia di wilayah Beijing dan tidak mendukung system voices. |
Mereplikasi Suara Tertentu dari Sampel Audio | cosyvoice-v3.5-plus | Mendukung Voice Cloning untuk mereplikasi suara secara cepat dari sampel audio, menciptakan voiceprint merek yang berkualitas tinggi, konsisten, dan menyerupai manusia. | cosyvoice-v3.5-plus hanya tersedia di wilayah Beijing dan tidak mendukung system voices. |
Layanan Pelanggan Cerdas / Asisten Suara | cosyvoice-v3-flash, cosyvoice-v3.5-flash | Lebih hemat biaya dibandingkan model plus. Model-model ini mendukung Streaming Interaction dan ekspresi emosional untuk memberikan respons cepat dengan latensi rendah. | cosyvoice-v3.5-flash hanya tersedia di wilayah Beijing dan tidak mendukung system voices. |
Penyiaran Dialek Regional | cosyvoice-v3.5-plus | Mendukung berbagai dialek Mandarin, seperti Mandarin Timur Laut dan Minnan. Ini menjadikannya ideal untuk penyiaran konten lokal. | cosyvoice-v3.5-plus hanya tersedia di wilayah Beijing dan tidak mendukung system voices. |
Aplikasi Pendidikan (termasuk Pembacaan Rumus) | cosyvoice-v2, cosyvoice-v3-flash, cosyvoice-v3-plus | Sangat baik untuk instruksi matematika, fisika, dan kimia karena mengonversi rumus LaTeX menjadi ucapan. | cosyvoice-v2 dan cosyvoice-v3-plus lebih mahal ($0,286706 per 10.000 karakter). |
Penyiaran Suara Terstruktur (Berita atau Pengumuman) | cosyvoice-v3-plus, cosyvoice-v3-flash, cosyvoice-v2 | Mendukung SSML untuk mengontrol elemen seperti laju ucapan, jeda, dan pelafalan, yang meningkatkan kualitas siaran. | Menghasilkan SSML memerlukan logika khusus. Ekspresi emosional tidak didukung. |
Penyelarasan Ucapan-Teks yang Presisi (misalnya, untuk Pembuatan Takarir dan Pemutaran Pelajaran) | cosyvoice-v3-flash, cosyvoice-v3-plus, cosyvoice-v2 | Mendukung output Timestamp untuk menyinkronkan ucapan hasil sintesis dengan teks sumber. | Anda harus secara eksplisit mengaktifkan fitur Timestamp, karena secara default dinonaktifkan. |
Aplikasi Multibahasa untuk Pasar Global | cosyvoice-v3-flash, cosyvoice-v3-plus | Mendukung sintesis ucapan dalam berbagai bahasa. |
Fitur dan ketersediaan bervariasi berdasarkan model dan wilayah. Sebelum memilih model, tinjau bagian Bandingkan Model.
Memulai
Contoh kode berikut menunjukkan cara memanggil API. Untuk lebih banyak Contoh Kode yang mencakup skenario umum, lihat GitHub.
Dapatkan Kunci API dan ekspor Kunci API sebagai Variabel lingkungan. Jika Anda menggunakan SDK untuk melakukan panggilan, instal SDK DashScope.
CosyVoice Penting Model System voicesContoh berikut menunjukkan cara mensintesis suara menggunakan system voices. Untuk informasi selengkapnya, lihat Daftar Suara. Simpan ke filePythonJavaMainkan suara real-timeContoh berikut menunjukkan cara mengonversi teks yang dialirkan dari model bahasa besar (LLM) Qwen menjadi suara dan memutarnya secara real-time. PythonSebelum menjalankan contoh Python, Anda harus menginstal library pemutaran audio pihak ketiga menggunakan pip. JavaSuara hasil kloningVoice cloning dan sintesis suara adalah dua langkah terpisah namun terkait yang mengikuti alur kerja "buat, lalu gunakan":
Kode Contoh Suara hasil desainVoice design dan sintesis suara adalah dua langkah terpisah namun terkait yang mengikuti alur kerja "buat, lalu gunakan":
Kode Contoh
|
Voice cloning: Persyaratan audio
Fitur ini tidak didukung di Wilayah Singapura.
Audio input berkualitas tinggi sangat penting untuk hasil Voice Cloning yang luar biasa.
Item | Persyaratan |
Format yang Didukung | WAV (16-bit), MP3, dan M4A |
Durasi Audio | Disarankan: 10 hingga 20 detik. Maksimum: 60 detik. |
Ukuran File | ≤ 10 MB |
Laju Sampel | ≥ 16 kHz |
Saluran Audio | Mono atau Stereo. Untuk audio Stereo, hanya saluran pertama yang diproses. Pastikan saluran pertama berisi ucapan manusia yang jelas. |
Konten | Agar hasil optimal, file audio Anda harus memenuhi persyaratan berikut: |
Voice design: Menulis deskripsi suara berkualitas tinggi
Fitur ini tidak didukung di Wilayah Singapura.
Persyaratan dan batasan
Saat menulis deskripsi suara (voice_prompt), Anda harus mengikuti batasan teknis berikut:
Batas panjang:
voice_prompttidak boleh lebih dari 500 karakter.Bahasa yang didukung: Deskripsi harus dalam bahasa Mandarin atau Inggris.
Prinsip inti
Deskripsi suara berkualitas tinggi (voice_prompt) adalah kunci keberhasilan dalam menciptakan suara ideal Anda. Deskripsi ini berperan sebagai cetak biru untuk voice design, yang secara langsung membimbing model untuk menghasilkan suara dengan karakteristik tertentu.
Ikuti prinsip inti berikut saat mendeskripsikan suara:
Bersifat spesifik, bukan samar: Gunakan kata-kata yang menggambarkan kualitas suara konkret, seperti "dalam," "jernih," atau "cepat bicara." Hindari istilah subjektif dan tidak informatif seperti "bersuara bagus" atau "biasa saja."
Bersifat multidimensi, bukan satu dimensi: Deskripsi yang baik biasanya menggabungkan beberapa dimensi, seperti jenis kelamin, usia, dan emosi (seperti dijelaskan di bawah). Deskripsi satu dimensi, seperti "suara perempuan," terlalu luas untuk menghasilkan kualitas suara yang khas.
Bersifat objektif, bukan subjektif: Fokuslah pada karakteristik fisik dan persepsi suara itu sendiri, bukan pada preferensi pribadi. Misalnya, gunakan "nada sedikit lebih tinggi dengan pengucapan energetik" daripada "suara favorit saya."
Bersifat orisinal, bukan imitatif: Gambarkan karakteristik suara daripada meminta peniruan individu tertentu, seperti selebriti atau aktor. Permintaan semacam itu berisiko melanggar hak cipta, dan model tidak mendukung peniruan langsung.
Bersifat ringkas, bukan berulang: Pastikan setiap kata memberikan makna. Hindari pengulangan sinonim atau penggunaan intensifier yang tidak berarti, seperti "suara yang sangat, sangat, sangat bagus."
Dimensi deskriptif
Dimensi | Contoh |
Jenis kelamin | Laki-laki, perempuan, netral |
Usia | Anak (5–12), remaja (13–18), dewasa muda (19–35), paruh baya (36–55), lansia (55+) |
Pitch | Tinggi, sedang, rendah, agak tinggi, agak rendah |
Laju ucapan | Cepat, sedang, lambat, agak cepat, agak lambat |
Emosi | Ceria, tenang, lembut, serius, hidup, tenang, menenangkan |
Karakteristik | Magnetis, jernih, serak, lembut, manis, kaya, kuat |
Tujuan | Penyiaran berita, sulih suara iklan, buku audio, karakter animasi, asisten suara, narasi dokumenter |
Perbandingan contoh
✅ Contoh yang direkomendasikan
"Suara perempuan muda yang hidup dengan laju ucapan cepat dan intonasi naik yang jelas, cocok untuk memperkenalkan produk fesyen."
Analisis: Deskripsi ini menggabungkan usia, kepribadian, laju ucapan, dan intonasi, serta menentukan kasus penggunaan, sehingga menciptakan profil suara yang jelas dan lengkap.
"Suara laki-laki paruh baya yang tenang dengan laju ucapan lambat dan timbre dalam yang magnetis, cocok untuk membaca berita atau narasi dokumenter."
Analisis: Deskripsi ini secara jelas menentukan jenis kelamin, rentang usia, laju ucapan, karakteristik suara, dan tujuan penggunaan.
"Suara anak yang lucu, sekitar perempuan berusia 8 tahun, dengan pengucapan yang agak kekanak-kanakan, cocok untuk suara karakter animasi."
Analisis: Deskripsi ini menentukan usia spesifik dan kualitas suara (kekanak-kanakan) serta mendefinisikan tujuan yang jelas.
"Suara perempuan yang lembut dan intelektual, sekitar usia 30 tahun, dengan nada tenang, cocok untuk narasi buku audio."
Analisis: Deskripsi ini menggunakan kata-kata seperti 'intelektual' dan 'tenang' untuk secara efektif menyampaikan emosi dan gaya suara.
❌ Contoh tidak efektif dan saran perbaikan
Contoh Buruk | Masalah Utama | Saran Perbaikan |
"Suara yang enak didengar" | Terlalu samar dan subjektif, tidak memiliki karakteristik yang dapat ditindaklanjuti. | Tambahkan dimensi spesifik, misalnya: "Suara perempuan dewasa muda dengan nada jernih dan intonasi lembut." |
"Suara seperti selebriti" | Berisiko melanggar hak cipta. Model tidak mendukung peniruan langsung. | Gambarkan karakteristik suaranya. Misalnya: "Suara laki-laki dewasa dengan timbre magnetis dan laju ucapan tenang." |
"Suara perempuan yang sangat, sangat, sangat bagus" | Informasi berulang. Mengulang kata tidak membantu mendefinisikan suara. | Hapus pengulangan dan tambahkan deskripsi yang efektif, seperti: "Suara perempuan berusia 20 hingga 24 tahun dengan nada ringan dan ceria, pitch hidup, dan kualitas manis." |
"123456" | Input tidak valid. Model tidak dapat menguraikannya sebagai karakteristik suara. | Berikan deskripsi teks yang bermakna. Lihat contoh yang direkomendasikan di atas. |
API
Perbandingan model
Internasional
Dalam mode penyebaran internasional, titik akses dan penyimpanan data berada di wilayah Singapura. Resource komputasi inferensi model dijadwalkan secara global, tidak termasuk Tiongkok daratan.
Fitur | cosyvoice-v3-plus | cosyvoice-v3-flash |
Bahasa yang didukung | Suara sistem (bervariasi tergantung suara): Bahasa Tionghoa (Mandarin, Timur Laut, Minnan, dan Shaanxi), Bahasa Inggris, Bahasa Jepang, dan Bahasa Korea. | Suara sistem (bervariasi tergantung suara): Bahasa Mandarin dan Bahasa Inggris. |
Format audio | PCM, WAV, MP3, dan Opus | |
Laju sampel audio | 8 kHz, 16 kHz, 22,05 kHz, 24 kHz, 44,1 kHz, dan 48 kHz | |
Voice cloning | ||
Voice design | ||
SSML | Fitur ini tersedia untuk system voices yang ditandai mendukung SSML dalam daftar suara. Untuk menggunakan fitur ini, lihat pengenalan bahasa markup SSML. | |
LaTeX | Untuk menggunakan fitur ini, lihat rumus LaTeX ke ucapan. | |
Penyesuaian volume | Untuk menggunakan fitur ini, tentukan parameter permintaan | |
Penyesuaian laju ucapan | Untuk menggunakan fitur ini, tentukan parameter permintaan Dalam SDK Java, parameter ini adalah | |
Penyesuaian pitch | Untuk menggunakan fitur ini, tentukan parameter permintaan Dalam SDK Java, parameter ini adalah | |
Penyesuaian bitrate | Fitur ini hanya mendukung format audio Opus. Untuk menggunakan fitur ini, tentukan parameter permintaan Dalam SDK Java, parameter ini adalah | |
Timestamp | Fitur ini tersedia untuk system voices yang ditandai mendukung timestamp dalam daftar suara. Untuk menggunakan fitur ini, tentukan parameter permintaan Dalam SDK Java, parameter ini adalah | |
Kontrol instruksi (Instruct) | Fitur ini tersedia untuk system voices yang ditandai mendukung Instruct dalam daftar suara. Untuk menggunakan fitur ini, tentukan parameter permintaan | |
Streaming Input | ||
Streaming Output | ||
Batas laju (RPS) | 3 | |
Jenis koneksi | SDK Java dan Python, serta API WebSocket | |
Harga | $0,26 per 10.000 karakter | $0,13 per 10.000 karakter |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akses dan penyimpanan data berada di wilayah Beijing, dan resource komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Fitur | cosyvoice-v3.5-plus | cosyvoice-v3.5-flash | cosyvoice-v3-plus | cosyvoice-v3-flash | cosyvoice-v2 |
Bahasa yang didukung | Tidak tersedia system voices. Untuk suara hasil kloning, model ini mendukung Mandarin (Mandarin, Kanton, Henan, Hubei, Minnan, Ningxia, Shaanxi, Shandong, Shanghai, dan Sichuan), Inggris, Prancis, Jerman, Jepang, Korea, Rusia, Portugis, Thailand, Indonesia, dan Vietnam. Untuk suara hasil desain, model ini mendukung Mandarin (Mandarin) dan Inggris. | Suara sistem (berbeda tergantung wilayah): Cina (Mandarin, Timur Laut, Minnan, dan Shaanxi), Inggris, Jepang, dan Korea. Suara hasil kloning: Mandarin (Mandarin), Inggris, Prancis, Jerman, Jepang, Korea, dan Rusia. | System voices (bervariasi tergantung suara): Mandarin (Mandarin) dan Inggris. Suara yang dikloning mencakup bahasa berikut: Bahasa Tionghoa (Mandarin, Kanton, Timur Laut, Gansu, Guizhou, Henan, Hubei, Jiangxi, Minnan, Ningxia, Shanxi, Shaanxi, Shandong, Shanghai, Sichuan, Tianjin, dan Yunnan), Bahasa Inggris, Bahasa Prancis, Bahasa Jerman, Bahasa Jepang, Bahasa Korea, Bahasa Rusia, Bahasa Portugis, Bahasa Thailand, Bahasa Indonesia, dan Bahasa Vietnam. | Suara sistem (berbeda-beda tergantung pada suara): Mandarin Tiongkok, Inggris, Korea, dan Jepang. Suara hasil kloning: Mandarin (Mandarin) dan Inggris. | |
Format audio | PCM, WAV, MP3, dan Opus | ||||
Laju sampel audio | 8 kHz, 16 kHz, 22,05 kHz, 24 kHz, 44,1 kHz, dan 48 kHz | ||||
Voice cloning | Untuk menggunakan fitur ini, lihat API Voice Cloning/Design CosyVoice. Bahasa yang didukung untuk voice cloning: cosyvoice-v2: Bahasa Mandarin dan Bahasa Inggris. cosyvoice-v3-flash: Bahasa Tionghoa (Mandarin, Kanton, dialek Timur Laut, Gansu, Guizhou, Henan, Hubei, Jiangxi, Minnan, Ningxia, Shanxi, Shaanxi, Shandong, Shanghai, Sichuan, Tianjin, dan Yunnan), serta bahasa Inggris, Prancis, Jerman, Jepang, Korea, Rusia, Portugis, Thailand, Indonesia, dan Vietnam. cosyvoice-v3-plus: Mandarin (Mandarin), Inggris, Prancis, Jerman, Jepang, Korea, dan Rusia. cosyvoice-v3.5-plus dan cosyvoice-v3.5-flash: Bahasa Tiongkok (Mandarin, Kanton, Henan, Hubei, Minnan, Ningxia, Shaanxi, Shandong, Shanghai, dan Sichuan), bahasa Inggris, bahasa Prancis, bahasa Jerman, bahasa Jepang, bahasa Korea, bahasa Rusia, bahasa Portugis, bahasa Thailand, bahasa Indonesia, dan bahasa Vietnam. | ||||
Voice design | Untuk model yang didukung, lihat API Voice Cloning/Design CosyVoice. Bahasa yang didukung untuk voice design: Mandarin dan Inggris. | ||||
SSML | Fitur ini tersedia untuk suara hasil kloning dan untuk system voices yang ditandai mendukung SSML dalam daftar suara. Untuk menggunakan fitur ini, lihat pengenalan bahasa markup SSML. | ||||
LaTeX | Untuk menggunakan fitur ini, lihat rumus LaTeX ke ucapan. | ||||
Penyesuaian volume | Untuk menggunakan fitur ini, tentukan parameter permintaan | ||||
Penyesuaian laju ucapan | Untuk menggunakan fitur ini, tentukan parameter permintaan Dalam SDK Java, parameter ini adalah | ||||
Penyesuaian pitch | Untuk menggunakan fitur ini, tentukan parameter permintaan Dalam SDK Java, parameter ini adalah | ||||
Penyesuaian bitrate | Fitur ini hanya mendukung format audio Opus. Untuk menggunakan fitur ini, tentukan parameter permintaan Dalam SDK Java, parameter ini adalah | ||||
Timestamp | Fitur ini tersedia untuk suara hasil kloning dan untuk system voices yang ditandai mendukung timestamp dalam daftar suara. Untuk menggunakan fitur ini, tentukan parameter permintaan Dalam SDK Java, parameter ini adalah | ||||
Kontrol instruksi (Instruct) | Fitur ini tersedia untuk suara hasil kloning dan untuk system voices yang ditandai mendukung Instruct dalam daftar suara. Untuk menggunakan fitur ini, tentukan parameter permintaan | Fitur ini tersedia untuk suara hasil kloning dan untuk system voices yang ditandai mendukung Instruct dalam daftar suara. Untuk menggunakan fitur ini, tentukan parameter permintaan | |||
Input streaming | |||||
Streaming Output | |||||
Batas laju (RPS) | 3 | ||||
Jenis koneksi | SDK Java dan Python, serta API WebSocket | ||||
Harga | CNY 0,22 per 10.000 karakter | CNY 0,116 per 10.000 karakter | CNY 0,286706 per 10.000 karakter | CNY 0,14335 per 10.000 karakter | CNY 0,286706 per 10.000 karakter |
Suara sistem yang didukung
FAQ
T: Bagaimana cara memperbaiki pelafalan yang salah dan kata-kata dengan banyak pelafalan?
Ganti kata-kata dengan banyak pelafalan dengan homofon sebagai solusi cepat.
Gunakan Speech Synthesis Markup Language (SSML) untuk mengontrol pelafalan.
T: Bagaimana cara memecahkan masalah audio diam dari Suara Hasil Kloning?
Verifikasi status suara
Panggil API voice cloning/design CosyVoice untuk memastikan
statussuara adalahOK.Pastikan konsistensi versi model
Pastikan Parameter
target_modeluntuk Voice Cloning sesuai dengan Parametermodeluntuk Sintesis Suara. Misalnya:Untuk Voice Cloning, gunakan
cosyvoice-v3-plus.Untuk Sintesis Suara, Anda juga harus menggunakan
cosyvoice-v3-plus.
Verifikasi kualitas audio sumber
Pastikan Audio Sumber untuk Voice Cloning memenuhi persyaratan dalam dokumentasi API voice cloning/design CosyVoice:
Durasi audio: 10–20 detik
Kualitas audio jernih
Tidak ada Noise Latar Belakang
Periksa Parameter permintaan
Periksa apakah Parameter
voicedalam permintaan Sintesis Suara diatur ke ID Suara Hasil Kloning.
T: Bagaimana cara memperbaiki audio tidak stabil atau tidak lengkap dari Suara Hasil Kloning?
Audio hasil sintesis dari Suara Hasil Kloning mungkin memiliki masalah berikut:
Pemutaran tidak lengkap, di mana hanya sebagian teks yang diucapkan.
Kualitas sintesis tidak konsisten.
Jeda tak terduga atau segmen diam dalam audio.
Kemungkinan penyebab: Kualitas Audio Sumber tidak memenuhi persyaratan.
Solusi: Periksa apakah Audio Sumber Anda memenuhi persyaratan berikut. Kami menyarankan merekam ulang audio dengan mengikuti Panduan Operasi Perekaman.
Periksa kontinuitas audio: Pastikan ucapan dalam Audio Sumber Anda berkelanjutan dan hindari jeda panjang atau segmen diam (lebih dari 2 detik). Jika audio berisi segmen diam yang signifikan, model mungkin menginterpretasikan keheningan atau Noise tersebut sebagai Fitur Suara, sehingga menurunkan kualitas output.
Periksa rasio aktivitas ucapan: Pastikan ucapan aktif mencakup minimal 60% dari total durasi audio. Noise Latar Belakang atau segmen non-ucapan yang berlebihan dapat mengganggu ekstraksi Fitur Suara.
Verifikasi detail kualitas audio:
Durasi audio: 10–20 detik (disarankan 15 detik).
Pelafalan jelas dan laju ucapan stabil.
Tidak ada Noise Latar Belakang, gema, atau statis.
Tingkat audio konsisten tanpa segmen diam yang panjang.