Voice Sintesis Suara, Fonem & Dukungan Sinkronisasi Bibir - Intelligent Speech Interaction

Layanan sintesis ucapan digunakan untuk mengonversi teks input menjadi data audio biner.

Fitur

Mendukung format pengkodean audio berikut: pulse-code modulation (PCM), WAV, dan MP3.
Memungkinkan Anda mengonfigurasi kecepatan, intonasi, dan volume pembicara.

Memungkinkan Anda menetapkan pembicara dari ucapan yang dihasilkan, termasuk suara laki-laki dan perempuan untuk berbagai bahasa atau dialek.

Penting

Mendukung deteksi batas fonem untuk setiap karakter Cina atau kata Inggris. Layanan sintesis ucapan menghasilkan cap waktu untuk setiap kata dalam ucapan yang disintesis. Cap waktu ini menunjukkan titik waktu setiap karakter Cina atau kata Inggris dalam ucapan. Informasi cap waktu dapat digunakan untuk sinkronisasi bibir atau dubbing. Untuk informasi lebih lanjut, lihat Fitur Cap Waktu.

Nama	Nilai parameter suara	Tipe	Skenario	Bahasa yang didukung	Tingkat sampling yang didukung (Hz)	Deteksi batas fonem untuk setiap karakter atau kata	Catatan
Xiaoyun	Xiaoyun	Suara perempuan standar	Semua skenario	Cina atau bilingual (Cina dan Inggris)	8K/16K	Tidak	Tidak ada
Xiaogang	Xiaogang	Suara laki-laki standar	Semua skenario	Cina atau bilingual (Cina dan Inggris)	8K/16K	Tidak	Tidak ada
Ruoxi	Ruoxi	Suara perempuan lembut	Semua skenario	Cina atau bilingual (Cina dan Inggris)	8K/16K/24K	Tidak	Tidak ada
Siqi	Siqi	Suara perempuan lembut	Semua skenario	Cina atau bilingual (Cina dan Inggris)	8K/16K/24K	Ya	Tidak ada
Sijia	Sijia	Suara perempuan standar	Semua skenario	Cina atau bilingual (Cina dan Inggris)	8K/16K/24K	Tidak	Tidak ada
Sicheng	Sicheng	Suara laki-laki standar	Semua skenario	Cina atau bilingual (Cina dan Inggris)	8K/16K/24K	Ya	Tidak ada
Aiqi	Aiqi	Suara perempuan lembut	Semua skenario	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Tidak ada
Aijia	Aijia	Suara perempuan standar	Semua skenario	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Tidak ada
Aicheng	Aicheng	Suara laki-laki standar	Semua skenario	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Tidak ada
Aida	Aida	Suara laki-laki standar	Semua skenario	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Tidak ada
Ning'er	Ninger	Suara perempuan standar	Semua skenario	Hanya Cina	8K/16K/24K	Tidak	Tidak ada
Ruilin	Ruilin	Suara perempuan standar	Semua skenario	Hanya Cina	8K/16K/24K	Tidak	Tidak ada
Siyue	Siyue	Suara perempuan lembut	Layanan pelanggan	Cina atau bilingual (Cina dan Inggris)	8K/16K/24K	Tidak	Tidak ada
Aiya	Aiya	Suara perempuan kasar	Layanan pelanggan	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Tidak ada
Aixia	Aixia	Suara perempuan ramah	Layanan pelanggan	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Tidak ada
Aimei	Aimei	Suara perempuan manis	Layanan pelanggan	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Tidak ada
Aiyu	Aiyu	Suara perempuan alami	Layanan pelanggan	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Tidak ada
Aiyue	Aiyue	Suara perempuan lembut	Layanan pelanggan	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Tidak ada
Aijing	Aijing	Suara perempuan kasar	Layanan pelanggan	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Tidak ada
Xiaomei	Xiaomei	Suara perempuan manis	Layanan pelanggan	Cina atau bilingual (Cina dan Inggris)	8K/16K/24K	Tidak	Tidak ada
Aina	Aina	Suara perempuan dengan aksen Zhejiang	Layanan pelanggan	Hanya Cina	8K/16K	Ya	Tidak ada
Yina	Yina	Suara perempuan dengan aksen Zhejiang	Layanan pelanggan	Hanya Cina	8K/16K/24K	Tidak	Tidak ada
Sijing	Sijing	Suara perempuan kasar	Layanan pelanggan	Hanya Cina	8K/16K/24K	Ya	Tidak ada
Sitong	Sitong	Suara anak-anak	Skenario di mana suara anak-anak diperlukan	Hanya Cina	8K/16K/24K	Tidak	Tidak ada
Xiaobei	Xiaobei	Suara gadis kecil	Skenario di mana suara anak-anak diperlukan	Hanya Cina	8K/16K/24K	Ya	Tidak ada
Aitong	Aitong	Suara anak-anak	Skenario di mana suara anak-anak diperlukan	Hanya Cina	8K/16K	Ya	Tidak ada
Aiwei	Aiwei	Suara gadis kecil	Skenario di mana suara anak-anak diperlukan	Hanya Cina	8K/16K	Ya	Tidak ada
Aibao	Aibao	Suara gadis kecil	Skenario di mana suara anak-anak diperlukan	Cina	8K/16K	Ya	Tidak ada
Harry	Harry	Suara laki-laki dengan aksen Inggris	Hanya Inggris	Hanya Inggris	8K/16K	Tidak	Tidak ada
Abby	Abby	Suara perempuan dengan aksen Amerika	Hanya Inggris	Hanya Inggris	8K/16K	Tidak	Tidak ada
Andy	Andy	Suara laki-laki dengan aksen Amerika	Hanya Inggris	Hanya Inggris	8K/16K	Tidak	Tidak ada
Eric	Eric	Suara laki-laki dengan aksen Inggris	Hanya Inggris	Hanya Inggris	8K/16K	Tidak	Tidak ada
Emily	Emily	Suara perempuan dengan aksen Inggris	Hanya Inggris	Hanya Inggris	8K/16K	Tidak	Tidak ada
Luna	Luna	Suara perempuan dengan aksen Inggris	Hanya Inggris	Hanya Inggris	8K/16K	Tidak	Tidak ada
Luca	Luca	Suara laki-laki dengan aksen Inggris	Hanya Inggris	Hanya Inggris	8K/16K	Tidak	Tidak ada
Wendy	Wendy	Suara perempuan dengan aksen Inggris	Hanya Inggris	Hanya Inggris	8K/16K/24K	Tidak	Tidak ada
William	William	Suara laki-laki dengan aksen Inggris	Hanya Inggris	Hanya Inggris	8K/16K/24K	Tidak	Tidak ada
Olivia	Olivia	Suara perempuan dengan aksen Inggris	Hanya Inggris	Hanya Inggris	8K/16K/24K	Tidak	Tidak ada
Shanshan	Shanshan	Suara perempuan yang berbicara bahasa Kanton	Skenario di mana dialek digunakan	Kanton (disederhanakan) dan bilingual (Kanton dan Inggris)	8K/16K/24K	Tidak	Tidak ada
Xiaoyue	Xiaoyue	Suara perempuan dengan aksen Sichuan	Skenario di mana dialek digunakan	Cina atau bilingual (Cina dan Inggris)	8K/16K	Tidak	Dalam pratinjau publik
Lydia	Lydia	Suara perempuan bilingual (Cina dan Inggris)	Hanya Inggris	Hanya Inggris	8K/16K	Tidak	Dalam pratinjau publik
Aishuo	Aishuo	Suara laki-laki alami	Layanan pelanggan	Cina atau bilingual (Cina dan Inggris)	8K/16K	Ya	Dalam pratinjau publik
Qingqing	Qingqing	Suara perempuan yang berbicara bahasa Taiwan	Skenario di mana dialek digunakan	Hanya Cina	8K/16K	Tidak	Dalam pratinjau publik
Cuijie	Cuijie	Suara perempuan yang berbicara dialek Mandarin Timur Laut	Skenario di mana dialek digunakan	Hanya Cina	8K/16K	Tidak	Dalam pratinjau publik
Xiaoze	Xiaoze	Suara laki-laki dengan aksen Hunan yang kuat	Skenario di mana dialek digunakan	Hanya Cina	8K/16K	Ya	Dalam pratinjau publik

Batasan

Teks input harus dikodekan dalam format UTF-8.
Panjang teks input maksimal adalah 300 karakter. Jika teks melebihi 300 karakter, karakter tambahan akan dihapus.

Alamat layanan

Tipe	Deskripsi	URL
Akses dari jaringan eksternal	Anda dapat menggunakan URL ini untuk mengakses layanan sintesis ucapan dari semua klien melalui Internet. URL untuk akses eksternal ditentukan sebagai URL default dalam SDK.	wss://nls-gateway-ap-southeast-1.aliyuncs.com/ws/v1

1. Berikan token untuk melewati autentikasi

Untuk membangun koneksi WebSocket dari klien Anda ke server dan memberikan token untuk melewati autentikasi. Untuk informasi lebih lanjut tentang cara mendapatkan token, lihat Mendapatkan Token.

2. Mulai tugas sintesis

Klien mengirim permintaan untuk memulai sintesis ucapan. Anda dapat menggunakan metode SET objek SpeechSynthesizer dalam SDK untuk mengonfigurasi parameter permintaan. Tabel berikut menjelaskan parameter permintaan.

Parameter	Tipe	Wajib	Deskripsi
appkey	String	Ya	Appkey proyek Anda yang dibuat di konsol Intelligent Speech Interaction.
text	String	Ya	Teks yang ingin Anda sintesis. Teks harus dikodekan dalam format `UTF-8`. Panjang teks maksimal adalah 300 karakter. Gunakan karakter spasi untuk memisahkan kata-kata dalam teks.
voice	String	Tidak	Pembicara yang ingin Anda gunakan. Nilai default: `xiaoyun`.
format	String	Tidak	Format pengkodean audio. Nilai default: pcm. Nilai valid: pcm, wav, dan mp3.
sample_rate	Integer	Tidak	Tingkat sampling audio. Satuan: Hz. Nilai default: 16000.
volume	Integer	Tidak	Volume suara pembicara. Rentang nilai: 0 hingga 100. Nilai default: 50.
speech_rate	Integer	Tidak	Kecepatan bicara pembicara. Rentang nilai: -500 hingga 500. Nilai default: 0.
pitch_rate	Integer	Tidak	Intonasi pembicara. Rentang nilai: -500 hingga 500. Nilai default: 0.

3. Terima data audio yang disintesis

Server mengembalikan data audio yang disintesis dalam format biner. Klien menerima dan memproses data audio menggunakan SDK.

4. Selesaikan tugas sintesis

Setelah tugas sintesis selesai, server mengirim pesan notifikasi. Contoh berikut menunjukkan pesan notifikasi sampel:

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "SpeechSynthesizer",
        "name": "SynthesisCompleted",
        "status": 20000000,
        "status_message": "GATEWAYSUCCESSSuccess."
    }
}

Catatan

Dalam demo, audio yang disintesis disimpan dalam file. Jika Anda ingin memutar audio yang disintesis selama proses penerimaan, kami sarankan Anda menggunakan mode pemutaran aliran. Mode pemutaran aliran memungkinkan Anda memutar audio yang disintesis saat data audio sedang diterima. Ini mengurangi jumlah waktu yang Anda perlukan sebelum dapat memutar audio.

Kode status

Setiap respons berisi kode status. Tabel berikut menjelaskan kode status.

Kesalahan Umum

Kode Status	Penyebab	Solusi
40000001	Klien gagal melewati autentikasi.	Periksa apakah token yang digunakan oleh klien valid atau kedaluwarsa.
40000002	Permintaan tidak valid.	Periksa apakah permintaan yang dikirim oleh klien memenuhi persyaratan.
403	Token kedaluwarsa atau permintaan berisi parameter yang tidak valid.	Periksa apakah token yang digunakan oleh klien telah kedaluwarsa. Kemudian, periksa apakah nilai parameternya valid.
40000004	Klien mengalami timeout.	Periksa apakah klien tidak mengirim data ke server untuk jangka waktu lama, seperti 10 detik.
40000005	Jumlah permintaan melebihi batas atas.	Periksa apakah jumlah koneksi bersamaan atau nilai queries per second (QPS) melebihi batas atas. Jika jumlah koneksi bersamaan melebihi batas atas, kami menyarankan Anda meningkatkan Intelligent Speech Interaction dari Edisi Percobaan ke Edisi Komersial. Jika Anda menggunakan Edisi Komersial, kami menyarankan Anda membeli lebih banyak sumber daya untuk meningkatkan konkurensi.
40000000	Kesalahan klien terjadi. Ini adalah kode status default untuk kesalahan klien.	Selesaikan kesalahan berdasarkan pesan kesalahan atau ajukan tiket.
50000000	Kesalahan server terjadi. Ini adalah kode status default untuk kesalahan server.	Jika kode status ini kadang-kadang dikembalikan, abaikan saja. Jika kode status ini dikembalikan beberapa kali, ajukan tiket.
50000001	Kesalahan panggilan internal terjadi.	Jika kode status ini kadang-kadang dikembalikan, abaikan saja. Jika kode status ini dikembalikan beberapa kali, ajukan tiket.

Kesalahan Gateway

Kode Status	Penyebab	Solusi
40010001	Metode tidak didukung.	Jika Anda menggunakan SDK, ajukan tiket.
40010002	Instruksi tidak didukung.	Jika Anda menggunakan SDK, ajukan tiket.
40010003	Format instruksi tidak valid.	Jika Anda menggunakan SDK, ajukan tiket.
40010004	Klien terputus secara tak terduga.	Periksa apakah klien terputus sebelum server menyelesaikan tugas yang diminta.
40010005	Status tugas tidak valid.	Periksa apakah instruksi didukung saat tugas dalam keadaan saat ini.

Kesalahan Konfigurasi

Kode status	Penyebab	Solusi
40020105	Aplikasi tidak ada.	Periksa apakah appkey benar dan milik akun Alibaba Cloud yang sama dengan token.

Kesalahan Layanan Text-to-Speech (TTS)

Kode status	Penyebab	Solusi
41020001	Satu atau lebih parameter tidak valid.	Periksa apakah nilai parameter yang ditentukan valid.
51020001	Kesalahan server TTS terjadi.	Jika kode status ini kadang-kadang dikembalikan, abaikan saja. Jika kode status ini dikembalikan beberapa kali, ajukan tiket.