Layanan sintesis suara menghasilkan timestamp—yang menunjukkan titik waktu pada aliran audio—untuk setiap kata dalam sebuah kalimat. Fitur ini juga dikenal sebagai deteksi batas fonem per kata, dan dapat digunakan untuk pembicara virtual serta teks terjemahan video.
Fitur ini hanya tersedia untuk pembicara yang mendukung deteksi batas fonem per kata.
Parameter permintaan
Untuk mengaktifkan fitur timestamp, atur parameter permintaan enable_subtitle ke true saat mengirim permintaan dari klien.
Misalnya, jika Anda menggunakan SDK untuk Java, konfigurasi berikut dapat digunakan:
// Tentukan apakah akan mengaktifkan fitur timestamp untuk mengembalikan timestamp yang sesuai dari teks yang akan dikirim. Secara default, fitur ini tidak diaktifkan.
synthesizer.addCustomedParam("enable_subtitle", true);Tanggapan server
Jika parameter enable_subtitle diatur ke true dalam permintaan, server akan mengembalikan event MetaInfo yang berisi timestamp sesuai dengan teks yang dikirim.
Parameter | Tipe | Deskripsi |
|---|---|---|
subtitles | List | Informasi mengenai timestamp. |
Tabel berikut menjelaskan parameter yang terdapat dalam subtitles.
Parameter | Tipe | Deskripsi |
|---|---|---|
text | String | Kata dalam teks yang dikirim. |
begin_time | Integer | Timestamp awal kata dalam data audio hasil sintesis, dalam milidetik. |
end_time | Integer | Timestamp akhir kata dalam data audio hasil sintesis, dalam milidetik. |
Contoh keluaran
{
"header": {
"message_id": "05450bf69c53413f8d88aed1ee60****",
"task_id": "640bc797bb684bd6960185651307****",
"namespace": "SpeechSynthesizer",
"name": "MetaInfo",
"status": 20000000,
"status_message": "GATEWAY|SUCCESS|Success."
},
"payload": {
"subtitles": [
{
"text": "xx",
"begin_time": 130,
"end_time": 260
},
{
"text": "xx",
"begin_time": 260,
"end_time": 370
}
]
}
}Catatan
Layanan sintesis suara mengembalikan subtitle berdasarkan cara teks asli dibaca. Oleh karena itu, teks terjemahan video yang dihasilkan oleh fitur timestamp tidak dapat digunakan langsung sebagai teks terjemahan di layar; Anda harus menggunakan teks aslinya.
Jika menggunakan fitur ini untuk menghasilkan teks terjemahan video, Anda dapat memperoleh timestamp awal dan akhir setiap kalimat dari tanggapan yang dikembalikan.