Aktifkan Timestamp Per Kata dalam Sintesis Ucapan untuk Sinkronisasi Presisi - Intelligent Speech Interaction

Layanan sintesis suara menghasilkan timestamp—yang menunjukkan titik waktu pada aliran audio—untuk setiap kata dalam sebuah kalimat. Fitur ini juga dikenal sebagai deteksi batas fonem per kata, dan dapat digunakan untuk pembicara virtual serta teks terjemahan video.

Penting

Fitur ini hanya tersedia untuk pembicara yang mendukung deteksi batas fonem per kata.

Parameter permintaan

Untuk mengaktifkan fitur timestamp, atur parameter permintaan enable_subtitle ke true saat mengirim permintaan dari klien.

Misalnya, jika Anda menggunakan SDK untuk Java, konfigurasi berikut dapat digunakan:

// Tentukan apakah akan mengaktifkan fitur timestamp untuk mengembalikan timestamp yang sesuai dari teks yang akan dikirim. Secara default, fitur ini tidak diaktifkan.  
synthesizer.addCustomedParam("enable_subtitle", true);

Tanggapan server

Jika parameter enable_subtitle diatur ke true dalam permintaan, server akan mengembalikan event MetaInfo yang berisi timestamp sesuai dengan teks yang dikirim.

Parameter	Tipe	Deskripsi
subtitles	List	Informasi mengenai timestamp.

Tabel berikut menjelaskan parameter yang terdapat dalam subtitles.

Parameter	Tipe	Deskripsi
text	String	Kata dalam teks yang dikirim.
begin_time	Integer	Timestamp awal kata dalam data audio hasil sintesis, dalam milidetik.
end_time	Integer	Timestamp akhir kata dalam data audio hasil sintesis, dalam milidetik.

Contoh keluaran

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "SpeechSynthesizer",
        "name": "MetaInfo",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    },
    "payload": {
        "subtitles": [
            {
                "text": "xx",
                "begin_time": 130,
                "end_time": 260
            },
            {
                "text": "xx",
                "begin_time": 260,
                "end_time": 370
            }
        ]
    }
}

Catatan

Layanan sintesis suara mengembalikan subtitle berdasarkan cara teks asli dibaca. Oleh karena itu, teks terjemahan video yang dihasilkan oleh fitur timestamp tidak dapat digunakan langsung sebagai teks terjemahan di layar; Anda harus menggunakan teks aslinya.
Jika menggunakan fitur ini untuk menghasilkan teks terjemahan video, Anda dapat memperoleh timestamp awal dan akhir setiap kalimat dari tanggapan yang dikembalikan.