All Products
Search
Document Center

Intelligent Speech Interaction:Fitur timestamp

Last Updated:Nov 11, 2025

Layanan sintesis suara menghasilkan timestamp—yang menunjukkan titik waktu pada aliran audio—untuk setiap kata dalam sebuah kalimat. Fitur ini juga dikenal sebagai deteksi batas fonem per kata, dan dapat digunakan untuk pembicara virtual serta teks terjemahan video.

Penting

Fitur ini hanya tersedia untuk pembicara yang mendukung deteksi batas fonem per kata.

Parameter permintaan

Untuk mengaktifkan fitur timestamp, atur parameter permintaan enable_subtitle ke true saat mengirim permintaan dari klien.

Misalnya, jika Anda menggunakan SDK untuk Java, konfigurasi berikut dapat digunakan:

// Tentukan apakah akan mengaktifkan fitur timestamp untuk mengembalikan timestamp yang sesuai dari teks yang akan dikirim. Secara default, fitur ini tidak diaktifkan.  
synthesizer.addCustomedParam("enable_subtitle", true);

Tanggapan server

Jika parameter enable_subtitle diatur ke true dalam permintaan, server akan mengembalikan event MetaInfo yang berisi timestamp sesuai dengan teks yang dikirim.

Parameter

Tipe

Deskripsi

subtitles

List

Informasi mengenai timestamp.

Tabel berikut menjelaskan parameter yang terdapat dalam subtitles.

Parameter

Tipe

Deskripsi

text

String

Kata dalam teks yang dikirim.

begin_time

Integer

Timestamp awal kata dalam data audio hasil sintesis, dalam milidetik.

end_time

Integer

Timestamp akhir kata dalam data audio hasil sintesis, dalam milidetik.

Contoh keluaran

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "SpeechSynthesizer",
        "name": "MetaInfo",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    },
    "payload": {
        "subtitles": [
            {
                "text": "xx",
                "begin_time": 130,
                "end_time": 260
            },
            {
                "text": "xx",
                "begin_time": 260,
                "end_time": 370
            }
        ]
    }
}

Catatan

  • Layanan sintesis suara mengembalikan subtitle berdasarkan cara teks asli dibaca. Oleh karena itu, teks terjemahan video yang dihasilkan oleh fitur timestamp tidak dapat digunakan langsung sebagai teks terjemahan di layar; Anda harus menggunakan teks aslinya.

  • Jika menggunakan fitur ini untuk menghasilkan teks terjemahan video, Anda dapat memperoleh timestamp awal dan akhir setiap kalimat dari tanggapan yang dikembalikan.