All Products
Search
Document Center

Intelligent Speech Interaction:Konsep

Last Updated:Nov 11, 2025

Topik ini memperkenalkan istilah dan konsep terkait Intelligent Speech Interaction untuk membantu Anda memahami layanan ini.

Laju sampel audio

Laju sampel audio adalah jumlah rata-rata sampel yang diambil oleh perangkat perekam dari sinyal audio dalam satu detik. Suara yang disampel pada laju sampel lebih tinggi dapat direproduksi secara lebih nyata dan alami.

Intelligent Speech Interaction mendukung laju sampel audio 8 kHz atau 16 kHz. Beban kerja telepon menggunakan 8 kHz, sedangkan beban kerja lainnya menggunakan 16 kHz.

Jika laju sampel audio data ucapan Anda melebihi 16 kHz, Anda harus mengonversinya menjadi 16 kHz agar Intelligent Speech Interaction dapat memproses data tersebut. Jika laju sampel audio data ucapan Anda adalah 8 kHz, jangan mengonversinya menjadi 16 kHz; alih-alih, konfigurasikan proyek Anda untuk menggunakan model 8 kHz.

Kedalaman bit audio

Kedalaman bit audio adalah jumlah bit data dalam setiap sampel. Kedalaman ini mengukur fluktuasi suara dan berkaitan langsung dengan resolusi kartu suara. Semakin tinggi kedalaman bit audio, semakin tinggi resolusinya dan semakin baik kualitas suaranya.

Dalam kebanyakan kasus, Intelligent Speech Interaction menggunakan kedalaman 16 bit untuk menangkap data audio. Setiap sampel disimpan sebagai dua byte 8-bit. Sinyal audio direkam dan didigitalkan pada laju 16.000 sampel per detik dengan dua byte per sampel.

Setiap sampel mencatat amplitudo sinyal yang disampel, dan presisi sampel tersebut bergantung pada kedalaman bit audio.

  • Satu byte 8-bit merepresentasikan 256 nilai yang mungkin, sehingga nilai amplitudo dapat dibagi menjadi 256 nilai sampel diskrit.

  • Dua byte 8-bit (16 bit) merepresentasikan 65.536 nilai yang mungkin, sehingga nilai amplitudo dapat dibagi menjadi 65.536 nilai sampel diskrit.

    Kedalaman bit audio ini digunakan pada CD.

Format pengkodean audio

Format pengkodean audio adalah format representasi konten untuk menyimpan dan mengirimkan data audio. Perlu diperhatikan bahwa format pengkodean audio berbeda dari format file audio. Misalnya, Anda dapat menentukan format pengkodean audio dalam Header file WAV untuk menyimpan data audio dalam format pulse-code modulation (PCM) atau adaptive multi-rate (AMR).

Penting

Sebelum memanggil layanan Intelligent Speech Interaction, pastikan layanan tersebut mendukung format pengkodean audio dari data ucapan Anda.

Saluran suara

Saluran suara memisahkan sinyal audio yang dikumpulkan dari lokasi spasial berbeda saat perekaman suara dilakukan. Jumlah saluran suara sama dengan jumlah sumber suara selama proses perekaman. Data audio umumnya bersifat mono atau binaural (stereo).

Catatan

Kecuali untuk layanan pengenalan file rekaman, layanan interaksi lainnya dari Intelligent Speech Interaction hanya mendukung data ucapan mono. Jika data ucapan Anda bersifat binaural atau multi-saluran, konversikan data tersebut menjadi data ucapan mono.

Inverse text normalization

Inverse text normalization (ITN) mengubah ucapan menjadi teks yang dapat dibaca. ITN menggunakan format standar untuk menampilkan objek seperti angka, jumlah uang, tanggal, dan alamat. Tabel berikut mencantumkan beberapa contohnya.

Ucapan asli

Hasil pengenalan setelah ITN diaktifkan

Twenty percent

20%

May the eleventh

May 11

Please dial one one zero.

Please dial 110.

Kunci aplikasi

Kunci aplikasi secara unik mengidentifikasi sebuah Proyek yang dibuat di Konsol Intelligent Speech Interaction. Saat memanggil layanan Intelligent Speech Interaction untuk suatu Proyek, Anda harus menyediakan kunci aplikasi Proyek tersebut. Layanan kemudian akan memperoleh informasi konfigurasi Proyek berdasarkan kunci aplikasi tersebut.

Intelligent Speech Interaction menyediakan layanan interaksi suara untuk berbagai skenario bisnis, seperti hotline layanan pelanggan dan input ponsel. Kemampuan layanan bervariasi tergantung pada skenarionya. Untuk hasil optimal, pastikan konfigurasi Proyek sesuai dengan persyaratan skenario bisnis tersebut.

Pasangan Kunci Akses

Pasangan Kunci Akses adalah kredensial identitas yang digunakan aplikasi untuk memanggil Operasi API Alibaba Cloud. Anda dapat membuat dan melihat Pasangan Kunci Akses di halaman Security Management.

Pasangan Kunci Akses terdiri dari ID AccessKey dan Rahasia AccessKey. ID AccessKey digunakan untuk mengidentifikasi Anda sebagai pengguna, sedangkan Rahasia AccessKey digunakan untuk mengenkripsi string tanda tangan permintaan akses Anda guna mencegah manipulasi data. Keduanya harus digunakan secara bersamaan. Rahasia AccessKey mirip dengan kata sandi logon; simpanlah secara rahasia.

Token akses

Token akses adalah kredensial yang digunakan untuk memanggil layanan Intelligent Speech Interaction. Token akses memiliki periode validitas tertentu dan dapat diperoleh dengan menggunakan ID AccessKey dan Rahasia AccessKey Anda.

Catatan

Jika Anda memanggil layanan Intelligent Speech Interaction dari perangkat seperti ponsel, Anda dapat memperoleh token akses dari server dan mengirimkannya ke perangkat tersebut untuk mencegah terungkapnya Pasangan Kunci Akses Anda.

Hasil antara

Anda dapat menentukan apakah hasil antara dikembalikan saat memanggil layanan Intelligent Speech Interaction.

  • Jika parameter terkait diatur ke false, server hanya mengembalikan hasil akhir setelah menyelesaikan tugas pengenalan.

  • Jika parameter terkait diatur ke true, server mengembalikan hasil akhir setelah menyelesaikan tugas pengenalan, serta mengembalikan hasil antara selama Anda berbicara.

Misalnya, hasil akhir dari tugas pengenalan untuk sepotong data ucapan adalah "Hello welcome to Alibaba Group". Jika Anda mengaktifkan hasil antara, server mungkin mengembalikan hasil berikut saat Anda berbicara:

Hello
Hello welcome
Hello welcome to
Hello welcome to Alibaba
Hello welcome to Alibaba Group
Catatan

  • Server mungkin mengoreksi hasil antara sebelumnya saat mengembalikan hasil antara saat ini.

  • Hasil antara saat ini tidak selalu menambahkan satu kata dibandingkan hasil antara sebelumnya; jumlah kata tambahan tidak tetap.

task_id

ID tugas dihasilkan oleh Alibaba Cloud SDK dan diberikan ke setiap permintaan panggilan. Setiap tugas memiliki ID tugas yang unik. Jika terjadi kesalahan, Anda dapat menggunakan ID tugas tersebut untuk pemecahan masalah.