Topik ini memperkenalkan istilah dan konsep terkait Intelligent Speech Interaction untuk membantu Anda memahami layanan ini.
Laju sampel audio
Laju sampel audio adalah jumlah rata-rata sampel yang diambil oleh perangkat perekam dari sinyal audio dalam satu detik. Suara yang disampel pada laju sampel lebih tinggi dapat direproduksi secara lebih nyata dan alami.
Intelligent Speech Interaction mendukung laju sampel audio 8 kHz atau 16 kHz. Beban kerja telepon menggunakan 8 kHz, sedangkan beban kerja lainnya menggunakan 16 kHz.
Jika laju sampel audio data ucapan Anda melebihi 16 kHz, Anda harus mengonversinya menjadi 16 kHz agar Intelligent Speech Interaction dapat memproses data tersebut. Jika laju sampel audio data ucapan Anda adalah 8 kHz, jangan mengonversinya menjadi 16 kHz; alih-alih, konfigurasikan proyek Anda untuk menggunakan model 8 kHz.
Kedalaman bit audio
Kedalaman bit audio adalah jumlah bit data dalam setiap sampel. Kedalaman ini mengukur fluktuasi suara dan berkaitan langsung dengan resolusi kartu suara. Semakin tinggi kedalaman bit audio, semakin tinggi resolusinya dan semakin baik kualitas suaranya.
Dalam kebanyakan kasus, Intelligent Speech Interaction menggunakan kedalaman 16 bit untuk menangkap data audio. Setiap sampel disimpan sebagai dua byte 8-bit. Sinyal audio direkam dan didigitalkan pada laju 16.000 sampel per detik dengan dua byte per sampel.
Setiap sampel mencatat amplitudo sinyal yang disampel, dan presisi sampel tersebut bergantung pada kedalaman bit audio.
Satu byte 8-bit merepresentasikan 256 nilai yang mungkin, sehingga nilai amplitudo dapat dibagi menjadi 256 nilai sampel diskrit.
Dua byte 8-bit (16 bit) merepresentasikan 65.536 nilai yang mungkin, sehingga nilai amplitudo dapat dibagi menjadi 65.536 nilai sampel diskrit.
Kedalaman bit audio ini digunakan pada CD.
Format pengkodean audio
Format pengkodean audio adalah format representasi konten untuk menyimpan dan mengirimkan data audio. Perlu diperhatikan bahwa format pengkodean audio berbeda dari format file audio. Misalnya, Anda dapat menentukan format pengkodean audio dalam Header file WAV untuk menyimpan data audio dalam format pulse-code modulation (PCM) atau adaptive multi-rate (AMR).
Sebelum memanggil layanan Intelligent Speech Interaction, pastikan layanan tersebut mendukung format pengkodean audio dari data ucapan Anda.
Saluran suara
Saluran suara memisahkan sinyal audio yang dikumpulkan dari lokasi spasial berbeda saat perekaman suara dilakukan. Jumlah saluran suara sama dengan jumlah sumber suara selama proses perekaman. Data audio umumnya bersifat mono atau binaural (stereo).
Kecuali untuk layanan pengenalan file rekaman, layanan interaksi lainnya dari Intelligent Speech Interaction hanya mendukung data ucapan mono. Jika data ucapan Anda bersifat binaural atau multi-saluran, konversikan data tersebut menjadi data ucapan mono.
Inverse text normalization
Inverse text normalization (ITN) mengubah ucapan menjadi teks yang dapat dibaca. ITN menggunakan format standar untuk menampilkan objek seperti angka, jumlah uang, tanggal, dan alamat. Tabel berikut mencantumkan beberapa contohnya.
Ucapan asli | Hasil pengenalan setelah ITN diaktifkan |
|---|---|
Twenty percent | 20% |
May the eleventh | May 11 |
Please dial one one zero. | Please dial 110. |
Kunci aplikasi
Kunci aplikasi secara unik mengidentifikasi sebuah Proyek yang dibuat di Konsol Intelligent Speech Interaction. Saat memanggil layanan Intelligent Speech Interaction untuk suatu Proyek, Anda harus menyediakan kunci aplikasi Proyek tersebut. Layanan kemudian akan memperoleh informasi konfigurasi Proyek berdasarkan kunci aplikasi tersebut.
Intelligent Speech Interaction menyediakan layanan interaksi suara untuk berbagai skenario bisnis, seperti hotline layanan pelanggan dan input ponsel. Kemampuan layanan bervariasi tergantung pada skenarionya. Untuk hasil optimal, pastikan konfigurasi Proyek sesuai dengan persyaratan skenario bisnis tersebut.
Pasangan Kunci Akses
Pasangan Kunci Akses adalah kredensial identitas yang digunakan aplikasi untuk memanggil Operasi API Alibaba Cloud. Anda dapat membuat dan melihat Pasangan Kunci Akses di halaman Security Management.
Pasangan Kunci Akses terdiri dari ID AccessKey dan Rahasia AccessKey. ID AccessKey digunakan untuk mengidentifikasi Anda sebagai pengguna, sedangkan Rahasia AccessKey digunakan untuk mengenkripsi string tanda tangan permintaan akses Anda guna mencegah manipulasi data. Keduanya harus digunakan secara bersamaan. Rahasia AccessKey mirip dengan kata sandi logon; simpanlah secara rahasia.
Token akses
Token akses adalah kredensial yang digunakan untuk memanggil layanan Intelligent Speech Interaction. Token akses memiliki periode validitas tertentu dan dapat diperoleh dengan menggunakan ID AccessKey dan Rahasia AccessKey Anda.
Jika Anda memanggil layanan Intelligent Speech Interaction dari perangkat seperti ponsel, Anda dapat memperoleh token akses dari server dan mengirimkannya ke perangkat tersebut untuk mencegah terungkapnya Pasangan Kunci Akses Anda.
Hasil antara
Anda dapat menentukan apakah hasil antara dikembalikan saat memanggil layanan Intelligent Speech Interaction.
Jika parameter terkait diatur ke false, server hanya mengembalikan hasil akhir setelah menyelesaikan tugas pengenalan.
Jika parameter terkait diatur ke true, server mengembalikan hasil akhir setelah menyelesaikan tugas pengenalan, serta mengembalikan hasil antara selama Anda berbicara.
Misalnya, hasil akhir dari tugas pengenalan untuk sepotong data ucapan adalah "Hello welcome to Alibaba Group". Jika Anda mengaktifkan hasil antara, server mungkin mengembalikan hasil berikut saat Anda berbicara:
Hello
Hello welcome
Hello welcome to
Hello welcome to Alibaba
Hello welcome to Alibaba GroupServer mungkin mengoreksi hasil antara sebelumnya saat mengembalikan hasil antara saat ini.
Hasil antara saat ini tidak selalu menambahkan satu kata dibandingkan hasil antara sebelumnya; jumlah kata tambahan tidak tetap.
task_id
ID tugas dihasilkan oleh Alibaba Cloud SDK dan diberikan ke setiap permintaan panggilan. Setiap tugas memiliki ID tugas yang unik. Jika terjadi kesalahan, Anda dapat menggunakan ID tugas tersebut untuk pemecahan masalah.