Jika ingin menggunakan Intelligent Speech Interaction, Anda dapat membaca dokumentasi Mulai Cepat untuk memulai penggunaannya. Selanjutnya, kami menyarankan agar Anda membaca topik-topik berikut secara berurutan guna memperoleh informasi terkini mengenai Intelligent Speech Interaction.
Topik | Deskripsi |
|---|---|
Memperkenalkan istilah dan konsep yang terkait dengan Intelligent Speech Interaction. | |
Menjelaskan cara membuat proyek dan mengatur parameter proyek di Konsol Intelligent Speech Interaction. | |
Menjelaskan cara mendapatkan token akses. Anda harus mendapatkan token akses sebelum memanggil layanan Intelligent Speech Interaction. | |
Panggil layanan Intelligent Speech Interaction | |
Menjelaskan cara menggunakan alat kustomisasi untuk meningkatkan efektivitas pengenalan suara. |
Perbedaan antara berbagai layanan Intelligent Speech Interaction
Layanan | Kinerja real-time | Fitur | Skenario | Format pengkodean audio | Metode pemanggilan | Kuota gratis | Pembelian |
|---|---|---|---|---|---|---|---|
Short sentence recognition | Pengenalan real-time. | Mengenali ucapan pendek yang berdurasi 1 menit atau kurang. | Skenario seperti pencarian suara di aplikasi, saluran hotline layanan pelanggan, percakapan obrolan, dan kontrol perintah suara | Pulse-code modulation (PCM) untuk file PCM atau WAV tidak terkompresi dan Opus | Java/C++/Android/iOS | Maksimal dua permintaan panggilan bersamaan | Paket sumber daya terpisah |
Real-time speech recognition | Pengenalan real-time. | Mengenali aliran data suara yang berdurasi lama. | Skenario pengenalan suara tanpa gangguan seperti pidato konferensi dan siaran langsung | PCM untuk file PCM atau WAV tidak terkompresi | Java/C++/Android/iOS | Maksimal dua permintaan panggilan bersamaan | Paket sumber daya terpisah |
Speech synthesis | Sintesis real-time. | Mengonversi teks yang berisi maksimal 300 karakter berkode UTF-8 menjadi suara. | Skenario yang memerlukan sintesis teks-ke-suara | PCM, WAV, dan MP3 | Java/C++/Android/iOS | Maksimal dua permintaan panggilan bersamaan | Paket sumber daya terpisah |
Recording file recognition | Pengenalan non-real-time. Setelah pengguna uji coba gratis mengirim permintaan pengenalan untuk file rekaman, server pengenalan akan mengenali file tersebut dan mengembalikan hasilnya dalam waktu 24 jam. Untuk pengguna berbayar, hasil pengenalan dikembalikan dalam waktu 6 jam. Catatan Hal ini tidak berlaku jika total durasi file rekaman yang diunggah dalam waktu 30 menit melebihi 500 jam. Jika Anda perlu mengonversi data semacam itu, hubungi layanan pra-penjualan. | Mengenali file rekaman dengan ukuran maksimum 512 MB. | Skenario yang tidak memerlukan pengenalan real-time | WAV dan MP3 satu track dan dua track | Java/C++/GO/.NET/Node.js/PHP/Python | Permintaan panggilan untuk mengenali file rekaman hingga durasi 2 jam setiap hari kalender | Paket sumber daya terpisah |
Long text speech synthesis | Sintesis non-real-time. | Mengonversi data teks yang berisi ribuan hingga puluhan ribu karakter menjadi data audio biner. | Skenario seperti membaca novel dan artikel | PCM, WAV, dan MP3 | JAVA/C++/RESTful API | Tidak tersedia edisi uji coba | Paket sumber daya terpisah |
Kecuali layanan Recording File Recognition, layanan interaksi suara lainnya dari Intelligent Speech Interaction hanya mendukung data suara mono.
Intelligent Speech Interaction hanya mendukung file audio 16-bit yang disampel pada frekuensi 8 kHz atau 16 kHz.