Ringkasan Kemampuan Pengenalan Ucapan, Sintesis & NLP - ISI

Jika ingin menggunakan Intelligent Speech Interaction, Anda dapat membaca dokumentasi Mulai Cepat untuk memulai penggunaannya. Selanjutnya, kami menyarankan agar Anda membaca topik-topik berikut secara berurutan guna memperoleh informasi terkini mengenai Intelligent Speech Interaction.

Topik	Deskripsi
Konsep	Memperkenalkan istilah dan konsep yang terkait dengan Intelligent Speech Interaction.
Mengelola proyek	Menjelaskan cara membuat proyek dan mengatur parameter proyek di Konsol Intelligent Speech Interaction.
Mendapatkan token akses	Menjelaskan cara mendapatkan token akses. Anda harus mendapatkan token akses sebelum memanggil layanan Intelligent Speech Interaction.
Panggil layanan Intelligent Speech Interaction	Short Sentence Recognition Real-time Speech Recognition Speech Synthesis Recording File Recognition
Gunakan alat kustomisasi untuk pengenalan suara	Menjelaskan cara menggunakan alat kustomisasi untuk meningkatkan efektivitas pengenalan suara.

Perbedaan antara berbagai layanan Intelligent Speech Interaction

Layanan	Kinerja real-time	Fitur	Skenario	Format pengkodean audio	Metode pemanggilan	Kuota gratis	Pembelian
Short sentence recognition	Pengenalan real-time.	Mengenali ucapan pendek yang berdurasi 1 menit atau kurang.	Skenario seperti pencarian suara di aplikasi, saluran hotline layanan pelanggan, percakapan obrolan, dan kontrol perintah suara	Pulse-code modulation (PCM) untuk file PCM atau WAV tidak terkompresi dan Opus	Java/C++/Android/iOS	Maksimal dua permintaan panggilan bersamaan	Paket sumber daya terpisah
Real-time speech recognition	Pengenalan real-time.	Mengenali aliran data suara yang berdurasi lama.	Skenario pengenalan suara tanpa gangguan seperti pidato konferensi dan siaran langsung	PCM untuk file PCM atau WAV tidak terkompresi	Java/C++/Android/iOS	Maksimal dua permintaan panggilan bersamaan	Paket sumber daya terpisah
Speech synthesis	Sintesis real-time.	Mengonversi teks yang berisi maksimal 300 karakter berkode UTF-8 menjadi suara.	Skenario yang memerlukan sintesis teks-ke-suara	PCM, WAV, dan MP3	Java/C++/Android/iOS	Maksimal dua permintaan panggilan bersamaan	Paket sumber daya terpisah
Recording file recognition	Pengenalan non-real-time. Setelah pengguna uji coba gratis mengirim permintaan pengenalan untuk file rekaman, server pengenalan akan mengenali file tersebut dan mengembalikan hasilnya dalam waktu 24 jam. Untuk pengguna berbayar, hasil pengenalan dikembalikan dalam waktu 6 jam. Catatan Hal ini tidak berlaku jika total durasi file rekaman yang diunggah dalam waktu 30 menit melebihi 500 jam. Jika Anda perlu mengonversi data semacam itu, hubungi layanan pra-penjualan.	Mengenali file rekaman dengan ukuran maksimum 512 MB.	Skenario yang tidak memerlukan pengenalan real-time	WAV dan MP3 satu track dan dua track	Java/C++/GO/.NET/Node.js/PHP/Python	Permintaan panggilan untuk mengenali file rekaman hingga durasi 2 jam setiap hari kalender	Paket sumber daya terpisah
Long text speech synthesis	Sintesis non-real-time.	Mengonversi data teks yang berisi ribuan hingga puluhan ribu karakter menjadi data audio biner.	Skenario seperti membaca novel dan artikel	PCM, WAV, dan MP3	JAVA/C++/RESTful API	Tidak tersedia edisi uji coba	Paket sumber daya terpisah

Penting

Kecuali layanan Recording File Recognition, layanan interaksi suara lainnya dari Intelligent Speech Interaction hanya mendukung data suara mono.
Intelligent Speech Interaction hanya mendukung file audio 16-bit yang disampel pada frekuensi 8 kHz atau 16 kHz.