How can I quadruple the speed of speech synthesis?
Latar belakang penelitian
Sistem sintesis ucapan terutama dibagi menjadi dua kategori, sistem sintesis splicing dan sistem sintesis parametrik. Di antara mereka, sistem sintesis parametrik telah membuat kemajuan besar dalam kualitas dan kealamian sintesis setelah memperkenalkan jaringan saraf sebagai model. Di sisi lain, popularitas besar perangkat IoT (seperti smart speaker dan smart TV) juga membatasi sumber daya komputasi dan persyaratan kecepatan waktu nyata untuk sistem sintesis parameter yang diterapkan pada perangkat. Jaringan memori sekuensial feed-forward dalam yang diperkenalkan dalam pekerjaan ini dapat secara efektif mengurangi jumlah perhitungan dan meningkatkan kecepatan sintesis sambil mempertahankan kualitas sintesis.
Kami menggunakan memori jangka pendek dua arah (BLSTM) berdasarkan sistem sintesis ucapan parametrik statistik sebagai sistem dasar. Mirip dengan sistem sintesis pidato parametrik statistik utama saat ini, sistem sintesis pidato parametrik statistik yang kami usulkan berdasarkan jaringan memori urutan umpan maju yang dalam (DFSMN) juga terdiri dari tiga bagian utama, penyintesis suara (vocoder), modul front-end dan back-end modul, seperti yang ditunjukkan di atas. Kami menggunakan alat open source WORLD sebagai penyintesis suara kami, yang digunakan untuk mengekstrak informasi spektral, logaritma frekuensi fundamental, fitur band-period (BAP) dan penanda suara tak bersuara dari bentuk gelombang ucapan asli selama pelatihan model, dan juga digunakan dalam sintesis ucapan Konversi dari parameter akustik ke suara aktual selesai secara real time. Modul front-end digunakan untuk regularisasi dan analisis leksikal teks input, dan kami menyandikan fitur linguistik ini sebagai input pelatihan jaringan saraf. Modul back-end digunakan untuk membangun pemetaan dari fitur linguistik input ke parameter akustik.Dalam sistem kami, kami menggunakan DFSMN sebagai modul back-end.
Deep Feedforward Sequential Memory Networks
Sebagai versi perbaikan dari jaringan memori urutan umpan maju standar (FSMN), jaringan memori urutan umpan maju yang kompak (cFSMN) memperkenalkan faktorisasi matriks tingkat rendah ke dalam struktur jaringan. Peningkatan ini menyederhanakan FSMN, mengurangi jumlah parameter model, dan Mempercepat proses pelatihan dan prediksi model.
Gambar di atas memberikan representasi skematis dari struktur cFSMN. Untuk setiap lapisan cFSMN dari jaringan saraf, proses perhitungan dapat dinyatakan sebagai langkah-langkah berikut ① Setelah pemetaan linier, keluaran dari lapisan sebelumnya dipetakan ke vektor berdimensi rendah ② Modul memori melakukan perhitungan, menghitung jumlah dari beberapa frame sebelum dan sesudah frame saat ini Jumlah bobot dimensi-bijaksana dari vektor dimensi rendah dari frame saat ini ③ menempatkan jumlah bobot melalui transformasi affine dan fungsi nonlinear untuk mendapatkan output dari lapisan saat ini. Ketiga langkah tersebut dapat dinyatakan secara bergantian sebagai rumus berikut.
Mirip dengan jaringan saraf berulang (RNNs, termasuk BLSTM), cFSMN memiliki kemampuan untuk menangkap informasi urutan jarak jauh dengan menyesuaikan urutan modul memori. Di sisi lain, cFSMN dapat dilatih langsung oleh algoritme backpropagation (BP), yang lebih cepat dan tidak rentan terhadap hilangnya gradien dibandingkan RNN yang harus dilatih menggunakan backpropagation through time (BPTT).
Lebih lanjut meningkatkan cFSMN, kami mendapatkan jaringan memori urutan umpan-maju yang dalam (DFSMN). DFSMN memanfaatkan teknologi skip-connections yang banyak digunakan di berbagai deep neural network, sehingga ketika algoritma backpropagation dijalankan, gradient dapat mem-bypass transformasi nonlinear, bahkan jika lebih banyak layer DFSMN yang ditumpuk, jaringan masih dapat melakukan konvergensi dengan cepat dan tepat. Untuk model DFSMN, manfaat peningkatan kedalaman ada dua. Di satu sisi, jaringan yang lebih dalam umumnya memiliki kemampuan representasi yang lebih kuat, di sisi lain, meningkatkan kedalaman secara tidak langsung dapat meningkatkan panjang konteks yang dapat digunakan model DFSMN untuk memprediksi output dari frame saat ini, yang secara intuitif sangat menguntungkan untuk menangkap urutan informasi jarak jauh. Secara khusus, kami menambahkan koneksi lewati antara modul memori dari dua lapisan yang berdekatan, seperti yang ditunjukkan dalam rumus berikut. Karena dimensi modul memori di setiap lapisan DFSMN adalah sama, koneksi yang dilewati dapat direalisasikan dengan transformasi identitas.
Kita dapat menganggap DFSMN sebagai model yang sangat fleksibel. Ketika urutan input sangat singkat, atau ketika penundaan prediksi tinggi, urutan modul memori yang lebih kecil dapat digunakan.Dalam hal ini, hanya informasi dari frame di dekat frame saat ini yang digunakan untuk memprediksi output dari frame saat ini. Dan jika urutan input sangat panjang, atau dalam skenario di mana penundaan prediksi tidak begitu penting, urutan modul memori yang lebih besar dapat digunakan, maka informasi jarak jauh dari urutan tersebut dapat digunakan dan dimodelkan secara efektif, yang kondusif untuk meningkatkan kinerja model.
Selain urutan, kami menambahkan hyperparameter lain ke modul memori DFSMN, stride, yang digunakan untuk menunjukkan berapa banyak frame berdekatan yang dilewati modul memori saat mengekstraksi informasi dari frame masa lalu atau masa depan. Ini dijamin karena ada lebih banyak tumpang tindih antara bingkai yang berdekatan dalam tugas sintesis ucapan daripada tugas pengenalan ucapan.
Seperti disebutkan di atas, selain secara langsung meningkatkan urutan modul memori dari setiap lapisan, meningkatkan kedalaman model juga dapat secara tidak langsung menambah panjang konteks yang dapat digunakan model saat memprediksi output dari frame saat ini. diberikan pada gambar di atas.
percobaan
Pada tahap percobaan, kami menggunakan dataset novel Cina yang dibaca oleh laki-laki. Kami membagi kumpulan data menjadi dua bagian, kumpulan pelatihan mencakup 38600 kalimat yang dibacakan dengan lantang (sekitar 83 jam), dan kumpulan verifikasi mencakup 1400 kalimat yang dibacakan dengan lantang (sekitar 3 jam). Semua laju sampel data suara adalah 16k Hz, setiap panjang bingkai adalah 25 milidetik, pergeseran bingkai adalah 5 milidetik. Kami menggunakan penyintesis suara WORLD untuk mengekstraksi parameter akustik bingkai demi bingkai, termasuk koefisien cepstral Mel 60 dimensi, logaritma frekuensi dasar 3 dimensi, fitur BAP 11 dimensi, dan penanda suara 1 dimensi yang tidak bersuara. Kami menggunakan empat set fitur di atas sebagai empat target pelatihan jaringan saraf untuk pelatihan multi-target. Fitur linguistik yang diekstraksi oleh modul front-end, dengan total 754 dimensi, digunakan sebagai input pelatihan jaringan saraf.
Sistem dasar yang kami bandingkan didasarkan pada model BLSTM yang kuat, yang terdiri dari 1 lapisan yang terhubung sepenuhnya di bagian bawah dan 3 lapisan BLSTM di bagian atas, di mana lapisan yang terhubung sepenuhnya berisi 2048 unit dan lapisan BLSTM berisi 2048 unit memori. Model ini dilatih oleh propagasi balik melalui waktu (BPTT), sedangkan model DFSMN kami dilatih oleh propagasi balik standar (BP). Termasuk sistem dasar, model kami dilatih pada 2 GPU dengan algoritme pemfilteran pembaruan model blok-bijaksana (BMUF). Kami menggunakan multi-objective frame-level mean squared error (MSE) sebagai tujuan pelatihan.
Semua model DFSMN terdiri dari beberapa lapisan DFSMN di bagian bawah dan dua lapisan yang terhubung penuh di atas, setiap lapisan DFSMN berisi 2048 node dan 512 node proyeksi, dan setiap lapisan yang terhubung penuh berisi 2048 node. Pada gambar di atas, kolom ketiga menunjukkan bahwa model terdiri dari beberapa lapisan lapisan DFSMN dan beberapa lapisan lapisan yang terhubung sepenuhnya, dan kolom keempat menunjukkan urutan dan ukuran langkah modul memori lapisan DFSMN model. Karena ini adalah pertama kalinya model seperti FSMN diterapkan pada tugas sintesis ucapan, percobaan kami dimulai dengan model dangkal dan orde kecil, model A (perhatikan bahwa hanya model A yang memiliki ukuran langkah 1, karena kami menemukan bahwa langkah Langkah 2 secara konsisten sedikit lebih baik daripada model yang sesuai dengan langkah 1). Dari sistem A ke sistem D, kami meningkatkan urutan secara bertahap sambil memperbaiki jumlah lapisan DFSMN menjadi 3. Dari sistem D ke sistem F, kami secara bertahap menambah jumlah lapisan sambil memperbaiki urutan dan ukuran langkah menjadi 10, 10, 2, 2. Dari sistem F ke sistem I, kami memperbaiki jumlah lapisan DFSMN menjadi 10 dan secara bertahap meningkatkan urutannya lagi. Dalam rangkaian percobaan di atas, ketika kedalaman dan urutan model DFSMN meningkat, indeks objektif secara bertahap menurun (semakin rendah semakin baik), tren ini sangat jelas, dan indeks objektif sistem H melebihi baseline BLSTM.
Di sisi lain, kami juga melakukan tes Mean Subjective Score (MOS) (semakin tinggi semakin baik), dan hasil tesnya ditunjukkan pada gambar di atas. Tes subyektif diselesaikan oleh 40 penguji asli berbahasa Mandarin melalui platform crowdsourcing berbayar. Dalam pengujian subjektif, setiap sistem menghasilkan 20 ucapan sintetik yang tidak sesuai, yang masing-masing dievaluasi secara independen oleh 10 penguji yang berbeda. Hasil tes skor subyektif rata-rata menunjukkan bahwa dari sistem A ke sistem E, kealamian pendengaran subyektif berangsur-angsur membaik, dan sistem E mencapai tingkat yang sama dengan sistem baseline BLSTM. Namun, meskipun indikator objektif sistem tindak lanjut terus membaik, indikator subjektif hanya berfluktuasi naik turun pada skor sistem E tanpa perbaikan lebih lanjut.
Kesimpulannya
Menurut tes subyektif dan obyektif di atas, kami menyimpulkan bahwa menangkap 120 frame (600 milidetik) informasi sejarah dan masa depan adalah batas atas panjang konteks yang diperlukan untuk pemodelan model akustik sintesis ucapan, dan lebih banyak informasi konteks tidak secara langsung membantu sintesis hasil . Dibandingkan dengan sistem baseline BLSTM, sistem DFSMN yang kami usulkan dapat memperoleh indra pendengaran subyektif yang sama dengan sistem baseline, sementara ukuran model hanya 1/4 dari sistem baseline, dan kecepatan prediksi 4 kali lipat dari sistem baseline , yang membuat sistem ini sangat cocok untuk lingkungan produk akhir yang membutuhkan penggunaan memori dan efisiensi komputasi yang tinggi, seperti penyebaran di berbagai perangkat IoT.
Sistem sintesis ucapan terutama dibagi menjadi dua kategori, sistem sintesis splicing dan sistem sintesis parametrik. Di antara mereka, sistem sintesis parametrik telah membuat kemajuan besar dalam kualitas dan kealamian sintesis setelah memperkenalkan jaringan saraf sebagai model. Di sisi lain, popularitas besar perangkat IoT (seperti smart speaker dan smart TV) juga membatasi sumber daya komputasi dan persyaratan kecepatan waktu nyata untuk sistem sintesis parameter yang diterapkan pada perangkat. Jaringan memori sekuensial feed-forward dalam yang diperkenalkan dalam pekerjaan ini dapat secara efektif mengurangi jumlah perhitungan dan meningkatkan kecepatan sintesis sambil mempertahankan kualitas sintesis.
Kami menggunakan memori jangka pendek dua arah (BLSTM) berdasarkan sistem sintesis ucapan parametrik statistik sebagai sistem dasar. Mirip dengan sistem sintesis pidato parametrik statistik utama saat ini, sistem sintesis pidato parametrik statistik yang kami usulkan berdasarkan jaringan memori urutan umpan maju yang dalam (DFSMN) juga terdiri dari tiga bagian utama, penyintesis suara (vocoder), modul front-end dan back-end modul, seperti yang ditunjukkan di atas. Kami menggunakan alat open source WORLD sebagai penyintesis suara kami, yang digunakan untuk mengekstrak informasi spektral, logaritma frekuensi fundamental, fitur band-period (BAP) dan penanda suara tak bersuara dari bentuk gelombang ucapan asli selama pelatihan model, dan juga digunakan dalam sintesis ucapan Konversi dari parameter akustik ke suara aktual selesai secara real time. Modul front-end digunakan untuk regularisasi dan analisis leksikal teks input, dan kami menyandikan fitur linguistik ini sebagai input pelatihan jaringan saraf. Modul back-end digunakan untuk membangun pemetaan dari fitur linguistik input ke parameter akustik.Dalam sistem kami, kami menggunakan DFSMN sebagai modul back-end.
Deep Feedforward Sequential Memory Networks
Sebagai versi perbaikan dari jaringan memori urutan umpan maju standar (FSMN), jaringan memori urutan umpan maju yang kompak (cFSMN) memperkenalkan faktorisasi matriks tingkat rendah ke dalam struktur jaringan. Peningkatan ini menyederhanakan FSMN, mengurangi jumlah parameter model, dan Mempercepat proses pelatihan dan prediksi model.
Gambar di atas memberikan representasi skematis dari struktur cFSMN. Untuk setiap lapisan cFSMN dari jaringan saraf, proses perhitungan dapat dinyatakan sebagai langkah-langkah berikut ① Setelah pemetaan linier, keluaran dari lapisan sebelumnya dipetakan ke vektor berdimensi rendah ② Modul memori melakukan perhitungan, menghitung jumlah dari beberapa frame sebelum dan sesudah frame saat ini Jumlah bobot dimensi-bijaksana dari vektor dimensi rendah dari frame saat ini ③ menempatkan jumlah bobot melalui transformasi affine dan fungsi nonlinear untuk mendapatkan output dari lapisan saat ini. Ketiga langkah tersebut dapat dinyatakan secara bergantian sebagai rumus berikut.
Mirip dengan jaringan saraf berulang (RNNs, termasuk BLSTM), cFSMN memiliki kemampuan untuk menangkap informasi urutan jarak jauh dengan menyesuaikan urutan modul memori. Di sisi lain, cFSMN dapat dilatih langsung oleh algoritme backpropagation (BP), yang lebih cepat dan tidak rentan terhadap hilangnya gradien dibandingkan RNN yang harus dilatih menggunakan backpropagation through time (BPTT).
Lebih lanjut meningkatkan cFSMN, kami mendapatkan jaringan memori urutan umpan-maju yang dalam (DFSMN). DFSMN memanfaatkan teknologi skip-connections yang banyak digunakan di berbagai deep neural network, sehingga ketika algoritma backpropagation dijalankan, gradient dapat mem-bypass transformasi nonlinear, bahkan jika lebih banyak layer DFSMN yang ditumpuk, jaringan masih dapat melakukan konvergensi dengan cepat dan tepat. Untuk model DFSMN, manfaat peningkatan kedalaman ada dua. Di satu sisi, jaringan yang lebih dalam umumnya memiliki kemampuan representasi yang lebih kuat, di sisi lain, meningkatkan kedalaman secara tidak langsung dapat meningkatkan panjang konteks yang dapat digunakan model DFSMN untuk memprediksi output dari frame saat ini, yang secara intuitif sangat menguntungkan untuk menangkap urutan informasi jarak jauh. Secara khusus, kami menambahkan koneksi lewati antara modul memori dari dua lapisan yang berdekatan, seperti yang ditunjukkan dalam rumus berikut. Karena dimensi modul memori di setiap lapisan DFSMN adalah sama, koneksi yang dilewati dapat direalisasikan dengan transformasi identitas.
Kita dapat menganggap DFSMN sebagai model yang sangat fleksibel. Ketika urutan input sangat singkat, atau ketika penundaan prediksi tinggi, urutan modul memori yang lebih kecil dapat digunakan.Dalam hal ini, hanya informasi dari frame di dekat frame saat ini yang digunakan untuk memprediksi output dari frame saat ini. Dan jika urutan input sangat panjang, atau dalam skenario di mana penundaan prediksi tidak begitu penting, urutan modul memori yang lebih besar dapat digunakan, maka informasi jarak jauh dari urutan tersebut dapat digunakan dan dimodelkan secara efektif, yang kondusif untuk meningkatkan kinerja model.
Selain urutan, kami menambahkan hyperparameter lain ke modul memori DFSMN, stride, yang digunakan untuk menunjukkan berapa banyak frame berdekatan yang dilewati modul memori saat mengekstraksi informasi dari frame masa lalu atau masa depan. Ini dijamin karena ada lebih banyak tumpang tindih antara bingkai yang berdekatan dalam tugas sintesis ucapan daripada tugas pengenalan ucapan.
Seperti disebutkan di atas, selain secara langsung meningkatkan urutan modul memori dari setiap lapisan, meningkatkan kedalaman model juga dapat secara tidak langsung menambah panjang konteks yang dapat digunakan model saat memprediksi output dari frame saat ini. diberikan pada gambar di atas.
percobaan
Pada tahap percobaan, kami menggunakan dataset novel Cina yang dibaca oleh laki-laki. Kami membagi kumpulan data menjadi dua bagian, kumpulan pelatihan mencakup 38600 kalimat yang dibacakan dengan lantang (sekitar 83 jam), dan kumpulan verifikasi mencakup 1400 kalimat yang dibacakan dengan lantang (sekitar 3 jam). Semua laju sampel data suara adalah 16k Hz, setiap panjang bingkai adalah 25 milidetik, pergeseran bingkai adalah 5 milidetik. Kami menggunakan penyintesis suara WORLD untuk mengekstraksi parameter akustik bingkai demi bingkai, termasuk koefisien cepstral Mel 60 dimensi, logaritma frekuensi dasar 3 dimensi, fitur BAP 11 dimensi, dan penanda suara 1 dimensi yang tidak bersuara. Kami menggunakan empat set fitur di atas sebagai empat target pelatihan jaringan saraf untuk pelatihan multi-target. Fitur linguistik yang diekstraksi oleh modul front-end, dengan total 754 dimensi, digunakan sebagai input pelatihan jaringan saraf.
Sistem dasar yang kami bandingkan didasarkan pada model BLSTM yang kuat, yang terdiri dari 1 lapisan yang terhubung sepenuhnya di bagian bawah dan 3 lapisan BLSTM di bagian atas, di mana lapisan yang terhubung sepenuhnya berisi 2048 unit dan lapisan BLSTM berisi 2048 unit memori. Model ini dilatih oleh propagasi balik melalui waktu (BPTT), sedangkan model DFSMN kami dilatih oleh propagasi balik standar (BP). Termasuk sistem dasar, model kami dilatih pada 2 GPU dengan algoritme pemfilteran pembaruan model blok-bijaksana (BMUF). Kami menggunakan multi-objective frame-level mean squared error (MSE) sebagai tujuan pelatihan.
Semua model DFSMN terdiri dari beberapa lapisan DFSMN di bagian bawah dan dua lapisan yang terhubung penuh di atas, setiap lapisan DFSMN berisi 2048 node dan 512 node proyeksi, dan setiap lapisan yang terhubung penuh berisi 2048 node. Pada gambar di atas, kolom ketiga menunjukkan bahwa model terdiri dari beberapa lapisan lapisan DFSMN dan beberapa lapisan lapisan yang terhubung sepenuhnya, dan kolom keempat menunjukkan urutan dan ukuran langkah modul memori lapisan DFSMN model. Karena ini adalah pertama kalinya model seperti FSMN diterapkan pada tugas sintesis ucapan, percobaan kami dimulai dengan model dangkal dan orde kecil, model A (perhatikan bahwa hanya model A yang memiliki ukuran langkah 1, karena kami menemukan bahwa langkah Langkah 2 secara konsisten sedikit lebih baik daripada model yang sesuai dengan langkah 1). Dari sistem A ke sistem D, kami meningkatkan urutan secara bertahap sambil memperbaiki jumlah lapisan DFSMN menjadi 3. Dari sistem D ke sistem F, kami secara bertahap menambah jumlah lapisan sambil memperbaiki urutan dan ukuran langkah menjadi 10, 10, 2, 2. Dari sistem F ke sistem I, kami memperbaiki jumlah lapisan DFSMN menjadi 10 dan secara bertahap meningkatkan urutannya lagi. Dalam rangkaian percobaan di atas, ketika kedalaman dan urutan model DFSMN meningkat, indeks objektif secara bertahap menurun (semakin rendah semakin baik), tren ini sangat jelas, dan indeks objektif sistem H melebihi baseline BLSTM.
Di sisi lain, kami juga melakukan tes Mean Subjective Score (MOS) (semakin tinggi semakin baik), dan hasil tesnya ditunjukkan pada gambar di atas. Tes subyektif diselesaikan oleh 40 penguji asli berbahasa Mandarin melalui platform crowdsourcing berbayar. Dalam pengujian subjektif, setiap sistem menghasilkan 20 ucapan sintetik yang tidak sesuai, yang masing-masing dievaluasi secara independen oleh 10 penguji yang berbeda. Hasil tes skor subyektif rata-rata menunjukkan bahwa dari sistem A ke sistem E, kealamian pendengaran subyektif berangsur-angsur membaik, dan sistem E mencapai tingkat yang sama dengan sistem baseline BLSTM. Namun, meskipun indikator objektif sistem tindak lanjut terus membaik, indikator subjektif hanya berfluktuasi naik turun pada skor sistem E tanpa perbaikan lebih lanjut.
Kesimpulannya
Menurut tes subyektif dan obyektif di atas, kami menyimpulkan bahwa menangkap 120 frame (600 milidetik) informasi sejarah dan masa depan adalah batas atas panjang konteks yang diperlukan untuk pemodelan model akustik sintesis ucapan, dan lebih banyak informasi konteks tidak secara langsung membantu sintesis hasil . Dibandingkan dengan sistem baseline BLSTM, sistem DFSMN yang kami usulkan dapat memperoleh indra pendengaran subyektif yang sama dengan sistem baseline, sementara ukuran model hanya 1/4 dari sistem baseline, dan kecepatan prediksi 4 kali lipat dari sistem baseline , yang membuat sistem ini sangat cocok untuk lingkungan produk akhir yang membutuhkan penggunaan memori dan efisiensi komputasi yang tinggi, seperti penyebaran di berbagai perangkat IoT.
Related Articles
-
A detailed explanation of Hadoop core architecture HDFS
Knowledge Base Team
-
What Does IOT Mean
Knowledge Base Team
-
6 Optional Technologies for Data Storage
Knowledge Base Team
-
What Is Blockchain Technology
Knowledge Base Team
Explore More Special Offers
-
Short Message Service(SMS) & Mail Service
50,000 email package starts as low as USD 1.99, 120 short messages start at only USD 1.00