CN114283828B 語音降噪模型的訓(xùn)練方法、語音評(píng)分方法、裝置及介質(zhì)(騰訊科技(北京)有限公司)_第1頁
CN114283828B 語音降噪模型的訓(xùn)練方法、語音評(píng)分方法、裝置及介質(zhì)(騰訊科技(北京)有限公司)_第2頁
CN114283828B 語音降噪模型的訓(xùn)練方法、語音評(píng)分方法、裝置及介質(zhì)(騰訊科技(北京)有限公司)_第3頁
CN114283828B 語音降噪模型的訓(xùn)練方法、語音評(píng)分方法、裝置及介質(zhì)(騰訊科技(北京)有限公司)_第4頁
CN114283828B 語音降噪模型的訓(xùn)練方法、語音評(píng)分方法、裝置及介質(zhì)(騰訊科技(北京)有限公司)_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

(19)國家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利銀科大廈16層1601-1608室限公司11270審查員蔡瑩語音降噪模型的訓(xùn)練方法、語音評(píng)分方法、裝置及介質(zhì)本申請(qǐng)?zhí)峁┝艘环N語音降噪模型的訓(xùn)練方目標(biāo)語音樣本與語音樣本對(duì)應(yīng)的參考發(fā)音間的服務(wù)器通過噪音處理層,對(duì)語音樣本進(jìn)行降噪處理,服務(wù)器通過噪音處理層,對(duì)語音樣本進(jìn)行降噪處理,得到目標(biāo)語音樣本通過發(fā)音差異處理層,對(duì)目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音預(yù)測(cè)結(jié)果通過內(nèi)容差異處理層,確定目標(biāo)語音樣本的內(nèi)容與語音樣本的內(nèi)容間的內(nèi)容差異基于發(fā)音預(yù)測(cè)結(jié)果以及內(nèi)容差異,更新語音降噪模型的模型參數(shù),以得到訓(xùn)練完成的語音降噪模型21.一種語音降噪模型的訓(xùn)練方法,其特征在于,所述語音降噪模型包括:噪音處理層,發(fā)音差異處理層和內(nèi)容差異處理層,所述方法包括:通過所述噪音處理層,對(duì)語音樣本進(jìn)行降噪處理,得到目標(biāo)語音樣本;通過所述發(fā)音差異處理層,對(duì)所述目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音預(yù)測(cè)結(jié)果,所述發(fā)音預(yù)測(cè)結(jié)果,用于指示所述目標(biāo)語音樣本與所述語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度;通過所述內(nèi)容差異處理層,確定所述目標(biāo)語音樣本的第一幅度譜與所述語音樣本的第二幅度譜之間的幅度差異,并將所述幅度差異作為所述目標(biāo)語音樣本的內(nèi)容與所述語音樣本的內(nèi)容間的內(nèi)容差異;基于所述發(fā)音預(yù)測(cè)結(jié)果以及所述內(nèi)容差異,更新所述語音降噪模型的模型參數(shù),以得到訓(xùn)練完成的語音降噪模型。2.如權(quán)利要求1所述的方法,其特征在于,所述噪音處理層包括:第一特征變換層、濾波處理層以及第二特征變換層;通過所述第一特征變換層,對(duì)所述語音樣本進(jìn)行傅里葉變換,得到所述語音樣本對(duì)應(yīng)的幅度譜和相位譜;通過所述濾波處理層,對(duì)所述幅度譜進(jìn)行濾波處理,得到目標(biāo)幅度譜,并對(duì)所述相位譜通過所述第二特征變換層,將所述目標(biāo)幅度譜和所述目標(biāo)相位譜進(jìn)行相乘,并將相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到所述目標(biāo)語音樣本。3.如權(quán)利要求2所述的方法,其特征在于,所述濾波處理層包括至少兩個(gè)級(jí)聯(lián)的子濾波處理層;所述通過所述濾波處理層,對(duì)所述幅度譜進(jìn)行濾波處理,得到目標(biāo)幅度譜,并對(duì)所述相通過第一級(jí)的子濾波處理層,對(duì)所述幅度譜進(jìn)行濾波處理,得到中間幅度譜,并對(duì)所述相位譜進(jìn)行相位修正,得到中間相位譜;通過非第一級(jí)的子濾波處理層,對(duì)所述中間幅度譜進(jìn)行濾波處理得到所述目標(biāo)幅度譜,并對(duì)所述中間相位譜進(jìn)行相位修正得到所述目標(biāo)相位譜。4.如權(quán)利要求3所述的方法,其特征在于,各所述子濾波處理層包括相位譜修正層、以及至少兩個(gè)級(jí)聯(lián)的幅度譜濾波層;所述通過第一級(jí)的子濾波處理層,對(duì)所述幅度譜進(jìn)行濾波處理,得到中間幅度譜,并對(duì)通過所述至少兩個(gè)級(jí)聯(lián)的幅度譜濾波層,對(duì)所述幅度譜進(jìn)行濾波處理,得到中間幅度通過所述相位譜修正層,基于所述中間幅度譜對(duì)所述相位譜進(jìn)行相位修正,得到中間相位譜。5.如權(quán)利要求2所述的方法,其特征在于,所述第二特征變換層包括特征轉(zhuǎn)換層、和特征逆變換層;所述通過所述第二特征變換層,將所述目標(biāo)幅度譜和所述目標(biāo)相位譜進(jìn)行相乘,并將3相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到所述目標(biāo)語音樣本,包括:通過所述特征轉(zhuǎn)換層,將所述目標(biāo)幅度譜轉(zhuǎn)換為幅度譜掩模,并確定所述目標(biāo)相位譜對(duì)應(yīng)的相位角;通過所述特征逆變換層,將所述目標(biāo)幅度譜、所述幅度譜掩模和所述目標(biāo)相位譜對(duì)應(yīng)的相位角進(jìn)行相乘,并將相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到所述目標(biāo)語音樣本。所述確定所述目標(biāo)語音樣本的第一幅度譜與所述語音樣本的第二幅度譜之間的幅度通過所述傅里葉變換層,對(duì)所述目標(biāo)語音樣本進(jìn)行傅里葉變換,得到第一幅度譜,并對(duì)所述語音樣本進(jìn)行傅里葉變換,得到第二幅度譜。7.如權(quán)利要求6所述的方法,其特征在于,所述傅里葉變換層包括至少兩個(gè)子傅里葉變換層,不同的所述子傅里葉變換層對(duì)應(yīng)不同的變換尺度;所述通過所述傅里葉變換層,對(duì)所述目標(biāo)語音樣本進(jìn)行傅里葉變換,得到第一幅度譜,通過各所述子傅里葉變換層,分別對(duì)所述目標(biāo)語音樣本進(jìn)行相應(yīng)變換尺度的傅里葉變換,得到各所述子傅里葉變換層對(duì)應(yīng)的第一幅度譜;通過各所述子傅里葉變換層,分別對(duì)所述語音樣本進(jìn)行相應(yīng)變換尺度的傅里葉變換,得到各所述子傅里葉變換層對(duì)應(yīng)的第二幅度譜;所述確定所述第一幅度譜與所述第二幅度譜之間的幅度差異,包括:確定各所述子傅里葉變換層對(duì)應(yīng)的第一幅度譜和第二幅度譜之間的中間幅度差異;對(duì)所述至少兩個(gè)子傅里葉變換層對(duì)應(yīng)的中間幅度差異進(jìn)行求和平均處理,得到平均幅度差異,并將所述平均幅度差異作為所述幅度差異。8.如權(quán)利要求6所述的方法,其特征在于,所述內(nèi)容差異處理層所述確定所述第一幅度譜與所述第二幅度譜之間的幅度差異,包括:通過所述冪壓縮處理層,對(duì)所述第一幅度譜進(jìn)行壓縮處理,得到第一壓縮幅度譜,并對(duì)所述第二幅度譜進(jìn)行壓縮處理,得到第二壓縮幅度譜;確定所述第一壓縮幅度譜與所述第二壓縮幅度譜之間的壓縮幅度差異,并將所述壓縮幅度差異作為所述幅度差異。9.如權(quán)利要求1所述的方法,其特征在于,所述發(fā)音差異處理層包括:發(fā)音評(píng)分損失處所述基于所述發(fā)音預(yù)測(cè)結(jié)果以及所述內(nèi)容差異,更新所述語音降噪模型的模型參數(shù),通過所述發(fā)音評(píng)分損失處理層,確定所述發(fā)音預(yù)測(cè)結(jié)果、與所述語音樣本對(duì)應(yīng)的樣本標(biāo)簽之間的差異,并基于所述差異確定評(píng)分損失函數(shù)的值;基于所述內(nèi)容差異以及所述評(píng)分損失函數(shù)的值,更新所述語音降噪模型的模型參數(shù)。10.如權(quán)利要求9所述的方法,其特征在于,所述基于所述內(nèi)容差異以及所述評(píng)分損失獲取所述內(nèi)容差異對(duì)應(yīng)的第一權(quán)重值、以及所述評(píng)分損失函數(shù)的值對(duì)應(yīng)的第二權(quán)重4結(jié)合所述第一權(quán)重值和第二權(quán)重值,基于所述內(nèi)容差異以及所述評(píng)分損失函數(shù)的值,確定所述語音降噪模型的損失函數(shù)的值;基于所述損失函數(shù)的值,更新所述語音降噪模型的模型參數(shù)。11.如權(quán)利要求9所述的方法,其特征在于,所述發(fā)音差異處理層還包括:第一特征映射層、第二特征映射層、和特征拼接及預(yù)測(cè)層,所述第一特征映射層的網(wǎng)絡(luò)結(jié)構(gòu)不同于所述第二特征映射層的網(wǎng)絡(luò)結(jié)構(gòu);所述通過所述發(fā)音差異處理層,對(duì)所述目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音通過所述第一特征映射層,對(duì)所述目標(biāo)語音樣本進(jìn)行映射處理,得到第一映射特征;通過所述第二特征映射層,對(duì)所述目標(biāo)語音樣本進(jìn)行映射處理,得到第二映射特征;通過所述特征拼接及預(yù)測(cè)層,對(duì)所述第一映射特征和第二映射特征進(jìn)行拼接處理,得對(duì)所述拼接特征進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到所述發(fā)音預(yù)測(cè)結(jié)果。呈現(xiàn)參考語音文本以及語音輸入功能項(xiàng);響應(yīng)于針對(duì)所述語音輸入功能項(xiàng)的觸發(fā)操作,呈現(xiàn)語音輸入界面,并在所述語音輸入界面中呈現(xiàn)語音結(jié)束功能項(xiàng);接收到基于所述語音輸入界面輸入的語音信息;響應(yīng)于針對(duì)所述語音結(jié)束功能項(xiàng)的觸發(fā)操作,呈現(xiàn)用于指示所述語音信息與所述參考語音文本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度的發(fā)音評(píng)分;其中,所述發(fā)音評(píng)分,基于對(duì)目標(biāo)語音信息進(jìn)行發(fā)音評(píng)分的預(yù)測(cè)得到,所述目標(biāo)語音信息,基于所述語音降噪模型對(duì)所述語音信息進(jìn)行降噪處理得到;其中,所述語音降噪模型,基于權(quán)利要求1-11任一項(xiàng)所述的語音降噪模型的訓(xùn)練方法訓(xùn)練得到。13.一種語音降噪模型的訓(xùn)練裝置,其特征在于,所述語音降噪模型包括:噪音處理層,發(fā)音差異處理層和內(nèi)容差異處理層,所述裝置包括:降噪模塊,用于通過所述噪音處理層,對(duì)語音樣本預(yù)測(cè)模塊,用于通過所述發(fā)音差異處理層,對(duì)所述目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音預(yù)測(cè)結(jié)果,所述發(fā)音預(yù)測(cè)結(jié)果,用于指示所述目標(biāo)語音樣本與所述語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度;確定模塊,用于通過所述內(nèi)容差異處理層,確定所述目標(biāo)語音樣本的第一幅度譜與所述語音樣本的第二幅度譜之間的幅度差異,并將所述幅度差異作為所述目標(biāo)語音樣本的內(nèi)容與所述語音樣本的內(nèi)容間的內(nèi)容差異;更新模塊,用于基于所述發(fā)音預(yù)測(cè)結(jié)果以及所述內(nèi)容差異,更新所述語音降噪模型的模型參數(shù),以得到訓(xùn)練完成的語音降噪模型。處理器,用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行指令時(shí),實(shí)現(xiàn)如權(quán)利要求1至12任一項(xiàng)所述的方法。56技術(shù)領(lǐng)域[0001]本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種語音降噪模型的訓(xùn)練方法、語音評(píng)背景技術(shù)[0002]人工智能(AI,ArtificialIntelligence)是利用數(shù)字計(jì)算機(jī)或者數(shù)字計(jì)算機(jī)控制的機(jī)器模擬、延伸和擴(kuò)展人的智能,感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最佳結(jié)果的理論、方法和技術(shù)及應(yīng)用系統(tǒng)。換句話說,人工智能是計(jì)算機(jī)科學(xué)的一個(gè)綜合技術(shù),它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器。人工智能也就是研究各種智能機(jī)器的設(shè)計(jì)原理與實(shí)現(xiàn)方法,使機(jī)器具有感知、推理與決策的功能。[0003]人工智能已經(jīng)越來越多地應(yīng)用于語音處理方面。相關(guān)技術(shù)中,語音降噪模型的學(xué)習(xí)目標(biāo)通常是使得降噪后語音的波形和純凈語音的波形最相似,而以波形最接近為目標(biāo)學(xué)習(xí)時(shí),通常只能關(guān)注到波形幅度大的語音,而幅度小的語音則直接被忽略掉,導(dǎo)致降噪處理過程中丟失部分語音信息,降噪準(zhǔn)確度低。發(fā)明內(nèi)容[0004]本申請(qǐng)實(shí)施例提供一種語音降噪模型的訓(xùn)練方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),能夠提高語音降噪模型的降噪精確程度。[0005]本申請(qǐng)實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:[0006]本申請(qǐng)實(shí)施例提供一種語音降噪模型的訓(xùn)練方法,所述語音降噪模型包括:噪音[0008]通過所述發(fā)音差異處理層,對(duì)所述目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音預(yù)測(cè)結(jié)果,所述發(fā)音預(yù)測(cè)結(jié)果,用于指示所述目標(biāo)語音樣本與所述語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度;[0009]通過所述內(nèi)容差異處理層,確定所述目標(biāo)語音樣本的內(nèi)容與所述語音樣本的內(nèi)容間的內(nèi)容差異;[0010]基于所述發(fā)音預(yù)測(cè)結(jié)果以及所述內(nèi)容差異,更新所述語音降噪模型的模型參數(shù),以得到訓(xùn)練完成的語音降噪模型。[0011]上述方案中,所述發(fā)音差異處[0012]所述基于所述發(fā)音預(yù)測(cè)結(jié)果以及所述內(nèi)容差異,更新所述語音降噪模型的模型參[0013]通過所述發(fā)音評(píng)分損失處理層,確定所述發(fā)音預(yù)測(cè)結(jié)果、與所述語音樣本對(duì)應(yīng)的樣本標(biāo)簽之間的差異,并基于所述差異確定評(píng)分損失函數(shù)的值;[0014]基于所述內(nèi)容差異以及所述評(píng)分損失函數(shù)的值,更新所述語音降噪模型的模型參7[0015]上述方案中,所述基于所述內(nèi)容差異以及所述評(píng)分損失函數(shù)的值,更新所述語音[0016]獲取所述內(nèi)容差異對(duì)應(yīng)的第一權(quán)重值、以及所述評(píng)分損失函數(shù)的值對(duì)應(yīng)的第二權(quán)[0017]結(jié)合所述第一權(quán)重值和第二權(quán)重值,基于所述內(nèi)容差異以及所述評(píng)分損失函數(shù)的值,確定所述語音降噪模型的損失函數(shù)的值;[0018]基于所述損失函數(shù)的值,更新所述語音降噪模型的模型參數(shù)。[0019]上述方案中,所述基于所述損失函數(shù)的值,更新所述語音降噪模型的模型參數(shù),包[0020]當(dāng)所述損失函數(shù)的值超出損失閾值時(shí),基于所述損失函數(shù)確定所述語音降噪模型的誤差信號(hào);[0021]將所述誤差信號(hào)在所述語音降噪模型中反向傳播,并在傳播的過程中更新所述語音降噪模型中各個(gè)層的模型參數(shù)。[0023]呈現(xiàn)參考語音文本以及語音輸入功能項(xiàng);[0024]響應(yīng)于針對(duì)所述語音輸入功能項(xiàng)的觸發(fā)操作,呈現(xiàn)語音輸入界面,并在所述語音輸入界面中呈現(xiàn)語音結(jié)束功能項(xiàng);[0025]接收到基于所述語音輸入界面輸入的語音信息;[0026]響應(yīng)于針對(duì)所述語音結(jié)束功能項(xiàng)的觸發(fā)操作,呈現(xiàn)用于指示所述語音信息與所述參考語音文本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度的發(fā)音評(píng)分;[0027]其中,所述發(fā)音評(píng)分,基于對(duì)目標(biāo)語音信息進(jìn)行發(fā)音評(píng)分的預(yù)測(cè)得到,所述目標(biāo)語音信息,基于所述語音降噪模型對(duì)所述語音信息進(jìn)行降噪處理得到;[0029]本申請(qǐng)實(shí)施例還提供一種語音降噪模型的訓(xùn)練裝置,所述語音降噪模型包括:噪音處理層,發(fā)音差異處理層和內(nèi)容差異處理[0030]降噪模塊,用于通過所述噪音處理層,對(duì)語音樣本進(jìn)行降噪處理,得到目標(biāo)語音樣[0031]預(yù)測(cè)模塊,用于通過所述發(fā)音差異處理層,對(duì)所述目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音預(yù)測(cè)結(jié)果,所述發(fā)音預(yù)測(cè)結(jié)果,用于指示所述目標(biāo)語音樣本與所述語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度;[0032]確定模塊,用于通過所述內(nèi)容差異處理層,確定所述目標(biāo)語音樣本的內(nèi)容與所述語音樣本的內(nèi)容間的內(nèi)容差異;[0033]更新模塊,用于基于所述發(fā)音預(yù)測(cè)結(jié)果以及所述內(nèi)容差異,更新所述語音降噪模型的模型參數(shù),以得到訓(xùn)練完成的語音降噪模型。[0034]上述方案中,所述噪音處理層包括:第一特征變換層、濾波處理層以及第二特征變[0035]所述降噪模塊,還用于通過所述第一特征變換層,對(duì)所述語音樣本進(jìn)行傅里葉變換,得到所述語音樣本對(duì)應(yīng)的幅度譜和相位譜;[0036]通過所述濾波處理層,對(duì)所述幅度譜進(jìn)行濾波處理,得到目標(biāo)幅度譜,并對(duì)所述相8位譜進(jìn)行相位修正,得到目標(biāo)相位譜;[0037]通過所述第二特征變換層,將所述目標(biāo)幅度譜和所述目標(biāo)相位譜進(jìn)行相乘,并將相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到所述目標(biāo)語音樣本。[0038]上述方案中,所述濾波處理層包括至少兩個(gè)級(jí)聯(lián)的子濾波處理層;[0039]所述降噪模塊,還用于通過第一級(jí)的子濾波處理層,對(duì)所述幅度譜進(jìn)行濾波處理,得到中間幅度譜,并對(duì)所述相位譜進(jìn)行相位修正,得到中間相位譜;[0040]通過非第一級(jí)的子濾波處理層,對(duì)所述中間幅度譜進(jìn)行濾波處理得到所述目標(biāo)幅度譜,并對(duì)所述中間相位譜進(jìn)行相位修正得到所述目標(biāo)相位譜。[0041]上述方案中,各所述子濾波處理層包括相位譜修正層、以及至少兩個(gè)級(jí)聯(lián)的幅度[0042]所述降噪模塊,還用于通過所述至少兩個(gè)級(jí)聯(lián)的幅度譜濾波層,對(duì)所述幅度譜進(jìn)[0043]通過所述相位譜修正層,基于所述中間幅度譜對(duì)所述相位譜進(jìn)行相位修正,得到中間相位譜。[0045]所述降噪模塊,還用于通過所述特征轉(zhuǎn)換層,將所述目標(biāo)幅度譜轉(zhuǎn)換為幅度譜掩模,并確定所述目標(biāo)相位譜對(duì)應(yīng)的相位角;[0046]通過所述特征逆變換層,將所述目標(biāo)幅度譜、所述幅度譜掩模和所述目標(biāo)相位譜對(duì)應(yīng)的相位角進(jìn)行相乘,并將相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到所述目標(biāo)語音樣本。[0048]所述確定模塊,還用于通過所述傅里葉變換層,對(duì)所述目標(biāo)語音樣本進(jìn)行傅里葉[0049]確定所述第一幅度譜與所述第二幅度譜之間的幅度差異,并將所述幅度差異確定為所述目標(biāo)語音樣本的內(nèi)容與所述語音樣本的內(nèi)容間的內(nèi)容差異。[0050]上述方案中,所述傅里葉變換層包括至少兩個(gè)子傅里葉變換層,不同的所述子傅里葉變換層對(duì)應(yīng)不同的變換尺度;[0051]所述確定模塊,還用于通過各所述子傅里葉變換層,分別對(duì)所述目標(biāo)語音樣本進(jìn)行相應(yīng)變換尺度的傅里葉變換,得到各所述子傅里葉變換層對(duì)應(yīng)的第一幅度譜;[0052]通過各所述子傅里葉變換層,分別對(duì)所述語音樣本進(jìn)行相應(yīng)變換尺度的傅里葉變換,得到各所述子傅里葉變換層對(duì)應(yīng)的第二幅度譜;[0053]所述確定模塊,還用于確定各所述子傅里葉變換層對(duì)應(yīng)的第一幅度譜和第二幅度譜之間的中間幅度差異;[0054]對(duì)所述至少兩個(gè)子傅里葉變換層對(duì)應(yīng)的中間幅度差異進(jìn)行求和平均處理,得到平均幅度差異,并將所述平均幅度差異作為所述幅度差異。[0056]所述確定模塊,還用于通過所述冪壓縮處理層,對(duì)所述第一幅度譜進(jìn)行壓縮處理,得到第一壓縮幅度譜,并對(duì)所述第二幅度譜進(jìn)行壓縮處理,得到第二壓縮幅度譜;[0057]確定所述第一壓縮幅度譜與所述第二壓縮幅度譜之間的壓縮幅度差異,并將所述壓縮幅度差異作為所述幅度差異。9[0058]上述方案中,所述發(fā)音差異處理層包括:發(fā)音評(píng)分[0059]所述更新模塊,還用于通過所述發(fā)音評(píng)分損失處理層,確定所述發(fā)音預(yù)測(cè)結(jié)果、與所述語音樣本對(duì)應(yīng)的樣本標(biāo)簽之間的差異,并基于所述差異確定評(píng)分損失函數(shù)的值;[0060]基于所述內(nèi)容差異以及所述評(píng)分損失函數(shù)的值,更新所述語音降噪模型的模型參[0061]上述方案中,所述更新模塊,還用于獲取所述內(nèi)容差異對(duì)應(yīng)的第一權(quán)重值、以及所述評(píng)分損失函數(shù)的值對(duì)應(yīng)的第二權(quán)重值;[0062]結(jié)合所述第一權(quán)重值和第二權(quán)重值,基于所述內(nèi)容差異以及所述評(píng)分損失函數(shù)的值,確定所述語音降噪模型的損失函數(shù)的值;[0063]基于所述損失函數(shù)的值,更新所述語音降噪模型的模型參數(shù)。[0064]上述方案中,所述更新模塊,還用于當(dāng)所述損失函數(shù)的值超出損失閾值時(shí),基于所述損失函數(shù)確定所述語音降噪模型的誤差信號(hào);[0065]將所述誤差信號(hào)在所述語音降噪模型中反向傳播,并在傳播的過程中更新所述語音降噪模型中各個(gè)層的模型參數(shù)。[0066]上述方案中,所述發(fā)音差異處理層還包括:第一特征映射層、第二特征映射層、和特征拼接及預(yù)測(cè)層,所述第一特征映射層的網(wǎng)絡(luò)結(jié)構(gòu)不同于所述第二特征映射層的網(wǎng)絡(luò)結(jié)[0067]所述預(yù)測(cè)模塊,還用于通過所述第一特征映射層,對(duì)所述目標(biāo)語音樣本進(jìn)行映射[0068]通過所述第二特征映射層,對(duì)所述目標(biāo)語音樣本進(jìn)行映射處理,得到第二映射特[0069]通過所述特征拼接及預(yù)測(cè)層,對(duì)所述第一映射特征和第二映射特征進(jìn)行拼接處[0070]對(duì)所述拼接特征進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到所述發(fā)音預(yù)測(cè)結(jié)果。[0071]本申請(qǐng)實(shí)施例還提供一種語音評(píng)分裝置,應(yīng)用于語音降噪模型,裝置包括:[0072]第一呈現(xiàn)模塊,用于呈現(xiàn)參考語音文本以及語音輸入功能項(xiàng);[0073]第二呈現(xiàn)模塊,用于響應(yīng)于針對(duì)所述語音輸入功能項(xiàng)的觸發(fā)操作,呈現(xiàn)語音輸入界面,并在所述語音輸入界面中呈現(xiàn)語音結(jié)束功能項(xiàng);[0074]接收模塊,用于接收到基于所述語音輸入界面輸入的語音信息;[0075]第三呈現(xiàn)模塊,用于響應(yīng)于針對(duì)所述語音結(jié)束功能項(xiàng)的觸發(fā)操作,呈現(xiàn)用于指示所述語音信息與所述參考語音文本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度的發(fā)音評(píng)分;[0076]其中,所述發(fā)音評(píng)分,基于對(duì)目標(biāo)語音信息進(jìn)行發(fā)音評(píng)分的預(yù)測(cè)得到,所述目標(biāo)語音信息,基于所述語音降噪模型對(duì)所述語音信息進(jìn)行降噪處理得到;[0077]其中,所述語音降噪模型,基于上述語音降噪模型的訓(xùn)練方法訓(xùn)練得到。[0078]本申請(qǐng)實(shí)施例還提供一種電子設(shè)備,包括:[0080]處理器,用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行指令時(shí),實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的方法。[0081]本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有可執(zhí)行指令,所述可執(zhí)行指令被處理器執(zhí)行時(shí),實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的方法。[0082]本申請(qǐng)實(shí)施例具有以下有益效果:[0083]應(yīng)用本申請(qǐng)實(shí)施例,在語音降噪模型中加入發(fā)音差異處理層和內(nèi)容差異處理層,通過發(fā)音差異處理層,對(duì)降噪處理后的目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到用于指示目標(biāo)語音樣本與語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度的發(fā)音預(yù)測(cè)結(jié)果,并通過內(nèi)容差異處理層確定目標(biāo)語音樣本的內(nèi)容與語音樣本的內(nèi)容間的內(nèi)容差異,從而基于發(fā)音預(yù)測(cè)結(jié)果以及內(nèi)容差異,更新語音降噪模型的模型參數(shù)以完成模型訓(xùn)練;如此基于降噪前后的發(fā)音相似度和內(nèi)容差異進(jìn)行語音降噪模型的訓(xùn)練,能夠使訓(xùn)練得到的語音降噪模型避免降噪前后語音信息的丟失,提高降噪處理的精確程度。附圖說明[0084]圖1是本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練系統(tǒng)100的架構(gòu)示意圖;[0085]圖2是本申請(qǐng)實(shí)施例提供的實(shí)施語音降噪模型的訓(xùn)練方法的電子設(shè)備500的結(jié)構(gòu)示意圖;[0086]圖3是本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練方法的流程示意圖;[0087]圖4是本申請(qǐng)實(shí)施例提供的語音降噪模型的結(jié)構(gòu)示意圖;[0088]圖5是本申請(qǐng)實(shí)施例提供的噪音處理層的結(jié)構(gòu)示意圖;[0089]圖6是本申請(qǐng)實(shí)施例提供的第一特征變換層的結(jié)構(gòu)示意圖;[0090]圖7是本申請(qǐng)實(shí)施例提供的濾波處理層的結(jié)構(gòu)示意圖;[0091]圖8是本申請(qǐng)實(shí)施例提供的子濾波處理層的結(jié)構(gòu)示意圖;[0092]圖9是本申請(qǐng)實(shí)施例提供的第二特征變換層的結(jié)構(gòu)示意圖;[0093]圖10是本申請(qǐng)實(shí)施例提供的內(nèi)容差異處理層的結(jié)構(gòu)示意圖;[0094]圖11是本申請(qǐng)實(shí)施例通過的發(fā)音差異處理層的結(jié)構(gòu)示意圖;[0095]圖12是本申請(qǐng)實(shí)施例提供的語音評(píng)分方法的流程示意圖;[0096]圖13是本申請(qǐng)實(shí)施例提供的語音評(píng)分流程的呈現(xiàn)示意圖;[0097]圖14是本申請(qǐng)實(shí)施例提供的基于語音降噪模型的語音評(píng)分方法的流程示意圖。具體實(shí)施方式[0098]為了使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本申請(qǐng)作進(jìn)一步地詳細(xì)描述,所描述的實(shí)施例不應(yīng)視為對(duì)本申請(qǐng)的限制,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。[0099]在以下的描述中,涉及到“一些實(shí)施例”,其描述了所有可能實(shí)施例的子集,但是可以理解,“一些實(shí)施例”可以是所有可能實(shí)施例的相同子集或不同子集,并且可以在不沖突的情況下相互結(jié)合。[0100]在以下的描述中,所涉及的術(shù)語“第一\第二\第三”僅僅是是區(qū)別類似的對(duì)象,不代表針對(duì)對(duì)象的特定排序,可以理解地,“第一\第二\第三”在允許的情況下可以互換特定的順序或先后次序,以使這里描述的本申請(qǐng)實(shí)施例能夠以除了在這里圖示或描述的以外的順序?qū)嵤0101]除非另有定義,本文所使用的所有的技術(shù)和科學(xué)術(shù)語與屬于本申請(qǐng)的技術(shù)領(lǐng)域的11技術(shù)人員通常理解的含義相同。本文中所使用的術(shù)語只是為了描述本申請(qǐng)實(shí)施例的目的,不是旨在限制本申請(qǐng)。[0102]對(duì)本申請(qǐng)實(shí)施例進(jìn)行進(jìn)一步詳細(xì)說明之前,對(duì)本申請(qǐng)實(shí)施例中涉及的名詞和術(shù)語進(jìn)行說明,本申請(qǐng)實(shí)施例中涉及的名詞和術(shù)語適用于如下的解釋。[0103]1)客戶端,終端中運(yùn)行的用于提供各種服務(wù)的應(yīng)用程序,例如即時(shí)通訊客戶端、視頻播放客戶端。[0104]2)響應(yīng)于,用于表示所執(zhí)行的操作所依賴的條件或者狀態(tài),當(dāng)滿足所依賴的條件或狀態(tài)時(shí),所執(zhí)行的一個(gè)或多個(gè)操作可以是實(shí)時(shí)的,也可以具有設(shè)定的延遲;在沒有特別說明的情況下,所執(zhí)行的多個(gè)操作不存在執(zhí)行先后順序的限制。[0105]基于上述對(duì)本申請(qǐng)實(shí)施例中涉及的名詞和術(shù)語的解釋,下面說明本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練系統(tǒng)。參見圖1,圖1是本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練系統(tǒng)100的架構(gòu)示意圖,為實(shí)現(xiàn)支撐一個(gè)示例性應(yīng)用,終端400通過網(wǎng)絡(luò)300連接服務(wù)器200,網(wǎng)絡(luò)300可以是廣域網(wǎng)或者局域網(wǎng),又或者是二者的組合,使用無線或有線鏈路實(shí)現(xiàn)數(shù)據(jù)傳[0106]終端400,用于響應(yīng)于針對(duì)語音降噪模型的訓(xùn)練指令,發(fā)送對(duì)應(yīng)語音降噪模型的訓(xùn)練請(qǐng)求至服務(wù)器200;該語音降噪模型包括:噪音處理層,發(fā)音差異處理層和內(nèi)容差異處理[0107]服務(wù)器200,用于接收并響應(yīng)于訓(xùn)練請(qǐng)求,通過噪音處理層,對(duì)語音樣本進(jìn)行降噪處理,得到目標(biāo)語音樣本;通過發(fā)音差異處理層,對(duì)目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音預(yù)測(cè)結(jié)果,發(fā)音預(yù)測(cè)結(jié)果,用于指示目標(biāo)語音樣本與語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度;通過內(nèi)容差異處理層,確定目標(biāo)語音樣本的內(nèi)容與語音樣本的內(nèi)容間的內(nèi)容差異;基于發(fā)音預(yù)測(cè)結(jié)果以及內(nèi)容差異,更新語音降噪模型的模型參數(shù),以得到訓(xùn)練完成的語音降噪模型;返回訓(xùn)練完成的語音降噪模型至終端400;[0108]終端400,用于接收到訓(xùn)練完成的語音降噪模型,以基于該語音降噪模型對(duì)輸入的語音信息進(jìn)行語音降噪處理,從而提高語音降噪的精確度,避免在降噪過程中丟失部分語音信息。[0109]在實(shí)際應(yīng)用中,服務(wù)器200可以是獨(dú)立的物理服務(wù)器,也可以是多個(gè)物理服務(wù)器構(gòu)成的服務(wù)器集群或者分布式系統(tǒng),還可以是提供云服務(wù)、云數(shù)據(jù)庫、云計(jì)算、云函數(shù)、云存等基礎(chǔ)云計(jì)算服務(wù)的云服務(wù)器。終端400可以是智能手機(jī)、平板電線或無線通信方式進(jìn)行直接或間接地連接,本申請(qǐng)?jiān)诖瞬蛔鱿拗?。[0110]參見圖2,圖2是本申請(qǐng)實(shí)施例提供的實(shí)施語音降噪模型的訓(xùn)練方法的電子設(shè)備500的結(jié)構(gòu)示意圖。在實(shí)際應(yīng)用中,電子設(shè)備500可以為圖1示出的服務(wù)器或終端,以電子設(shè)備500為圖1示出的終端為例,對(duì)實(shí)施本申請(qǐng)實(shí)施例的語音降噪模型的訓(xùn)練方法的電子設(shè)備進(jìn)行說明,本申請(qǐng)實(shí)施例提供的電子設(shè)備500包括:至少一個(gè)處理器510、存?zhèn)€網(wǎng)絡(luò)接口520和用戶接口530。電子設(shè)備500中的各個(gè)組件通過總線系統(tǒng)540耦合在一起。可理解,總線系統(tǒng)540用于實(shí)現(xiàn)這些組件之間的連接通信??偩€系統(tǒng)540除包括數(shù)據(jù)總線之外,還包括電源總線、控制總線和狀態(tài)信號(hào)總線。但是為了線都標(biāo)為總線系統(tǒng)540。[0111]處理器510可以是一種集成電路芯片,具有信號(hào)的處理能力,例如通用處理器、數(shù)字信號(hào)處理器(DSP,DigitalSignalProcessor),或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等,其中,通用處理器可以是微處理器或者任何常規(guī)的處理[0112]用戶接口530包括使得能夠呈現(xiàn)媒體內(nèi)容的一個(gè)或多個(gè)輸出裝置531,包括一個(gè)或多個(gè)揚(yáng)聲器和/或一個(gè)或多個(gè)視覺顯示屏。用戶接口530還包括一個(gè)或多個(gè)輸入裝置532,包入按鈕和控件。[0113]存儲(chǔ)器550可以是可移除的,不可移除的或其組合。示例性的硬件設(shè)備包括固態(tài)存儲(chǔ)器,硬盤驅(qū)動(dòng)器,光盤驅(qū)動(dòng)器等。存儲(chǔ)器550可選地包括在物理位置上遠(yuǎn)離處理器510的一個(gè)或多個(gè)存儲(chǔ)設(shè)備。[0114]存儲(chǔ)器550包括易失性存儲(chǔ)器或非易失性存儲(chǔ)器,也可包括易失性和非易失性存儲(chǔ)器兩者。非易失性存儲(chǔ)器可以是只讀存儲(chǔ)器(ROM,ReadOnlyMemory),易失性存儲(chǔ)器可以是隨機(jī)存取存儲(chǔ)器(RAM,RandomAccessMemory)。本申請(qǐng)實(shí)施例描述的存儲(chǔ)器550旨在包括任意適合類型的存儲(chǔ)器。[0115]在一些實(shí)施例中,存儲(chǔ)器550能夠存儲(chǔ)數(shù)據(jù)以支持各種操作,這些數(shù)據(jù)的示例包括程序、模塊和數(shù)據(jù)結(jié)構(gòu)或者其子集或超集,下面示例性說明。[0116]操作系統(tǒng)551,包括用于處理各種基本系統(tǒng)服務(wù)和執(zhí)行硬件相關(guān)任務(wù)的系統(tǒng)程序,例如框架層、核心庫層、驅(qū)動(dòng)層等,用于實(shí)現(xiàn)各種[0117]網(wǎng)絡(luò)通信模塊552,用于經(jīng)由一個(gè)或多個(gè)(有線或無線)網(wǎng)絡(luò)接口520到達(dá)其他計(jì)算設(shè)備,示例性的網(wǎng)絡(luò)接口520包括:藍(lán)牙、無線相容性認(rèn)證(WiFi)、和通用串行總線(USB,[0118]呈現(xiàn)模塊553,用于經(jīng)由一個(gè)或多個(gè)與用戶接口530相關(guān)聯(lián)的輸出裝置531(例如,顯示屏、揚(yáng)聲器等)使得能夠呈現(xiàn)信息(例如,用于操作外圍設(shè)備和顯示內(nèi)容和信息的用戶接口);[0119]輸入處理模塊554,用于對(duì)一個(gè)或多個(gè)來自一個(gè)或多個(gè)輸入裝置532之一的一個(gè)或多個(gè)用戶輸入或互動(dòng)進(jìn)行檢測(cè)以及翻譯所檢測(cè)的輸入或互動(dòng)。[0120]在一些實(shí)施例中,本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練裝置可以采用軟件方式實(shí)現(xiàn),圖2示出了存儲(chǔ)在存儲(chǔ)器550中的語音降噪模型的訓(xùn)練裝置555,其可以是程序和插件等形式的軟件,包括以下軟件模塊:降噪模塊5551、預(yù)測(cè)模塊5552、確定模塊5553和更新模塊5554,這些模塊是邏輯上的,因此根據(jù)所實(shí)現(xiàn)的功能可以進(jìn)行任意的組合或進(jìn)一步拆分,將在下文中說明各個(gè)模塊的功能。[0121]在另一些實(shí)施例中,本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練裝置可以采用軟硬件結(jié)合的方式實(shí)現(xiàn),作為示例,本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練裝置可以是采用硬件譯碼處理器形式的處理器,其被編程以執(zhí)行本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練方法,例如,硬件譯碼處理器形式的處理器可以采用一個(gè)或多個(gè)應(yīng)用專用集成電路(ASIC,可編程門陣列(FPGA,Field-ProgrammableGateArray)或其他電子元件。[0122]基于上述對(duì)本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練系統(tǒng)及電子設(shè)備的說明,下面說明本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練方法。在一些實(shí)施例中,本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練方法可由服務(wù)器或終端單獨(dú)實(shí)施,或由服務(wù)器及終端協(xié)同實(shí)施,下面以服務(wù)器實(shí)施為例說明本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練方法。[0123]參見圖3,圖3是本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練方法的流程示意圖,本申請(qǐng)實(shí)施例提供的語音降噪模型包括:噪音處理層,發(fā)音差異處理層和內(nèi)容差異處理層,本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練方法包括:[0124]步驟101:服務(wù)器通過噪音處理層,對(duì)語音樣本進(jìn)行降噪處理,得到目標(biāo)語音樣本。[0125]這里,語音降噪模型包括噪音處理層,發(fā)音差異處理層和內(nèi)容差異處理層,用于對(duì)輸入的語音信息進(jìn)行語音降噪處理。作為示例,參見圖4,圖4是本申請(qǐng)實(shí)施例提供的語音降EnhanceNet)、發(fā)音差異處理層420(即發(fā)音偏誤預(yù)測(cè)網(wǎng)絡(luò)PronNet)和內(nèi)容差異處理層430(即多尺度語音相似度度量網(wǎng)絡(luò)SimilarNet)。[0126]在實(shí)際應(yīng)用中,該語音降噪模型可以是基于機(jī)器學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建的,比如卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)等;在基于機(jī)器學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建完成初始的語音降噪模型后,該語音降噪模型中包含初始的模型參數(shù),為提高語音降噪模型的降噪精度,需要對(duì)語音降噪模型進(jìn)行訓(xùn)練,以在模型訓(xùn)練的過程中更新語音降噪模型的模型參數(shù),得到訓(xùn)練完成的語音降噪模型,從而基于訓(xùn)練完成的語音降噪模型進(jìn)行語音信息的降噪處理。[0127]在對(duì)語音降噪模型進(jìn)行訓(xùn)練的過程中,首先獲取用于訓(xùn)練的訓(xùn)練樣本,即語音樣本,該語音樣本可以是針對(duì)某些參考語音文本的,該參考語音文本對(duì)應(yīng)有相應(yīng)的參考發(fā)音。服務(wù)器在獲取到用于訓(xùn)練語音降噪模型的語音樣本后,通過語音降噪模型的噪音處理層,對(duì)語音樣本進(jìn)行降噪處理,比如濾波降噪處理等,得到目標(biāo)語音樣本。[0128]在一些實(shí)施例中,噪音處理層包括:第一特征變換層、濾波處理層以及第二特征變換層;服務(wù)器可通過如下方式通過噪音處理層,對(duì)語音樣本進(jìn)行降噪處理,得到目標(biāo)語音樣本:通過第一特征變換層,對(duì)語音樣本進(jìn)行傅里葉變換,得到語音樣本對(duì)應(yīng)的幅度譜和相位得到目標(biāo)相位譜;通過第二特征變換層,將目標(biāo)幅度譜和目標(biāo)相位譜進(jìn)行相乘,并將相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到目標(biāo)語音樣本。[0129]這里,上述噪音處理層包括第一特征變換層、濾波處理層以及第二特征變換層。作為示例,參見圖5,圖5是本申請(qǐng)實(shí)施例提供的噪音處理層的結(jié)構(gòu)示意圖。這里,噪音處理層410即為語音增強(qiáng)網(wǎng)絡(luò)EnhanceNet,包括第一特征變換層501(即前處理網(wǎng)絡(luò)PrevNet)、濾波處理層502(即級(jí)聯(lián)激活網(wǎng)絡(luò)CasNet)以及第二特征變換層503(即后處理網(wǎng)絡(luò)PostNet)。在實(shí)際應(yīng)用中,首先通過第一特征變換層,對(duì)語音樣本的波形特征進(jìn)行傅里葉變換,得到相應(yīng)的幅度譜A和相位譜P;然后通過濾波處理層,對(duì)幅度譜A進(jìn)行濾波處理,得到幅度譜A'(即目標(biāo)幅度譜),同時(shí)通過該濾波處理層,基于濾波后的幅度譜A對(duì)相位歐P進(jìn)行相位修正,得到相位譜P’(即目標(biāo)相位譜);最后通過第二特征變換層,將幅度譜A'和相位譜P'進(jìn)行傅里葉[0130]接下來對(duì)降噪處理層的處理過程進(jìn)行詳細(xì)說明。第一,服務(wù)器在通過噪音處理層對(duì)語音樣本進(jìn)行降噪處理時(shí),首先通過第一特征變換層,對(duì)語音樣本進(jìn)行傅里葉變換,具體是對(duì)語音樣本的波形特征進(jìn)行傅里葉變換,得到語音樣本對(duì)應(yīng)的幅度譜和相位譜。作為示例,參見圖6,圖6是本申請(qǐng)實(shí)施例提供的第一特征變換層的結(jié)構(gòu)示意圖。這里,該第一特征變換層501即為圖5所示的前處理網(wǎng)絡(luò)PrevNet,包括傅里葉變換層610和卷積層620,通過傅里葉變換層,采用短時(shí)傅里葉變換,將語音樣本的波形特征轉(zhuǎn)為2通道傅里葉譜(包括幅度譜和相位譜),進(jìn)一步地通過卷積層620從2通道傅里葉譜轉(zhuǎn)換成64通道的幅度譜A和64通道的相位譜P。[0131]第二,然后服務(wù)器通過濾波處理層,對(duì)幅度譜進(jìn)行濾波處理(即降噪處理),比如卷積濾波處理,得到濾波后的目標(biāo)幅度譜;同時(shí)通過該濾波處理層,基于濾波后的目標(biāo)幅度譜對(duì)相位譜進(jìn)行相位修正,得到目標(biāo)相位譜。[0132]在一些實(shí)施例中,濾波處理層包括至少兩個(gè)級(jí)聯(lián)的子濾波處理層;服務(wù)器可通過如下方式通過濾波處理層,對(duì)幅度譜進(jìn)行濾波處理,得到目標(biāo)幅度譜,并對(duì)相位譜進(jìn)行相位修正,得到目標(biāo)相位譜:通過第一級(jí)的子濾波處理層,對(duì)幅度譜進(jìn)行濾波處理,得到中間幅度譜,并對(duì)相位譜進(jìn)行相位修正,得到中間相位譜;通過非第一級(jí)的子濾波處理層,對(duì)中間幅度譜進(jìn)行濾波處理得到目標(biāo)幅度譜,并對(duì)中間相位譜進(jìn)行相位修正得到目標(biāo)相位譜。[0133]在實(shí)際應(yīng)用中,該濾波處理層包括至少兩個(gè)級(jí)聯(lián)的子濾波處理層,服務(wù)器可通過第一級(jí)的子濾波處理層,對(duì)幅度譜進(jìn)行濾波處理,得到中間幅度譜,并對(duì)相位譜進(jìn)行相位修正,得到中間相位譜;然后通過非第一級(jí)的子濾波處理層,對(duì)中間幅度譜進(jìn)行濾波處理得到目標(biāo)幅度譜,并對(duì)中間相位譜進(jìn)行相位修正得到目標(biāo)相位譜。具體地通過非第一級(jí)的子濾波處理層,對(duì)前一級(jí)輸出的中間幅度譜進(jìn)行濾波處理得到,并對(duì)前一級(jí)輸出的中間相位譜進(jìn)行相位修正,循環(huán)執(zhí)行直至最后一級(jí)的子濾波處理層處理完成,將最后一級(jí)的子濾波處理層輸出的中間幅度譜作為目標(biāo)幅度譜,將最后一級(jí)的子濾波處理層輸出的中間相位譜作為目標(biāo)相位譜。[0134]作為示例,參見圖7,圖7是本申請(qǐng)實(shí)施例提供的濾波處理層的結(jié)構(gòu)示意圖。這里,該濾波處理層502包括多個(gè)子濾波處理層,該子濾波處理層由三階激活注意力網(wǎng)絡(luò)TAB構(gòu)成,將第一特征變換層501輸出的幅度譜A和相位譜P,經(jīng)過濾波處理,輸出64通道的幅度譜[0135]在一些實(shí)施例中,各子濾波處理層包括相位譜修正層、以及至少兩個(gè)級(jí)聯(lián)的幅度譜濾波層;服務(wù)器可通過如下方式通過第一級(jí)的子濾波處理層,對(duì)幅度譜進(jìn)行濾波處理,得到中間幅度譜,并對(duì)相位譜進(jìn)行相位修正,得到中間相位譜:通過至少兩個(gè)級(jí)聯(lián)的幅度譜濾波層,對(duì)幅度譜進(jìn)行濾波處理,得到中間幅度譜;通過相位譜修正層,基于中間幅度譜對(duì)相位譜進(jìn)行相位修正,得到中間相位譜。[0136]這里,上述各子濾波處理層由相位譜修正層和至少兩個(gè)級(jí)聯(lián)的幅度譜濾波層構(gòu)成。服務(wù)器可首先通過至少兩個(gè)級(jí)聯(lián)的幅度譜濾波層,對(duì)幅度譜進(jìn)行濾波處理,比如諧波濾波處理,得到中間幅度譜;然后通過相位譜修正層,基于中間幅度譜對(duì)相位譜進(jìn)行相位修[0138]其中,Conv為卷積運(yùn)算;Tanh雙曲正切函數(shù)運(yùn)算(將輸入值轉(zhuǎn)換為-1至1之間);○表[0139]作為示例,參見圖8,圖8是本申請(qǐng)實(shí)施例提供的子濾波處理層的結(jié)構(gòu)示意圖。這里,該子濾波處理層包含一個(gè)幅度譜濾波網(wǎng)絡(luò)810(即三階幅度譜增強(qiáng)網(wǎng)絡(luò)AmpNet)和1個(gè)相位譜修正層820(即一階相位譜修正網(wǎng)絡(luò)PhaseNet),如圖8中A圖所示,用于對(duì)幅度譜A進(jìn)行濾波處理,得到中間幅度譜A';該幅度譜濾波網(wǎng)絡(luò)810包括多個(gè)級(jí)聯(lián)的幅度譜濾波層,如圖8中B圖所示,為3個(gè)級(jí)聯(lián)的幅度譜濾波層(即諧波增強(qiáng)器H);其中,每個(gè)幅度譜濾波層的結(jié)構(gòu)如圖8中C圖所示,包含兩個(gè)線性處理層Linear-F和兩個(gè)卷積層Conv1*1,用于對(duì)幅度譜進(jìn)行諧波濾波處理。[0140]第三,最后通過第二特征變換層,將目標(biāo)幅度譜和目標(biāo)相位譜進(jìn)行相乘,在實(shí)際應(yīng)用中,可以是計(jì)算目標(biāo)幅度譜和目標(biāo)相位譜的點(diǎn)積,從而將點(diǎn)乘得到的結(jié)果再進(jìn)行傅里葉[0141]在一些實(shí)施例中,第二特征變換層包括特征轉(zhuǎn)換層、和特征逆變換層;服務(wù)器可通過如下方式通過第二特征變換層,將目標(biāo)幅度譜和目標(biāo)相位譜進(jìn)行相乘,并將相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到目標(biāo)語音樣本:通過特征轉(zhuǎn)換層,將目標(biāo)幅度譜轉(zhuǎn)換為幅度譜掩模,并確定目標(biāo)相位譜對(duì)應(yīng)的相位角;通過特征逆變換層,將目標(biāo)幅度譜、幅度譜掩模和目標(biāo)相位譜對(duì)應(yīng)的相位角進(jìn)行相乘,并將相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到目標(biāo)語音樣本。[0142]在實(shí)際應(yīng)用中,第二特征變換層包括特征轉(zhuǎn)換層、和特征逆變換層。具體地,服務(wù)器可通過特征轉(zhuǎn)換層,將目標(biāo)幅度譜轉(zhuǎn)換為幅度譜掩模,并確定目標(biāo)相位譜對(duì)應(yīng)的相位角;通過特征逆變換層,將目標(biāo)幅度譜、幅度譜掩模和目標(biāo)相位譜對(duì)應(yīng)的相位角進(jìn)行相乘,并將相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到目標(biāo)語音樣本。[0143]作為示例,參見圖9,圖9是本申請(qǐng)實(shí)施例提供的第二特征變換層的結(jié)構(gòu)示意圖。這里,第二特征變換層503包括特征轉(zhuǎn)換層,該特征轉(zhuǎn)換層由多層卷積層組成;還包括特征逆變換層。將濾波處理層502輸出的目標(biāo)幅度譜(即幅度譜A')轉(zhuǎn)換成幅度譜掩膜M,將目標(biāo)相位譜(即相位譜P')轉(zhuǎn)換相位角Ω,再由傅里葉逆變換轉(zhuǎn)成波形輸出,即得到降噪后的目標(biāo)語音樣本。具體地,將目標(biāo)幅度譜與幅度譜掩模的點(diǎn)積結(jié)果、與相位角Ω再進(jìn)行點(diǎn)積計(jì)算,將所得到的結(jié)果進(jìn)行短時(shí)傅里葉逆變換(iSTFT)轉(zhuǎn)成波形輸出,即得到降噪后的目標(biāo)語音[0144]步驟102:通過發(fā)音差異處理層,對(duì)目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音預(yù)測(cè)結(jié)果。[0145]其中,該發(fā)音預(yù)測(cè)結(jié)果,用于指示目標(biāo)語音樣本與語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度。[0146]這里,該目標(biāo)語音樣本為進(jìn)行降噪處理后的語音樣本。通過發(fā)音差異處理層對(duì)目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音預(yù)測(cè)結(jié)果,即預(yù)測(cè)發(fā)音評(píng)分,該發(fā)音預(yù)測(cè)結(jié)果,用于指示目標(biāo)語音樣本與語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度。[0147]在一些實(shí)施例中,發(fā)音差異處理層還包括:第一特征映射層、第二特征映射層、和特征拼接及預(yù)測(cè)層,第一特征映射層的網(wǎng)絡(luò)結(jié)構(gòu)不同于第二特征映射層的網(wǎng)絡(luò)結(jié)構(gòu);服務(wù)器可通過如下方式通過發(fā)音差異處理層,對(duì)目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音預(yù)測(cè)結(jié)果:通過第一特征映射層,對(duì)目標(biāo)語音樣本進(jìn)行映射處理,得到第一映射特征;通過第二特征映射層,對(duì)目標(biāo)語音樣本進(jìn)行映射處理,得到第二映射特征;通過特征拼接及預(yù)測(cè)層,對(duì)第一映射特征和第二映射特征進(jìn)行拼接處理,得到拼接特征,并對(duì)拼接特征進(jìn)行發(fā)音[0148]這里,在實(shí)際應(yīng)用中,該第一特征映射層可以是基于Transformer網(wǎng)絡(luò)構(gòu)建的,該第二特征映射層可以是基于時(shí)延神經(jīng)網(wǎng)絡(luò)(Time-DelayNeuralNetwork,TDNN)構(gòu)建的。[0149]步驟103:通過內(nèi)容差異處理層,確定目標(biāo)語音樣本的內(nèi)容與語音樣本的內(nèi)容間的內(nèi)容差異。[0150]在通過發(fā)音差異處理層預(yù)測(cè)得到目標(biāo)語音樣本對(duì)應(yīng)的發(fā)音預(yù)測(cè)結(jié)果后,通過內(nèi)容差異處理層,確定目標(biāo)語音樣本的內(nèi)容與語音樣本的內(nèi)容間的內(nèi)容差異。這里,內(nèi)容差異主要可以包括語音信息量的差異。[0151]在一些實(shí)施例中,內(nèi)容差異處理層包括:傅里葉變換層;服務(wù)器可通過如下方式通過內(nèi)容差異處理層,確定目標(biāo)語音樣本的內(nèi)容與語音樣本的內(nèi)容間的內(nèi)容差異:通過傅里葉變換層,對(duì)目標(biāo)語音樣本進(jìn)行傅里葉變換,得到第一幅度譜,并對(duì)語音樣本進(jìn)行傅里葉變換,得到第二幅度譜;確定第一幅度譜與第二幅度譜之間的幅度差異,并將幅度差異確定為目標(biāo)語音樣本的內(nèi)容與語音樣本的內(nèi)容間的內(nèi)容差異。[0152]這里,內(nèi)容差異處理層包括:傅里葉變換層;服務(wù)器可通過傅里葉變換層,對(duì)目標(biāo)語音樣本進(jìn)行傅里葉變換,得到第一幅度譜,并對(duì)語音樣本進(jìn)行傅里葉變換,得到第二幅度譜;確定第一幅度譜與第二幅度譜之間的幅度差異,具體可以是計(jì)算第一幅度譜的第一平均幅度、以及計(jì)算第二幅度譜的第二平均幅度,然后確定第一平均幅度和第二平均幅度之間的幅度差異,作為第一幅度譜與第二幅度譜之間的幅度差異;從而將第一幅度譜與第二幅度譜之間的幅度差異,確定為目標(biāo)語音樣本的內(nèi)容與語音樣本的內(nèi)容間的內(nèi)容差異。[0153]在一些實(shí)施例中,傅里葉變換層包括至少兩個(gè)子傅里葉變換層,不同的子傅里葉變換層對(duì)應(yīng)不同的變換尺度;服務(wù)器可通過如下方式通過傅里葉變換層,對(duì)目標(biāo)語音樣本進(jìn)行傅里葉變換,得到第一幅度譜,并對(duì)語音樣本進(jìn)行傅里葉變換,得到第二幅度譜:通過各子傅里葉變換層,分別對(duì)目標(biāo)語音樣本進(jìn)行相應(yīng)變換尺度的傅里葉變換,得到各子傅里葉變換層對(duì)應(yīng)的第一幅度譜;通過各子傅里葉變換層,分別對(duì)語音樣本進(jìn)行相應(yīng)變換尺度的傅里葉變換,得到各子傅里葉變換層對(duì)應(yīng)的第二幅度譜;[0154]相應(yīng)的,服務(wù)器可通過如下方式確定第一幅度譜與第二幅度譜之間的幅度差異:確定各子傅里葉變換層對(duì)應(yīng)的第一幅度譜和第二幅度譜之間的中間幅度差異;對(duì)至少兩個(gè)子傅里葉變換層對(duì)應(yīng)的中間幅度差異進(jìn)行求和平均處理,得到平均幅度差異,并將平均幅度差異作為幅度差異。[0155]在一些實(shí)施例中,內(nèi)容差異處理層還包括:冪壓縮處理層;服務(wù)器可通過如下方式確定第一幅度譜與第二幅度譜之間的幅度差異:通過冪壓縮處理層,對(duì)第一幅度譜進(jìn)行壓縮處理,得到第一壓縮幅度譜,并對(duì)第二幅度譜進(jìn)行壓縮處理,得到第二壓縮幅度譜;確定第一壓縮幅度譜與第二壓縮幅度譜之間的壓縮幅度差異,并將壓縮幅度差異作為幅度差異。[0156]作為示例,參見圖10,圖10是本申請(qǐng)實(shí)施例提供的內(nèi)容差異處理層的結(jié)構(gòu)示意圖。這里,該內(nèi)容差異處理層430包括三種尺度的傅里葉變換層和冪壓縮處理層。三種尺度的分析窗大小分別為256點(diǎn)、512點(diǎn)和1024點(diǎn),在三種窗長條件下,分別計(jì)算語音樣本和降噪后的均幅度差異作為相應(yīng)尺度下的幅度差異,最后將3個(gè)尺度下的幅度差異的平均值作為最終確定語音降噪模型的損失函數(shù)的值;基于損失函數(shù)的值,更新語音降噪模型的模型參數(shù)。[0168]這里,可以預(yù)先設(shè)置內(nèi)容差異對(duì)應(yīng)的第一權(quán)重值、以及評(píng)分損失函數(shù)的值對(duì)應(yīng)的第二權(quán)重值。此時(shí),在基于內(nèi)容差異以及評(píng)分損失函數(shù)的值,更新語音降噪模型的模型參數(shù)時(shí),服務(wù)器首先獲取內(nèi)容差異對(duì)應(yīng)的第一權(quán)重值、以及評(píng)分損失函數(shù)的值對(duì)應(yīng)的第二權(quán)重值;然后結(jié)合第一權(quán)重值和第二權(quán)重值,基于內(nèi)容差異以及評(píng)分損失函數(shù)的值,確定語音降噪模型的損失函數(shù)的值,具體可以是基于第一權(quán)重值和第二權(quán)重值,對(duì)內(nèi)容差異以及評(píng)分損失函數(shù)的值進(jìn)行加權(quán)處理,將得到的結(jié)果作為語音降噪模型的損失函數(shù)的值;最后基于該語音降噪模型的損失函數(shù)的值,更新語音降噪模型的模型參數(shù)。[0169]在一些實(shí)施例中,服務(wù)器可通過如下方式基于損失函數(shù)的值,更新語音降噪模型的模型參數(shù):當(dāng)損失函數(shù)的值超出損失閾值時(shí),基于損失函數(shù)確定語音降噪模型的誤差信號(hào);將誤差信號(hào)在語音降噪模型中反向傳播,并在傳播的過程中更新語音降噪模型中各個(gè)層的模型參數(shù)。[0170]這里,服務(wù)器在基于該語音降噪模型的損失函數(shù)的值,更新語音降噪模型的模型參數(shù)時(shí),判斷損失函數(shù)的值是否超出損失閾值。當(dāng)該損失函數(shù)的值超出損失閾值時(shí),則基于損失函數(shù)確定語音降噪模型的誤差信號(hào),并將誤差信號(hào)在語音降噪模型中反向傳播,從而在誤差信息反向傳播的過程中,更新語音降噪模型中各個(gè)層的模型參數(shù),直至損失函數(shù)收斂。將收斂時(shí)所得到的語音降噪模型的模型參數(shù)作為訓(xùn)練完成的語音降噪模型的模型參[0171]應(yīng)用本申請(qǐng)上述實(shí)施例,在語音降噪模型中加入發(fā)音差異處理層和內(nèi)容差異處理層,通過發(fā)音差異處理層,對(duì)降噪處理后的目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到用于指示目標(biāo)語音樣本與語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度的發(fā)音預(yù)測(cè)結(jié)果,并通過內(nèi)容差異處理層確定目標(biāo)語音樣本的內(nèi)容與語音樣本的內(nèi)容間的內(nèi)容差異,從而基于發(fā)音預(yù)測(cè)結(jié)果以及內(nèi)容差異,更新語音降噪模型的模型參數(shù)以完成模型訓(xùn)練;如此基于降噪前后的發(fā)音相似度和內(nèi)容差異進(jìn)行語音降噪模型的訓(xùn)練,能夠使訓(xùn)練得到的語音降噪模型避免降噪前后語音信息的丟失,提高降噪處理的精確程度。[0172]基于上述對(duì)本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練方法的說明,下面說明本申請(qǐng)實(shí)施例提供的語音評(píng)分方法,該語音評(píng)分方法應(yīng)用于語音降噪模型,該語音降噪模型基于上述語音降噪模型的訓(xùn)練方法訓(xùn)練得到。[0173]在一些實(shí)施例中,本申請(qǐng)實(shí)施例提供的語音評(píng)分方法可由服務(wù)器或終端單獨(dú)實(shí)施,或由服務(wù)器及終端協(xié)同實(shí)施,下面以終端實(shí)施為例說明本申請(qǐng)實(shí)施例提供的語音評(píng)分方法。參見圖12,圖12是本申請(qǐng)實(shí)施例提供的語音評(píng)分方法的流程示意圖,本申請(qǐng)實(shí)施例提供的語音評(píng)分方法包括:[0174]步驟201:終端呈現(xiàn)參考語音文本以及語音輸入功能項(xiàng)。[0175]這里,終端設(shè)置有用于語音評(píng)分的客戶端。通過運(yùn)行客戶端呈現(xiàn)參考語音文本以及語音輸入功能項(xiàng)。[0176]步驟202:響應(yīng)于針對(duì)語音輸入功能項(xiàng)的觸發(fā)操作,呈現(xiàn)語音輸入界面,并在語音輸入界面中呈現(xiàn)語音結(jié)束功能項(xiàng)。[0177]當(dāng)接收到針對(duì)語音輸入功能項(xiàng)的觸發(fā)操作時(shí),響應(yīng)于該觸發(fā)操作,呈現(xiàn)語音輸入界面,同時(shí)在語音輸入界面中呈現(xiàn)語音結(jié)束功能項(xiàng)。此時(shí),用戶可基于該語音輸入界面按照參考語音文本輸入相應(yīng)的語音信息。[0178]步驟203:接收到基于語音輸入界面輸入的語音信息。[0179]步驟204:響應(yīng)于針對(duì)語音結(jié)束功能項(xiàng)的觸發(fā)操作,呈現(xiàn)用于指示語音信息與參考語音文本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度的發(fā)音評(píng)分。[0180]終端接收到基于該語音輸入界面輸入的語音信息。當(dāng)接收到針對(duì)語音結(jié)束功能項(xiàng)的觸發(fā)操作時(shí),響應(yīng)于該觸發(fā)操作,呈現(xiàn)用于指示語音信息與參考語音文本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度的發(fā)音評(píng)分。在實(shí)際應(yīng)用中,該發(fā)音評(píng)分可通過數(shù)字、圖形等多種方式標(biāo)[0181]其中,該發(fā)音評(píng)分,基于對(duì)目標(biāo)語音信息進(jìn)行發(fā)音評(píng)分的預(yù)測(cè)得到,目標(biāo)語音信息,基于語音降噪模型對(duì)語音信息進(jìn)行降噪處理得到;其中,該語音降噪模型,基于上述語音降噪模型的訓(xùn)練方法訓(xùn)練得到。[0182]作為示例,參見圖13,圖13是本申請(qǐng)實(shí)施例提供的語音評(píng)分流程的呈現(xiàn)示意圖。這里,以本申請(qǐng)實(shí)施例提供的語音評(píng)分方法應(yīng)用于角色配音的場(chǎng)景為例,終端在配音界面中可以通過角色圖像來表示,如圖13中A圖所示;當(dāng)接收到針對(duì)“角色2”對(duì)應(yīng)的配音入口的觸[0183]響應(yīng)于針對(duì)語音輸入功能項(xiàng)“開始配音”的觸發(fā)操作,呈現(xiàn)語音輸入界面,并在語音輸入界面中呈現(xiàn)語音結(jié)束功能項(xiàng)“結(jié)束配音”,如圖13中C圖所示;當(dāng)接收到基于語音輸入界面輸入的語音信息時(shí),響應(yīng)于針對(duì)語音結(jié)束功能項(xiàng)“結(jié)束配音”的觸發(fā)操作,呈現(xiàn)用于指示接收到的語音信息與參考語音文本“大家好,我是你們的好朋友XXX”對(duì)應(yīng)的參考發(fā)音間[0184]在實(shí)際應(yīng)用中,本申請(qǐng)實(shí)施例提供的語音評(píng)分方法還可以應(yīng)用于歌唱打分的場(chǎng)景中。具體地,用戶在歌唱時(shí)選擇想要唱的歌曲,終端呈現(xiàn)對(duì)應(yīng)該歌曲的參考語音文本(即歌詞)和語音輸入功能項(xiàng);響應(yīng)于針對(duì)語音輸入功能項(xiàng)的觸發(fā)操作,呈現(xiàn)語音輸入界面以采集用戶的歌唱語音信息,并在語音輸入界面中呈現(xiàn)語音結(jié)束功能項(xiàng);當(dāng)接收到基于語音輸入界面輸入的歌唱語音信息時(shí),響應(yīng)于針對(duì)語音結(jié)束功能項(xiàng)的觸發(fā)操作,呈現(xiàn)用于指示該歌唱語音信息與參考語音文本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度的發(fā)音評(píng)分。[0185]應(yīng)用本申請(qǐng)上述實(shí)施例,在語音降噪模型中加入發(fā)音差異處理層和內(nèi)容差異處理層,通過發(fā)音差異處理層,對(duì)降噪處理后的目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到用于指示目標(biāo)語音樣本與語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度的發(fā)音預(yù)測(cè)結(jié)果,并通過內(nèi)容差異處理層確定目標(biāo)語音樣本的內(nèi)容與語音樣本的內(nèi)容間的內(nèi)容差異,從而基于發(fā)音預(yù)測(cè)結(jié)果以及內(nèi)容差異,更新語音降噪模型的模型參數(shù)以完成模型訓(xùn)練;如此基于降噪前后的發(fā)音相似度和內(nèi)容差異進(jìn)行語音降噪模型的訓(xùn)練,能夠使訓(xùn)練得到的語音降噪模型避免降噪前后語音信息的丟失,提高降噪處理的精確程度。從而進(jìn)一步提高發(fā)音評(píng)分的預(yù)測(cè)精度。[0186]下面將說明本申請(qǐng)實(shí)施例在一個(gè)實(shí)際的應(yīng)用場(chǎng)景中的示例性應(yīng)用。[0187]相關(guān)技術(shù)中,語音增強(qiáng)方案均屬于純聲學(xué)預(yù)測(cè)方案,預(yù)測(cè)的目標(biāo)通常是使得增強(qiáng)后語音的波形和純凈語音的波形最相似,而對(duì)于計(jì)算機(jī)輔助語言教學(xué)而言,增強(qiáng)后語音的波形和純凈語音的波形最接近并不是最佳的方案。在實(shí)際應(yīng)用中,以波形最接近為目標(biāo)學(xué)習(xí)時(shí),通常只關(guān)注幅度大的元音的恢復(fù)程度,忽略幅度小的輔音的恢復(fù)程度,容易造成摩擦音丟失、爆破音失爆、送氣音缺乏送氣段等現(xiàn)象,從而由于語音降噪的處理影響了發(fā)音評(píng)分預(yù)測(cè)的準(zhǔn)確性。[0188]基于此,本申請(qǐng)實(shí)施例提供一種語音降噪模型的訓(xùn)練方法,在語音降噪模型中引入發(fā)音偏誤預(yù)測(cè)網(wǎng)絡(luò)(即上述發(fā)音差異處理層)和多尺度語音相似度度量網(wǎng)絡(luò)(即上述內(nèi)容差異處理層),顯式地對(duì)增強(qiáng)后語音的發(fā)音偏誤信息進(jìn)行懲罰,同時(shí)提出一種可以將頻譜諧波信息、相位信息、幅度信息相互融合相互促進(jìn)的語音增強(qiáng)網(wǎng)絡(luò),著重體現(xiàn)在級(jí)聯(lián)激活網(wǎng)路CasNet的細(xì)節(jié)設(shè)計(jì)中,包含了多個(gè)諧波增強(qiáng)器H的結(jié)構(gòu),以及利用幅度譜輔助相位譜進(jìn)行相位估計(jì)。[0189]接下來首先對(duì)本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練方法的應(yīng)用場(chǎng)景進(jìn)行說臺(tái)詞;2)點(diǎn)擊結(jié)束配音,結(jié)束跟讀角色臺(tái)詞;3)屏幕呈現(xiàn)針對(duì)采集的角色配音的語音的發(fā)音評(píng)測(cè)結(jié)果給用戶,如圖13所示為角色配音的語音的發(fā)音評(píng)測(cè)結(jié)果,通過評(píng)分表[0190]接下來對(duì)本申請(qǐng)實(shí)施例提供的語音評(píng)分方法進(jìn)行詳細(xì)說明。參見圖14,圖14是本申請(qǐng)實(shí)施例提供的基于語音降噪模型的語音評(píng)分方法的流程示意圖,包括:1)用戶打開語音評(píng)分客戶端,屏幕顯示跟讀文本,點(diǎn)擊客戶端顯示的開始錄音按鈕,并基于跟讀文本進(jìn)行[0191]2)客戶端將跟讀過程中采集的音頻信息、以及跟讀文本發(fā)送至服務(wù)器端;[0192]3)服務(wù)器端將音頻信息發(fā)送給語音降噪模型,進(jìn)行語音降噪處理;[0193]4)語音降噪模型對(duì)音頻信息進(jìn)行降噪處理后,將降噪后的音頻信息輸入至語音識(shí)別模型。[0194]5)語音識(shí)別模型對(duì)降噪后的音頻信息進(jìn)行語音識(shí)別以及基礎(chǔ)聲學(xué)特征的提取,得到識(shí)別文本和聲學(xué)特征(比如發(fā)音準(zhǔn)確度、發(fā)音流利度、發(fā)音韻律度等)。[0195]6)語音識(shí)別模型將語音識(shí)別的結(jié)果(即識(shí)別文本和聲學(xué)特征)輸入給評(píng)測(cè)模型;[0196]7)評(píng)測(cè)模型基于識(shí)別文本和聲學(xué)特征進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),輸出發(fā)音評(píng)分,并將發(fā)音評(píng)分返回給服務(wù)器端;[0197]8)服務(wù)器端接收發(fā)音評(píng)分,并將發(fā)音評(píng)分返回至客戶端,以使用戶在客戶端查看最終的發(fā)音評(píng)分。[0198]接下來繼續(xù)對(duì)本申請(qǐng)實(shí)施例提供的語音降噪模型進(jìn)行詳細(xì)說明。參見圖4,該語音降噪模型包含了一個(gè)語音增強(qiáng)網(wǎng)絡(luò)EnhanceNet(即噪音處理層)、一個(gè)發(fā)音偏誤預(yù)測(cè)器PronNet(即發(fā)音差異處理層)、和一個(gè)多尺度語音相似度度量網(wǎng)絡(luò)SimilarNet(即內(nèi)容差異處理層)。[0199]具體地,該語音降噪模型的訓(xùn)練過程可以如下:通過語音增強(qiáng)網(wǎng)絡(luò)EnhanceNet對(duì)采集的原始語音進(jìn)行語音增強(qiáng)處理(即降噪處理),然后將降噪后的目標(biāo)語音分別輸入發(fā)音偏誤預(yù)測(cè)網(wǎng)絡(luò)PronNet和多尺度語音相似度度量網(wǎng)絡(luò)SimilarNet;通過發(fā)音偏誤預(yù)測(cè)網(wǎng)絡(luò)PronNet得到發(fā)音相似度評(píng)分損失,通過多尺度語音相似度度量網(wǎng)絡(luò)SimilarNet得到語音相似度損失(即降噪前后語音所包含內(nèi)容的損失);基于發(fā)音相似度評(píng)分損失和語音相似度損失確定語音降噪模型的損失,從而基于該語音降噪模型的損失進(jìn)行梯度回傳,以更新語音降噪模型的模型參數(shù),從而實(shí)現(xiàn)語音降噪模型的模型訓(xùn)練。[0200]參見圖5,這里,語音增強(qiáng)網(wǎng)絡(luò)EnhanceNet,包含了一個(gè)前處理網(wǎng)絡(luò)PrevNet(即第轉(zhuǎn)為2通道傅里葉譜,再通過卷積層從2通道傅里葉譜轉(zhuǎn)換成64通道的幅度譜A和64通道的相位譜P。中,幅度譜增強(qiáng)網(wǎng)絡(luò)AmpNet(即幅度譜濾波網(wǎng)絡(luò))對(duì)前處理網(wǎng)絡(luò)輸出的64通道幅度譜A進(jìn)行級(jí)聯(lián)激活網(wǎng)絡(luò)CasNet輸出的64通道幅度譜A'轉(zhuǎn)成1通道幅度掩膜M,將64通道相位譜P’轉(zhuǎn)成[0206]參見圖11,上述發(fā)音偏誤預(yù)測(cè)網(wǎng)絡(luò)PronNet,由一個(gè)TDNN網(wǎng)絡(luò)(即第二特征映射失作為相應(yīng)尺度下的語音相似度損失,最后將3個(gè)尺度下的語音相似度損失的平均值作為最終的語音相似度損失(即內(nèi)容差異)。[0210]在另外一些實(shí)施例中,本申請(qǐng)中提出的PrevNet和PostNet可以采用多種不同的實(shí)現(xiàn)方案。其中PrevNet只要將波形信號(hào)變換為2通道時(shí)頻特征,再從2通道的時(shí)頻特征變換為高通道的時(shí)頻特征即可,在本申請(qǐng)實(shí)施過程中發(fā)現(xiàn),通道數(shù)越高性能越好。其中PostNet的設(shè)計(jì)也類似,還可以采用BLSTM、GRU或者Transformer結(jié)構(gòu)實(shí)現(xiàn)高通道特征到2通道時(shí)頻域[0211]應(yīng)用本申請(qǐng)上述實(shí)施例,在發(fā)音評(píng)測(cè)場(chǎng)景下,在語音降噪網(wǎng)絡(luò)中引入發(fā)音偏誤網(wǎng)絡(luò)以及多尺度語音相似度度量網(wǎng)絡(luò),在語音降噪的同時(shí),減少降噪處理對(duì)發(fā)音評(píng)測(cè)的影響,極大地降低由降噪引發(fā)的發(fā)音評(píng)測(cè)偏誤,特別是對(duì)摩擦音、爆破音、送氣音等輔音的特征,在引入發(fā)音偏誤網(wǎng)絡(luò)后,這三種音的錯(cuò)誤評(píng)測(cè)率相對(duì)降低了23.5%。[0212]下面繼續(xù)說明本申請(qǐng)實(shí)施例提供的語音降噪模型的訓(xùn)練裝置555的實(shí)施為軟件模塊的示例性結(jié)構(gòu),在一些實(shí)施例中,如圖2所示,存儲(chǔ)在存儲(chǔ)器550的語音降噪模型的訓(xùn)練裝置555中的軟件模塊可以包括:[0213]降噪模塊5551,用于通過所述噪音處理層,對(duì)語音樣本進(jìn)行降噪處理,得到目標(biāo)語[0214]預(yù)測(cè)模塊5552,用于通過所述發(fā)音差異處理層,對(duì)所述目標(biāo)語音樣本進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到發(fā)音預(yù)測(cè)結(jié)果,所述發(fā)音預(yù)測(cè)結(jié)果,用于指示所述目標(biāo)語音樣本與所述語音樣本對(duì)應(yīng)的參考發(fā)音間的發(fā)音相似度;[0215]確定模塊5553,用于通過所述內(nèi)容差異處理層,確定所述目標(biāo)語音樣本的內(nèi)容與所述語音樣本的內(nèi)容間的內(nèi)容差異;[0216]更新模塊5554,用于基于所述發(fā)音預(yù)測(cè)結(jié)果以及所述內(nèi)容差異,更新所述語音降噪模型的模型參數(shù),以得到訓(xùn)練完成的語音降噪模型。[0217]在一些實(shí)施例中,所述噪音處理層包括:第一特征變換層、濾波處理層以及第二特征變換層;[0218]所述降噪模塊5551,還用于通過所述第一特征變換層,對(duì)所述語音樣本進(jìn)行傅里葉變換,得到所述語音樣本對(duì)應(yīng)的幅度譜和相位譜;[0219]通過所述濾波處理層,對(duì)所述幅度譜進(jìn)行濾波處理,得到目標(biāo)幅度譜,并對(duì)所述相位譜進(jìn)行相位修正,得到目標(biāo)相位譜;[0220]通過所述第二特征變換層,將所述目標(biāo)幅度譜和所述目標(biāo)相位譜進(jìn)行相乘,并將相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到所述目標(biāo)語音樣本。[0221]在一些實(shí)施例中,所述濾波處理層包括至少兩個(gè)級(jí)聯(lián)的子濾波處理層;[0222]所述降噪模塊5551,還用于通過第一級(jí)的子濾波處理層,對(duì)所述幅度譜進(jìn)行濾波[0223]通過非第一級(jí)的子濾波處理層,對(duì)所述中間幅度譜進(jìn)行濾波處理得到所述目標(biāo)幅度譜,并對(duì)所述中間相位譜進(jìn)行相位修正得到所述目標(biāo)相位譜。[0224]在一些實(shí)施例中,各所述子濾波處理層包括相位譜修正層、以及至少兩個(gè)級(jí)聯(lián)的幅度譜濾波層;[0225]所述降噪模塊5551,還用于通過所述至少兩個(gè)級(jí)聯(lián)的幅度譜濾波層,對(duì)所述幅度[0226]通過所述相位譜修正層,基于所述中間幅度譜對(duì)所述相位譜進(jìn)行相位修正,得到中間相位譜。[0228]所述降噪模塊5551,還用于通過所述特征轉(zhuǎn)換層,將所述目標(biāo)幅度譜轉(zhuǎn)換為幅度譜掩模,并確定所述目標(biāo)相位譜對(duì)應(yīng)的相位角;[0229]通過所述特征逆變換層,將所述目標(biāo)幅度譜、所述幅度譜掩模和所述目標(biāo)相位譜對(duì)應(yīng)的相位角進(jìn)行相乘,并將相乘得到的結(jié)果進(jìn)行傅里葉逆變換,得到所述目標(biāo)語音樣本。[0230]在一些實(shí)施例中,所述內(nèi)容差異處理[0231]所述確定模塊5553,還用于通過所述傅里葉變換層,對(duì)所述目標(biāo)語音樣本進(jìn)行傅[0232]確定所述第一幅度譜與所述第二幅度譜之間的幅度差異,并將所述幅度差異確定為所述目標(biāo)語音樣本的內(nèi)容與所述語音樣本的內(nèi)容間的內(nèi)容差異。[0233]在一些實(shí)施例中,所述傅里葉變換層包括至少兩個(gè)子傅里葉變換層,不同的所述子傅里葉變換層對(duì)應(yīng)不同的變換尺度;[0234]所述確定模塊5553,還用于通過各所述子傅里葉變換層,分別對(duì)所述目標(biāo)語音樣本進(jìn)行相應(yīng)變換尺度的傅里葉變換,得到各所述子傅里葉變換層對(duì)應(yīng)的第一幅度譜;[0235]通過各所述子傅里葉變換層,分別對(duì)所述語音樣本進(jìn)行相應(yīng)變換尺度的傅里葉變換,得到各所述子傅里葉變換層對(duì)應(yīng)的第二幅度譜;[0236]所述確定模塊5553,還用于確定各所述子傅里葉變換層對(duì)應(yīng)的第一幅度譜和第二幅度譜之間的中間幅度差異;[0237]對(duì)所述至少兩個(gè)子傅里葉變換層對(duì)應(yīng)的中間幅度差異進(jìn)行求和平均處理,得到平均幅度差異,并將所述平均幅度差異作為所述幅度差異。[0239]所述確定模塊5553,還用于通過所述冪壓縮處理層,對(duì)所述第一幅度譜進(jìn)行壓縮處理,得到第一壓縮幅度譜,并對(duì)所述第二幅度譜進(jìn)行壓縮處理,得到第二壓縮幅度譜;[0240]確定所述第一壓縮幅度譜與所述第二壓縮幅度譜之間的壓縮幅度差異,并將所述壓縮幅度差異作為所述幅度差異。[0242]所述更新模塊5554,還用于通過所述發(fā)音評(píng)分損失處理層,確定所述發(fā)音預(yù)測(cè)結(jié)果、與所述語音樣本對(duì)應(yīng)的樣本標(biāo)簽之間的差異,并基于所述差異確定評(píng)分損失函數(shù)的值;[0243]基于所述內(nèi)容差異以及所述評(píng)分損失函數(shù)的值,更新所述語音降噪模型的模型參[0244]在一些實(shí)施例中,所述更新模塊5554,還用于獲取所述內(nèi)容差異對(duì)應(yīng)的第一權(quán)重值、以及所述評(píng)分損失函數(shù)的值對(duì)應(yīng)的第二權(quán)重值;[0245]結(jié)合所述第一權(quán)重值和第二權(quán)重值,基于所述內(nèi)容差異以及所述評(píng)分損失函數(shù)的值,確定所述語音降噪模型的損失函數(shù)的值;[0246]基于所述損失函數(shù)的值,更新所述語音降噪模型的模型參數(shù)。[0247]在一些實(shí)施例中,所述更新模塊5554,還用于當(dāng)所述損失函數(shù)的值超出損失閾值時(shí),基于所述損失函數(shù)確定所述語音降噪模型的誤差信號(hào);[0248]將所述誤差信號(hào)在所述語音降噪模型中反向傳播,并在傳播的過程中更新所述語音降噪模型中各個(gè)層的模型參數(shù)。[0249]在一些實(shí)施例中,所述發(fā)音差異處理層還包括:第一特征映射層、第二特征映射層、和特征拼接及預(yù)測(cè)層,所述第一特征映射層的網(wǎng)絡(luò)結(jié)構(gòu)不同于所述第二特征映射層的[0250]所述預(yù)測(cè)模塊5552,還用于通過所述第一特征映射層,對(duì)所述目標(biāo)語音樣本進(jìn)行[0251]通過所述第二特征映射層,對(duì)所述目標(biāo)語音樣本進(jìn)行映射處理,得到第二映射特[0252]通過所述特征拼接及預(yù)測(cè)層,對(duì)所述第一映射特征和第二映射特征進(jìn)行拼接處[0253]對(duì)所述拼接特征進(jìn)行發(fā)音評(píng)分的預(yù)測(cè),得到所述發(fā)音預(yù)測(cè)結(jié)果。[0254]應(yīng)用本申請(qǐng)上述實(shí)施例,在語音降噪模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論