版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
改進(jìn)NMF單通道語音增強(qiáng)算法ZHANGXing【摘要】針對(duì)語音與噪聲在頻帶內(nèi)存在高度重疊而使傳統(tǒng)方法性能下降的問題,提出了一種單麥克風(fēng)信道的改進(jìn)NMF語音增強(qiáng)算法,算法在傳統(tǒng)非負(fù)矩陣分解方法計(jì)算的用于增強(qiáng)的語音和噪聲的基矩陣基礎(chǔ)上,通過對(duì)數(shù)譜估計(jì)方法對(duì)時(shí)頻譜圖中的語音存在概率進(jìn)行估計(jì),以此對(duì)NMF識(shí)別基進(jìn)行自適應(yīng)補(bǔ)償,從而提高識(shí)別基語音增強(qiáng)性能,然后通過殘差消除進(jìn)一步提高語音質(zhì)量,實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于單通道的NMF方法相比,文中算法獲得了更好的語音增強(qiáng)性能.【期刊名稱】《機(jī)械設(shè)計(jì)與制造》【年(卷),期】2019(000)001【總頁數(shù)】4頁(P268-271)【關(guān)鍵詞】單通道語音增強(qiáng);語音存在概率;非負(fù)矩陣分解;對(duì)數(shù)譜估計(jì);無監(jiān)督學(xué)習(xí)【作者】ZHANGXing【作者單位】【正文語種】中文【中圖分類】TH16;TN912.31引言嘈雜環(huán)境中提高語音質(zhì)量已有數(shù)十年的研究,這主要基于智能城市人機(jī)通信需求,例如與機(jī)器人、智能手機(jī)或汽車語音系統(tǒng)等的交互。但在城市環(huán)境中復(fù)雜而又多變的環(huán)境噪聲,嚴(yán)重阻礙了語音識(shí)別的性能。在復(fù)雜噪聲環(huán)境語音增強(qiáng)方面,單通道語音增強(qiáng)比基于多通道的方法具有明顯的優(yōu)勢(shì)。Wiener濾波器[1],均方誤差短時(shí)譜估計(jì)(MMSESTSA)[2]和最佳修正對(duì)數(shù)譜估計(jì)(OM-LSA)[3]等方法的語音增強(qiáng)效果明顯,但其依賴于頻譜增益函數(shù),在非平穩(wěn)噪聲環(huán)境中存在性能限制。近年來,非負(fù)矩陣分解(NonnegativeMatrixFactorization,NMF)及其改進(jìn)算法[4]被廣泛應(yīng)用于各種源分離,其利用基礎(chǔ)字典進(jìn)行信號(hào)分離,在各種噪聲下表現(xiàn)出良好的性能。文獻(xiàn)[5]引入了基于改進(jìn)NMF方法的音樂內(nèi)容分離方法;文獻(xiàn)[6]基于相鄰幀間局部空間信息的短時(shí)變化,提出了基于視頻內(nèi)接球NMF的視頻內(nèi)容檢索哈希算法。在語音增強(qiáng)方面,文獻(xiàn)[7]證明了基于NMF的語音增強(qiáng)方法的有效性。文獻(xiàn)[8]提出了卷積NMF(convolutiveNMF,CNMF)語音增強(qiáng),它反映了語音元素的時(shí)間連續(xù)性。文獻(xiàn)[9]在CNMF基礎(chǔ)上引入L1/2稀疏約束提升CNMF的單通道語音增強(qiáng)性能;文獻(xiàn)[10]研究了低信噪比非穩(wěn)態(tài)噪聲中的語音增強(qiáng),在同時(shí)考慮到語音信號(hào)的時(shí)頻稀疏特性和非穩(wěn)態(tài)噪聲信號(hào)的低秩特性基礎(chǔ)上,提出了一種基于多重約束的NMF語音增強(qiáng)算法;文獻(xiàn)[11]將遞歸神經(jīng)網(wǎng)絡(luò)與NMF方法聯(lián)合起來進(jìn)行單通道語音增強(qiáng),通過語音信號(hào)的對(duì)數(shù)功率譜建模抑制混響干擾。上述方法表現(xiàn)出較好的語音增強(qiáng)性能,但其對(duì)噪聲先驗(yàn)估計(jì)的依賴使得當(dāng)語音與噪聲的在頻域上存在高度重疊時(shí),也難以有效分離語音和噪聲。而現(xiàn)實(shí)世界中實(shí)際語音信號(hào)中語音與噪聲的頻帶重疊經(jīng)常發(fā)生,因此,現(xiàn)有方法的識(shí)別基仍導(dǎo)致重構(gòu)的語音信號(hào)失真。為解決含串成主意信號(hào)的位于高重疊頻域的識(shí)別基導(dǎo)致語音增強(qiáng)性能不佳的問題,提出了一種基于時(shí)頻域語音存在概率(SpectrotemporalSpeechPresenceProbabilitiesSSPP)改進(jìn)NMF的單通道語音增強(qiáng)(記為SPNMF)算法,算法包括NMF識(shí)別基構(gòu)建和識(shí)別基自適應(yīng)補(bǔ)償兩個(gè)階段,以實(shí)現(xiàn)存在語音與噪聲高重疊頻率區(qū)域語的音信號(hào)的增強(qiáng)。2SSPP改進(jìn)NMF的單通道語音增強(qiáng)2.1算法總體描述SPNMF算法的總體結(jié)構(gòu),如圖1所示。在開始識(shí)別基構(gòu)建階段,使用干凈且已標(biāo)記的語音數(shù)據(jù)訓(xùn)練語音識(shí)別基字典,同時(shí)構(gòu)建緩存器,緩存器在語音增強(qiáng)過程中存儲(chǔ)輸入信號(hào)中僅含有噪聲的部分段(通常取信號(hào)剛開始時(shí)部分,因?yàn)橐话阏J(rèn)為剛開始時(shí)僅含有噪聲[8]),并調(diào)用無監(jiān)督NMF算法建立適于當(dāng)前環(huán)境噪聲特征的噪聲識(shí)別基字典;在語音增強(qiáng)階段,SSPP實(shí)時(shí)更新,以針對(duì)每個(gè)分幀自適應(yīng)調(diào)整和補(bǔ)償語音識(shí)別基,補(bǔ)償?shù)幕值鋺?yīng)用于重疊區(qū)域語音增強(qiáng);最后,算法輸出的增強(qiáng)語音通過殘留噪聲消除過程進(jìn)一步增強(qiáng)。圖1基于SPNMF的語音增強(qiáng)系統(tǒng)的總體結(jié)構(gòu)Fig.1TheOverallStructureofProposedSPNMF2.2基于噪聲基學(xué)習(xí)的語音信號(hào)增強(qiáng)設(shè)單麥克風(fēng)時(shí)域信號(hào)為x,其被分割成一定時(shí)間長度且?guī)g存在重疊的多個(gè)時(shí)間幀后,進(jìn)行STFT這換后生成非負(fù)幅度譜圖,然后使用式(1)進(jìn)行NMF近似分解:式中:XE—輸入非負(fù)矩陣;f、t、k一離散頻率、時(shí)間幀長和識(shí)別基數(shù)。根據(jù)NMF定義[5],X可由基矩陣B和系數(shù)矩陣A的線性組合表示。采用式(2)所示的迭代更新規(guī)則計(jì)算式(1)所示的非負(fù)矩陣分解,將X分解成兩個(gè)基礎(chǔ)矩陣[BS,BN]和系數(shù)矩陣[AS,AN],其中下標(biāo)S和N分別表示語音和噪音:式中:B20,A20,一按元素相乘,式中除也采用按元素操作;分母中的I表示—個(gè)所有元素都等于1的矩陣;i—當(dāng)前迭代索引,基礎(chǔ)矩陣[BS,BN]和系數(shù)矩陣[AS,BN]的初始值設(shè)為隨機(jī)數(shù),迭代過程采用的目標(biāo)函數(shù)為:函數(shù)DF(X||BA)表示Frobenius范數(shù),用來衡量X與其重構(gòu)近似矩陣X"=BA之間的差異。上述過程為標(biāo)準(zhǔn)NMF識(shí)別基生成過程,其識(shí)別基可以得到較好的語音增強(qiáng)效果,但如圖3(b)所示,高頻率重疊噪聲的存在,該語音分離結(jié)果中仍然存在強(qiáng)噪聲區(qū)域,從而極大地降低了語音增強(qiáng)性能。2.3SSPP識(shí)別基自適應(yīng)補(bǔ)償設(shè)在時(shí)頻譜圖中,輸入信號(hào)可表示為語音和噪聲之和,即X(f,t)=S(f,t)+N(f,t),則SPNMF算法通過瞬時(shí)對(duì)數(shù)譜估計(jì)對(duì)輸入的含噪語音進(jìn)行SSPP估計(jì),如圖2所示。圖2含噪語音信號(hào)的SSPP估計(jì)示例(實(shí)線)Fig.2SSPPEstimationofNoisySpeechSignals(solidline)信號(hào)分幀后,其每一幀語音和噪聲頻率成分可以用STFT系數(shù)的復(fù)數(shù)高斯分布來建模[12],則信號(hào)的條件概率分布函數(shù)可由語音信號(hào)方差入S(f,t)和噪聲方差A(yù)N(f,t)給出,即:式中:^=AS(f,t)+AN(f,t),H0、H1一噪聲存在和語音存在的假設(shè)。根據(jù)貝葉斯理論,語音存在的條件概率為:式中:q(f,t)=p(H0)一含噪語音信號(hào)中不存在語音的先驗(yàn)概率[12],A(f,t)的計(jì)算式為:則SSPP計(jì)算式最終推導(dǎo)為:式中:E(f,t)三AS(f,t)/AN(f,t)一由輸入信號(hào)計(jì)算的先驗(yàn)信噪比,而Y(f,t)三X(f,t)2/入N(f,t)則表示后驗(yàn)信噪比,v(f,t)三Y(f,t)E(f,t)/1+E(f,t)。可以看出,SSPP可看作譜增益函數(shù),則頻率重疊區(qū)域中的語音號(hào)可以增強(qiáng)為:SSPP通過分配權(quán)重對(duì)高度頻率重疊區(qū)域中的語音進(jìn)行增強(qiáng)。但式(8)得到的Y中還可能存在一些殘余噪聲,文中采用語音估計(jì)器進(jìn)一步噪聲消除。語音估計(jì)器的頻譜增益函數(shù)G(f,t)可以通過變量的幾何加權(quán)平均得到:式中:Gmin(f,t)一語音不存在時(shí)的頻譜增益下限常數(shù)值,將估計(jì)器增益函數(shù)應(yīng)用于式(8)輸出的每個(gè)頻譜分量,從而獲得語音頻譜S"的最終輸出,完整的算法,如表1所示。表1SPNMF算法語音增強(qiáng)過程偽代碼Tab.1PseudoCodeofProposedSPNMFAlgorithm輸入含噪語音信號(hào)X;輸出增強(qiáng)后的語音信號(hào)S";1.根據(jù)純凈語音信號(hào)計(jì)算識(shí)別基BS;2.通過STFT計(jì)算輸入的時(shí)頻譜圖XERfxt+;3.根據(jù)輸入信號(hào)的時(shí)域噪聲緩存構(gòu)建噪聲識(shí)別基BN;4.為輸入信號(hào)計(jì)算SSP:sspp(f,t);5.將sspp(f,t)應(yīng)用到X^BA中;6.進(jìn)一步消除已分離語音信號(hào)中的噪聲干擾。備注函數(shù)主體3實(shí)驗(yàn)及分析實(shí)驗(yàn)數(shù)據(jù)為TIMIT數(shù)據(jù)庫中隨機(jī)選擇200個(gè)男性和200個(gè)女性語音數(shù)據(jù),包含不同的句子集,且講話者是平等的;使用NOISEX-92數(shù)據(jù)庫中的六類噪聲:babbl,destroyer,f16,factory,leopard及pink,合成四組SNR值分別為-5dB、0dB、5dB和10dB的含噪音頻數(shù)據(jù),數(shù)據(jù)采樣率為16kHz,STFT進(jìn)行幅度譜圖計(jì)算時(shí),Hamming窗長32ms,重疊率為50%。根據(jù)經(jīng)驗(yàn)[5]語音和噪音的識(shí)別基維數(shù)分別為60和30。原始干凈且標(biāo)注過語音、合成語音、傳統(tǒng)NMF語音增強(qiáng)結(jié)果和SPNMF算法主意增強(qiáng)結(jié)果,如圖3所示??梢钥闯鲈谡Z音和噪聲成分高度重疊的頻率區(qū)域(虛線區(qū)域),文中算法的語音增強(qiáng)性能尤其顯著。圖3語音及其增強(qiáng)后的頻譜圖Fig.3SpectrogramofVoiceandItsEnhancedInstance進(jìn)一步采用語音質(zhì)量感知評(píng)估(PESQ)和信噪比損失兩種常用的語音增強(qiáng)質(zhì)量評(píng)估方法來衡量所提出方法的性能,其實(shí)驗(yàn)結(jié)果,如圖4所示。圖4中實(shí)驗(yàn)結(jié)果為針對(duì)每個(gè)輸入SNR的六種類型噪聲計(jì)算的分類平均值。圖4(a)比較了SPNMF算法與傳統(tǒng)單通道方法獲得的PESQ結(jié)果,可以看出所提出的算法在所有輸入SNR條件下獲得最高分?jǐn)?shù)。圖4(b)中描繪的SNR損失評(píng)分結(jié)果的比較也證明了,與傳統(tǒng)方法相比,具有最小SNR損失評(píng)分的SPNMF算法的出色性能。從實(shí)驗(yàn)結(jié)果可得出,文中SPNMF算法通過無監(jiān)督噪聲基學(xué)習(xí)、SSPP自適應(yīng)識(shí)別基實(shí)時(shí)補(bǔ)償和殘余噪聲消除實(shí)現(xiàn)魯棒和有效的語音分離性能。圖4強(qiáng)噪聲環(huán)境下語音增強(qiáng)性能比較Fig.4SpeechEnhancementPerformanceComparison4結(jié)論針對(duì)實(shí)際環(huán)境中的各種復(fù)雜噪聲以及現(xiàn)有NMF識(shí)別基對(duì)語音與噪聲存在高度頻率重疊時(shí)的語音增強(qiáng)效果不佳,提出了單通道語音增強(qiáng)SPNMF算法,算法利用對(duì)數(shù)譜估計(jì)進(jìn)行SSPP估計(jì)以自適應(yīng)補(bǔ)償識(shí)別基,然后通過魯棒的殘余噪聲消除對(duì)補(bǔ)償基增強(qiáng)后的語音進(jìn)一步消噪從而實(shí)現(xiàn)了聲頻率高度重疊區(qū)域語音增強(qiáng)。實(shí)驗(yàn)結(jié)果表明,SPNMF算法語音增強(qiáng)性能優(yōu)于實(shí)驗(yàn)中使用的其他傳統(tǒng)方法。但SPNMF算法的識(shí)別基及其維數(shù)需要根據(jù)已有數(shù)據(jù)訓(xùn)練和經(jīng)驗(yàn)設(shè)定,這是實(shí)現(xiàn)無監(jiān)督主動(dòng)語音增強(qiáng)仍需進(jìn)一步解決的問題參考文獻(xiàn)【相關(guān)文獻(xiàn)】[1]楊險(xiǎn)峰,黃強(qiáng).超光滑表面非接觸測(cè)量方法研究[J].機(jī)械設(shè)計(jì)與制造,2011(2):211212.(YangXian-feng,HuangQiang.Non-contactmeasurementmethodofsupersmoothsurface[J].MachineryDesign&Manufacture,2011(2):211-212.)(ShiLei,WangYan-song,XiaoCong-wen.Comparisonofthetime-frequencyanalysismethodsforlow-frequencyvehiclenoiseduringaccelerating[J].MachineryDesign&Manufacture,2014.)[2]LoizouP.SpeechenhancementbasedonperceptuallymotivatedBayesianestimatorsofthespeechmagnitudespectrum[J].IEEETransSpeechAudioProcess,2005,13(5):857-869.[3]CohenI.Optimalspeechenhancementundersignalpresenceuncertaintyusinglog-spectraamplitudeestimator[J].lEEESignalProcessLett,2002,9(4):113-116.[4]劉正,張國印,陳志遠(yuǎn).基于特征加權(quán)和非負(fù)矩陣分解的多視角聚類算法[J].電子學(xué)報(bào),2016,44(3):535-540.(LiuZheng,ZhangGuo-yin,ChenZhi-yuan.Amultiviewclusteringalgorithmbasedonfeatureweightingandnon-negativematrixfactorization[J].ActaElectronicaSinica,2016,44(3):535-540.)[5]LeeS,PangH.Multichannelnon-negativematrixfactorisationbasedonalternatingleastsquaresforaudiosourceseparationsystem.ElectronLett,2015,51(3):197-8.[6]于曉,聶秀山,馬林元.基于短空時(shí)變化的魯棒視頻哈希算法[J].計(jì)算機(jī)科學(xué),2018,45(2):84-89.(YuXiao,SheXiu-shan,MaLin-yuan.Robusthashingalgorithmbasedonshort-termspatialvariations[J].ComputerScience,2018,45(2):84-89.)[7]JeonK,KimH,LeeS.Nonnegativematrixfactorizationbasedadaptivenoisesensingoverwirelesssensornetworks.IntJDistribSensNetwork,2014(2014):1-9.[8]CarlinMA,MalyskaN,QuatieriTF.Speechenhancementusingsparseconvolutivenon-negativematrixfactorizationwithbasisadaptation.In:ProcISCAINTERSPEECH,2012:583-586.[9]路成,田猛,周健.L稀疏約束卷積非負(fù)矩陣分解的單通道語音增強(qiáng)方法[J].聲學(xué)學(xué)報(bào),2017,42(3):377-384.(LuCheng,TianMeng,ZhouJian.Asigle-channelspeechenhancementapproachusingconvolutivenonnegativematrixfactorizationwithLsparseconstraint[J].ACTAAcustica,2017,42(3):377-384)[10]鄒月嫻,劉詩涵,王迪松.多重約束非負(fù)矩陣分解的非平穩(wěn)噪聲語音增強(qiáng)[J].控制理論與應(yīng)用,2017,34(6):761-768.(ZouYue-xian,LiuShi-han,WangDi-s
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 44937.5-2025集成電路電磁發(fā)射測(cè)量第5部分:傳導(dǎo)發(fā)射測(cè)量工作臺(tái)法拉第籠法
- 中學(xué)學(xué)生社團(tuán)活動(dòng)經(jīng)費(fèi)使用效益制度
- 企業(yè)內(nèi)部保密工作流程制度
- 公共交通車輛安全技術(shù)檢測(cè)制度
- 2026年人工智能算法深度學(xué)習(xí)應(yīng)用場(chǎng)景題集
- 2026年工程計(jì)價(jià)與造價(jià)分析一級(jí)建造師專業(yè)試題
- 2026年工程項(xiàng)目管理知識(shí)與技能考核試題庫
- 2026年英語四六級(jí)聽力與閱讀預(yù)測(cè)模擬題
- 2026年編程馬拉松軟件工程與設(shè)計(jì)能力實(shí)踐試題庫
- 2025年西點(diǎn)展示柜溫度監(jiān)控合同
- 2025年吉林省長春市中考一模英語試題(含答案)
- (高清版)DB510100∕T 082-2012 成都市商務(wù)寫字樓等級(jí)劃分
- 2025年全國茉莉花茶產(chǎn)銷形勢(shì)分析報(bào)告-
- 校本課程篆刻教學(xué)設(shè)計(jì)
- 明確安全生產(chǎn)領(lǐng)導(dǎo)小組的職責(zé)與安全管理體系
- 七年級(jí)下冊(cè)語文必背古詩文(字帖描紅)
- 電儀施工質(zhì)量總結(jié)
- 《甜花香型大葉種工夫紅茶》編制說明
- QSY06503.14-2020石油煉制與化工裝置工藝設(shè)計(jì)包編制規(guī)范 - 副本
- 柜式七氟丙烷-氣體滅火系統(tǒng)-安裝與施工-方案
- 核醫(yī)學(xué)全身骨顯像骨顯像課件
評(píng)論
0/150
提交評(píng)論