下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一種計(jì)算mel頻倒譜參數(shù)的改進(jìn)算法
基于mel濾波器的特征提取在人類的聽覺系統(tǒng)中,人耳中的耳蝸發(fā)揮著非常重要的作用,其實(shí)質(zhì)效果相當(dāng)于一個(gè)濾波器組。當(dāng)聲音傳入耳蝸時(shí),耳蝸內(nèi)流體壓強(qiáng)會(huì)發(fā)生變化,從而引起行波沿基底膜的傳播,由于聲音的不同頻率沿著基底膜的分布是對(duì)數(shù)型的,因此耳蝸的濾波作用相當(dāng)于在一個(gè)非線性頻率尺度上進(jìn)行。耳蝸的這種非線性頻率尺度上的濾波作用,使人耳對(duì)低頻信號(hào)比對(duì)高頻信號(hào)更敏感。人耳的這種特性在語音識(shí)別中得到了廣泛的應(yīng)用,例如特征提取中常用到的Bark和Mel濾波器組就是對(duì)人耳這種機(jī)能的一種工程化模擬。Mel頻標(biāo)倒譜參數(shù)(Melfrequencycepstralcoefficient,MFCC)特征是目前使用最廣泛的語音特征之一,具有計(jì)算簡(jiǎn)單、區(qū)分能力好等突出的優(yōu)點(diǎn),因而常常成為許多實(shí)際識(shí)別系統(tǒng)的首選。在傳統(tǒng)的MFCC特征提取算法中,輸入語音首先通過傅里葉變換得到其頻譜,然后再在頻域上應(yīng)用一組Mel頻率上均勻分布的濾波器來得到類似人耳聽覺特性的非線性頻譜分辨率。這樣的提取方法盡管實(shí)現(xiàn)起來非常方便,但也存在著一定的不足。一方面進(jìn)入Mel濾波器組的信號(hào)頻譜是通過傳統(tǒng)傅里葉變換均勻抽取出來的,只能提供按2πΝ2πN等分的固定頻率分辨率,沒能充分反映語音信號(hào)低頻部分的特征,針對(duì)這種不足,本文利用非均勻離散傅里葉變換(NonuniformdiscreteFouriertransform,NDFT)算法來進(jìn)行語音頻譜分析,提供[0,2π]上非均勻的頻率分辨率。彎折離散傅里葉變換(WrappeddiscreteFouriertransform,WDFT)是NDFT中計(jì)算較為簡(jiǎn)便的一種,它通過應(yīng)用全通變換彎折頻率軸來改變頻點(diǎn)的位置,使得在彎折頻率軸上均勻分布的頻點(diǎn)等同于原頻率軸上非均勻分布的頻點(diǎn),由此實(shí)現(xiàn)在單位圓上非均勻的頻率采樣。因此本文把WDFT應(yīng)用到MFCC特征提取中來提高低頻段的分辨率。另一方面,經(jīng)過Mel濾波器組濾波后的信號(hào),頻帶能量區(qū)分仍然不是很明顯,所以本文還結(jié)合WDFT運(yùn)用一組加權(quán)濾波器(Weightedfilterbank,WFB)來增加頻帶能量高的信號(hào)的能量,相應(yīng)削弱頻帶能量低的信號(hào)的能量,以此來提高M(jìn)FCC的魯棒性。實(shí)驗(yàn)結(jié)果表明,WDFT和WFB的結(jié)合運(yùn)用使這種改進(jìn)的MFCC特征提取算法比傳統(tǒng)算法具有更好的識(shí)別效果,而且能在頻譜域上非均勻抽取比傳統(tǒng)算法少的頻點(diǎn)數(shù)就能提高語音的識(shí)別率。1階全通映射WDFT是NDFT的特殊形式。長(zhǎng)度為N的序列x[n]的N點(diǎn)WDFTXWDFT[k]等于采用變換z-1=B(?z)z?1=B(z?)將X(z)修正為X(?zz?)后,在X(?zz?)上N個(gè)均勻分布點(diǎn)的頻率采樣值。其中B(?zz?)是M階實(shí)系數(shù)全通函數(shù),通過這種全通變換可以將頻率坐標(biāo)彎折,在?z-z??平面單位圓上均勻分布的點(diǎn)被映射到z-平面單位圓上的非均勻分布點(diǎn)。將映射z-1=B(?z)z?1=B(z?)應(yīng)用到z變換則可得X(?z)=Ν-1∑n=0x[n]B(?z)n(1)X(z?)=∑n=0N?1x[n]B(z?)n(1)WDFTXWDFT[k]為X(?zz?)在N個(gè)均勻分布點(diǎn)的頻率采樣值,即是X(?zz?)在?z=ej2πk/Ν(k=0,1,2???Ν-1)z?=ej2πk/N(k=0,1,2???N?1)點(diǎn)上的值,所以XWDFΤ[k]=X(?z)|?z=ej2πk/Ν(2)XWDFT[k]=X(z?)|z?=ej2πk/N(2)若全通變換采用一階全通函數(shù),令B(?z)=-a+?z-11-a?z-1(aB(z?)=?a+z??11?az??1(a稱為彎折參數(shù)),則通過一階全通變換,原來非均勻頻率ω和映射均勻頻率?ωω?之間的關(guān)系為ω=2arctan[(1+a1-a)tan(?ω2)](3)ω=2arctan[(1+a1?a)tan(ω?2)](3)由式(3)可以看出當(dāng)彎折參數(shù)為負(fù)數(shù)(正數(shù))時(shí),一階全通映射延伸了低頻(高頻)區(qū)域,使低頻(高頻)區(qū)域的頻率分辨率更高,相應(yīng)地壓縮了高頻(低頻)區(qū)域。當(dāng)a=0時(shí),ω=?ω,則WDFT變換又變?yōu)閭鹘y(tǒng)的DFT變換。2基于pdft的頻率分析人們提出了一些對(duì)MFCC特征提取的改進(jìn)方法,如對(duì)Mel頻率刻度的修正等,以提高M(jìn)FCC的區(qū)分能力和魯棒性。本文主要針對(duì)傳統(tǒng)MFCC計(jì)算過程中DFT的均勻頻率分辨率問題進(jìn)行探討,并嘗試采用非均勻頻率分辨率的WDFT來提高M(jìn)FCC特征的性能。傳統(tǒng)MFCC特征提取時(shí)所作的頻譜分析是基于DFT的,其頻譜分辨率在[0,2π]上是均勻的,當(dāng)傅里葉變換的點(diǎn)數(shù)不夠多時(shí),可能會(huì)造成低頻部分濾波器組包含的頻率信息不夠充分,從而影響Mel濾波器組的能量輸出,不能充分反映人耳的聽覺特性,影響識(shí)別的效果。基于此,本文采用WDFT根據(jù)人類的聽覺特性對(duì)頻譜選擇進(jìn)行改進(jìn),選擇合適的彎折參數(shù)來擬合頻域上非均勻分布的濾波器組,使全通變換前后頻率之間的非線性關(guān)系和Mel-Hz之間的非線性關(guān)系盡最大可能地趨于一致。Mel-Hz的轉(zhuǎn)換關(guān)系式為Μel=1127ln[1+(f/700)](4)其中f的單位為Hz。Mel和Hz之間的非線性關(guān)系可以用全通函數(shù)前后兩個(gè)頻率的關(guān)系式(3)來逼近,當(dāng)采樣率為16kHz時(shí),a=-0.40能和式(4)做最好的擬合,特別是在高頻段,如圖1所示。從圖中還可以看出a=-0.48在低頻段也擬合得較好。全通變換的運(yùn)用,使由WDFT得到的功率譜在頻率域中的抽取密度和頻率域中的帶通濾波器組一樣(見圖2,3),都是低頻段頻率精度比較高,高頻段較低。從WDFT頻域上的頻點(diǎn)抽取密度圖(見圖2)中可以看出在低頻段抽取的密度遠(yuǎn)高于在高頻段,這使得頻譜分析中抽取的頻點(diǎn)分布也符合人耳對(duì)低頻率比高頻率有更好的分辨率的聽覺特性。經(jīng)過頻譜分析和Mel濾波器組濾波后的信號(hào),其頻帶能量區(qū)分不是很明顯,所以為提升Mel三角濾波器的能量差分度,在取得各個(gè)濾波器的對(duì)數(shù)能量后再運(yùn)用一組加權(quán)濾波器,其濾波加權(quán)因子為w(i)=log[e(i)+1]/Q∑j=1log[e(i)+1](5)式中:Q為Mel三角濾波器的個(gè)數(shù);e(i)為每個(gè)Mel三角濾波器輸出的能量?;赪DFT的改進(jìn)MFCC算法因?yàn)橥瑫r(shí)運(yùn)用了WDFT和WFBA,所以把它簡(jiǎn)記為WDFT-WF-BA-MFCC,其特征提取過程如圖4所示。3語音特征模型的建立為了檢驗(yàn)新算法的性能,本文對(duì)TIMIT連續(xù)語音數(shù)據(jù)庫中DR1集進(jìn)行了音素識(shí)別實(shí)驗(yàn)。為了方便起見,本文將相近的音素進(jìn)行了簡(jiǎn)單的合并,通過把pcl,tcl,kcl,bcl,dcl,gcl替換為cl,把h#,pau,epi替換為sil,把hv替換為hh,把a(bǔ)xr,ax-h替換為ax,把eng替換為en,刪除q后將語音數(shù)據(jù)庫中的61個(gè)語音音素縮減為49個(gè)。語音信號(hào)的采樣頻率為16kHz,16比特量化,窗長(zhǎng)20ms,幀移10ms,相應(yīng)幀長(zhǎng)320點(diǎn),幀移160點(diǎn)。對(duì)每個(gè)音素建立一個(gè)與上下文無關(guān)的從左到右無跳轉(zhuǎn)的5狀態(tài)連續(xù)HMM模型,每個(gè)狀態(tài)高斯混合密度數(shù)為5。Mel濾波器的數(shù)目為20。實(shí)驗(yàn)中語音的訓(xùn)練和識(shí)別都采用HTK3.1工具包來進(jìn)行,用來識(shí)別的特征矢量由靜態(tài)矢量、一階差分矢量、二階差分矢量構(gòu)成。實(shí)驗(yàn)分為兩步:(1)選取圖1中有代表性的a值來驗(yàn)證彎折參數(shù)是否是-0.4附近效果最好;(2)改變頻譜分析中抽取的頻點(diǎn)數(shù)來和傳統(tǒng)MFCC算法作比較,驗(yàn)證WDFT-WFBA-MFCC的性能。3.1加權(quán)濾波器分析當(dāng)僅把WDFT應(yīng)用到MFCC的頻譜分析中,不使用加權(quán)濾波器,采用不同的彎折參數(shù)a時(shí)對(duì)應(yīng)的識(shí)別率見表1。為作更好的區(qū)分,把a(bǔ)=0時(shí)算法簡(jiǎn)記為DFT-MFCC,即傳統(tǒng)的MFCC算法,a≠0簡(jiǎn)記為WDFT-MFCC,即本文的MFCC算法。然后在DFT-MFCC算法和WDFT-MFCC算法的基礎(chǔ)上使用加權(quán)濾波器分析(把這兩種算法分別簡(jiǎn)記為DFT-WFBA-MFCC(傳統(tǒng)加權(quán)MFCC算法)和WDFT-WFBA-MFCC(本文加權(quán)MFCC算法)),兩者的識(shí)別率見表2。頻譜分析中在頻譜域抽取的點(diǎn)數(shù)都為256點(diǎn),不同的是基于DFT的是均勻抽取,基于WDFT的是非均勻抽取。從以上數(shù)據(jù)可以看出,當(dāng)選擇彎折參數(shù)a為負(fù)數(shù),且|a|比較小時(shí),本文提出的算法的識(shí)別率比傳統(tǒng)算法的識(shí)別率高,而且當(dāng)a為-0.40附近時(shí)效果最好,因?yàn)榇藭r(shí)提高了語音低頻段的分辨率又保證了高頻段信息的相對(duì)完整,最符合人耳的聽覺特性,這也可以從圖1得到證實(shí)。當(dāng)僅用WDFT對(duì)頻域進(jìn)行非均勻分析來提取MFCC,其識(shí)別效果稍優(yōu)于基于DFT的傳統(tǒng)MFCC算法的識(shí)別率(見表1),而加權(quán)濾波器的結(jié)合運(yùn)用則使這種優(yōu)越性更為明顯(見表2)。3.2頻譜域上非均勻抽樣改變?cè)陬l譜域上抽取的頻點(diǎn)數(shù),選用a=-0.40和a=0作WDFT-MFCC,WDFT-WFBA-MFCC和DFT-MFCC,DFT-WFBA-MFCC,其識(shí)別率見表3。從表3的對(duì)照可以看出,用WDFT-WFBA-MFCC本文加權(quán)MFCC算法,在頻譜域上非均勻抽取128點(diǎn)提取MFCC特征,其識(shí)別率63.26%也高于用DFT-MFCC傳統(tǒng)算法在頻域上均勻抽取256點(diǎn)的識(shí)別率62.72%,甚至還高于用DFT-WFBA-MFCC傳統(tǒng)加權(quán)算法在頻域上均勻抽取256點(diǎn)的識(shí)別率62.86%。這說明可以在頻譜域上非均勻抽取比傳統(tǒng)算法少的點(diǎn)數(shù),就能達(dá)到比傳統(tǒng)算法好的識(shí)別效果,若能與高效的WDFT快速算法結(jié)合,則有可能在保持識(shí)別效果的前提下,減少所需的計(jì)算量。而當(dāng)僅在頻譜域上抽取64點(diǎn)時(shí),因?yàn)槲茨苓_(dá)到傳統(tǒng)算法的頻率精度,所以識(shí)別率較之傳統(tǒng)DFT-MFCC算法抽取256點(diǎn)頻譜時(shí)有所下降,但也可以明顯地看出WDFT-MFCC,WDFT-WFBA-MFCC的識(shí)別率比DFT-MFCC高。4升mel濾波器本文提出的基于WDFT的MFCC特征提取改進(jìn)算法WDFT-WFBA-MFCC,是在頻譜域中非均勻地抽取頻譜來進(jìn)行頻譜分析,并使用加權(quán)濾波
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年新型城市排水系統(tǒng)建設(shè)可行性研究報(bào)告
- 2025年醫(yī)療健康數(shù)據(jù)交換平臺(tái)可行性研究報(bào)告
- 2025年可再生資源利用技術(shù)研發(fā)項(xiàng)目可行性研究報(bào)告
- 2025年現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)鏈建設(shè)可行性研究報(bào)告
- 入盟合作協(xié)議書
- 樂童計(jì)劃協(xié)議書
- 交房用電協(xié)議書
- 產(chǎn)業(yè)承包協(xié)議書
- 北流市2024廣西玉林市大坡外鎮(zhèn)村級(jí)就業(yè)服務(wù)專員招聘5人筆試歷年參考題庫典型考點(diǎn)附帶答案詳解(3卷合一)
- 中北大學(xué)框架考試題庫及答案
- 工程建設(shè)砂石運(yùn)輸方案(3篇)
- 民族團(tuán)結(jié)教學(xué)課件
- 嚴(yán)格電話使用管理辦法
- (2025年標(biāo)準(zhǔn))簡(jiǎn)單砌石墻協(xié)議書
- (2025年標(biāo)準(zhǔn))鐵路實(shí)習(xí)協(xié)議書
- 重慶市涪陵榨菜集團(tuán)股份有限公司營運(yùn)能力分析
- 與4s店二手車合作合同協(xié)議
- 《中華民族共同體概論》考試復(fù)習(xí)題庫(含答案)
- 國家開放大學(xué)《公共政策概論》形考任務(wù)1-4答案
- 學(xué)堂在線 雨課堂 學(xué)堂云 西方哲學(xué)精神探源 期末考試答案
- 2025年楚雄州金江能源集團(tuán)有限公司招聘考試試題【答案】
評(píng)論
0/150
提交評(píng)論