付費(fèi)下載
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于矢量量化技術(shù)的空包腔處理方法
1基于lbg的碼本訓(xùn)練向量量化(vq)是一種及其重要的信號(hào)壓縮方法,廣泛應(yīng)用于聲音處理、圖像數(shù)據(jù)處理等領(lǐng)域。在語音方面,由于VQ技術(shù)可以有效地提取說話人的個(gè)性特征,VQ碼本可以在最佳意義上代表說話人特征矢量空間中的所有矢量,因而VQ碼本可作為說話人有效的識(shí)別模型,而模型建立的關(guān)鍵問題是碼書設(shè)計(jì)。碼書設(shè)計(jì)的原理是將k維線性空間Rk的一個(gè)子集量化成m個(gè)區(qū)域Ri(i=1,2,…,m),Ri稱為包腔(Voronoi)區(qū)域。所有落在區(qū)域Ri內(nèi)的矢量,用一個(gè)k維矢量ci表示,該矢量稱為碼字(codeword)。集合稱為碼本(codebook)。k維空間被劃分成m個(gè)區(qū)域,使得均方量化誤差最小化,這種劃分稱為碼本設(shè)計(jì)問題,而求得碼本的算法稱為碼本訓(xùn)練算法。LBG算法是目前碼本訓(xùn)練性能最好的算法,其基本思想以及一些改進(jìn)技術(shù)一直是國內(nèi)外討論較多的問題。筆者在此主要討論基于VQ說話人識(shí)別模型的LBG算法中的空包腔處理問題。所給方法的優(yōu)點(diǎn)首先是在分裂大包腔時(shí)選擇子包腔碼字更具有代表性,從而使得系統(tǒng)在重新聚類中避免再次出現(xiàn)空包腔的可能性;其次,該方法對(duì)于系統(tǒng)沒有信息冗余的情況下可避免信息的損失,對(duì)保持矢量在空間分布的完備性有一定的意義。由于該系統(tǒng)LBG算法中采用的矢量為L(zhǎng)PC倒譜系數(shù),以下給出LPC倒譜系數(shù)的推導(dǎo)過程。2系統(tǒng)函數(shù)和同態(tài)處理方法實(shí)驗(yàn)在得到p階LPC系數(shù)的前提下,由其估計(jì)語音信號(hào)的倒譜。設(shè)通過線性預(yù)測(cè)分析推導(dǎo)的聲道模型的系統(tǒng)函數(shù)為其沖激響應(yīng)為h(n),根據(jù)同態(tài)處理方法,有其中,是的逆變換。設(shè),將式(1)和式(2)代入,并兩邊對(duì)z-1求導(dǎo),得將式(3)左右的常數(shù)項(xiàng)和z-1各次冪的系數(shù)分別相等,得到和ak之間的遞推關(guān)系為3空包腔的形成為對(duì)空包腔處理作出更清楚的說明,圖1中給出實(shí)驗(yàn)采用的LBG算法流程。在LBG算法中有3個(gè)關(guān)鍵性的問題直接影響到VQ碼本的質(zhì)量以及說話人識(shí)別系統(tǒng)的性能:(1)失真測(cè)度的選擇;(2)初始碼本的設(shè)計(jì);(3)空包腔的處理。對(duì)問題(1),由于特征矢量各維參數(shù)對(duì)識(shí)別能力的貢獻(xiàn)不同,因而采用了方差歸一化失真測(cè)度,即對(duì)系統(tǒng)中第i個(gè)說話者的失真測(cè)度定義為式中,weight≤p≤為特征矢量第p維歸一化方差的倒數(shù),x為待量化的k階矢量,xp為其第p維分量,cip為包腔碼字的第p維分量。對(duì)問題(2),系統(tǒng)采用優(yōu)于隨機(jī)選擇初始碼字方法的時(shí)序等間隔碼字選擇方法,設(shè)提取的語音矢量數(shù)為vectorNumber,碼本長(zhǎng)度為codeBookLength,則碼字選擇的間隔距離為每一個(gè)碼字取于位置space/2處,即短時(shí)語音段的中點(diǎn),這樣使得初始碼字更具代表性。對(duì)問題(3),定義其中,coef為比例因子,取0.2。認(rèn)為該系統(tǒng)在一個(gè)包腔內(nèi)矢量數(shù)少于num的均被視為空包腔;但對(duì)空包腔的處理并不認(rèn)為是絕對(duì)空(矢量數(shù)為0),實(shí)際上這種情況是不可能的。設(shè)空包腔限為num,聚類過程中一次出現(xiàn)v個(gè)空包腔,若視空包腔為絕對(duì)空,則迭代n次損失的矢量數(shù)最壞情況為O(nv·num)級(jí)。以該實(shí)驗(yàn)為例,在codeBookLength=64,num=30條件下,實(shí)驗(yàn)觀察等間隔選擇碼字時(shí)一次空包腔數(shù)為2~3個(gè),若隨機(jī)選擇碼字,則空包腔數(shù)還要多,取平均迭代次數(shù)為40,則整個(gè)聚類過程中損失的矢量數(shù)最壞為3840nv≤·≤num-1Σ≤,若系統(tǒng)要求在不損失空間矢量完整分布的條件下運(yùn)行則對(duì)空包腔視其為絕對(duì)空的處理方法不能滿足要求,為此,筆者給出了以下方法。在確定了空包腔限后,對(duì)碼本中的空包腔進(jìn)行逐個(gè)處理,其步驟為:(1)對(duì)任一空包腔碼字,找到碼本中與其最臨近的碼字,將該空包腔與其最臨近碼字包腔合并。(2)找到碼本中得分最大的包腔,設(shè)第j個(gè)包腔內(nèi)的矢量數(shù)為n,碼字為cj,得分scorej遵循的準(zhǔn)則其中,index為最大包腔下標(biāo)號(hào)。(3)計(jì)算得分最大包腔的型心centroid。其主要目的是為更好地分裂該包腔作準(zhǔn)備,如果在分裂該包腔時(shí)隨機(jī)在包腔中選擇兩矢量作為2個(gè)待聚類包腔的碼字,則增大了再次產(chǎn)生空包腔的可能性;同時(shí),即使能避免空包腔的出現(xiàn),碼字的選擇未必最優(yōu),這樣,既增加了算法的迭代次數(shù),又降低了碼本的質(zhì)量。(4)計(jì)算包腔中矢量各維的一階中心絕對(duì)矩,記為bias。一階中心絕對(duì)矩定義式其中,x為隨機(jī)變量序列,c為該序列均值。計(jì)算矢量各維的一階中心絕對(duì)矩,其目的是計(jì)算出矢量各維在空間的平均分布半徑。(5)將得分最大包腔分裂,得到2個(gè)待聚類的碼字codeWord1,codeWord2,新碼字計(jì)算方法為式(11)的意義是找出距離包腔型心各維為1/2平均分布半徑并關(guān)于該型心對(duì)稱的2點(diǎn),以2點(diǎn)為新碼字。這樣兩者分得的矢量數(shù)應(yīng)趨于相等,達(dá)到最優(yōu)。(6)以步驟(5)得到的兩碼字將該包腔分解,將得分最大包腔中的矢量重新聚類。重復(fù)以上步驟。直到所有的空包腔處理完畢。對(duì)包腔的分解可用圖2作出原理性的說明。假設(shè)平面上聚點(diǎn)的型心是centroid,聚類的平均半徑是以centroid為圓心的圓的半徑,分裂的2包腔的碼字是codeWord1和codeWord2。4實(shí)驗(yàn)結(jié)果與分析實(shí)驗(yàn)以16階LPC倒譜系數(shù)為特征矢量,碼本長(zhǎng)度為64,選取的訓(xùn)練語音長(zhǎng)度為55~60s,測(cè)試語音長(zhǎng)度為10~15s,測(cè)試對(duì)象總數(shù)為26人(17名男性9名女性)。實(shí)驗(yàn)采取的是VQ獨(dú)立文本(Text-Independent)說話人識(shí)別方式。采樣頻率為11.025kHz,量化精度為16bit,實(shí)驗(yàn)檢驗(yàn)該LBG算法包腔處理方法對(duì)迭代次數(shù)和系統(tǒng)識(shí)別性能的影響。表1為該方法對(duì)各實(shí)驗(yàn)對(duì)象迭代次數(shù)的列表。通過對(duì)26個(gè)說話者的實(shí)驗(yàn)分析可知,在分裂得分最大包腔時(shí)兩碼字所分得的矢量數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年智能桌面香氛機(jī)項(xiàng)目評(píng)估報(bào)告
- 2026年心血管介入新型材料項(xiàng)目商業(yè)計(jì)劃書
- 2026年自動(dòng)泊車機(jī)器人項(xiàng)目商業(yè)計(jì)劃書
- 2026年智能油脂測(cè)試儀項(xiàng)目可行性研究報(bào)告
- 2026年輕量化老年服飾項(xiàng)目公司成立分析報(bào)告
- 社保問題科普
- (二模)榆林市2026屆高三年級(jí)第二次模擬檢測(cè)訓(xùn)練英語試卷(含答案詳解)
- 《GAT 2000.234-2018公安信息代碼 第234部分:嗅源保存方法代碼》專題研究報(bào)告
- 技術(shù)標(biāo)準(zhǔn):UI設(shè)計(jì)原則詳解
- 教師科研成果獎(jiǎng)勵(lì)制度
- 地坪漆施工方案范本
- 【《自適應(yīng)巡航系統(tǒng)ACC的SOTIF風(fēng)險(xiǎn)的識(shí)別與評(píng)估分析案例》4100字】
- 2025寧波市甬北糧食收儲(chǔ)有限公司公開招聘工作人員2人筆試參考題庫及答案解析
- 供應(yīng)鏈年底總結(jié)與計(jì)劃
- 2026年國有企業(yè)金華市軌道交通控股集團(tuán)招聘?jìng)淇碱}庫有答案詳解
- 2025年電子工程師年度工作總結(jié)
- 教你填《廣東省普通高中學(xué)生檔案》精編版
- 韓國語topik單詞-初級(jí)+中級(jí)
- 克林頓1993年就職演講+(中英文)
- 商業(yè)倫理與會(huì)計(jì)職業(yè)道德(第四版)第五章企業(yè)對(duì)外經(jīng)營道德規(guī)范
- DB13 5161-2020 鍋爐大氣污染物排放標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論