第三章_語(yǔ)音信號(hào)的特征分析_第1頁(yè)
第三章_語(yǔ)音信號(hào)的特征分析_第2頁(yè)
第三章_語(yǔ)音信號(hào)的特征分析_第3頁(yè)
第三章_語(yǔ)音信號(hào)的特征分析_第4頁(yè)
第三章_語(yǔ)音信號(hào)的特征分析_第5頁(yè)
已閱讀5頁(yè),還剩72頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章 語(yǔ)音信號(hào)的特征分析語(yǔ)音信號(hào)的數(shù)字化語(yǔ)音信號(hào)的數(shù)字化語(yǔ)音信號(hào)的短時(shí)分析與短時(shí)處理的概念語(yǔ)音信號(hào)的短時(shí)分析與短時(shí)處理的概念 語(yǔ)音信號(hào)的時(shí)域特征分析語(yǔ)音信號(hào)的時(shí)域特征分析語(yǔ)音信號(hào)的頻率特征分析語(yǔ)音信號(hào)的頻率特征分析語(yǔ)音信號(hào)的同態(tài)解卷與倒譜分析語(yǔ)音信號(hào)的同態(tài)解卷與倒譜分析端點(diǎn)檢測(cè)、語(yǔ)音分割與基頻估計(jì)端點(diǎn)檢測(cè)、語(yǔ)音分割與基頻估計(jì)3.1 3.1 語(yǔ)音信號(hào)的數(shù)字化模擬語(yǔ)音信號(hào)在時(shí)間與幅度上的二重連續(xù)性模擬語(yǔ)音信號(hào)在時(shí)間與幅度上的二重連續(xù)性時(shí)間上離散化:每秒鐘需要采集多少個(gè)聲音樣本,時(shí)間上離散化:每秒鐘需要采集多少個(gè)聲音樣本, 也就是采樣頻率也就是采樣頻率(fs)(fs)是多少,是多少,幅度上離散化:

2、每個(gè)聲音樣本的位數(shù)幅度上離散化:每個(gè)聲音樣本的位數(shù)(bit per sample(bit per sample,bps)bps) 應(yīng)該是多少,也就是量化精度。應(yīng)該是多少,也就是量化精度。通過(guò)電腦或者其它數(shù)字錄音設(shè)備采集的語(yǔ)音信號(hào)都已通過(guò)電腦或者其它數(shù)字錄音設(shè)備采集的語(yǔ)音信號(hào)都已經(jīng)經(jīng)過(guò)數(shù)字化了,一般不需要用戶(hù)再進(jìn)行數(shù)字化處理。經(jīng)經(jīng)過(guò)數(shù)字化了,一般不需要用戶(hù)再進(jìn)行數(shù)字化處理。盡管如此,有必要簡(jiǎn)單了解一下語(yǔ)音信號(hào)的數(shù)字化過(guò)盡管如此,有必要簡(jiǎn)單了解一下語(yǔ)音信號(hào)的數(shù)字化過(guò)程與原理。程與原理。聲音信號(hào)的數(shù)字化聲音信號(hào)的數(shù)字化語(yǔ)音信號(hào)的采樣頻率語(yǔ)音信號(hào)的采樣頻率奈奎斯特采樣定理:奈奎斯特采樣定理:fs 2

3、fmax窄帶語(yǔ)音信號(hào):窄帶語(yǔ)音信號(hào): fs =8000Hz =8000Hz電話(huà)語(yǔ)音(固網(wǎng)電話(huà)通信頻帶為電話(huà)語(yǔ)音(固網(wǎng)電話(huà)通信頻帶為300-3400Hz)300-3400Hz)可以基本保持語(yǔ)義,不影響人對(duì)語(yǔ)音的感知可以基本保持語(yǔ)義,不影響人對(duì)語(yǔ)音的感知質(zhì)量不是很好,有時(shí)候會(huì)有變音質(zhì)量不是很好,有時(shí)候會(huì)有變音寬帶語(yǔ)音信號(hào):寬帶語(yǔ)音信號(hào):fs =16000Hz =16000Hz一般對(duì)語(yǔ)音質(zhì)量要求較高的場(chǎng)合一般對(duì)語(yǔ)音質(zhì)量要求較高的場(chǎng)合再提高采樣頻率也不會(huì)對(duì)語(yǔ)音質(zhì)量有太多貢獻(xiàn)再提高采樣頻率也不會(huì)對(duì)語(yǔ)音質(zhì)量有太多貢獻(xiàn)量化精度量化精度量化所用比特越大,聲音質(zhì)量越好量化所用比特越大,聲音質(zhì)量越好聲音質(zhì)量也跟量

4、化算法有關(guān),比如同樣用聲音質(zhì)量也跟量化算法有關(guān),比如同樣用8bit8bit量化,量化,非均勻量化(非均勻量化(-律或律或A-A-律)就比均勻量化好很多律)就比均勻量化好很多固網(wǎng)電話(huà)語(yǔ)音量化就是用的非均勻量化固網(wǎng)電話(huà)語(yǔ)音量化就是用的非均勻量化質(zhì)量采樣頻率(kHz)樣本精度(bit/s)單道聲/立體聲數(shù)據(jù)率(kB/s)(未壓縮)頻率范圍電話(huà)88單道聲8 3003400 HzAM11.0258單道聲11.0205000 HzFM22.05016立體聲88.2 507000 HzCD44.116立體聲176.42020000 HzDAT4816立體聲192.02020000 Hz聲音的質(zhì)量與數(shù)據(jù)率(采

5、樣頻率和量化精度)的關(guān)系聲音的質(zhì)量與數(shù)據(jù)率(采樣頻率和量化精度)的關(guān)系3.2 3.2 語(yǔ)音信號(hào)的短時(shí)分析語(yǔ)音分析是語(yǔ)音信號(hào)處理的前提和基礎(chǔ); 分析的目的是提取需要的信息,獲取特征表示參數(shù);短時(shí)分析語(yǔ)音是一個(gè)時(shí)變信號(hào)語(yǔ)音的短時(shí)平穩(wěn)特性,在1030ms時(shí)間段內(nèi)相對(duì)平穩(wěn)預(yù)濾波預(yù)濾波的目的防止混疊干擾抑制50Hz的電源干擾 預(yù)濾波實(shí)際上是一個(gè)帶通濾波器,其上下截止頻率分別為fH和fL 。對(duì)于電話(huà)語(yǔ)音編碼器而言,要求fH=3400Hz, fL=60100Hz, fs=8KHz.對(duì)于語(yǔ)音識(shí)別系統(tǒng)而言,用于電話(huà)用戶(hù)時(shí)要求技術(shù)指標(biāo)與語(yǔ)音編碼器相同,如果對(duì)于更高的要求場(chǎng)合,則fH=4500Hz或8000Hz,

6、fL=60Hz, fs=10KHz或20KHz幀和加窗的概念短時(shí)分析將語(yǔ)音流分為一段一段來(lái)處理,每一段稱(chēng)為一“幀”;幀長(zhǎng):1030;幀移:01倍幀長(zhǎng),幀與幀之間的平滑過(guò)渡;語(yǔ)音識(shí)別中常用的幀長(zhǎng)為2030ms,幀移為10ms為了減小語(yǔ)音幀的截?cái)嘈?yīng),需要加窗處理;)()()(nwnsnsw10, 1)(Nnnw10),12cos(46. 054. 0)(NnNnnw10),12cos(1 (5 . 0)(NnNnnw矩形窗哈明窗(Hamming)漢寧窗(Hanning)05010015020025000.81 rectangularhamminghanningbartlett幾

7、種常見(jiàn)的窗函數(shù)的波形幾種常見(jiàn)的窗函數(shù)的波形Matlab中,可以通過(guò)中,可以通過(guò)help window命令來(lái)查看怎么產(chǎn)生不同的窗命令來(lái)查看怎么產(chǎn)生不同的窗幾種不同的窗函數(shù)波形與頻譜的比較幾種不同的窗函數(shù)波形與頻譜的比較10203040506000.81SamplesAmplitudeTime domain00.8-100-80-60-40-2002040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHamming10203040506000.81SamplesA

8、mplitudeTime domain00.8-150-100-50050Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domain10203040506000.81SamplesAmplitudeTime domain00.8-20-10010203040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHanning矩形窗哈明窗哈明窗漢寧窗漢寧窗不同的窗選擇,將決定短時(shí)語(yǔ)音分析結(jié)果的好壞不同

9、的窗選擇,將決定短時(shí)語(yǔ)音分析結(jié)果的好壞首先是窗的長(zhǎng)度,無(wú)論什么形狀的窗,長(zhǎng)度N將起決定性的作用。N選得太大,不能保證每一幀的語(yǔ)音的平穩(wěn)特性N太小,不能保證信號(hào)的統(tǒng)計(jì)特性,容易產(chǎn)生統(tǒng)計(jì)噪聲對(duì)于頻域分析而言,窗長(zhǎng)N還直接決定了信號(hào)頻譜的分辨率對(duì)于語(yǔ)音信號(hào),通常幀長(zhǎng)應(yīng)選擇為一個(gè)語(yǔ)音幀包含有至少2個(gè)基音周期為好。人的語(yǔ)音的基音周期值是變化的,從女性小孩的2ms到老年男子的14ms(即基音頻率為500Hz至70Hz),所以N的選擇是比較困難的。通常折衷的選擇N為2030ms。若采用頻率為10KHz,則相當(dāng)于每幀的長(zhǎng)度(即窗口序列的長(zhǎng)度)約為200300點(diǎn)為宜。若采樣頻率為8KHz,相當(dāng)于160240點(diǎn)其

10、次是窗口的形狀,不同的窗,其頻率特性是不一樣的,這在短時(shí)頻域分析時(shí)尤為重要。窗口的形狀和長(zhǎng)度對(duì)分析影響很大,不同的分析方法對(duì)窗函數(shù)窗口的形狀和長(zhǎng)度對(duì)分析影響很大,不同的分析方法對(duì)窗函數(shù)的要求不盡一樣。的要求不盡一樣。窗函數(shù)頻譜的主瓣與旁瓣窗函數(shù)頻譜的主瓣與旁瓣主瓣:主瓣寬度控制頻譜分析的頻率分辨率,主瓣越窄,頻率分辨率越高矩形窗的主瓣寬度 = fs/Nhamming窗的主瓣寬度 約為 2fs/N旁瓣:旁瓣的高度決定了對(duì)臨近頻率成分的干擾抑制能力,高度越低,抑制干擾能力越強(qiáng) 矩形窗: 主瓣高度 - 第一個(gè)旁瓣高度 13dBhamming窗: 主瓣高度 - 第一個(gè)旁瓣高度 40dB旁瓣高度跟窗長(zhǎng)N

11、 無(wú)關(guān)窗函數(shù)及其比較 三種窗函數(shù)都有低通特性,通過(guò)分析三種窗的頻率響應(yīng)幅度特性可以發(fā)現(xiàn): 矩形窗的主瓣寬度最小分辨率最高,旁瓣高度最高,會(huì)導(dǎo)致泄漏現(xiàn)象,哈明窗的主瓣最寬,分辨率低(可以通過(guò)適當(dāng)提高窗長(zhǎng)解決),旁瓣高度最低,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性,應(yīng)用更廣泛。3.3 3.3 語(yǔ)音信號(hào)的時(shí)域特征分析短時(shí)能量短時(shí)平均幅度短時(shí)過(guò)零率短時(shí)自相關(guān)函數(shù)短時(shí)平均幅度差函數(shù)語(yǔ)音信號(hào)的短時(shí)能量(語(yǔ)音信號(hào)強(qiáng)度的度量參數(shù))語(yǔ)音信號(hào)x(n)的短時(shí)能量(假定加長(zhǎng)度為N的窗)可以表示為若加的是矩形窗 則1212)()()(NnnmwNnnmnmxnmwmxE12)(NnnmnmxE22211 ( )

12、() ( ) () ( )1,01( )0,nnnmm N nm N nEx m w nmx m w nmx mnNw nothers 語(yǔ)音信號(hào)及其取不同窗長(zhǎng)時(shí)的短時(shí)能量語(yǔ)音信號(hào)及其取不同窗長(zhǎng)時(shí)的短時(shí)能量短時(shí)平均能量的主要用途可以從語(yǔ)音中區(qū)別出濁音來(lái),因?yàn)闈嵋魰r(shí)短時(shí)平均能量的值要比清音時(shí)短時(shí)平均能量的值大很多;可以用來(lái)區(qū)別聲母和韻母的分界、無(wú)聲和有聲的分界等語(yǔ)音信號(hào)的短時(shí)平均幅度1| )(|NnnmnmxEv語(yǔ)音信號(hào)x(n)的短時(shí)平均幅度(假定加長(zhǎng)度為N的矩形窗)可以表示為語(yǔ)音信號(hào)的短時(shí)過(guò)零率過(guò)零就是指信號(hào)通過(guò)零值。過(guò)零率(zero-crossing rate)就是每秒內(nèi)信號(hào)值通過(guò)零值的次數(shù)。

13、對(duì)于離散時(shí)間序列,過(guò)零則是指序列取樣值改變符號(hào),過(guò)零率則是每秒內(nèi)信號(hào)樣本改變符號(hào)的次數(shù)。對(duì)于語(yǔ)音信號(hào),則是指在一幀語(yǔ)音中語(yǔ)音信號(hào)波形穿過(guò)橫軸(零電平)的次數(shù)??梢杂孟噜弮蓚€(gè)取樣改變符號(hào)的次數(shù)來(lái)計(jì)算。短時(shí)過(guò)零率波形穿過(guò)橫軸(零電平)的次數(shù)|)1(sgn)(sgn|210nsnsZww短時(shí)過(guò)零可以看作信號(hào)頻率的簡(jiǎn)單度量0, 10, 1)sgn(xxx短時(shí)過(guò)零率在語(yǔ)音信號(hào)分析中的應(yīng)用發(fā)濁音時(shí),聲帶振動(dòng),因而聲門(mén)激勵(lì)是以此音調(diào)頻率為基頻來(lái)使聲道共振;盡管有若干個(gè)共振峰,但其能量的分布集中于低于3KHz的頻率范圍內(nèi)。發(fā)清音時(shí)聲帶不振動(dòng),聲道某部分阻塞產(chǎn)生類(lèi)白噪聲激勵(lì),通過(guò)聲道后其能量集中在比濁音時(shí)更高的

14、頻率范圍內(nèi)。濁音時(shí)能量集中于較低頻率段內(nèi),具有較低的過(guò)零率,而清音時(shí)能量集中于較高頻率段內(nèi),具有較高的過(guò)零率。 直方圖的分布形狀與高斯分布很吻合,而且濁音時(shí)的短時(shí)平均過(guò)零率的均值為14過(guò)零/10ms,清音時(shí)短時(shí)過(guò)零率的均值為47過(guò)零/10ms。注意到濁音和清音有一個(gè)交疊區(qū)域,此時(shí)很難分清是濁音還是清音,盡管如此,平均過(guò)零率仍可以粗略的判斷清音和濁音。 濁音和清音情況下典型的平均過(guò)零率的直方圖濁音和清音情況下典型的平均過(guò)零率的直方圖作為短時(shí)過(guò)零率的一個(gè)改進(jìn)參數(shù),語(yǔ)音分析時(shí)更常用的是短時(shí)過(guò)電平率(level-crossing rate)。短時(shí)過(guò)電平率在區(qū)分清音和靜音時(shí)很有用短時(shí)過(guò)電平率在區(qū)分清音和

15、靜音時(shí)很有用短時(shí)過(guò)零率短時(shí)過(guò)電平率利用過(guò)零率與過(guò)電平率區(qū)分清、濁音和靜音清清(U)(U)、濁、濁(V)(V)、無(wú)聲、無(wú)聲(S)(S)的平均幅度的平均幅度(M)(M)和過(guò)零率和過(guò)零率(Z)(Z)的條件概率密度函數(shù)的條件概率密度函數(shù)濁音、清音、無(wú)聲的短時(shí)特性S(無(wú)聲)U(清音)V(濁音)三種情況下短時(shí)平均幅度的條件概率密度的示意圖??梢钥闯?,濁音的短時(shí)平均幅度最大,無(wú)聲的短時(shí)平均幅度最小。清音的短時(shí)過(guò)零率最大,無(wú)聲居中,濁音的短時(shí)過(guò)零率最小語(yǔ)音有聲和無(wú)聲在許多語(yǔ)音處理技術(shù)中需要判斷一段輸入信號(hào)中哪些是語(yǔ)音段,哪些是無(wú)聲段(只有背景噪聲)在語(yǔ)音識(shí)別中正確的決定所要識(shí)別語(yǔ)音的起點(diǎn)、終點(diǎn)對(duì)于提高識(shí)別率往

16、往是重要的。對(duì)于數(shù)字移動(dòng)通信的手持機(jī)編譯碼器,在較長(zhǎng)的無(wú)聲段應(yīng)降低發(fā)射功率以節(jié)約其電池的消耗。對(duì)于已經(jīng)判定為語(yǔ)音段的部分,尚需決定其清音或濁音,無(wú)論對(duì)于語(yǔ)音識(shí)別還是低速語(yǔ)音編譯碼器這都是很重要的。這些問(wèn)題可以概括為無(wú)聲/有聲判決以及更細(xì)致的S/U/V判決。能夠?qū)崿F(xiàn)這些判決的依據(jù)在于不同性質(zhì)的語(yǔ)音的各種短時(shí)參數(shù)具有不同的概率密度函數(shù)以及相鄰的若干幀語(yǔ)音應(yīng)具有一致的語(yǔ)音特性,它們不會(huì)在 S、U、V之間跳來(lái)跳去。判斷語(yǔ)音信號(hào)的起點(diǎn)和終點(diǎn)的一種算法在孤立詞(字)語(yǔ)音識(shí)別系統(tǒng)中需正確判定每一個(gè)輸入語(yǔ)音的起點(diǎn)和終點(diǎn),利用短時(shí)平均幅度和短時(shí)過(guò)零率可以做到這一點(diǎn)。首先,可根據(jù)濁語(yǔ)音情況下短時(shí)平均幅度M的概率密

17、度函數(shù)P(M/V)確定一個(gè)閾值參數(shù)MH, MH的值定得比較高。當(dāng)一幀輸入信號(hào)的M值超過(guò)MH時(shí),就可以十分肯定該幀語(yǔ)音信號(hào)不是無(wú)聲,而有相當(dāng)大的可能性是濁音。判斷語(yǔ)音信號(hào)的起點(diǎn)和終點(diǎn)的一種算法(續(xù))根據(jù)MH可判定輸入語(yǔ)音中的前后兩個(gè)點(diǎn) 和 , 它們之間肯定是語(yǔ)音段,但是語(yǔ)音的精確起點(diǎn)、終點(diǎn)還要在 之前和 之后仔細(xì)查找。為此在設(shè)置一個(gè)低閾值參數(shù)ML ,由 向前找,當(dāng)短時(shí)平均幅度M由大到小減至ML時(shí)可以確定點(diǎn)N1 。類(lèi)似由 向后找,可以確定N2 。在N1和N2之間仍能肯定是語(yǔ)音段。1N2N1N2N1N2N判斷語(yǔ)音信號(hào)的起點(diǎn)和終點(diǎn)的一種算法(續(xù))由N1向前和N2向后繼續(xù)用短時(shí)過(guò)零率Z進(jìn)行搜索。根據(jù)無(wú)聲

18、情況下短時(shí)過(guò)零率Z的均值,設(shè)置一個(gè)參數(shù)Z0,如果由N1向前搜索時(shí)Z始終大于Z0的3倍,則認(rèn)為這些信號(hào)仍屬于語(yǔ)音段,直至Z突然下降到低于3Z0值時(shí),這時(shí)可以確定語(yǔ)音的精確起點(diǎn)。對(duì)終點(diǎn)做同樣的處理。采取這一算法的原因在于, N1以前可能是一段清輔音段(如f,s),它的能量相當(dāng)弱,依靠能量不可能把他們與無(wú)聲段區(qū)別開(kāi),而他們的過(guò)零率明顯高于無(wú)聲,因而能用這個(gè)參數(shù)來(lái)精確的判斷二者的分割點(diǎn),也就是語(yǔ)音真正的起點(diǎn)。判斷語(yǔ)音信號(hào)的起點(diǎn)和終點(diǎn)的其它算法另一種判斷的方法是如果能夠求出S、U、V三種情況下短時(shí)平均幅度M和短時(shí)過(guò)零率Z的條件聯(lián)合概率密度函數(shù)P(M、 Z/S), P(M、Z/U), P(M、Z/V),那

19、么就可以采用統(tǒng)計(jì)學(xué)中的最大似然算法,根據(jù)一幀信號(hào)的M和Z值來(lái)判斷它的S/U/V。就是計(jì)算后驗(yàn)概率:P(X/M,Z)=P(M,Z/X)P(X)/P(M,Z)其中,X=S或U或V。后驗(yàn)概率最大者即作為判決結(jié)果。事實(shí)上,僅依靠M和Z兩個(gè)參數(shù)還是不夠的,通常要選擇更多的參數(shù),如相關(guān)函數(shù)等。語(yǔ)音信號(hào)的短時(shí)自相關(guān)函數(shù)自相關(guān)函數(shù)(auto-correlation function)mkmsmskR)()()(1、是偶函數(shù);2、s(n)是周期的,那么R(k)也是周期的;3、可用于基音周期估計(jì)和線(xiàn)性預(yù)測(cè)分析;語(yǔ)音信號(hào)的短時(shí)自相關(guān)函數(shù)假設(shè) 一段加窗語(yǔ)音信號(hào),非零區(qū)間為n=0N-1, 的自相關(guān)函數(shù)稱(chēng)為語(yǔ)音信號(hào)的短時(shí)

20、自相關(guān)函數(shù),)(nsw 1, 1)()()()()(10NNllnSnSlnSnSlRnlNnwwwww自相關(guān)函數(shù)是偶函數(shù)在l=0處取得最大值,且值為短時(shí)能量如果s(n)是周期的,則R(l)也是周期的,且周期等于s(n)的周期)(nsw濁音和清音的自相關(guān)函數(shù)圖濁音 濁音清音 X X X X半周期錯(cuò)誤半周期錯(cuò)誤 2倍周期錯(cuò)誤倍周期錯(cuò)誤由自相關(guān)函數(shù)圖判斷濁音的周期為了減少這種錯(cuò)誤,可以先將語(yǔ)音信號(hào)進(jìn)行中心削波處理,再求自相關(guān)函數(shù)中心削波處理前后的語(yǔ)音信號(hào)及其自相關(guān)函數(shù)短時(shí)自相關(guān)函數(shù)的特點(diǎn) 濁音是周期信號(hào),濁音的短時(shí)自相關(guān)函數(shù)也呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號(hào)的周期。 清音接近于隨機(jī)噪

21、聲,請(qǐng)音的短時(shí)自相關(guān)函數(shù)不具有周期性,且隨著l的增大迅速減小。 根據(jù)這個(gè)性質(zhì)可以判斷一個(gè)語(yǔ)音信號(hào)是清音還是濁音,還可以判斷濁音的基音周期?;诙虝r(shí)自相關(guān)函數(shù)的基音周期估計(jì)方法短時(shí)自相關(guān)函數(shù)在基音周期的各個(gè)整數(shù)倍點(diǎn)上取得最大值,只要能找到第一最大峰值點(diǎn)的位置并計(jì)算它與l=0點(diǎn)的間隔,便能估計(jì)出基音周期。實(shí)際上,第一最大峰值點(diǎn)的位置有時(shí)不能與基音周期相吻合。產(chǎn)生這種情況的原因:與窗的選取長(zhǎng)度有關(guān),窗口過(guò)長(zhǎng)或過(guò)短都會(huì)導(dǎo)致不一致。通常認(rèn)為窗長(zhǎng)至少應(yīng)大于兩個(gè)基音周期,語(yǔ)音信號(hào)中最長(zhǎng)的基音周期約為20ms,因此在基音周期估計(jì)時(shí)窗長(zhǎng)應(yīng)選的大于40ms。與聲道特性的影響有,有時(shí)窗長(zhǎng)足夠長(zhǎng),但是第一最大值與基音

22、周期仍不一致,這是主要由聲道的共振峰特性造成的干擾。60900Hz的帶通濾波器濾波,并用濾波信號(hào)的自相關(guān)函數(shù)進(jìn)行基音周期的估計(jì); 對(duì)語(yǔ)音信號(hào)進(jìn)行非線(xiàn)性變換后求自相關(guān)函數(shù),一種有效的非線(xiàn)性變換是中心削波,削波后基音周期的峰起更尖銳 語(yǔ)音信號(hào)的短時(shí)平均幅度差函數(shù)(AMDF)短時(shí)平均幅度差函數(shù)(Average magnitude difference function ))(kn1| )()(|)(kNnnmwwnmskmsk如果s(n)是周期為P的信號(hào), 在 k=0, P, 2P ,, 時(shí)接近于0050100150200250300350-4000-20000200040006000Voiced

23、Frame. The pitch is about 42.05010015020025030035002468x 105AMDF Fun濁音及其對(duì)應(yīng)的濁音及其對(duì)應(yīng)的AMDF圖圖050100150200250300350400450-4000-2000020004000(a) A Voiced Speech Segment05010015020025030035040045002468x 105(b) AMDF for the Speech Segment( + local minima )短時(shí)基音周期估計(jì)基于短時(shí)自相關(guān)函數(shù)的基音周期估計(jì)最大峰與基音周期不一致,要求幀長(zhǎng)大于兩個(gè)基音周期;受共振峰

24、的干擾,可以采取濾波或中心消波預(yù)處理?;诙虝r(shí)AMDF的基音周期估計(jì)需進(jìn)行谷值點(diǎn)清晰度檢查、比較復(fù)雜的閾值判決;對(duì)幅度變化比較敏感?;艄烙?jì)的其他方法:倒譜法(CEP)簡(jiǎn)化的逆濾波器法(SIFT)小波變換的方法3.4 3.4 語(yǔ)音信號(hào)的頻域特征分析語(yǔ)音信號(hào)的主要特征表現(xiàn)在他的頻率特性上語(yǔ)音信號(hào)的頻率特性是通過(guò)傅里葉變換的頻譜來(lái)獲得短時(shí)傅里葉變換(short-time Fourier transform (STFT)幅度譜: 對(duì)數(shù)幅度譜(dB)相位譜:| )(|,jnweXmmjjnwemnwmxeX)()()(,)(,mjnweX| )(|log20,10jnweX人耳的聽(tīng)覺(jué)對(duì)語(yǔ)音信號(hào)的相位不

25、敏感,因此,很多時(shí)候我們?nèi)硕穆?tīng)覺(jué)對(duì)語(yǔ)音信號(hào)的相位不敏感,因此,很多時(shí)候我們僅僅關(guān)注信號(hào)的短時(shí)幅度譜僅僅關(guān)注信號(hào)的短時(shí)幅度譜短時(shí)頻域分析中,窗函數(shù)的選擇對(duì)語(yǔ)音的頻譜有很大的影響 根據(jù)卷積定理:)()()()()()(jjjwweWeXeXnwnxnx05010015020025000.81 rectangularhamminghanningbartlett幾種常見(jiàn)的窗函數(shù)的波形幾種常見(jiàn)的窗函數(shù)的波形Matlab中,可以通過(guò)中,可以通過(guò)help window命令來(lái)查看怎么產(chǎn)生不同的窗命令來(lái)查看怎么產(chǎn)生不同的窗10, 1)(Nnnw10),12cos(46. 054. 0)(Nn

26、Nnnw10),12cos(1 (5 . 0)(NnNnnw矩形窗矩形窗HammingHann幾種不同的窗函數(shù)波形與頻譜的比較幾種不同的窗函數(shù)波形與頻譜的比較10203040506000.81SamplesAmplitudeTime domain00.8-100-80-60-40-2002040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHamming10203040506000.81SamplesAmplitudeTime domain0

27、0.8-150-100-50050Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domain10203040506000.81SamplesAmplitudeTime domain00.8-20-10010203040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHanning矩形窗不同的窗選擇,將決定短時(shí)語(yǔ)音分析結(jié)果的好壞不同的窗選擇,將決定短時(shí)語(yǔ)音分析結(jié)果的好壞首先是窗的長(zhǎng)度,無(wú)論什么形狀的窗,長(zhǎng)度N將起

28、決定性的作用。N選得太大,不能保證每一幀的語(yǔ)音的平穩(wěn)特性N太小,不能保證信號(hào)的統(tǒng)計(jì)特性,容易產(chǎn)生統(tǒng)計(jì)噪聲對(duì)于頻域分析而言,窗長(zhǎng)N還直接決定了信號(hào)頻譜的分辨率對(duì)于語(yǔ)音信號(hào),通常幀長(zhǎng)應(yīng)選擇為一個(gè)語(yǔ)音幀包含有至少2個(gè)基音周期為好。人的語(yǔ)音的基音周期值是變化的,從女性小孩的2ms到老年男子的14ms(即基音頻率為500Hz至70Hz),所以N的選擇是比較困難的。通常折衷的選擇N為2030ms。若采用頻率為10KHz,則相當(dāng)于每幀的長(zhǎng)度(即窗口序列的長(zhǎng)度)約為200300點(diǎn)為宜。若采樣頻率為8KHz,相當(dāng)于160240點(diǎn)其次是窗口的形狀,不同的窗,其頻率特性是不一樣的,這在短時(shí)頻域分析時(shí)尤為重要。窗口的

29、形狀和長(zhǎng)度對(duì)分析影響很大,不同的分析方法對(duì)窗函數(shù)窗口的形狀和長(zhǎng)度對(duì)分析影響很大,不同的分析方法對(duì)窗函數(shù)的要求不盡一樣。的要求不盡一樣。窗函數(shù)頻譜的主瓣與旁瓣窗函數(shù)頻譜的主瓣與旁瓣主瓣:主瓣寬度控制頻譜分析的頻率分辨率,主瓣越窄,頻率分辨率越高矩形窗的主瓣寬度 = fs/Nhamming窗的主瓣寬度 約為 2fs/N旁瓣:旁瓣的高度決定了對(duì)臨近頻率成分的干擾抑制能力,高度越低,抑制干擾能力越強(qiáng) 矩形窗: 主瓣高度 - 第一個(gè)旁瓣高度 13dBhamming窗: 主瓣高度 - 第一個(gè)旁瓣高度 40dB旁瓣高度跟窗長(zhǎng)N 無(wú)關(guān)窗函數(shù)及其比較 三種窗函數(shù)都有低通特性,通過(guò)分析三種窗的頻率響應(yīng)幅度特性可以

30、發(fā)現(xiàn): 矩形窗的主瓣寬度最小分辨率最高,旁瓣高度最高,會(huì)導(dǎo)致泄漏現(xiàn)象,哈明窗的主瓣最寬,分辨率低(可以通過(guò)適當(dāng)提高窗長(zhǎng)解決),旁瓣高度最低,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性,應(yīng)用更廣泛。比較同一幀語(yǔ)音加矩形窗和哈明窗的對(duì)數(shù)幅度譜矩形窗:矩形窗:基頻更尖銳(分基頻更尖銳(分辨率高);辨率高);譜噪聲大(旁瓣譜噪聲大(旁瓣泄漏大)泄漏大)哈明窗:哈明窗:頻譜更光滑(旁頻譜更光滑(旁瓣泄漏?。晷孤┬。Z(yǔ)音短時(shí)頻譜分語(yǔ)音短時(shí)頻譜分析中常用哈明窗析中常用哈明窗比較不同窗長(zhǎng)語(yǔ)音加哈明窗的對(duì)數(shù)幅度譜窗長(zhǎng)短:失去基頻與諧波成分,頻譜包絡(luò)更明顯窗長(zhǎng)短:失去基頻與諧波成分,頻譜包絡(luò)更明顯窗長(zhǎng)長(zhǎng):

31、基頻與諧波成分明顯(頻率分辨率高)窗長(zhǎng)長(zhǎng):基頻與諧波成分明顯(頻率分辨率高)濁音短時(shí)譜的特點(diǎn):基頻與諧波成分明顯頻譜包絡(luò)具有明顯的凸起點(diǎn),稱(chēng)為“共振峰”(formant)清音短時(shí)譜的特點(diǎn): 類(lèi)似隨機(jī)噪聲 頻譜包絡(luò)較平坦,一般高頻成分略大語(yǔ)譜圖(spectrogram)語(yǔ)譜圖是語(yǔ)音分析的一個(gè)重要工具語(yǔ)譜圖是語(yǔ)音分析的一個(gè)重要工具橫軸表示時(shí)間橫軸表示時(shí)間縱軸表示頻率縱軸表示頻率每一個(gè)時(shí)間每一個(gè)時(shí)間- -頻率坐標(biāo)上的點(diǎn)頻率坐標(biāo)上的點(diǎn)S(t, f)S(t, f)表示表示t t時(shí)刻、時(shí)刻、f f頻率成分的能量或幅頻率成分的能量或幅度,其大小通過(guò)點(diǎn)的灰度(黑白語(yǔ)譜圖)或顏色(彩色語(yǔ)譜圖)來(lái)區(qū)分度,其大小通

32、過(guò)點(diǎn)的灰度(黑白語(yǔ)譜圖)或顏色(彩色語(yǔ)譜圖)來(lái)區(qū)分寬帶語(yǔ)譜圖(wide-band spectrogramwide-band spectrogram)分析的窗長(zhǎng)短分析的窗長(zhǎng)短時(shí)域分辨率高、頻域分辨率低時(shí)域分辨率高、頻域分辨率低語(yǔ)譜圖特征為有明顯的粗的橫杠(與共振峰相對(duì)應(yīng))語(yǔ)譜圖特征為有明顯的粗的橫杠(與共振峰相對(duì)應(yīng))窄帶語(yǔ)譜圖(narrow-band spectrogramnarrow-band spectrogram)分析的窗長(zhǎng)長(zhǎng)分析的窗長(zhǎng)長(zhǎng)(512(512點(diǎn)點(diǎn)) )時(shí)域分辨率低時(shí)域分辨率低 、頻域分辨率高、頻域分辨率高語(yǔ)譜圖特征為有明顯的細(xì)的條紋(對(duì)應(yīng)基頻與諧波成分)語(yǔ)譜圖特征為有明顯的細(xì)的

33、條紋(對(duì)應(yīng)基頻與諧波成分)3.5 3.5 語(yǔ)音信號(hào)的同態(tài)解卷與倒譜分析根據(jù)語(yǔ)音信號(hào)的產(chǎn)生模型,語(yǔ)音信號(hào)S(Z)是一個(gè)線(xiàn)性時(shí)不變因果穩(wěn)定系統(tǒng)V(Z)受到信號(hào)E(Z)激勵(lì)后所產(chǎn)生的輸出。在時(shí)域中,語(yǔ)音信號(hào)s(n)是該系統(tǒng)的單位脈沖響應(yīng)v(n)和激勵(lì)信號(hào)e(n)的卷積。在語(yǔ)音信號(hào)數(shù)字處理所涉及的各個(gè)領(lǐng)域中,根據(jù)s(n)來(lái)求得v(n)和e(n)具有非常重要的意義。由卷積信號(hào)求得參與卷積的各個(gè)信號(hào)的過(guò)程稱(chēng)為解卷過(guò)程解卷過(guò)程。解卷算法可以分為兩大類(lèi):第一類(lèi)是首先為線(xiàn)性系統(tǒng)V(Z)建立一個(gè)模型,然后對(duì)模型參數(shù)按照某種最佳準(zhǔn)則進(jìn)行估計(jì),這種方法稱(chēng)為參數(shù)解卷方法。采用的模型可以分為全極點(diǎn)模型(AR模型)和零極點(diǎn)

34、模型(ARMA模型),如果采用最小均方誤差準(zhǔn)則對(duì)AR模型進(jìn)行估計(jì),就得到線(xiàn)性預(yù)測(cè)編碼算法(LPC)。第二類(lèi)算法稱(chēng)為非模型解卷。同態(tài)信號(hào)處理完成解卷任務(wù)就是其中最重要的一種。v對(duì)信號(hào)進(jìn)行分析得出它的倒譜參數(shù)的過(guò)程稱(chēng)為同態(tài)處理。v對(duì)于語(yǔ)音通信、語(yǔ)音合成或語(yǔ)音識(shí)別等語(yǔ)音處理來(lái)說(shuō),倒譜參數(shù)所含的信息比其他參數(shù)多,也就是語(yǔ)音質(zhì)量好,識(shí)別正確率高。同態(tài)分析的基本原理有很多客觀物理現(xiàn)象中的信號(hào),其中各組成分量的組合,并不是按照加法組合原則組合起來(lái)的,如圖像信號(hào)、地震信號(hào)、調(diào)制信號(hào)、語(yǔ)音信號(hào)等,它們都不是加性信號(hào),而是乘積性或卷積性組合的信號(hào)。顯然,這時(shí)不能用線(xiàn)性系統(tǒng)來(lái)處理,而必須用滿(mǎn)足該組合規(guī)則的非線(xiàn)性系統(tǒng)

35、來(lái)處理。但是非線(xiàn)性系統(tǒng)地分析非常困難。同態(tài)信號(hào)處理法就是設(shè)法將非線(xiàn)性問(wèn)題轉(zhuǎn)化為線(xiàn)性問(wèn)題來(lái)處理的一種方法。按照被處理的信號(hào)來(lái)分類(lèi),大體上可以分為乘積同態(tài)信號(hào)處理乘積同態(tài)信號(hào)處理和卷積同態(tài)信號(hào)處理卷積同態(tài)信號(hào)處理。語(yǔ)音信號(hào)可以視為聲門(mén)激勵(lì)信號(hào)和聲道響應(yīng)信號(hào)的卷積結(jié)果。我們僅討論卷積同態(tài)信號(hào)處理(同態(tài)解卷)我們僅討論卷積同態(tài)信號(hào)處理(同態(tài)解卷)的問(wèn)題。卷積同態(tài)信號(hào)處理系統(tǒng) 同態(tài)系統(tǒng)可以分解為兩個(gè)特征系統(tǒng)(即特征系統(tǒng)和逆特征系統(tǒng))(指取決于信號(hào)的組合規(guī)則)和一個(gè)線(xiàn)性系統(tǒng)(僅取決于處理要求))(H)()()( )()()(nvneHnynvnenx)(H1*)( )( DLD)( )( )( )(nyn

36、ynxnx語(yǔ)音同態(tài)解卷的特征系統(tǒng)與逆特征系統(tǒng)*D)( )(Log )(1ZZ)( (z) (z) )(nxXXnx1*)(D)( )(exp )(1ZZ)( (z) (z) )( nyYYny)( )( )()()()(Z)( ZZ)()()(log)(log)(log)( )()()()( Z)()()( 21211 -1 -21nvnenxnxzXzXzXzXzXzVzEzXzXzVzEnxZzXnvnenx變換:第四步逆第二步對(duì)數(shù)運(yùn)算:變換:第一步輸入信號(hào):語(yǔ)音信號(hào)的復(fù)倒譜立葉變換來(lái)代替。變換都可以利用正負(fù)傅都包含單位圓,正反的收斂域問(wèn)題中,絕大多數(shù)數(shù)字信號(hào)處理運(yùn)算。而逆特征系統(tǒng)則為其逆

37、譜域中加運(yùn)算,的卷積運(yùn)算轉(zhuǎn)換為復(fù)倒特征系統(tǒng)將離散時(shí)域中域。的離散時(shí)域稱(chēng)為復(fù)倒譜的復(fù)倒譜。復(fù)倒譜所處是同樣。的復(fù)倒譜,其英文為是ZZYZYZXZXnynyCepstrumComplexnxnx)(),(),(),()()( )()( deeXeXFnxeXeXenxnxFeXnjjjjjNNnnjj)(21)()( )(ln)()()()(121征系統(tǒng)求得復(fù)倒譜的另一個(gè)特語(yǔ)音信號(hào)的倒譜。譜稱(chēng)為倒頻譜,簡(jiǎn)稱(chēng)為倒求得倒譜的特征系統(tǒng)CepstrumncdeeCeCFnceXeCenxnxFeXnjjjjjNNnnjj)()(21)()()(ln)()()()(121復(fù)倒譜經(jīng)過(guò)正逆兩個(gè)特征系統(tǒng)變換后,序

38、列可以還原為復(fù)倒譜經(jīng)過(guò)正逆兩個(gè)特征系統(tǒng)變換后,序列可以還原為本身。但是倒譜經(jīng)過(guò)正逆兩個(gè)特征系統(tǒng)變換后,序列不本身。但是倒譜經(jīng)過(guò)正逆兩個(gè)特征系統(tǒng)變換后,序列不可以還原為本身。可以還原為本身。由序列的復(fù)倒譜求倒譜的方法)( )( 21)()( )( 21)()()()( nxnxnxnxnxnxnxnxnxoeoe之和的形式:和一個(gè)奇對(duì)稱(chēng)表示為一個(gè)偶對(duì)稱(chēng)序列首先將。求出它的倒譜,那么可以由的復(fù)倒譜如果已知一個(gè)實(shí)序列)()()( )()( )( )(nxnxnxncnxnxnxoe由傅里葉變換的性質(zhì)知道:偶對(duì)稱(chēng)分量和奇對(duì)稱(chēng)分量的由傅里葉變換的性質(zhì)知道:偶對(duì)稱(chēng)分量和奇對(duì)稱(chēng)分量的傅里葉變換分別是原信號(hào)傅

39、里葉變換的實(shí)部和虛部,因此傅里葉變換分別是原信號(hào)傅里葉變換的實(shí)部和虛部,因此)( )( 21)()(| )(|ln)()()( )(| )(|ln| )(|ln)(ln)()(nxnxnxnceXeXeXjeXeXjeXeeXeXeXejjejojejjeXjjjjj所以:即:已知倒譜求復(fù)倒譜的方法要想由倒譜求復(fù)倒譜,首先復(fù)倒譜必須滿(mǎn)足一定的條件,比如是因果序列:因此)()( )( nunxnx0)( 210)( 0)( 21)( )( 21)()(nnxnnxnnxnxnxnxnce000)(0)(2)( nnncnncnx已知倒譜求復(fù)倒譜的方法如果復(fù)倒譜是一個(gè)反因果序列:則可以推導(dǎo)出:只有當(dāng)只有當(dāng)x(n)x(n)是一個(gè)因果最小相位序列時(shí)其復(fù)倒譜序列才是一是一個(gè)因果最小相位序列時(shí)其復(fù)倒譜序列才是一個(gè)因果穩(wěn)定序列。這要求個(gè)因果穩(wěn)定序列。這要求x(n)x(n)應(yīng)滿(mǎn)足兩個(gè)條件:應(yīng)滿(mǎn)足兩個(gè)條件: 1. 1. x(n)=x(n)u(n)x(n)=x(n)u(n); 2. 2. X(Z)=Zx(n)X(Z)=Zx(n)的零極點(diǎn)都應(yīng)該在單位圓內(nèi)。的零極點(diǎn)都應(yīng)該在單位圓內(nèi)。 幸運(yùn)的是,實(shí)際處理中,大多數(shù)語(yǔ)音信號(hào)都是滿(mǎn)足這兩幸運(yùn)的是,實(shí)際處理中,大多數(shù)語(yǔ)音信號(hào)都是滿(mǎn)足這兩個(gè)條件的。個(gè)條件的。)()( )( nunxnx0)(20)(00)( nncnncnn

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論