語音信號處理(張力編)課件第三章_第1頁
語音信號處理(張力編)課件第三章_第2頁
語音信號處理(張力編)課件第三章_第3頁
語音信號處理(張力編)課件第三章_第4頁
語音信號處理(張力編)課件第三章_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第3章語音信號分析§3.2語音信號的數(shù)字化和預(yù)處理§3.3語音信號的時域分析§3.4語音信號的頻域分析§3.5語音信號的倒譜分析§3.6語音信號的線性預(yù)測分析1§3.2語音信號的數(shù)字化和預(yù)處理一、預(yù)濾波、采樣和A/D轉(zhuǎn)換二、預(yù)處理2

1.預(yù)濾波的作用:

防止混疊;抑制50Hz的電源工頻干擾。預(yù)濾波器是一個帶通濾波器,一般情況下,上、下截止頻率為:fL=60~100Hz,fH=3400Hz。一、預(yù)濾波、采樣和A/D轉(zhuǎn)換3tnxa(nT)xa(t)

2.采樣:

將時間連續(xù)信號變成時間離散信號。

采樣頻率通常為fs=8kHz。4Idealsamplingandrealsampling53.A/D轉(zhuǎn)換采樣量化xa(t)xa(nT)x(n)xa1x1xkxakxak+1xk+1xLxaLxaL+1x(n)=Q[xa(nT)]6截尾量化舍入量化截掉b位后數(shù)據(jù)視b+1位后數(shù)據(jù)的大小決定b位數(shù)據(jù)的值7量化誤差(噪聲)

e(n)=x(n)-xa(nT)-/2

e(n)

/21|e(n)|

/20其他(1)假設(shè)量化噪聲是平穩(wěn)的白噪聲過程(2)假設(shè)量化噪聲與輸入信號不相關(guān),有

E[e(n)x(n+m)]=0m為任意值(3)在每個量化間隔上,量化噪聲均勻分布,有

Pe(e(n))=8量化信噪比量化噪聲的信噪比:SNR=x2/e2

x2語音信號序列的方差,e2噪聲序列的方差,用分貝表示,SNR=10log(x2/e2)

SNR=signaltonoiserate=signal’senergy/noise’senergy9SNR=6.02B+4.77-20log(Xmax/x)=6.02B-7.27

Xmax表示其峰值B為量化的比特數(shù)當(dāng)語音信號的幅度服從拉普拉斯分布時,Xmax=4x當(dāng)B=8,SNR=40dB。10A/Dofsomecommonaudiosignals

FrequencyscopeSamplingfrequencyQuantizationbitsTelephone200-34008khz8bitsWideband50-700016khz16bitsBroadcasting20-15khz37.8khz16bitsCD20-20khz44.1khz16bits111.存儲方式:

已量化好的語音信號序列按先入先出的順序存入數(shù)據(jù)區(qū)。以便一個有限容量的數(shù)據(jù)區(qū)來應(yīng)付數(shù)量極大的語音數(shù)據(jù)。二、預(yù)處理122.預(yù)加重:

預(yù)加重的目的是提升高頻部分,便于頻譜分析和聲道參數(shù)分析。

預(yù)加重濾波器為一階數(shù)字濾波器:H(z)=1-z-1,

=0.94-0.97。x(n)x'(n)H(z)=1-z-113142.加窗分幀處理:

加矩形窗加漢寧窗hanning第n幀第n+1幀第n+2幀各幀之間有0~1/2的重疊,由窗函數(shù)的定義決定的。w(n)=0.5*[1-cos(2n/(N-1))]t第n幀第n+1幀第n+2幀第n+3幀第n+4幀幀長N幀移T15漢寧窗hanning海明窗hamming矩形窗(rectangular)16Windowshapes17T為幀移長度N為幀長x0(m)0N-1x1(m)TT+N-118第1幀第2幀0N-1N2N-1第1幀第2幀0N-1N/2N+(N/2)-1加矩形窗(幀移長度為N)加漢寧窗(幀移長度為N/2)x0(m)x1(m)x0(m)x1(m)幀移T=0幀移T=N/219512點的漢寧窗

當(dāng)采用漢寧窗,原有數(shù)據(jù)的幅度發(fā)生變化,為了保持?jǐn)?shù)據(jù)的原始幅度,必須采取各幀數(shù)據(jù)之間有1/2的重疊。20

由于在

10-30ms,語音信號近似平穩(wěn)。每秒的幀數(shù)約為:33~100幀。

窗口的長度N:頻率分辨率f=fs/N。f隨N的增加而減少,頻率分辨率得到提高,但時間分辨率降低(與窗長成反比)。應(yīng)根據(jù)不同的應(yīng)用場合來選擇窗口的長度N,應(yīng)包含2個基音周期。21Longwindow:frequencyresolutiontimeresolutionShortwindow:frequencyresolutiontimeresolution22Windowing(frame)Inshort-term,non-stationary->stationaryNon-linear->linear(10ms-25ms)23x0(m)0N-1x1(m)TT+N-1y0(m)0N-1y1(m)TT+N-124§3.3語音信號的時域分析一、短時能量及短時平均幅度分析二、短時過零率分析三、短時相關(guān)分析四、短時平均幅度差函數(shù)251.幅度分析的依據(jù):是基于語音信號幅度隨時間變化。清音段幅度小,其能量集中于高頻段;濁音段幅度較大,其能量集中于低頻段。2.短時能量函數(shù)和短時平均幅度函數(shù)一、短時能量及短時平均幅度分析T為幀移長度N為幀長26

男聲“深圳廣州珠海”的短時幅度統(tǒng)計。在采樣頻率為22050Hz的情況下,取20ms作為一幀,幀長為441點,一共統(tǒng)計了180幀。短時平均幅度原始語音273.短時平均幅度函數(shù)和能量函數(shù)的作用(1)區(qū)分清/濁音:

En、Mn大,對應(yīng)濁音;En、Mn小,對應(yīng)清音。(2)在信噪比高的情況下,能進(jìn)行有聲/無聲判決無聲時,背景噪聲的En、Mn?。挥新晻r,En、Mn顯著增大。判決時可設(shè)置一個門限。(3)大致能定出濁音變?yōu)榍逡舻臅r刻,或反之。28

女聲漢語拼音a的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),濁音的短時能量78.6129

男聲漢語拼音s的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),清音的短時能量3.88。30用途:靜音檢測(VAD)和舒適噪聲(CNG)的生成VAD:VoiceActivityDetectionCNG:ComfortNoiseGenerator31短時能量函數(shù):對信號電平值過于敏感容易溢出短時平均幅度:清音和濁音、有聲和無聲的幅度

差不如短時能量明顯。各自存在的問題321.過零率定義:信號跨越橫軸的情況。對于連續(xù)信號,觀察語音時域波形通過橫軸的情況;對于離散信號,相鄰的采樣值具有不同的代數(shù)符號,也就是樣點改變符號的次數(shù)。tn二、短時過零率分析33ZCR34對于語音信號,是寬帶非平穩(wěn)信號,應(yīng)考察其短時平均過零率。sgn(x(n))=1x(n)0sgn(x(n))=-1x(n)<0

sgn[.]為符號函數(shù)353、短時平均過零的作用1.區(qū)分清/濁音:濁音平均過零率低,集中在低頻端;清音平均過零率高,集中在高頻端。2.從背景噪聲中找出是否有語音,以及語音的起點。36

女聲漢語拼音a的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),短時過零率為46。37

男聲漢語拼音s的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),短時過零率為183。38

存在的問題:短時平均過零率容易受到A/D轉(zhuǎn)換是的直流偏移、50Hz交流電源的干擾以及噪聲的影響。39減少直流偏移方法:①采用低直流偏移器件

②軟件去除40Bandpass

filte

HbwHb(ejw)x(n)y(n)減少電源干擾的方法:①一種是采用帶通濾波41

②是用過門限率來修改過零率,減少隨機(jī)噪聲的影響。過門限率反映了穿過正負(fù)門限的次數(shù),如果存在隨機(jī)噪聲,只要信號沒有超過[-T,T]的范圍,就沒有有過零率產(chǎn)生。T-T421.短時自相關(guān)函數(shù)的定義(1)說明當(dāng)時域信號為周期信號時,自相關(guān)函數(shù)也是周期性函數(shù),兩者具有同樣的周期。(2)Rn(k)為偶函數(shù),Rn(k)=Rn(-k)(3)Rn(0)最大,Rn(0)|Rn(k)|,Rn(0)=En。三、短時相關(guān)分析4344正弦波周期信號

正弦波周期信號的自相關(guān)函數(shù)波形45

正弦波周期信號和其自相關(guān)函數(shù)疊加462、相關(guān)函數(shù)的作用1.區(qū)分清/濁音。濁音語音的自相關(guān)函數(shù)具有一定的周期性。清音語音的自相關(guān)函數(shù)不具有周期性,類似噪聲,有點如語音信號本身。2.估計濁音語音信號的周期,即估計基音周期。47

女聲漢語拼音a的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),自相關(guān)波形圖。說明濁音的自相關(guān)函數(shù)具有一定的周期性。原始語音信號自相關(guān)函數(shù)波形48

原始語音信號和其自相關(guān)函數(shù)波形49Auto-correlationpeaks50

男聲漢語拼音s的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),自相關(guān)波形圖。原始語音信號自相關(guān)函數(shù)波形51

男聲漢語拼音s的一幀信號(在采樣頻率為22050Hz的情況下,取10ms作為一幀),自相關(guān)波形圖。原始語音信號修改坐標(biāo)的自相關(guān)函數(shù)波形52

用MATLAB的函數(shù)randn,產(chǎn)生一幀高斯白噪聲,其自相關(guān)函數(shù)圖。說明清音是噪聲激勵的正確性。白噪聲信號修改坐標(biāo)的自相關(guān)函數(shù)波形53聲道的共振峰特性對基音周期的估計造成干擾,這是因為語音信號包含豐富的諧波分量?;纛l率的范圍分布在50~450Hz左右。同時,第一共振峰通常在200~1000Hz的范圍內(nèi),這樣可能導(dǎo)致語音的諧波分量高于基頻分量,對基音周期的估計造成錯誤。采用中心削波法:

54Center-clippingtechniq

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論