版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第3章語音信號分析§3.2語音信號的數(shù)字化和預(yù)處理§3.3語音信號的時域分析§3.4語音信號的頻域分析§3.5語音信號的倒譜分析§3.6語音信號的線性預(yù)測分析1§3.2語音信號的數(shù)字化和預(yù)處理一、預(yù)濾波、采樣和A/D轉(zhuǎn)換二、預(yù)處理2
1.預(yù)濾波的作用:
防止混疊;抑制50Hz的電源工頻干擾。預(yù)濾波器是一個帶通濾波器,一般情況下,上、下截止頻率為:fL=60~100Hz,fH=3400Hz。一、預(yù)濾波、采樣和A/D轉(zhuǎn)換3tnxa(nT)xa(t)
2.采樣:
將時間連續(xù)信號變成時間離散信號。
采樣頻率通常為fs=8kHz。4Idealsamplingandrealsampling53.A/D轉(zhuǎn)換采樣量化xa(t)xa(nT)x(n)xa1x1xkxakxak+1xk+1xLxaLxaL+1x(n)=Q[xa(nT)]6截尾量化舍入量化截掉b位后數(shù)據(jù)視b+1位后數(shù)據(jù)的大小決定b位數(shù)據(jù)的值7量化誤差(噪聲)
e(n)=x(n)-xa(nT)-/2
e(n)
/21|e(n)|
/20其他(1)假設(shè)量化噪聲是平穩(wěn)的白噪聲過程(2)假設(shè)量化噪聲與輸入信號不相關(guān),有
E[e(n)x(n+m)]=0m為任意值(3)在每個量化間隔上,量化噪聲均勻分布,有
Pe(e(n))=8量化信噪比量化噪聲的信噪比:SNR=x2/e2
x2語音信號序列的方差,e2噪聲序列的方差,用分貝表示,SNR=10log(x2/e2)
SNR=signaltonoiserate=signal’senergy/noise’senergy9SNR=6.02B+4.77-20log(Xmax/x)=6.02B-7.27
Xmax表示其峰值B為量化的比特數(shù)當(dāng)語音信號的幅度服從拉普拉斯分布時,Xmax=4x當(dāng)B=8,SNR=40dB。10A/Dofsomecommonaudiosignals
FrequencyscopeSamplingfrequencyQuantizationbitsTelephone200-34008khz8bitsWideband50-700016khz16bitsBroadcasting20-15khz37.8khz16bitsCD20-20khz44.1khz16bits111.存儲方式:
已量化好的語音信號序列按先入先出的順序存入數(shù)據(jù)區(qū)。以便一個有限容量的數(shù)據(jù)區(qū)來應(yīng)付數(shù)量極大的語音數(shù)據(jù)。二、預(yù)處理122.預(yù)加重:
預(yù)加重的目的是提升高頻部分,便于頻譜分析和聲道參數(shù)分析。
預(yù)加重濾波器為一階數(shù)字濾波器:H(z)=1-z-1,
=0.94-0.97。x(n)x'(n)H(z)=1-z-113142.加窗分幀處理:
加矩形窗加漢寧窗hanning第n幀第n+1幀第n+2幀各幀之間有0~1/2的重疊,由窗函數(shù)的定義決定的。w(n)=0.5*[1-cos(2n/(N-1))]t第n幀第n+1幀第n+2幀第n+3幀第n+4幀幀長N幀移T15漢寧窗hanning海明窗hamming矩形窗(rectangular)16Windowshapes17T為幀移長度N為幀長x0(m)0N-1x1(m)TT+N-118第1幀第2幀0N-1N2N-1第1幀第2幀0N-1N/2N+(N/2)-1加矩形窗(幀移長度為N)加漢寧窗(幀移長度為N/2)x0(m)x1(m)x0(m)x1(m)幀移T=0幀移T=N/219512點的漢寧窗
當(dāng)采用漢寧窗,原有數(shù)據(jù)的幅度發(fā)生變化,為了保持?jǐn)?shù)據(jù)的原始幅度,必須采取各幀數(shù)據(jù)之間有1/2的重疊。20
由于在
10-30ms,語音信號近似平穩(wěn)。每秒的幀數(shù)約為:33~100幀。
窗口的長度N:頻率分辨率f=fs/N。f隨N的增加而減少,頻率分辨率得到提高,但時間分辨率降低(與窗長成反比)。應(yīng)根據(jù)不同的應(yīng)用場合來選擇窗口的長度N,應(yīng)包含2個基音周期。21Longwindow:frequencyresolutiontimeresolutionShortwindow:frequencyresolutiontimeresolution22Windowing(frame)Inshort-term,non-stationary->stationaryNon-linear->linear(10ms-25ms)23x0(m)0N-1x1(m)TT+N-1y0(m)0N-1y1(m)TT+N-124§3.3語音信號的時域分析一、短時能量及短時平均幅度分析二、短時過零率分析三、短時相關(guān)分析四、短時平均幅度差函數(shù)251.幅度分析的依據(jù):是基于語音信號幅度隨時間變化。清音段幅度小,其能量集中于高頻段;濁音段幅度較大,其能量集中于低頻段。2.短時能量函數(shù)和短時平均幅度函數(shù)一、短時能量及短時平均幅度分析T為幀移長度N為幀長26
男聲“深圳廣州珠海”的短時幅度統(tǒng)計。在采樣頻率為22050Hz的情況下,取20ms作為一幀,幀長為441點,一共統(tǒng)計了180幀。短時平均幅度原始語音273.短時平均幅度函數(shù)和能量函數(shù)的作用(1)區(qū)分清/濁音:
En、Mn大,對應(yīng)濁音;En、Mn小,對應(yīng)清音。(2)在信噪比高的情況下,能進(jìn)行有聲/無聲判決無聲時,背景噪聲的En、Mn?。挥新晻r,En、Mn顯著增大。判決時可設(shè)置一個門限。(3)大致能定出濁音變?yōu)榍逡舻臅r刻,或反之。28
女聲漢語拼音a的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),濁音的短時能量78.6129
男聲漢語拼音s的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),清音的短時能量3.88。30用途:靜音檢測(VAD)和舒適噪聲(CNG)的生成VAD:VoiceActivityDetectionCNG:ComfortNoiseGenerator31短時能量函數(shù):對信號電平值過于敏感容易溢出短時平均幅度:清音和濁音、有聲和無聲的幅度
差不如短時能量明顯。各自存在的問題321.過零率定義:信號跨越橫軸的情況。對于連續(xù)信號,觀察語音時域波形通過橫軸的情況;對于離散信號,相鄰的采樣值具有不同的代數(shù)符號,也就是樣點改變符號的次數(shù)。tn二、短時過零率分析33ZCR34對于語音信號,是寬帶非平穩(wěn)信號,應(yīng)考察其短時平均過零率。sgn(x(n))=1x(n)0sgn(x(n))=-1x(n)<0
sgn[.]為符號函數(shù)353、短時平均過零的作用1.區(qū)分清/濁音:濁音平均過零率低,集中在低頻端;清音平均過零率高,集中在高頻端。2.從背景噪聲中找出是否有語音,以及語音的起點。36
女聲漢語拼音a的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),短時過零率為46。37
男聲漢語拼音s的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),短時過零率為183。38
存在的問題:短時平均過零率容易受到A/D轉(zhuǎn)換是的直流偏移、50Hz交流電源的干擾以及噪聲的影響。39減少直流偏移方法:①采用低直流偏移器件
②軟件去除40Bandpass
filte
HbwHb(ejw)x(n)y(n)減少電源干擾的方法:①一種是采用帶通濾波41
②是用過門限率來修改過零率,減少隨機(jī)噪聲的影響。過門限率反映了穿過正負(fù)門限的次數(shù),如果存在隨機(jī)噪聲,只要信號沒有超過[-T,T]的范圍,就沒有有過零率產(chǎn)生。T-T421.短時自相關(guān)函數(shù)的定義(1)說明當(dāng)時域信號為周期信號時,自相關(guān)函數(shù)也是周期性函數(shù),兩者具有同樣的周期。(2)Rn(k)為偶函數(shù),Rn(k)=Rn(-k)(3)Rn(0)最大,Rn(0)|Rn(k)|,Rn(0)=En。三、短時相關(guān)分析4344正弦波周期信號
正弦波周期信號的自相關(guān)函數(shù)波形45
正弦波周期信號和其自相關(guān)函數(shù)疊加462、相關(guān)函數(shù)的作用1.區(qū)分清/濁音。濁音語音的自相關(guān)函數(shù)具有一定的周期性。清音語音的自相關(guān)函數(shù)不具有周期性,類似噪聲,有點如語音信號本身。2.估計濁音語音信號的周期,即估計基音周期。47
女聲漢語拼音a的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),自相關(guān)波形圖。說明濁音的自相關(guān)函數(shù)具有一定的周期性。原始語音信號自相關(guān)函數(shù)波形48
原始語音信號和其自相關(guān)函數(shù)波形49Auto-correlationpeaks50
男聲漢語拼音s的一幀信號(在采樣頻率為22050Hz的情況下,取20ms作為一幀),自相關(guān)波形圖。原始語音信號自相關(guān)函數(shù)波形51
男聲漢語拼音s的一幀信號(在采樣頻率為22050Hz的情況下,取10ms作為一幀),自相關(guān)波形圖。原始語音信號修改坐標(biāo)的自相關(guān)函數(shù)波形52
用MATLAB的函數(shù)randn,產(chǎn)生一幀高斯白噪聲,其自相關(guān)函數(shù)圖。說明清音是噪聲激勵的正確性。白噪聲信號修改坐標(biāo)的自相關(guān)函數(shù)波形53聲道的共振峰特性對基音周期的估計造成干擾,這是因為語音信號包含豐富的諧波分量?;纛l率的范圍分布在50~450Hz左右。同時,第一共振峰通常在200~1000Hz的范圍內(nèi),這樣可能導(dǎo)致語音的諧波分量高于基頻分量,對基音周期的估計造成錯誤。采用中心削波法:
54Center-clippingtechniq
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030網(wǎng)絡(luò)安全子系統(tǒng)行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2025-2030細(xì)胞治療藥物研發(fā)行業(yè)供需狀態(tài)深度梳理投資前景評價規(guī)劃分析研究方案
- 服裝行業(yè)生產(chǎn)流程與質(zhì)量控制指南(標(biāo)準(zhǔn)版)
- 2026年工程建筑技術(shù)與質(zhì)量管理題庫
- 心理健康服務(wù)與咨詢操作手冊
- 企業(yè)內(nèi)部培訓(xùn)與開發(fā)操作手冊
- 2025年電子商務(wù)平臺用戶服務(wù)與投訴處理手冊
- 2026年數(shù)字孿生技術(shù)與制造業(yè)優(yōu)化的前沿探索課題
- 公共衛(wèi)生防疫與疾病防控手冊
- 高速鐵路運營安全手冊
- 《中華人民共和國危險化學(xué)品安全法》全套解讀
- 推拿按摩腰背部課件
- 散養(yǎng)土雞養(yǎng)雞課件
- 戰(zhàn)略屋策略體系roadmapPP T模板(101 頁)
- 2025年醫(yī)療輔助崗面試題及答案
- T-CI 1078-2025 堿性電解水復(fù)合隔膜測試方法
- 新入職小學(xué)教師如何快速成長個人專業(yè)發(fā)展計劃
- 門診導(dǎo)診工作流程
- 2025云南保山電力股份有限公司招聘(100人)筆試歷年參考題庫附帶答案詳解
- 寫字樓物業(yè)安全管理實務(wù)操作手冊
- 2025年及未來5年中國飲料工業(yè)行業(yè)競爭格局分析及發(fā)展趨勢預(yù)測報告
評論
0/150
提交評論