版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基音周期的檢測(cè)什么是基音周期檢測(cè) 人在發(fā)音時(shí),根據(jù)聲帶是否震動(dòng)可以將語音信號(hào)分為清音跟濁音兩種。濁音又稱有聲語言,攜帶者語言中大部分的能量,濁音在時(shí)域上呈現(xiàn)出明顯的周期性;而清音類似于白噪聲,沒有明顯的周期性。發(fā)濁音時(shí),氣流通過聲門使聲帶產(chǎn)生張弛震蕩式振動(dòng),產(chǎn)生準(zhǔn)周期的激勵(lì)脈沖串。這種聲帶振動(dòng)的頻率稱為基音頻率,相應(yīng)的周期就成為基音周期。 通常,基音頻率與個(gè)人聲帶的長(zhǎng)短、薄厚、韌性、勁度和發(fā)音習(xí)慣等有關(guān)系,在很大程度上反應(yīng)了個(gè)人的特征。此外,基音頻率還跟隨著人的性別、年齡不同而有所不同。一般來說,男性說話者的基音頻率較低,大部分在70200Hz的范圍內(nèi),而女性說話者和小孩的基音頻率相對(duì)較高,在
2、200450Hz之間。 目前,基音檢測(cè)的算法有很多種,常用的檢測(cè)算法有自相關(guān)法、平均幅度差函數(shù)法、并行處理法、倒譜法、簡(jiǎn)化逆濾波法等。 本次基音周期的檢測(cè),我們選用的是短時(shí)自相關(guān)函數(shù)法,包括四個(gè)模塊。 第一個(gè)模塊為基音的端點(diǎn)檢測(cè),主要為了區(qū)分濁音和清音。第二個(gè)模塊為基音檢測(cè)中的帶通濾波器,主要為了減少共振峰的干擾。第三個(gè)模塊為短時(shí)自相關(guān)函數(shù)法做基音檢測(cè),主要為了計(jì)算出基音周期。第四個(gè)模塊為平滑處理,主要為了消除偏離值點(diǎn)?;糁芷诘臋z測(cè)(端點(diǎn)檢測(cè))1.設(shè)計(jì)數(shù)據(jù)文件名稱:audioread功能:讀入以.wav為擴(kuò)展名的音頻文件。調(diào)用格式:y,fs,nbits=audioread(wavFilena
3、me)說明:輸出參數(shù)Y是數(shù)字化的音頻;fs是信號(hào)采樣頻率;nbits是每個(gè)樣點(diǎn)在編碼時(shí)的二進(jìn)制位數(shù)。2.分幀處理先定義一個(gè)幀數(shù)*幀長(zhǎng)的數(shù)組,然后計(jì)算幀的偏移量來,按語音數(shù)據(jù)的位置把x放入y中。名稱:enframe功能:把語音信號(hào)按幀長(zhǎng)和幀移進(jìn)行分幀調(diào)用格式:f=enframe(x,win,inc)3.端點(diǎn)檢測(cè)名稱:pitch_vad1功能:用能熵比法進(jìn)行端點(diǎn)檢測(cè)。說明:輸入?yún)?shù)y是分幀后的數(shù)組,一般是一列表示一幀數(shù)據(jù);fn是信號(hào)的總幀數(shù);T1是一個(gè)閾值;輸出參數(shù)voiceseg是語音端點(diǎn)的信息;vosl是幾個(gè)有話段,當(dāng)該幀為有話段時(shí)SF=1;否則為0,Ef是能熵比值。pitch_vad1for
4、i=1:fnSp=abs(fft(y(:,i);%FFT取幅值(:表示所有y(:,1)表示第一列)Sp=Sp(1:wlen/2+1); %只取正頻率部分Esum(i)=sum(Sp.*Sp);%計(jì)算能量值(能量放入Esum里)prob=Sp/(sum(Sp); %計(jì)算概率H(i)=-sum(prob.*log(prob+eps);%求譜熵值(eps表示很小的數(shù),避免為零)(譜熵放入H里)end譜熵值很類似與過零率值,在有話段內(nèi)的譜熵值小于噪聲段的譜熵值,所以如同能零比一樣,用能熵比更能突出噪聲段的差別?;糁芷诘臋z測(cè)(基音檢測(cè)中的帶通濾波器)什么是帶通濾波器 帶通濾波器(band-passfi
5、lter)是一個(gè)允許特定頻段的波通過同時(shí)屏蔽其他頻段的濾波器。帶通濾波器的作用 在使用相關(guān)法和AMDF法的基音檢測(cè)之前常用到低通濾波器和帶通濾波器,其主要目的是減少共振峰的干擾。我用了500Hz作為濾波器的上限頻率,選擇截止頻率高不利于減少噪聲和共振峰的影響。所以在本次的基音檢測(cè)中的預(yù)濾波器選擇的帶寬為60500Hz,高頻截止頻率選擇500Hz,是因?yàn)榛l區(qū)間的高端就在這個(gè)區(qū)域中,低頻截止頻率選擇60Hz是為了減少工頻和低頻噪聲的干擾。什么是共振峰 共振峰是指在聲音的頻譜中能量相對(duì)集中的一些區(qū)域,共振峰不但是音質(zhì)的決定因素,而且反映了聲道(共振腔)的物理特征。 聲音在經(jīng)過共振腔時(shí),受到腔體的濾
6、波作用,使得頻域中不同頻率的能量重新分配,一部分因?yàn)楣舱袂坏墓舱褡饔玫玫綇?qiáng)化,另一部分則受到衰減。由于能量分布不均勻,強(qiáng)的部分猶如山峰一般,故而稱之為共振峰。為什么要減小共振峰 聲道特性與基音周期估計(jì)有關(guān),會(huì)對(duì)基音周期檢測(cè)造成一定干擾。從語音信號(hào)中去除聲道的影響,直接取出僅與聲帶振動(dòng)有關(guān)的聲源信息并非易事。聲道共振峰可能強(qiáng)烈改變聲門波形的結(jié)構(gòu),從而嚴(yán)重影響激勵(lì)信號(hào)的諧波結(jié)構(gòu),給基因檢測(cè)造成困難。我選用IIR濾波器中的橢圓濾波器,因?yàn)镮IR濾波器的運(yùn)算量比FIR少,當(dāng)然IIR濾波器會(huì)帶來延遲,也就是相位的變化,但語音信號(hào)是對(duì)相位不敏感的信號(hào);又選用橢圓濾波器,因?yàn)樗诮?jīng)典濾波器設(shè)計(jì)中相同過渡帶和
7、帶寬條件下,需要的階數(shù)比較小。橢圓濾波器(Ellipticfilter)是在通帶和阻帶等波紋的一種濾波器。橢圓濾波器在通帶和阻帶內(nèi)都具有等波紋幅頻響應(yīng)特性。由于其極點(diǎn)位置與經(jīng)典場(chǎng)論中的橢圓函數(shù)有關(guān),所以由此取名為橢圓濾波器。對(duì)于給定的階數(shù)和波紋要求,橢圓濾波器能得到較其它濾波器更窄的過渡帶寬,可以獲得對(duì)理想濾波器幅頻響應(yīng)的最好逼近,是一種性價(jià)比很高的濾波器,橢圓濾波器相比其他類型的濾波器,在階數(shù)相同的條件下有著最小的通帶和阻帶波動(dòng)。濾波器的要求為采樣頻率8000Hz,通帶是60500Hz,通帶波紋為1dB,阻帶分別為30Hz和2000Hz,阻帶衰減為40dB。 濾波器的階數(shù),就是指過濾諧波的次
8、數(shù),一般來講,同樣的濾波器,其階數(shù)越高,濾波效果就越好,但是,階數(shù)越高,成本也就越高,因此,選擇合適的階數(shù)是非常重要的。所以本次實(shí)驗(yàn)選用橢圓6階帶通濾波器。實(shí)現(xiàn)代碼%pr8_1_1clearall;clc;closeall;fs=8000;fs2=fs/2;%采樣頻率Wp=60500/fs2;%濾波器通帶Ws=202000/fs2;%濾波器阻帶Rp=1;Rs=40;%通帶的波紋和阻帶的衰減n,Wn=ellipord(Wp,Ws,Rp,Rs);%計(jì)算濾波器的階數(shù)b,a=ellip(n,Rp,Rs,Wn);%計(jì)算濾波器的系數(shù)fprintf(b=%5.6f%5.6f%5.6f%5.6f%5.6f%5
9、.6f%5.6fn,b)fprintf(a=%5.6f%5.6f%5.6f%5.6f%5.6f%5.6f%5.6fn,a)代碼理解 Ellipord函數(shù)的功能是求濾波器的最小階數(shù),其調(diào)用格式為n,Wn=ellipord(Wp,Ws,Rp,Rs,s) 其中各參量分別為:n-橢圓濾波器最小階數(shù);Wp-橢圓濾波器通帶;Ws-橢圓濾波器阻帶;Rp-通帶波紋(dB);Rs-阻帶衰減(dB); Ellip函數(shù)的功能是用來設(shè)計(jì)橢圓濾波器,其調(diào)用格式: b,a=ellip(n,Rp,Rs,Wp) 由程序計(jì)算出濾波器系數(shù)為: b=0.012280-0.0395080.0421770.000000-0.04217
10、70.039508 a=1.000000-5.52714612.854342-16.11030711.479789-4.4101790.713507基音周期的檢測(cè)(短時(shí)自相關(guān)函數(shù)法一 算法原理 設(shè)語音信號(hào)的時(shí)間序列是x(n),它的自相關(guān)函數(shù)定義為: R(k)=x(n)x(n+k),K是時(shí)間的延遲量。 短時(shí)自相關(guān)函數(shù)有以下重要性質(zhì) 如果信號(hào)x(n)具有周期性,周期是P,那么它的自相關(guān)函數(shù)R(k) 也具有周期性,而且周期與信號(hào)x(n)的周期性相同。 當(dāng)k=0時(shí),短時(shí)自相關(guān)函數(shù)具有最大值,即在延遲量為0,P,2P,時(shí),周期信號(hào)的自相關(guān)函數(shù)也達(dá)到最大值。 短時(shí)自相關(guān)函數(shù)是偶函數(shù),即R(k) =R(-k
11、)。短時(shí)自相關(guān)函數(shù)基因檢測(cè)的主要原理大都是利用它的這些性質(zhì),通過比較原始信號(hào)和它的延遲后的信號(hào)之間的類似性質(zhì)來確定基音周期。如果延遲量等于基音周期,那么兩個(gè)信號(hào)具有最大類似性,或是直接找出短時(shí)自相關(guān)函數(shù)的兩個(gè)最大值間的距離,即為基音周期的初估值。在用短時(shí)自相關(guān)函數(shù)檢測(cè)基音時(shí),常用歸一化的自相關(guān)函數(shù),表達(dá)式為r(k)=R(k)/R(0)以上性質(zhì)中已指出,k=0,R(0)為最大值。所以r(k)的模值永遠(yuǎn)小于或等于1。已知基音頻率范圍為60Hz500Hz之間,采樣率為fs時(shí),則基音周期(樣點(diǎn)值)范圍在fs/500fs/60之間,然后在這個(gè)范圍之間尋找歸一化相關(guān)函數(shù)的最大值,對(duì)應(yīng)的延遲量就是基音周期。
12、二代碼編寫用短時(shí)自相關(guān)函數(shù)法得基音周期的程序:functionperiod=ACF_corr(y,fn,vseg,vsl,lmax,lmin)pn=size(y,2);ifpn=fn,y=y;end%把y轉(zhuǎn)換為每列數(shù)據(jù)表示一幀語音信號(hào)wlen=size(y,1);%取得幀長(zhǎng)period=zeros(1,fn);%初始化fori=1:vsl%只對(duì)有話段數(shù)據(jù)處理ixb=vseg(i).begin;ixe=vseg(i).end;ixd=ixe-ixb+1;%求取一段有話段的幀數(shù)fork=1:ixd%對(duì)該段有話段數(shù)據(jù)處理u=y(:,k+ixb-1);%取來一幀數(shù)據(jù)ru=xcorr(u,coeff);
13、%計(jì)算歸一化自相關(guān)函數(shù)ru=ru(wlen:end);%取延遲量為正值的部分tmax,tloc=max(ru(lmin:lmax);%在PminPmax范圍內(nèi)尋找最大值period(k+ixb-1)=lmin+tloc-1;%給出對(duì)應(yīng)最大值的延遲量endend三實(shí)驗(yàn)結(jié)果四結(jié)果分析在端點(diǎn)檢測(cè)和濾波后,再經(jīng)過短時(shí)自相關(guān)函數(shù)法處理得到上面的實(shí)驗(yàn)結(jié)果圖,可看出基音周期有很多的野點(diǎn),需要進(jìn)行平滑處理,也可以看出基音周期大約為40個(gè)樣點(diǎn)數(shù),即基音周期為40/fs,采樣率為8000Hz,得周期為0.005s,基音頻率為200Hz.基音周期的檢測(cè)(平滑處理) 線性濾波算法 讓基音軌跡序列通過一個(gè)“低通”FIR
14、濾波器。由于基音軌跡中的野點(diǎn)都是一些突發(fā)跳動(dòng)點(diǎn),它們具有很高的“頻率分量”,采用“低通”濾波即可以將其去除。 線性平滑是用滑動(dòng)窗口進(jìn)行線性濾波處理,即 式中,w(m),m=-L,-L+1,0,1,2,L為(2L+1)點(diǎn)平滑窗,滿足平滑處理中值濾波算法:一種非線性濾波在被平滑點(diǎn)的左右各取L個(gè)樣點(diǎn)。連同被平滑點(diǎn)共同構(gòu)成一組信號(hào)采樣值(共(2L+1)個(gè)樣值),然后將這(2L+1)個(gè)樣值按大小次序排成一對(duì),取此隊(duì)列中間者作為平滑器的輸出。L值一般取為1或2,即中值平滑的“窗口”一般套住3或5個(gè)樣值。中值平滑的優(yōu)點(diǎn)是既可以有效地去除少量的野點(diǎn),又不會(huì)破壞基音周期軌跡中兩個(gè)平滑段之間的階躍性變化。matl
15、ab函數(shù)y=medfilt1(x,n)x為輸入序列;k為窗長(zhǎng),即套住的樣點(diǎn)數(shù),一般取3或5。y是中值濾波后的輸出序列。設(shè)有一個(gè)一維序列f1,f2,fn,取窗口長(zhǎng)度(點(diǎn)數(shù))為m(m為奇數(shù)),對(duì)其進(jìn)行中值濾波,就是從輸入序列中相繼抽出m個(gè)數(shù)fi-v,fi-1,fi,fi+1,fi+v(其中fi為窗口中心值,v=(m-1)/2),再將這m個(gè)點(diǎn)按其數(shù)值大小順序排序,取其序號(hào)的中心點(diǎn)的那個(gè)數(shù)作為濾波輸出。數(shù)學(xué)公式表示為:Yi=Medfi-v,fi-1,fi,fi+1,fi+viNv=(m-1)/2;Yi稱為序列fi-v,fi-1,fi,fi+1,fi+v的中值舉例來說,輸入:Y1-10:1,2,3,4,
16、5,6,7,8,9,10.取區(qū)間2k=4,所以k=2;執(zhí)行中值濾波K=中值濾波(Y)由x-k+1=1,所以當(dāng)k=2時(shí),x=2濾波時(shí):K1=Y1K2=(Y1、Y2、Y3、Y4)的中間值,即為2或3 T0=pitfilterm1(period,voiceseg,vosl); functiony=pitfilterm1(x,vseg,vsl) y=zeros(size(x);%初始化 fori=1:vsl%有段數(shù)據(jù) ixb=vseg(i).begin;%該段的開始位置 ixe=vseg(i).end;%該段的結(jié)束位置 u0=x(ixb:ixe);%取來一段數(shù)據(jù) y0=medfilt1(u0,5);%5點(diǎn)的中值濾波 v0=linsmoothm(y0,5);%線性平滑 y(ixb:ixe)=v0;%賦值給y end程序functiony=linsmoothm(x,n)ifnargin2n=3;endwin=han
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中藥調(diào)劑員模擬試題與答案
- 稅務(wù)策劃面試題庫(kù)及答案
- 東莞市公開遴選公務(wù)員筆試題及答案解析
- 長(zhǎng)沙市岳麓區(qū)輔警考試題《公安基礎(chǔ)知識(shí)》綜合能力試題庫(kù)附答案
- 臨床護(hù)理三基測(cè)試題(附答案)
- 2025年政府采購(gòu)評(píng)審專家考試題庫(kù)含答案
- 路橋一建考試真題及答案
- 房地產(chǎn)開發(fā)經(jīng)營(yíng)與管理《房地產(chǎn)市場(chǎng)與市場(chǎng)運(yùn)行考試題》考試題含答案
- 2025年度中式烹調(diào)師初級(jí)工理論知識(shí)考試試題庫(kù)及答案
- 醫(yī)學(xué)史考試試題及答案
- 《筑牢安全防線 歡度平安寒假》2026年寒假安全教育主題班會(huì)課件
- 信息技術(shù)應(yīng)用創(chuàng)新軟件適配測(cè)評(píng)技術(shù)規(guī)范
- 養(yǎng)老院老人生活設(shè)施管理制度
- 2026年稅務(wù)稽查崗位考試試題及稽查實(shí)操指引含答案
- (2025年)林業(yè)系統(tǒng)事業(yè)單位招聘考試《林業(yè)知識(shí)》真題庫(kù)與答案
- 租賃手機(jī)籌資計(jì)劃書
- 短篇文言文翻譯
- 疾病產(chǎn)生分子基礎(chǔ)概論
- 演示文稿第十五章文化中心轉(zhuǎn)移
- 醫(yī)療設(shè)備購(gòu)置論證評(píng)審表
- GB/T 16998-1997熱熔膠粘劑熱穩(wěn)定性測(cè)定
評(píng)論
0/150
提交評(píng)論