版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、華南理工大學(xué)語音信號處理作業(yè)報告姓名:學(xué)號:班級:10級電信5班日期:2013年5月24日1.實驗要求編程實現(xiàn): 作業(yè)1、提取一段語音信號的短時能量、過零率、短時平均幅度差。 作業(yè)2、提取一段語音的傅里葉變換幅度譜、線性倒譜、梅爾頻率倒譜(MFCC)。 作業(yè)3、 提取一段語音的LPC參數(shù)。 作業(yè)4、 估計一段語音的基音頻率。 作業(yè)5、 估計一段語音的前3個共振峰頻率。 作業(yè)1:1、實驗原理(1)、短時能量語音和噪聲的區(qū)別可以體現(xiàn)在它們的能量上,語音段的能量比噪聲段能量大,語音段的能量是噪聲段能量疊加語音聲波能量的和。在信噪比很高時,那么只要計算輸入信號的短時能量或短時平均幅度就能夠把語音段和噪
2、聲背景區(qū)分開。這是僅基于短時能量的端點檢測方法。信號x(n)的短時能量定義為: 語音信號的短時平均幅度定義為: 其中w(n)為窗函數(shù)。(2)、短時平均過零率短時過零表示一幀語音信號波形穿過橫軸(零電平)的次數(shù)。過零分析是語音時域分析中最簡單的一種。對于連續(xù)語音信號,過零意味著時域波形通過時間軸;而對于離散信號,如果相鄰的取樣值的改變符號稱為過零。過零率就是樣本改變符號次數(shù)。信號x(n)的短時平均過零率定義為: 式中,sgn為符號函數(shù),即: 過零率有兩類重要的應(yīng)用:第一,用于粗略地描述信號的頻譜特性;第二,用于判別清音和濁音、有話和無話。從上面提到的定義出發(fā)計算過零率容易受低頻干擾,特別是50H
3、z交流干擾的影響。解決這個問題的辦法,一個是做高通濾波器或帶通濾波,減小隨機(jī)噪聲的影響;另一個有效方法是對上述定義做一點修改,設(shè)一個門限T,將過零率的含義修改為跨過正負(fù)門限。 于是,有定義: 2、實驗結(jié)果及討論本次實驗選取語音文件phrase.WAV,運行程序,結(jié)果如下圖:3、實驗代碼 x,fs,nbits=wavread('E:yuuyinphrase.WAV'); x = x / max(abs(x);%幅度歸一化到-1,1%參數(shù)設(shè)置FrameLen = 256; %幀長inc = 90; %未重疊部分amp1 = 10; %短時能量閾值amp2 = 2; zcr1 = 1
4、0; %過零率閾值zcr2 = 5; %計算過零率tmp1 = enframe(x(1:end-1), FrameLen,inc);tmp2 = enframe(x(2:end) , FrameLen,inc);signs = (tmp1.*tmp2)<0;diffs = (tmp1 -tmp2)>0.02;zcr = sum(signs.*diffs,2); %計算短時能量amp = sum(abs(enframe(filter(1 -0.9375, 1, x), FrameLen, inc).2, 2); subplot(3,1,1)plot(x)axis(1 length(x
5、) -1 1)xlabel('幀數(shù)');ylabel('Speech');subplot(3,1,2)plot(amp);axis(1 length(amp) 0 max(amp)xlabel('幀數(shù)');ylabel('Energy');subplot(3,1,3)plot(zcr);axis(1 length(zcr) 0 max(zcr)xlabel('幀數(shù)');ylabel('ZCR');作業(yè)2、3:1、 提取一段語音的傅里葉變換幅度譜x=wavread('E:yuuyinmonol
6、ogue speech_male.wav');y=fft(x); %傅里葉變換函數(shù)plot(abs(y); %振幅頻率title('傅里葉變換幅度譜');2、 提取一段語音的線性倒譜和LPC參數(shù)基本原理:由于頻率響應(yīng)反映聲道的頻率響應(yīng)和被分析信號的譜包絡(luò),因此用做反傅里葉變換求出的LPC倒譜系數(shù)。通過線性預(yù)測分析得到的合成濾波器的系統(tǒng)函數(shù)為,其沖激響應(yīng)為h(n)。h(n)的倒譜為,就是說的逆變換是存在的。設(shè),將式兩邊同時對求導(dǎo),得得到,于是有令其左右兩邊z的各次冪前系數(shù)分別相等,得到和間的遞推關(guān)系 ,按其可直接從預(yù)測系數(shù)求得倒譜。這個倒譜是根據(jù)線性預(yù)測模型得到的,又稱為
7、LPC倒譜。LPC倒譜由于利用線性預(yù)測中聲道系統(tǒng)函數(shù)H(z)的最小相位特性,因此避免了一般同態(tài)處理中求復(fù)對數(shù)的麻煩。實驗結(jié)果分析:選取語音文件monologue speech_female,先讀出原始語音文件的波形:原始語音幀倒譜和預(yù)測語音幀倒譜如下:LPC系數(shù):ai = Columns 1 through 8 1.0000 -0.5313 -0.1624 -0.2005 -0.0726 0.1481 0.0192 -0.1592 Columns 9 through 16 -0.1248 0.1857 0.0636 0.0848 -0.1475 -0.0562 0.0129 -0.0196通過
8、計算LPC系數(shù)可以很好的利用先行預(yù)測中聲道系統(tǒng)函數(shù)的最小相位特性來提取特征函數(shù)實驗代碼:I = wavread('E:yuuyinmonologue speech_female.wav');%讀入原始語音%subplot(3,1,1),plot(I);title('原始語音波形')%對指定幀位置進(jìn)行加窗處理Q = I'N = 256; % 窗長Hamm = hamming(N); % 加窗frame = 60;%需要處理的幀位置M = Q(frame - 1) * (N / 2) + 1):(frame - 1) * (N / 2) + N);Frame
9、 = M .* Hamm'%加窗后的語音幀 B,F,T = specgram(I,N,N/2,N); m,n = size(B);for i = 1:m FTframe1(i) = B(i,frame);end P =input('請輸入預(yù)測器階數(shù) = '); ai = lpc(Frame,P); % 計算lpc系數(shù)LP = filter(0 -ai(2:end),1,Frame); % 建立語音幀的正則方程FFTlp = fft(LP);E = Frame - LP; % 預(yù)測誤差pause fLength(1 : 2 * N) = M,zeros(1,N); Xm
10、= fft(fLength,2 * N);X = Xm .* conj(Xm);Y = fft(X , 2 * N);Rk = Y(1 : N);PART = sum(ai(2 : P + 1) .* Rk(1 : P);G = sqrt(sum(Frame.2) - PART); A = (FTframe1 - FFTlp(1 : length(F') ./ FTframe1 ; pause %求出預(yù)測誤差的倒譜pitch = fftshift(rceps(E);M_pitch = fftshift(rceps(Frame);subplot(2,1,1),plot(M_pitch);
11、grid;xlabel('語音幀');ylabel('/dB');title('原始語音幀倒譜');subplot(2,1,2),plot(pitch);grid;xlabel('語音幀');ylabel('/dB');title('預(yù)測誤差倒譜');pause3、 提取一段語音信號的梅爾頻率倒譜(MFCC)基本原理:MFCC:語音識別和說話人識別中,常用的語音特征是基于Mel頻率的倒譜系數(shù)(即MFCC)。MFCC參數(shù)是將人耳的聽覺感知特性和語音的產(chǎn)生機(jī)制相結(jié)合。Mel頻率可以用如下公式表示:在實際
12、應(yīng)用中,MFCC倒譜系數(shù)計算過程如下; 將信號進(jìn)行分幀,預(yù)加重和加漢明窗處理,然后進(jìn)行短時傅里葉變換并得到其頻譜。 求出頻譜平方,即能量譜,并用M個Mel帶通濾波器進(jìn)行濾波;由于每一個頻帶中分量的作用在人耳中是疊加的。因此將每個濾波器頻帶內(nèi)的能量進(jìn)行疊加,這時第k個濾波器輸出功率譜。 將每個濾波器的輸出取對數(shù),得到相應(yīng)頻帶的對數(shù)功率譜;并進(jìn)行反離散余弦變換,得到L個MFCC系數(shù),一般L取1216個左右。MFCC系數(shù)為, n=1,2,.,L 將這種直接得到的MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征做一階和二階差分,得到相應(yīng)的動態(tài)特征。實驗結(jié)果分析:采用語音文件monologue speech_
13、female.wav,運行程序,得到的MFCC特征提取圖像為:通過計算MFCC參數(shù),獲得了聲紋識別的特征參數(shù)。由于MFCC參數(shù)是對人耳聽覺特征的描述,因此,可以認(rèn)為,不同聲紋的MFCC參數(shù)距離,能夠代表人耳對兩個語音聽覺上的差異,可以為聲紋的識別提供可靠的依據(jù)。作業(yè)4:估計一段語音的基音周期1、 實 (1)、基音周期基音是發(fā)濁音時聲帶震動所引起的周期性,而基音周期是指聲帶震動頻率的倒數(shù)?;糁芷谑钦Z音信號的重要的參數(shù)之一,它描述語音激勵源的一個重要特征,基音周期信息在多個領(lǐng)域有著廣泛的應(yīng)用,如語音識別、說話人識別、語音分析與綜合以及低碼率語音編碼,發(fā)音系統(tǒng)疾病診斷、聽覺殘障者的語音指導(dǎo)等。因為
14、漢語是一種有調(diào)語言,基音的變化模式稱為聲調(diào),它攜帶著非常重要的具有辨意作用的信息,有區(qū)別意義的功能,所以,基音的提取和估計對漢語更是一個十分重要的問題。 由于人的聲道的易變性及其聲道持征的因人而異,而基音周期的范圍又很寬,而同個人在不同情態(tài)下發(fā)音的基音周期也不同,加之基音周期還受到單詞發(fā)音音調(diào)的影響,因而基音周期的精確檢測實際上是一件比較困難的事情?;籼崛〉闹饕щy反映在:聲門激勵信號并不是一個完全周期的序列,在語音的頭、尾部并不具有聲帶振動那樣的周期性,有些清音和濁音的過渡幀是很難準(zhǔn)確地判斷是周期性還是非周期性的。聲道共振峰有時會嚴(yán)重影響激勵信號的諧波結(jié)構(gòu),所以,從語音信號中直接取出僅和聲
15、帶振動有關(guān)的激勵信號的信息并不容易。語音信號本身是準(zhǔn)周期性的(即音調(diào)是有變化的),而且其波形的峰值點或過零點受共振峰的結(jié)構(gòu)、噪聲等的影響。基音周期變化范圍大,從老年男性的50Hz到兒童和女性的450Hz,接近三個倍頻程,給基音檢測帶來了一定的困難。由于這些困難,所以迄今為止尚未找到一個完善的方法可以對于各類人群(包括男、女、兒童及不向語種)、各類應(yīng)用領(lǐng)域和各種環(huán)境條件情況下都能獲得滿意的檢測結(jié)果。盡管基音檢測有許多困難,但因為它的重要性,基音的檢測提取一直是一個研究的課題,為此提出了各種各樣的基音檢測算法,如自相關(guān)函數(shù)(ACF)法、峰值提取算法(PPA)、平均幅度差函數(shù)(AMDF)法、并行處理
16、技術(shù)、倒譜法、SIFT、譜圖法、小波法等等。(2)、自相關(guān)函數(shù)對于離散的語音信號x(n),它的自相關(guān)函數(shù)定義為:R(k)=x(n)x(n-k),如果信號x(n)具有周期性,那么它的自相關(guān)函數(shù)也具有周期性,而且周期與信號x(n)的周期性相同。自相關(guān)函數(shù)提供了一種獲取周期信號周期的方法。在周期信號周期的整數(shù)倍上,它的自相關(guān)函數(shù)可以達(dá)到最大值,因此可以不考慮起始時間,而從自相關(guān)函數(shù)的第一個最大值的位置估計出信號的基音周期,這使自相關(guān)函數(shù)成為信號基音周期估計的一種工具。(3)、短時自相關(guān)函數(shù)語音信號是非平穩(wěn)的信號,所以對信號的處理都使用短時自相關(guān)函數(shù)。短時自相關(guān)函數(shù)是在信號的第N個樣本點附近用短時窗截
17、取一段信號,做自相關(guān)計算所得的結(jié)果Rm(k)=x(n)x(n-k)式中,n表示窗函數(shù)是從第n點開始加入。2、 實驗結(jié)果分析讀取wav文件function pitchx=wavread('E:yuuyinisolated word.WAV');%讀取聲音文件figure(1);stem(x,'.'); %顯示聲音信號的波形得到的波形如下:利用自相關(guān)法進(jìn)行基音周期估計n=160; %取20ms的聲音片段,即160個樣點for m=1:length(x)/n; %對每一幀求短時自相關(guān)函數(shù) for k=1:n; Rm(k)=0; for i=(k+1):n; Rm(k)
18、=Rm(k)+x(i+(m-1)*n)*x(i-k+(m-1)*n); end end p=Rm(10:n); %防止誤判,去掉前邊10個數(shù)值較大的點 Rmax,N(m)=max(p); %讀取第一個自相關(guān)函數(shù)的最大點end %補(bǔ)回前邊去掉的10個點N=N+10;T=N/8; %算出對應(yīng)的周期 figure(2);stem(T,'.');axis(0 length(T) 0 11);xlabel('幀數(shù)(n)');ylabel('周期(ms)');title('各幀基音周期');結(jié)果如下圖:由圖中可以看出基音周期大約為10ms,但
19、是圖中存在太多的野點,為此,需要對此進(jìn)行進(jìn)一步的處理,即去除野點。去除野點 T1= medfilt1(T,5); %去除野點figure(3);stem(T1,'.');axis(0 length(T1) 0 11); xlabel('幀數(shù)(n)');ylabel('周期(ms)');title('各幀基音周期');得到的結(jié)果如下: 3、 實驗代碼 function pitchx=wavread('E:yuuyinisolated word.WAV');%讀取聲音文件figure(1);stem(x,'.&
20、#39;); %顯示聲音信號的波形n=160; %取20ms的聲音片段,即160個樣點for m=1:length(x)/n; %對每一幀求短時自相關(guān)函數(shù) for k=1:n; Rm(k)=0; for i=(k+1):n; Rm(k)=Rm(k)+x(i+(m-1)*n)*x(i-k+(m-1)*n); end end p=Rm(10:n); %防止誤判,去掉前邊10個數(shù)值較大的點 Rmax,N(m)=max(p); %讀取第一個自相關(guān)函數(shù)的最大點end %補(bǔ)回前邊去掉的10個點N=N+10;T=N/8; %算出對應(yīng)的周期 figure(2);stem(T,'.');axis
21、(0 length(T) 0 11);xlabel('幀數(shù)(n)');ylabel('周期(ms)');title('各幀基音周期'); T1= medfilt1(T,5); %去除野點figure(3);stem(T1,'.');axis(0 length(T1) 0 11); xlabel('幀數(shù)(n)');ylabel('周期(ms)');title('各幀基音周期');作業(yè)5:估計一段語音的前3個共振峰頻率1、 實驗原理 (1)共振峰的概念共振峰是反映聲道諧振特性的重要特征,
22、它代表了發(fā)音信息的最直接來源,而且人在語音感知中利用了共振峰信息。所以共振峰是語音信號處理中非常重要的特征參數(shù),已經(jīng)廣泛的應(yīng)用于語音識別的主要特征和語音編碼傳輸?shù)幕拘畔ⅰ9舱穹逍畔陬l率包絡(luò)之中,共振峰參數(shù)提取的關(guān)鍵是估計自然語音頻譜包絡(luò),一般認(rèn)為譜包絡(luò)中最大值就是共振峰。 共振峰參數(shù)包括共振峰頻率,頻帶寬度和幅值,共振峰信息包含在頻率包絡(luò)之中,并認(rèn)為譜包絡(luò)中最大值就是共振峰,利用語音頻譜傅里葉變換相應(yīng)的低頻部分進(jìn)行逆變換 ,就可以得到語音頻譜的包絡(luò)曲線。依據(jù)頻譜包絡(luò)線各峰值能量的大小確定出第一到第四共振峰。(2)提取共振峰的方法基于線性預(yù)測(LPC)的共振峰提取方法。一種有效的頻譜包絡(luò)估計方法是從線性預(yù)測分析角度推導(dǎo)出聲道濾波器,根據(jù)這個聲道濾波器找出共振峰。雖然線性預(yù)測法也有一定的缺點,如其頻譜林靈敏度于人耳
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年企業(yè)內(nèi)部控制制度與執(zhí)行監(jiān)督
- 工程項目風(fēng)險管理課件 第7章 特殊模式下項目風(fēng)險管理
- 保衛(wèi)管理職位說明書深度剖析
- 八年級英語閱讀理解差異化教學(xué)策略
- 隋唐氣象:繁榮與開放的制度根基與文化密碼-七年級歷史期末核心概念貫通教學(xué)設(shè)計
- 客戶滿意度提升創(chuàng)新
- 參加培訓(xùn)交通費報銷制度
- 培訓(xùn)機(jī)構(gòu)安全生產(chǎn)管理制度
- 婦兒保醫(yī)生崗位培訓(xùn)制度
- 初級發(fā)型師培訓(xùn)制度
- 民用建筑熱工設(shè)計規(guī)范
- 學(xué)堂在線 雨課堂 學(xué)堂云 唐宋詞鑒賞 期末考試答案
- 2025至2030中國輻射監(jiān)測儀表市場投資效益與企業(yè)經(jīng)營發(fā)展分析報告
- 工程力學(xué)(本)2024國開機(jī)考答案
- 產(chǎn)品認(rèn)證標(biāo)志管理制度
- 廣州西關(guān)大屋介紹
- 基于機(jī)器視覺的SLM金屬3D打印設(shè)備視覺標(biāo)定技術(shù)研究
- CJ/T 192-2017內(nèi)襯不銹鋼復(fù)合鋼管
- GB/T 31907-2025服裝測量方法
- 消毒供應(yīng)中心清洗流程
- 買賣合同爭議仲裁應(yīng)訴答辯書范本
評論
0/150
提交評論