下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1,第2章 語音信號常見特征提取,2,2.1 短時(shí)能量和平均幅度分析,原理:語音信號能量隨時(shí)間有相當(dāng)大的變化,特別是清音段的能量一般比濁音段的小得多。 定義:,1、短時(shí)能量分析,3,決定短時(shí)能量特性有兩個(gè)條件:不同的窗口的形狀和長度。,矩形窗:,第一個(gè)零點(diǎn):,窗口形狀:,窗長對分辨率的影響 窗長越長,頻率分辨率越高,而時(shí)間分辨率越低,4,海明窗:,第一個(gè)零點(diǎn):,矩形窗譜平滑性能好,但損失高頻成分,波形細(xì)節(jié)丟失,海明窗與之相反。,5,N=51的直角窗和海明窗的對數(shù)幅頻特性。海明窗的第一個(gè)零值頻率位置比直角窗要大1倍左右,同時(shí)其帶外衰減也比直角窗大得多。,6,這里窗長的選擇對于反映語音信號的幅度變
2、化起著決定的作用。如果很大,它等效于很窄的低通濾波器,此時(shí)隨時(shí)間的變化很小,不能反映語音信號的幅度變化,信號的變化細(xì)節(jié)就看不出來;反之,窗長太小時(shí),濾波器的通帶變寬,隨時(shí)間有急劇的變化,不能得到平滑的能量函數(shù)。,窗口的長度:,標(biāo)準(zhǔn):一幀內(nèi)含有17個(gè)基音周期,10kHz取樣下,N取100200點(diǎn)。,7,Example,Speech x(n): /What she said/,8,Short time energy of words “Do you like it Do you like it”,9,2、短時(shí)平均幅度分析,定義: 框圖: 優(yōu)點(diǎn): 1、對高電平信號不如En敏感; 2、計(jì)算方法簡單。
3、缺點(diǎn):濁音和清音的區(qū)分不如En明顯。,10,短時(shí)平均能量和短時(shí)平均幅度的主要用途:,可以區(qū)分清音段與濁音段:En值大的對應(yīng)于濁音段,而En值小的對應(yīng)于清音段。En值的變化,可大致判定濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r(shí)刻。 可以用來區(qū)分聲母與韻母的分界,無聲與有聲的分界,連字(指字之間無間隙)的分界等。 作為一種超音段信息,用于語音識別中。,11,2.2 短時(shí)過零分析,定義:過零就是信號通過零值。 連續(xù)語音信號,考察其時(shí)域波形通過時(shí)間軸的情況; 離散時(shí)間信號,相鄰的取樣值改變符號則稱為過零。 語音信號序列是寬帶信號, 則不能簡單用上面的公式。,12,語音信號短時(shí)過零分析,定義:,其中:,框圖:,13
4、,14,短時(shí)門限過零率,15,短時(shí)過零分析的意義:,可以區(qū)分清音與濁音:濁音時(shí)具有較低的平均過零數(shù),而清音時(shí)具有較高的平均過零數(shù)。 利用它可以從背景噪聲中找出語音信號,可用于判斷寂靜無語音和有語音的起點(diǎn)和終點(diǎn)位置。 在背景噪聲較小時(shí)用平均能量識別較為有效,而在背景噪聲較大時(shí)用平均過零數(shù)識別較為有效。,16,無聲:S 清音:U 濁音:V,濁音的短時(shí)平均幅度最大,過零率最低,清音短時(shí)平均幅度居中,過零率最高,無聲的短時(shí)平均幅度最低,過零率居中,17,2.3 短時(shí)相關(guān)分析,互相關(guān)可測定兩個(gè)信號間的時(shí)間滯后或從雜音中檢測信號; 自相關(guān)用于研究信號本身,如信號波形的同步性、周期性等 。,18,自相關(guān)函數(shù)
5、,確定性離散信號,隨機(jī)信號或周期性信號,19,自相關(guān)函數(shù)的性質(zhì),1偶函數(shù):,2 k=0時(shí)函數(shù)取最大值,對于確定性信號其值為能量。對于隨機(jī)信號,其值為該信號的平均功率。,3 如果原序列是周期為T的周期信號,那么自相關(guān)函數(shù)也是周期為T的周期函數(shù)。,4 等于確定性信號的能量或隨機(jī)性信號的平均功率。,20,短時(shí)自相關(guān)函數(shù):,k是最大延時(shí)點(diǎn)數(shù)。,由于自相關(guān)函數(shù)是偶函數(shù),所以上式可寫成:,21,如果定義:,則上式可寫為:,所以,短時(shí)自相關(guān)函數(shù)可看作序列 通過單位樣值響應(yīng)為 的數(shù)字濾波器的輸出。,意義:可用自相關(guān)函數(shù)求基音周期;在進(jìn)行語音信號的線性預(yù)測分析時(shí),也要用到自相關(guān)函數(shù)。,22,短時(shí)自相關(guān)分析在語音
6、識別中可有下面兩個(gè)方面的應(yīng)用: 用來區(qū)分清音和濁音,因?yàn)闈嵋粜盘柺菧?zhǔn)周期性的,對濁音語音可以用自相關(guān)函數(shù)求出語音波形序列的基音周期; 另外在進(jìn)行語音信號的線性預(yù)測分析時(shí),也要用到短時(shí)自相關(guān)函數(shù)。,23,N=401時(shí)對8kHz取樣的語音計(jì)算得到的圖,計(jì)算滯后k大于0而小于250時(shí)的自相關(guān)值。前兩種情況是對濁音語音段,第三種情況是對清音語音段。,63/8000=7.78ms,51/8000=6.38ms,24,修正的短時(shí)自相關(guān)函數(shù):,由于基音周期的范圍很寬,所以應(yīng)使窗寬匹配于預(yù)期的基音周期。長基音周期用窄的窗,將得不到預(yù)期的基音周期;而短基音周期用寬的窗,自相關(guān)函數(shù)將對許多個(gè)基音周期作平均計(jì)算,這
7、是不必要的。為此可采用自適應(yīng)于基音周期的窗口長度法,可用“修正的短時(shí)自相關(guān)函數(shù)”來代替短時(shí)自相關(guān)函數(shù)。,或,25,矩形窗時(shí):,這里,是最大的延遲點(diǎn)數(shù)。,26,修正的自相關(guān)函數(shù),加矩形窗,27,2.4 短時(shí)平均幅度差函數(shù),定義如下:,如果信號是周期的,周期為N,則相距為周期的整數(shù)倍的樣點(diǎn)上的幅值是相等的。,實(shí)際語音信號 不為零,但值很小,這些極小置出現(xiàn)在整數(shù)倍周期位置上。,28,N=401時(shí)對8kHz取樣的語音計(jì)算得到的圖,計(jì)算滯后k大于0而小于250時(shí)的短時(shí)平均幅度差值。前兩種情況是對濁音語音段,第三種情況是對清音語音段。,63/8000=7.78ms,51/8000=6.38ms,29,短時(shí)
8、自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)的關(guān)系:,短時(shí)平均幅度差計(jì)算加、減法和和取絕對值的運(yùn)算,與自相關(guān)函數(shù)的相加與相乘的運(yùn)算相比,其運(yùn)算量大大減小,尤其在硬件實(shí)現(xiàn)語音信號分析時(shí)有很大好處。為此,AMDF已被用在許多實(shí)時(shí)語音處理系統(tǒng)中。,30,2.5 短時(shí)傅里葉變換,1. 短時(shí)傅里葉變換的定義:,短時(shí)傅里葉變換有兩個(gè)自變量: 和 ;所以它既是關(guān)于時(shí)間 的離散函數(shù),又是關(guān)于角頻 率的連續(xù)函數(shù)。,31,令 ,則得離散的短時(shí)傅里葉變換 : 兩個(gè)公式都有兩種解釋:當(dāng)n固定不變時(shí),它們是序列w(n-m)x(m)的標(biāo)準(zhǔn)傅里葉變換或標(biāo)準(zhǔn)的離散傅里葉變換。此時(shí) 與標(biāo)準(zhǔn)傅里葉變換具有相同的性質(zhì),而 與標(biāo)準(zhǔn)的離散傅里葉變換
9、具有相同的特性。當(dāng)w或k固定時(shí), 和 看作是時(shí)間n的函數(shù)。它們是信號序列和窗口函數(shù)序列的卷積,此時(shí)窗口的作用相當(dāng)于一個(gè)濾波器。,32,2. 標(biāo)準(zhǔn)傅里葉的解釋,此時(shí),短時(shí)傅里葉變換為:,33,根據(jù)功率譜的定義,短時(shí)功率譜和短時(shí)傅里葉變換之間的關(guān)系為:,短時(shí)功率譜是短時(shí)自相關(guān)函數(shù)的傅里葉變換:,34,短時(shí)傅里葉變換為另一種形式:,可得到,35,窗口序列的作用,窗函數(shù)應(yīng)具有如下特性: 頻率分辨率高,即主瓣狹窄、尖銳; 通過卷積,在其他頻率成分產(chǎn)生的頻譜泄漏少,即旁瓣衰減大。 這兩個(gè)要求實(shí)際上相互矛盾,不能同時(shí)滿足。,主瓣寬度與窗口寬度成反比。,36,可見,采樣周期一定時(shí), 隨窗口寬度 的增加而減小,
10、即頻率分辨率相應(yīng)得到提高,但同時(shí)時(shí)間分辨率降低;如果窗口取短,頻率分辨率下降,而時(shí)間分辨率提高,因而二者是矛盾的。,37,N500時(shí)海明窗與直角窗的濁音譜分析,38,N50時(shí)海明窗與直角窗的濁音譜分析,39,短時(shí)傅里葉變換的濾波器解釋:,令,令:,則:,則得:,40,41,端點(diǎn)檢測: 端點(diǎn)檢測是指從包含語音的一段信號中確定出語音的開始和終止點(diǎn)。有效的端點(diǎn)檢測不僅能使處理時(shí)間減到最小,而且能去除無聲段的噪聲干擾,從而使識別系統(tǒng)具有良好的識別性能。 一個(gè)較好的端點(diǎn)檢測算法應(yīng)該能夠滿足: 門限值可以對背景噪聲的變化有一定的適應(yīng); 能夠?qū)⒍虝r(shí)沖激噪聲和超過門限值的信號納入無聲段而不是有聲段; 對于爆破
11、音的寂靜段,應(yīng)將其納入語音的范圍而不是無聲段; 應(yīng)該盡量避免在檢測中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語音;,42,端點(diǎn)檢測方法分類: 基于閥值的方法: 提取每一幀語音信號的聲學(xué)特征,然后把這些特征的幅值與設(shè)定的閥值進(jìn)行比較,從而對每一語音幀進(jìn)行分類; 模式識別的方法: 需要估計(jì)語音和噪聲信號的模型參數(shù),檢測過程和識別過程類似。 由于基于閥值的方法具有簡單、快速的優(yōu)點(diǎn),從而被廣泛研究和使用,但在噪聲環(huán)境下該方法檢測效果會(huì)變得很差。 基于模式識別的方法具有準(zhǔn)確性好、穩(wěn)健性較強(qiáng)的特點(diǎn),但缺點(diǎn)是此類方法的復(fù)雜度高,運(yùn)算量大,很難應(yīng)用到實(shí)時(shí)語音編碼系統(tǒng)中。,43,傳統(tǒng)的端點(diǎn)檢測算法,1
12、. 基于能量的端點(diǎn)檢測,語音和噪音的主要區(qū)別在它們的能量上,語音段的能量比噪音段的大,語音段的能量是噪音段能量疊加語音聲波能量的和。傳統(tǒng)端點(diǎn)檢測算法認(rèn)為,如果環(huán)境噪聲和系統(tǒng)環(huán)境噪聲比較小,能夠保證系統(tǒng)的信噪比較高,那么只要計(jì)算輸入信號的短時(shí)能量或短時(shí)平均幅度就能把語音段和噪聲背景區(qū)分開。,實(shí)際中信噪比較低。,44,2、低頻能量 基本原理:語音中的濁音信號具有能量集中在低頻部分的特征,根據(jù)這一特點(diǎn),改進(jìn)短時(shí)能量閥值可以得到低頻能量,判斷濁音信號,效果較好。,45,低頻能量的判別公式為:,閥值的比較僅在低頻段進(jìn)行,顯著降低了高頻部分噪聲能量的干擾,在信噪比較差的情況下,低頻能量法仍然能夠較為準(zhǔn)確的
13、判斷濁音信號。,46,3.雙門限前端檢測法,利用短時(shí)過零率來檢測清音,用短時(shí)能量來檢測濁音 。 雙門限法是考慮到語音開始以后總會(huì)出現(xiàn)能量較大的濁音,設(shè)一個(gè)較高的門限用以確定語音已開始,再取一比稍低的門限,用以確定真正的起止點(diǎn)及結(jié)束點(diǎn)。判斷清音與無話的差別,是采用另一個(gè)較低的門限,求越過該門限的“過零率”。只要取得合適,通常背景噪聲的低門限過零率將明顯低于語音的低門限過零率值。這種方法普遍地用于有話、無話鑒別或詞語前端檢測。,47,3.基于噪聲動(dòng)態(tài)檢測的語音端點(diǎn)檢測算法,48,仿真實(shí)驗(yàn)及結(jié)果分析,圖1 “制約”在零噪聲時(shí)的檢測結(jié)果,圖2 “”在加入少量噪聲時(shí) 的檢測結(jié)果,圖3“”在噪聲加大時(shí)的檢
14、測結(jié)果,圖4 “”在噪聲進(jìn)一步加大時(shí) 的檢測結(jié)果,49,4. 基于小波變換的語音端點(diǎn)檢測算法,依據(jù):小波系數(shù)可以反映語音信號在各個(gè)子帶內(nèi)沿時(shí)間軸的能量分布,通過處理又可以捕捉到語音段的邊界,因此可以利用小波變換來對語音信號進(jìn)行端點(diǎn)檢測,以達(dá)到區(qū)分語音段和非語音段的目的。,50,步驟: 1) 先將語音信號分成由1024個(gè)采樣點(diǎn)組成的幀; 2) 對每幀進(jìn)行10層小波分解; 3) 計(jì)算所選兩個(gè)子帶(子帶4和子帶5)的小波系數(shù); 4) 計(jì)算兩個(gè)子帶的互相關(guān)系數(shù); 5) 通過幀間平滑連接所有互相關(guān)系數(shù)成為一個(gè)和原信號長度相同的序列; 6) 計(jì)算序列前220個(gè)點(diǎn)(20ms)的最大值,把此最大值作為閾值;
15、7) 比較序列中各個(gè)點(diǎn)的值。若小于閾值,則記為靜音;若大于閾值,則記為語音; 8) 按照上述過程對語音信號進(jìn)行標(biāo)記,再濾掉個(gè)別誤判點(diǎn),完成語音信號的端點(diǎn)檢測。,51,5. 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測算法,原理:選用一個(gè)三層的RNN,且隱層的輸出全部反饋到輸入層。輸入的采樣語音信號被分成三種模式:濁音(U)、清音(V)、和背景噪聲(N)。選用的RNN神經(jīng)網(wǎng)絡(luò)輸出層有三個(gè)節(jié)點(diǎn),對應(yīng)輸出的三種模式。,52,循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),53,3)仿真實(shí)驗(yàn)與結(jié)果分析,針對白噪聲和汽車噪聲環(huán)境對數(shù)字09的語音數(shù)據(jù)進(jìn)行實(shí)驗(yàn),用來做測試的語音文件每組50個(gè),包括男生和女生發(fā)音,含有汽車噪聲的語音信號平均信噪比10
16、dB和5dB,分別模擬汽車中速和高速行駛環(huán)境下的錄音。,54,實(shí)驗(yàn)室背景下基于能量和過零率的端點(diǎn)檢測結(jié)果,55,信噪比15dB時(shí)基于能量和過零率的檢測結(jié)果,56,信噪比15dB時(shí)基于小波變換的端點(diǎn)檢測結(jié)果,57,信噪比5dB時(shí)基于小波變換的端點(diǎn)檢測結(jié)果,58,信噪比5dB時(shí)基于循環(huán)神經(jīng)網(wǎng)絡(luò)小波變換的端點(diǎn)檢測結(jié)果,59,噪聲情況下各種語音端點(diǎn)檢測方法比較,60,基于能量和過零率的端點(diǎn)檢測方法在實(shí)驗(yàn)室環(huán)境下可以獲得較好的端點(diǎn)檢測結(jié)果,隨著信噪比的降低該方法檢測的準(zhǔn)確率將隨之下降,基于小波變換和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的端點(diǎn)檢測方法對于噪聲具有一定的魯棒性,但是隨著噪聲的明顯增大,小波變換的方法得到的檢測結(jié)
17、果仍然有所下降,與之相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法的魯棒性要優(yōu)于基于小波變換的方法,具有很大的優(yōu)越性和實(shí)用性。,結(jié)果分析:,61,2.6 語音信號的倒譜分析,求語音倒譜特征參數(shù),通過同態(tài)處理來實(shí)現(xiàn)。,同態(tài)處理(同態(tài)濾波):解卷,將卷積關(guān)系變?yōu)榍蠛吞幚怼?將語音信號的聲門激勵(lì)和聲道響應(yīng)分離開。,62,同態(tài)信號處理的基本原理,信號分類:加性信號、乘積性信號、卷積性信號等。 同態(tài)信號處理目的:將非線性問題轉(zhuǎn)化為線性問題來處理。 同態(tài)信號處理分類:乘積同態(tài)處理和卷積同態(tài)處理兩種。,63,特征系統(tǒng) D* 反特征系統(tǒng) D*-1:它是特征系統(tǒng)的反運(yùn)算,卷積同態(tài)系統(tǒng):,64,特征系統(tǒng) D*,65,反特征系統(tǒng) D*
18、-1:,66,復(fù)倒譜和倒譜,是一個(gè)時(shí)域序列,我們 稱是x(n)的“復(fù)倒頻譜”,簡稱為“復(fù)倒譜”,有時(shí)也稱作對數(shù)復(fù)倒譜。 所處的離散時(shí)域,稱之為“復(fù)倒譜域”。這樣,特征系統(tǒng)D* 將離散時(shí)域中的卷積運(yùn)算轉(zhuǎn)換為復(fù)倒譜域中的加性運(yùn)算。進(jìn)行同態(tài)信號處理后,即可完成解卷的任務(wù)。若時(shí)域中有 ,則復(fù)倒譜域中 。假設(shè) 位于復(fù)倒譜域中不同的間隔內(nèi)并且互不交替,那么適當(dāng)?shù)卦O(shè)計(jì)線性系統(tǒng),便可將x1(n)或x2(n)分離出來。,67,特征系統(tǒng) D*,反特征系統(tǒng)D*-1,c(n)是序列x(n)對數(shù)幅度譜的傅里葉逆變換,c(n)稱為“倒頻譜”或簡稱為“倒譜”,有時(shí)也稱“對數(shù)倒頻譜”。,68,復(fù)倒譜和倒譜的特點(diǎn)和關(guān)系:,1.
19、復(fù)倒譜要進(jìn)行復(fù)對數(shù)運(yùn)算,倒譜只進(jìn)行實(shí)對數(shù)運(yùn)算。,2.倒譜情況下,一個(gè)序列經(jīng)過正反兩個(gè)特征系統(tǒng)以后不能還原成自身,因?yàn)閬G失相位信息。,4.已知一個(gè)實(shí)序列的復(fù)倒譜,可以求其倒譜。,5.已知倒譜,可以求復(fù)倒譜。,69,語音信號的復(fù)倒譜,語音信號可看作是聲門激勵(lì)信號和聲道沖激響應(yīng)序列的卷積。 1 聲門激勵(lì)信號,發(fā)濁音時(shí),聲門激勵(lì)是以基音周期為周期的沖激序列:,70,得到復(fù)倒譜:,對上式取對數(shù)并按泰勒級數(shù)展開:,71,或:,一個(gè)周期沖激的有限長度序列,其復(fù)倒譜也是一個(gè)周期沖激序列,而且長度不變,只是序列變?yōu)闊o限長度序列。同時(shí)其振幅隨著k值的增大而衰減。,72,2 聲道沖激響應(yīng)序列,如果用最嚴(yán)格(也是最普遍的)極零模型來描述聲道沖激響應(yīng),則其Z變換的形式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 衛(wèi)生室安全生產(chǎn)上墻制度
- 衛(wèi)生院醫(yī)療檔案保管制度
- 幼兒園衛(wèi)生疫情防控制度
- 奶茶店衛(wèi)生巡檢制度
- 社區(qū)衛(wèi)生服務(wù)站社保制度
- 學(xué)校新衛(wèi)生檢查制度
- 鄉(xiāng)村衛(wèi)生室獎(jiǎng)懲制度
- 實(shí)驗(yàn)室衛(wèi)生清潔制度
- 食品9衛(wèi)生安全制度
- 小學(xué)圖書室衛(wèi)生管理制度
- 公路工地試驗(yàn)室安全培訓(xùn)課件
- 辦公樓裝修施工質(zhì)量控制方案
- GJB1406A-2021產(chǎn)品質(zhì)量保證大綱要求
- 醫(yī)院培訓(xùn)課件:《高血壓的診療規(guī)范》
- 2025亞馬遜云科技中國峰會(huì):基于Amazon Lambda 的AI應(yīng)用創(chuàng)新 (Featuring Dify)
- 口腔種植醫(yī)生進(jìn)修匯報(bào)
- 內(nèi)蒙古自治區(qū)滿洲里市2026屆中考聯(lián)考英語試題含答案
- 特教數(shù)學(xué)教學(xué)課件
- 高三一??己蠹议L會(huì)課件
- 2025年云南省中考化學(xué)試卷真題(含標(biāo)準(zhǔn)答案及解析)
- 職業(yè)技術(shù)學(xué)院2024級智能網(wǎng)聯(lián)汽車工程技術(shù)專業(yè)人才培養(yǎng)方案
評論
0/150
提交評論