版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第一章 緒論1.語音信號處理是以語音語言學(xué)和數(shù)字信號處理為基礎(chǔ)而形成的一門涉及面很廣的綜合性的學(xué)科。p1d32.語音信號處理的應(yīng)用技術(shù)列舉:語音編碼、語音識別、語音合成、說話人識別和語種辨識、語音轉(zhuǎn)換和語音隱藏(語音信息偽裝、語音數(shù)字水印技術(shù))、語音增強等p4d33.當(dāng)前語音信號處理應(yīng)用的3個主流技術(shù):矢量量化技術(shù)、隱馬爾可夫模型技術(shù)、人工神經(jīng)網(wǎng)絡(luò)技術(shù)。p4d3第二章 語音信號處理基礎(chǔ)知識1.語音是組成語言的聲音,是聲音(Acoustic)和語言(Language)的組合體。p5d22.語音的基本聲學(xué)特性包括音色,音調(diào),音強、音長。p7d2Ø 音色:也叫音質(zhì),是一種聲音區(qū)別于另一種聲
2、音的基本特征。Ø 音調(diào):是指聲音的高低,它取決于聲波的頻率。Ø 音強:聲音的強弱,它由聲波的振動幅度決定。Ø 音長:聲音的長短,它取決于發(fā)音時間的長短。3. 說話時一次發(fā)出的,具有一個響亮的中心,并被明顯感覺到的語音片段叫音節(jié)(Syllable)。一個音節(jié)可以由一個音素(Phoneme)構(gòu)成,也可以由幾個音素構(gòu)成。音素是語音發(fā)音的最小單位。p7d34.任何語言都有語音的元音(Vowel)和輔音(Consonant)兩種音素。p7d38.當(dāng)聲帶振動發(fā)出的聲音氣流從喉腔、咽腔進入口腔從唇腔出去時,這些聲腔完全開放,氣流順利通過,這種音稱為元音。p7d39.呼出的聲流,
3、由于通路的某一部分封閉起來或受到阻礙,氣流被阻不能暢通,而克服發(fā)音器官的這種阻礙而產(chǎn)生的音素稱為輔音。p7d37.發(fā)輔音時由聲帶是否振動引起濁音和清音的區(qū)別,聲帶振動的是濁音,聲帶不振動的是清音。p7d38.元音構(gòu)成音節(jié)的主干(因為無論從長度還是能量看,元音在音節(jié)中都占主要部分。)p7d39.元音的一個重要聲學(xué)特性是共振峰(Formant)。共振峰參數(shù)是區(qū)別不同元音的重要參數(shù),它一般包括共振峰頻率(Formant Frequency)的位置和頻帶寬度(Formant Bandwidth)。p7d5 16.人類的聲道和鼻道可以看作是非均勻截面的聲道管,聲道管的諧振頻率稱為共振峰頻率(共振峰)。p
4、7d510.漢語音節(jié)一般由聲母、韻母和聲調(diào)三部分組成。漢語普通話中有6000多個常用字,每個漢字是一個音節(jié)。p10d610. 發(fā)濁音時,氣流通過聲門時使聲帶發(fā)生振動,產(chǎn)生準(zhǔn)周期激勵脈沖串,這個脈沖串的周期就稱為基音周期(pitch),其倒數(shù)成為基音頻率。11.漢語是一種聲調(diào)語言,聲調(diào)的變化就是濁音基音周期(或基音頻率)的變化。p14d513. 無論是單音節(jié)語音還是連續(xù)語音,其中濁音段的基因頻率是隨時間而變化的,基因頻率的不同軌跡成為聲調(diào)。p9d1114. 當(dāng)兩個響度不同的聲音作用于人耳時,響度較高的頻率成分的存在會影響到對響度較低的頻率成分的感受,使其變得不易察覺,這種現(xiàn)象成為掩蔽效應(yīng)。15.
5、語音信號的生成模型可由激勵模型、聲道模型和輻射模型三個子模型構(gòu)成,三者是串聯(lián)(串聯(lián)/并聯(lián))的關(guān)系。p21-2616.語音信號激勵模型一般分為濁音激勵和清音激勵,發(fā)濁音時激勵模型為脈沖波。p21d617.語音信號激勵模型一般分為濁音激勵和清音激勵,發(fā)清音時激勵信號通常被模擬為隨機白噪聲。p22d216.語音信號生成模型的輻射模型是一階類高通濾波器。 p25d217.設(shè)截取的一段語音共有160個樣本,而采樣頻率為8kHz,則該段語音持續(xù)時間為20ms。18.設(shè)采樣頻率為8kHz,則25ms長的語音共有200個采樣值。18.研究語音的時頻分析特性所采用的與時序相關(guān)的傅立葉分析的顯示圖形稱為語譜圖(S
6、onogram,或者Spectrogram)p29d119.語譜圖是一種三維頻譜,它是表示語音頻譜隨時間變化的圖形,其縱軸為頻率,橫軸為時間,任一給定頻率成分在給定時刻的強弱用相應(yīng)點的灰度或色調(diào)的濃淡來表示。p29d120.傳輸函數(shù)形式為的共振峰模型為(2)數(shù)學(xué)模型;1.全零點;2.全極點;3.極零點;4.以上都不是;21.傳輸函數(shù)形式為的共振峰模型在結(jié)構(gòu)上為(1 )模型;1.級聯(lián)型2.并聯(lián)型;3.混合型;4.以上都不是;22.傳輸函數(shù)形式為的共振峰模型為(3)數(shù)學(xué)模型;1.全零點;2.全極點;3.極零點;4.以上都不是;23.傳輸函數(shù)形式為的共振峰模型在結(jié)構(gòu)上為(2)模型;1.級聯(lián)型2.并聯(lián)
7、型;3.混合型;4.以上都不是;24.簡述語音產(chǎn)生過程的三個模型:25.基音頻率、共振峰、語譜圖的概念,會從語音波形中識別基音周期與共振峰頻率。 發(fā)濁音時,氣流通過聲門時使聲帶發(fā)生振動,產(chǎn)生準(zhǔn)周期激勵脈沖串,這個脈沖串的周期就稱為基音周期(pitch),其倒數(shù)成為基音頻率。一般來說,男性說話的基音頻率大致分布在50-200Hz范圍內(nèi),女性和小孩的基因頻率在200-450Hz之間。 人類的聲道和鼻道可以看作是非均勻截面的聲道管,聲道管的諧振頻率成為共振峰頻率,簡稱共振峰。共振峰由低到高依次為第一共振峰、第二共振峰、第三共振峰、。,相應(yīng)的頻率用F1、F2、F3。表示。一般濁音中可以辨識的共振峰有5
8、個,其中前三個對于區(qū)別不同語音至關(guān)重要。 語譜圖描述了語音信號隨時間而變化的頻譜特性??v軸對應(yīng)于頻率、橫軸對應(yīng)于時間,圖像的黑白度對應(yīng)于信號的能量。26.漢語中的四種聲調(diào)與基音頻率的關(guān)系是什么? 無論是單音節(jié)語音還是連續(xù)語音,其中濁音段的基因頻率是隨時間而變化的,基因頻率的不同軌跡成為聲調(diào)。29.音調(diào):音調(diào)是聽覺分辨聲音高低時,用于描述這種感受的一種特性。音調(diào)與聲音的頻率并不成正比,還與聲音的強度及波形有關(guān)。描述音調(diào)的單位是美(mel)。一個高于聽閾40dB、頻率為1KHz的純音所產(chǎn)生的音調(diào)定位1000mel,如果一個純音聽起來比1000mel的聲音調(diào)子高一倍,則其音調(diào)為2000mel。音調(diào)與
9、頻率的關(guān)系近似表示為:27.掩蔽效應(yīng):當(dāng)兩個響度不同的聲音作用于人耳時,響度較高的頻率成分的存在會影響到對響度較低的頻率成分的感受,使其變得不易察覺,這種現(xiàn)象成為掩蔽效應(yīng)。第三章 語音信號分析21.語音信號分析采用短時分析技術(shù)。p32d220. 語音信號分析,根據(jù)所分析出的參數(shù)的性質(zhì)的不同可以分為:時域分析、頻域分析、倒頻域分析、線性預(yù)測分析等。根據(jù)分析方法的不同,分為模型分析方法和非模型分析方法兩種。p32d322.由于輻射模型的影響,語音信號高頻部分衰減較大,所以在預(yù)處理中需采用預(yù)加重技術(shù),即提升高頻部分,使信號的頻譜變得平坦。23.不論是分析怎么樣的參數(shù)以及采用什么分析方法,在按幀進行語
10、音分析,提取語音參數(shù)之前,有一些經(jīng)常使用的、共同的短時分析技術(shù)必須預(yù)先進行,如語音信號的數(shù)字化、語音信號的端點檢測、預(yù)加重、加窗和分幀等23.語音信號加窗、分幀常用的窗函數(shù)有矩形窗、漢明窗等(列舉兩個)。25.對于頻率分布為03400Hz的語音信號,最低無失真采樣頻率應(yīng)為6800Hz25.若信號波形的變化足夠大,或量化間隔足夠小時,以下有關(guān)量化噪聲描述錯誤的是(4)p33d21.是平穩(wěn)的白噪聲過程2.量化噪聲與輸入信號不相關(guān)3.量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布4.是服從高斯分布的隨機過程26.以下那種分析不屬于語音信號時域分析?(4)1.短時過零率分析;2.短時相關(guān)分析;3.
11、短時平均幅度差函數(shù);4.同態(tài)分析;短時能量的主要用途不包括以下那一項(4)p38d51.可以區(qū)分濁音段和清音段;2.可以用來查找聲母和韻母的分界;3.可以用來查找無聲和有聲的分界;4.可以區(qū)分高頻和低頻分量;24.采用自相關(guān)函數(shù)法對基音周期進行估計時,先用60900Hz的帶通濾波器對語音信號進行濾波,以下描述錯誤的是(4)p71d21.可減少共振峰的影響;2.可抑制50Hz的電源干擾;3.可保留基音頻率的一、二次諧波;4.為了防止8kHz采樣時發(fā)生混疊干擾;定義語音信號的短時自相關(guān)函數(shù)為:,則以下表述錯誤的是(2):p40d3(1) 如果是周期的,則是同周期的周期函數(shù);(2) 是奇函數(shù);(3)
12、 7.設(shè)序列x(n)的短時能量定義為:其中窗函數(shù)表示為:試求En的一個遞推公式,用En-1和輸入x(n)表示En8.設(shè)序列x(n)的短時能量定義為:其中窗函數(shù)表示為:試求En的一個遞推公式9.設(shè)短時平均過零率的定義為:證明1.語音的時變性與短時平穩(wěn)性(p32d2):語音信號的波形有些波形段有較強的周期性,有的波形段有較強的噪聲性,并且周期性語音和噪聲性語音的特征也在不斷變化中,從而具有時變性。但在較短時間內(nèi)(10-30ms)語音信號的特征可以認為基本保持不變,這就是語音信號的短時平穩(wěn)性。11.常用的時域基音檢測算法有哪些(任選兩種作答)?它們的基本原理是什么?Ø 自相關(guān)函數(shù)法:濁音信
13、號的自相關(guān)函數(shù)在基音周期的整數(shù)倍位置上出現(xiàn)峰值;而清音的自相關(guān)函數(shù)沒有明顯的峰值出現(xiàn)。因此檢測是否有峰值就可判斷是清音或濁音,檢測峰值的位置就可提取基音周期值。Ø 短時平均幅度差函數(shù)法:對周期性的濁音語音,短時平均幅度差函數(shù)也呈現(xiàn)與濁音語音周期相一致的周期特性,短時平均幅度差函數(shù)在周期的各個整數(shù)倍點上具有谷值特性而不是峰值特性,可確定基音周期;而對于清音語音信號,短時平均幅度差函數(shù)卻沒有這種周期特性。利用短時平均幅度差函數(shù)的這種特性,可以判定一段語音是濁音還是清音,并估計出濁音語音的基音周期。12.濁音與清音的短時能量、短時平均過零率、短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)有什么差異?導(dǎo)
14、致這些差異的根本原因是什么? 相對來說濁音的短時能量大、短時平均過零率低、短時自相關(guān)函數(shù)的峰值位置具有周期性,短時平均幅度差函數(shù)的谷值位置具有周期性。這是因為濁音是由聲帶振動引起的脈沖波激勵聲道產(chǎn)生的,能量較大,頻率較低,具有與激勵波相同的周期性結(jié)構(gòu),而清音是由白噪聲激勵而產(chǎn)生,能量較低,頻率較高,不具有周期性。13.若用信號的短時傅立葉變換來定義其短時能量譜密度:同時定義信號的短時自相關(guān)函數(shù)為:證明當(dāng)時,與互為傅立葉變換對。15.設(shè)階線性預(yù)測器表達式為,證明在最小均方預(yù)測誤差準(zhǔn)則下,預(yù)測系數(shù)滿足方程組:,其中。解:預(yù)測誤差為,均方誤差為,為使E2(n)最小,對aj求偏導(dǎo),并令其為零,有:,即
15、又因為,代入上式有設(shè)語音信號的線性預(yù)測模型為,模型增益,求該語音信號的線性預(yù)測譜表達式。p59解: 第四章 矢量量化技術(shù)1.根據(jù)量化的值的維數(shù)的不同,量化可分為標(biāo)量量化和矢量量化。2.矢量量化常用的失真測度有:歐式距離測度、加權(quán)歐式距離測度、Itakura-Saito距離、似然比測度和識別失真測度。3. 訓(xùn)練矢量量化碼本時,初始碼本的生成可采用隨機選取法、分裂法、鏈映射法等。3.矢量量化LBG算法每次迭代時將訓(xùn)練集分割為若干個子集所依據(jù)的是(1):1.最鄰近準(zhǔn)則;2. Centroid質(zhì)心條件;3.收斂準(zhǔn)則;4.熵極大化準(zhǔn)則;3.矢量量化LBG算法每次迭代時計算新碼字所依據(jù)的是(2):1.最鄰
16、近準(zhǔn)則;2. Centroid質(zhì)心條件;3.收斂準(zhǔn)則;4.熵極大化準(zhǔn)則;第五章 隱馬爾可夫模型1.HMM是一個雙內(nèi)嵌式隨機過程。2.HMM的輸出符號序列可見,而狀態(tài)序列不可見。3.下圖是一個三狀態(tài)HMM,S1是起始狀態(tài),S3是終了狀態(tài),該HMM只能輸出a和b兩種符號,由下圖的Viterbi算法可知輸出aab的最佳路徑為S1->S1->S2->S33.對于語音識別用HMM,可用六個參數(shù)來定義,這六個參數(shù)分別表示什么? S是模型中狀態(tài)的有限集合;O是輸出的觀測值序號的集合;A是狀態(tài)轉(zhuǎn)移概率的集合;B是輸出觀測值概率的集合;pai是系統(tǒng)初始狀態(tài)概率的集合;F是終了狀態(tài)的集合。1.從
17、左到右型HMM(即狀態(tài)的轉(zhuǎn)移只能從左到右或者停留在原狀態(tài),不能返回到以前的狀態(tài))的狀態(tài)轉(zhuǎn)移矩陣具有何種形式?(1)1.上三角矩陣;2.下三角矩陣;3.對稱矩陣;4.非奇異矩陣;2.針對給定的HMM模型,尋找與給定觀察字符序列對應(yīng)的最佳狀態(tài)序列可采用(3)1.前向算法;2.后向算法;3.Viterbi算法;4.Baum-Welch算法訓(xùn)練HMM模型采用(4)1.前向算法;2.后向算法;3.Viterbi算法;4.Baum-Welch算法;下圖是一個三狀態(tài)HMM,S1是起始狀態(tài),S3是終了狀態(tài),該HMM只能輸出a和b兩種符號,試求解:(參考P98)1.該HMM的轉(zhuǎn)移概率矩陣A;2.從S1出發(fā)到S3
18、截止,輸出符號序列abb的概率;3.最大可能的狀態(tài)序列;第七章 語音編碼1.語音編碼(Speech Coding)的目的是在保證語音質(zhì)量和可懂度的條件下,采用盡可能少的比特數(shù)來表示語音。即降低數(shù)碼率。2.信源編碼主要解決有效性問題;信道編碼主要解決可靠性問題。3.語音編碼通常分為三類:波形編碼、參數(shù)編碼與混合編碼。4.波形編碼力圖使重建后的語音時域信號的波形與原語音信號保持一致。具有適應(yīng)能力強、話音質(zhì)量好等優(yōu)點,缺點是編碼速率高。5.參數(shù)編碼又稱聲碼器技術(shù),從聽覺感知的角度注重語音的重現(xiàn),通過建立語音信號的產(chǎn)生模型,提取其特征參數(shù)來編碼,波形上不要求與原信號匹配。優(yōu)點是編碼速率低;缺點是語音質(zhì)
19、量差,自然度低,對環(huán)境噪聲敏感。6.若普通電話通信中采用8kHz采樣,并進行12bit量化,則數(shù)碼率為96Kbit/s。7.對語音信號進行壓縮編碼的基本依據(jù)是語音信號的冗余度和人的聽覺感知機理。8.人的聽覺生理和心理特性對于語音感知的影響主要表現(xiàn)在:1)人類聽覺系統(tǒng)具有掩蔽效應(yīng);2)人耳對不同頻段聲音的敏感程度不同;3)人耳對語音信號的相位變化不敏感。9.感覺加權(quán)濾波器是根據(jù)人耳的掩蔽效應(yīng)來設(shè)計的。p138d110.均勻量化的特點是:大信號時量化信噪比大,小信號時量化信噪比小。10.在增量調(diào)制(DM)中,語音信號波形發(fā)生急劇變化時,容易出現(xiàn)譯碼波形不能充分跟蹤這種急劇變化而產(chǎn)生失真的現(xiàn)象,稱為斜率過載。p150d311.利用參數(shù)編碼實現(xiàn)語音通信的設(shè)備通常稱為聲碼器。p161d312.LPC聲碼器采用的編碼方式為參數(shù)編碼(波形編碼/參數(shù)編碼)。7語音信號中存在多種冗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- YY/T 0497-2025一次性使用無菌胰島素注射器
- 醫(yī)療行業(yè)醫(yī)院干部述職報告總結(jié)匯報課件
- 光化還原工藝參數(shù)設(shè)定與控制制度
- 2026年劇本殺運營公司行政值班管理制度
- 機場槍支安全課件
- 2026年遠程辦公技術(shù)發(fā)展報告
- 2026及未來5年中國電動玩具行業(yè)市場行情監(jiān)測及發(fā)展趨向研判報告
- 2026年及未來5年中國起重船行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略規(guī)劃研究報告
- 2025年醫(yī)用防護服無紡布材料創(chuàng)新行業(yè)報告
- 交管輔警面試題目及答案
- 病媒生物防制服務(wù)外包 投標(biāo)方案(技術(shù)方案)
- 年產(chǎn)6萬噸環(huán)氧樹脂工藝設(shè)計
- 軌道線路養(yǎng)護維修作業(yè)-改道作業(yè)
- QB∕T 3826-1999 輕工產(chǎn)品金屬鍍層和化學(xué)處理層的耐腐蝕試驗方法 中性鹽霧試驗(NSS)法
- 北師大版五年級數(shù)學(xué)上冊第七單元《可能性》教案
- 2023-2024學(xué)年上海市閔行區(qū)四上數(shù)學(xué)期末綜合測試試題含答案
- 解除勞動合同證明電子版(6篇)
- 呼吸科規(guī)培疑難病例討論
- 有關(guān)中國居民死亡態(tài)度的調(diào)查報告
- 核對稿100和200單元概述
- 醫(yī)學(xué)統(tǒng)計學(xué)(12)共143張課件
評論
0/150
提交評論