第01講--緒論-語音信號處理基礎(chǔ)知識.ppt

上傳人：1*** IP屬地：浙江上傳時(shí)間：2020-08-09 格式：PPT 頁數(shù)：63 大?。?95.51KB 積分：20 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余58頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、語音信號處理是許多信息領(lǐng)域應(yīng)用的核心技術(shù)之一，是目前發(fā)展最為迅速的信息科學(xué)研究領(lǐng)域中的一個(gè)。語音信號處理是目前極為活躍和熱門的研究領(lǐng)域，其研究涉及一系列前沿科研課題，且處于迅速發(fā)展之中；其研究成果具有重要的學(xué)術(shù)及應(yīng)用價(jià)值。,該門課程的教學(xué)要求：大綱：選修課考查（考試方式）,全書 12章（32學(xué)時(shí),講10章）第1章緒論第2章語音信號處理基礎(chǔ)知識第3章語音信號分析第4章矢量量化技術(shù) 第5章隱馬爾可夫模型第7章語音編碼第8章語音合成第9章語音識別第10章說話人識別與語種辨識第14章語音增強(qiáng),1. 語音信號處理技術(shù)的應(yīng)用 2. 語音信號處理技術(shù)的發(fā)展概況,第1

2、章緒論,1. 1 語音信號處理技術(shù)的應(yīng)用語音是人類最重要、最有效、最常用和最方便的交換信息的方式；讓計(jì)算機(jī)能聽懂人類的語言，是人類自計(jì)算機(jī)誕生以來夢寐以求的想法；語音信號處理技術(shù)始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系，并且一起發(fā)展。下面介紹語音信號處理技術(shù)的廣泛應(yīng)用。,（1）語音編碼（語音壓縮編碼、語音壓縮）必要性：數(shù)字化語音信號的存儲要占用一定的空間，傳輸要占用一定的帶寬。為了節(jié)省空間和帶寬需要對語音信號進(jìn)行壓縮編碼。如果只按照傳統(tǒng)的模數(shù)轉(zhuǎn)換技術(shù)對語音信號進(jìn)行數(shù)字化，那就必須傳輸或存儲大量的數(shù)據(jù)。假定采樣速率為8kHz，對每個(gè)樣本進(jìn)行16位A/D轉(zhuǎn)換，那么每秒的語音數(shù)據(jù)

3、量將達(dá)到128kbps。這么高的位率通常是不允許的，必須對其進(jìn)行壓縮。,發(fā)展現(xiàn)狀：自從30年代末提出脈沖編碼調(diào)制(PCM)原理以及聲碼器的概念后，語音編碼一直沿著兩個(gè)方向發(fā)展:語音信號波形編碼與聲碼化編碼，或者是非參數(shù)化編碼與參數(shù)化編碼。參數(shù)編碼有時(shí)也稱為模型編碼。 1）波形編碼語音信號波形編碼的特點(diǎn)是:力圖使重建的語音波形保持原始語音信號的波形形狀。這類編碼器通常將語音信號當(dāng)作一般的波形信號來處理，具有適應(yīng)能力強(qiáng)、話音質(zhì)量好等優(yōu)點(diǎn)，但是所需要的編碼速率高。如：PCM、增量調(diào)制、自適應(yīng)增量調(diào)制等。,2）參數(shù)編碼參數(shù)編碼通過對語音信號特征參數(shù)的提取及編碼，力圖使重建的語音信號具有盡可能高的可

4、懂度，即保持原語音的語意，但是重建信號的波形同原語音信號的波形相比可能會有相當(dāng)大的差別。參數(shù)編碼的主要問題是:合成語音質(zhì)量低，自然度較差，有時(shí)甚至連連熟人也不一定能聽出講話人是誰。另外，這類編碼器對講話的環(huán)境噪聲比較敏感，需要安靜的講話環(huán)境才能給出較高的可懂度。如：線性預(yù)測聲碼器等。,3）混合編碼混合編碼克服了原有波形編碼與參數(shù)編碼的弱點(diǎn)，結(jié)合了它們各自的長處，在416kbps速率上能夠得到質(zhì)量比較好的合成語音，在本質(zhì)上具有波形編碼的優(yōu)點(diǎn)。如：多脈沖激勵(lì)線性預(yù)測編碼、規(guī)則脈沖激勵(lì)線性預(yù)測編碼、碼本激勵(lì)線性預(yù)測編碼等。,應(yīng)用：帶寬受限信道的數(shù)字話音傳輸（蜂窩移動通信、衛(wèi)星通信等）、可視電話、

5、語音的數(shù)字存儲、呼叫服務(wù)（數(shù)字錄音電話、語音信箱等）；方向：低碼率高質(zhì)量的音頻編碼技術(shù)和算法。語音壓縮通常根據(jù)實(shí)際應(yīng)用情況，進(jìn)行三方面的均衡，即位率、質(zhì)量和清晰度、編解碼算法的復(fù)雜度。例如，有的數(shù)字語音錄放系統(tǒng)對編碼器實(shí)時(shí)性要求不高，但希望有較高的壓縮效率，以降低所需存儲器的容量;對于解碼器，則要求算法盡量簡單、成本低，并能夠?qū)崟r(shí)或基本實(shí)時(shí)解碼;數(shù)字通信系統(tǒng)則要求能夠?qū)崟r(shí)編解碼。,（2）語音識別作用：將語音轉(zhuǎn)換成等價(jià)的書面信息，即讓計(jì)算機(jī)聽懂人說話。語音識別是建立計(jì)算機(jī)聽覺系統(tǒng)的基礎(chǔ)，它使得任何計(jì)算機(jī)之間利用自然語言進(jìn)行通信成為可能。語音識別的一般過程：在訓(xùn)練階段，用戶將詞匯表中的每個(gè)

6、詞依次說一遍，語音分析單元對輸入語音進(jìn)行分析，并將其特征矢量序列作為模板存入模板庫。在識別階段，將對輸入語音分析得到的特征序列與模板庫中的每一個(gè)模板相匹配比較，將相似度最高者作為識別結(jié)果輸出。,預(yù)處理包括反混疊濾波、數(shù)模轉(zhuǎn)換、自動增益控制、噪聲消除、去除聲門激勵(lì)及口唇輻射影響，以及端點(diǎn)檢測和自動分段。其中，端點(diǎn)檢測和自動分段決定于系統(tǒng)選擇的識別單元的大小?；梢允且羲亍⒁艄?jié)字、或詞?；x得小，存儲的模板量可以減少，但對分割技術(shù)要求會提高，并會影響識別率。,提取各種聲學(xué)參數(shù)，包括時(shí)域參數(shù)、頻域參數(shù)、倒譜域參數(shù)和超音段信息。時(shí)域參數(shù)：短時(shí)平均能量、短時(shí)平均過零率、和短時(shí)自相關(guān)函數(shù)。頻域參

7、數(shù)：濾波器組平均譜、線譜、共振峰信息共振峰頻率、帶寬、幅值、和線性預(yù)測系數(shù)。倒譜域參數(shù)：倒譜系數(shù)。超音段信息：音長、音調(diào)、聲調(diào),用統(tǒng)計(jì)模型通常是隱馬爾可夫模型，由訓(xùn)練樣本得到各類的模型參數(shù)。參考模板就是由訓(xùn)練或聚類的方法得到的語音庫。未知的語音樣本要通過與語音庫中的各個(gè)模板進(jìn)行比較才能得到識別。,應(yīng)用前景： A、聲控應(yīng)用，計(jì)算機(jī)識別語音內(nèi)容，并實(shí)施相應(yīng)的動作。典型系統(tǒng)：聲控電話轉(zhuǎn)換、聲控語音撥號、聲控智能玩具、信息網(wǎng)絡(luò)查詢、銀行、家庭服務(wù)等； B、聽寫系統(tǒng)，以口授方式將文字輸入計(jì)算機(jī)； C、自動口語翻譯，將一種語言翻譯成另一種語言，如中科院開展的CSTAR計(jì)劃； D、人機(jī)交互；

8、E、移動計(jì)算設(shè)備語音輸入； F、說話人識別，安全加密、法庭取證、銀行信息電話查詢、公安機(jī)關(guān)破案等。,（3）說話人識別根據(jù)語音辨別說話人。說話人識別分為訓(xùn)練階段和識別階段。這兩個(gè)階段都必須根據(jù)說話人的特征建立模型進(jìn)行識別。根據(jù)判決模式不同可以將說話人識別分為說話人辨識和說話人確認(rèn)兩類。根據(jù)對訓(xùn)練和測試語音內(nèi)容的要求不同，還可以將說話人識別分為固定文本的說話人識別和任意文本的說話人識別。,說話人識別的主要方法：基于模板的方法：DTW、矢量量化基于隨機(jī)模板的方法：混合高斯模型、隱馬爾科夫模型基于人工神經(jīng)網(wǎng)絡(luò)的方法基于支持向量機(jī)的方法應(yīng)用：廣泛應(yīng)用于人機(jī)接口、保安、軍事、司法等方面。

9、（保密設(shè)施的門禁系統(tǒng)、個(gè)人賬戶的身份驗(yàn)證、司法調(diào)查中的聲音認(rèn)證等）,說話人識別和語音識別比較同：都是語音信號處理技術(shù)同計(jì)算機(jī)技術(shù)相結(jié)合的產(chǎn)物;都是應(yīng)用機(jī)器設(shè)備(主體是計(jì)算機(jī))來模仿人對語音的感知和處理能力; 都是基本的模式識別問題;都可以分為訓(xùn)練與測試兩個(gè)階段，訓(xùn)練時(shí)提取出某些語音特征，建立相應(yīng)的模型，測試時(shí)提取出相同的語音特征，再根據(jù)一定的相似性準(zhǔn)則作出判斷;兩者有時(shí)采用相同的語音特征。異:(l)對于說話人識別，語音信號在特征空間中是按照說話人來劃分的，而語音識別是按照單詞或句子劃分的。(2)說話人識別是想要挖掘出包含在語音信號中的有關(guān)說話人的個(gè)性因素，力圖強(qiáng)調(diào)不同人之間的差別;而語音識

10、別則是想要得到語音信號的語義內(nèi)容，而忽略掉不同說話人的個(gè)性因素。兩者差異體現(xiàn)在語音特征和建模方法的選擇上。,（4）語音合成目的：讓計(jì)算機(jī)說話。語音合成是語言合成中最基本的部分，它相當(dāng)于“人工嘴巴”。最簡單的語音合成是語音相應(yīng)系統(tǒng)：在計(jì)算機(jī)內(nèi)建立一個(gè)語音庫，將可能用到的單字、詞組或一些句子的聲音信號編碼后存入計(jì)算機(jī)，當(dāng)鍵入所要的字、詞組或句子代碼時(shí)，就能調(diào)出對應(yīng)的數(shù)碼信號，并轉(zhuǎn)換成聲音。語音合成器：從理論上講，它可完全模仿人類發(fā)聲器官動作和發(fā)聲過程，實(shí)時(shí)地產(chǎn)生所需的語音。但在事實(shí)上，由于很難找出定量描述發(fā)聲器官動作的精確數(shù)字模型和實(shí)際語音產(chǎn)生規(guī)律，因此實(shí)現(xiàn)起來還有一定困難。,語音合成技術(shù)經(jīng)

11、歷了一個(gè)逐步發(fā)展的過程，從參數(shù)合成到拼接合成再到兩者的逐步結(jié)合，其不斷發(fā)展主要是人們認(rèn)知水平以及要求的不斷提高的結(jié)果。目前，常用的語音合成技術(shù)主要有:共振峰合成技術(shù)、LPC合成技術(shù)、PSOLA拼接合成技術(shù)和LMA聲道模型技術(shù)。各種合成技術(shù)各有自己的優(yōu)缺點(diǎn)，人們在應(yīng)用的過程中往往將多種技術(shù)有機(jī)的結(jié)合在一起，或者將一種技術(shù)的優(yōu)點(diǎn)運(yùn)用到另一種技術(shù)上，以克服另一種技術(shù)的不足。,應(yīng)用：公共交通自動報(bào)站，各種場合的自動報(bào) 時(shí)、自動告警等，文本校對中的語音提示，電話查詢服務(wù)；應(yīng)用新領(lǐng)域：與Internet結(jié)合，有聲EMAIL，網(wǎng) 上信息的有聲獲取、語音聊天等；與機(jī)器翻譯技術(shù)結(jié)合的語音翻譯；與圖象、視頻技術(shù)

12、結(jié)合的視覺(visual speech) 語音。研究方向：高質(zhì)量、高清晰度自然語音合成，以及表達(dá)人類的情感語音。,（5）語音增強(qiáng) 為了從帶噪信號中獲得盡可能純凈的語音信號，減少噪音的干擾，就需要進(jìn)行語音增強(qiáng)。目標(biāo)：對收聽人而一言主要是減少疲勞感，改善語音質(zhì)量，提高語音可懂度;對語音處理系統(tǒng)(識別器、聲碼器、手機(jī))而言是提高系統(tǒng)的識別率和抗干擾能力。語音增強(qiáng)在許多方面有著廣泛的應(yīng)用，例如: .在國家和社會安全方面，偵聽信號常常含有較大的噪聲，語音增強(qiáng)有助于提高偵聽系統(tǒng)的效果，可以幫助偵察破案或獲取情報(bào)。 .飛機(jī)駕駛?cè)藛T與地面指揮的語音通訊常常因飛機(jī)螺旋槳、發(fā)動機(jī)等強(qiáng)噪聲而受到干擾，需要進(jìn)行

13、語音增強(qiáng)以保證語音信息的可靠傳達(dá)。,語音增強(qiáng)的主要方法： 1）噪聲對消法顯而易見，如果能直接從帶噪語音中，在時(shí)域中或者在頻域中，將噪聲分量減去，則能有效增強(qiáng)帶噪語音。噪聲對消法就是以此作為出發(fā)點(diǎn)。其最大特點(diǎn)是需要采集背景噪聲作為參考信號，參考信號準(zhǔn)確與否直接決定著噪聲對消法的性能。在采集背景噪聲時(shí)，往往采用自適應(yīng)濾波技術(shù)，以便使參考信號盡可能接近帶噪語音中的噪聲分量。,2）自適應(yīng)梳狀濾波由于語音中的濁音具有明顯的周期性，這種周期性反映到頻域中則為一系列分別對應(yīng)基頻(基音)及其諧波的一個(gè)個(gè)峰值分量，這些頻率分量占據(jù)了語音的大部分能量，我們自然可以利用這種周期性來進(jìn)行語音增強(qiáng)。這時(shí)可采用自適

14、應(yīng)梳狀濾波器來提取基音及其諧波分量，抑制其他周期性噪聲和非周期的寬帶噪聲。由于語音是時(shí)變的，語音的基音周期也是不斷變化的，能否準(zhǔn)確地估計(jì)出基音周期以及能否及時(shí)跟蹤基音變化，是這種基于諧波增強(qiáng)法的關(guān)鍵。,3）幅度譜相減法對帶噪語音信號進(jìn)行傅立葉變換，在頻域中從帶噪語音的幅度譜上減去噪聲的幅度譜來作為語音信號的幅度譜。利用人耳對語音相位的不敏感性，語音相位譜則近似用帶噪語音的相位譜代替。 4）功率譜相減法這種方法是從帶噪語音功率譜中減去噪聲的功率譜，從而得到語音信號的功率譜，進(jìn)而決定語音信號各頻譜分量增益，最終得到語音信號的估計(jì)。,5）維納濾波法維納濾波法是為得到語音信號的時(shí)域波形，在最小

15、均方誤差準(zhǔn)則下得到的最優(yōu)估計(jì)器。實(shí)際應(yīng)用中，多采用非因果維納濾波器的頻域?qū)崿F(xiàn)形式。 6）語音參數(shù)模型法語音的發(fā)聲過程可以建模為一個(gè)線性時(shí)變?yōu)V波器。對不同類型的語音采用不同的激勵(lì)源。例如對于濁音，激勵(lì)源為周期與基音周期相同的脈沖串;而對于清音，激勵(lì)源為高斯白噪聲。在語音的生成模型中，應(yīng)用最廣泛的是全極點(diǎn)模型?；谡Z音生成模型可以得到一系列語音增強(qiáng)方法，比如時(shí)變參數(shù)維納濾波及卡爾曼濾波方法?？柭鼮V波就是基于語音生成模型的一種有效語音增強(qiáng)方法，它能有效消除有色噪聲。,（6）基于語音的信息檢索（新方向）動機(jī)：網(wǎng)絡(luò)技術(shù)和數(shù)字圖書館技術(shù)；方向：基于語音內(nèi)容的信息檢索（7）基于語音識別的廣播新聞

16、的自動文摘技術(shù)、自動謄寫技術(shù)（新發(fā)展方向）（8）IP電話技術(shù)（新發(fā)展方向）研究領(lǐng)域：研究網(wǎng)絡(luò)環(huán)境下的語音識別，即對網(wǎng)絡(luò)上以數(shù)據(jù)包形式傳輸?shù)恼Z音進(jìn)行識別。應(yīng)用領(lǐng)域：電子商務(wù)、國防，移動計(jì)算,（9）語音訓(xùn)練與校正技術(shù)（新方向）應(yīng)用：輔助教學(xué)、發(fā)音校正。（10）語種識別（新發(fā)展方向）通過分析一個(gè)語音片段來判別其所屬語言的種類，屬語音識別范疇。（11）基于語音的情感處理研究（新發(fā)展方向）（12）數(shù)字語音安全性、完整性研究（新發(fā)展方向）（13）音頻作品安全性、完整性研究（新發(fā)展方向）,1.2. 語音信號處理技術(shù)的發(fā)展概況 1. 語音信號處理的發(fā)展標(biāo)志是在1940年產(chǎn)生的通道聲碼器技術(shù)

17、，打破了以前的“波形原則”，提出了一種全新的語音通信技術(shù)，即提取參數(shù)加以傳輸，在收端重新合成語音。其后，產(chǎn)生“語音參數(shù)模型”的思想。 2. 40年代后期，研制成功了“語譜儀”，為語音信號分析提高了有力工具。 3. 50年代后，語音信號處理得到新的進(jìn)展。主要標(biāo)志是貝爾實(shí)驗(yàn)室英文數(shù)字語音識別裝置的研究成功。其后隨著數(shù)字計(jì)算機(jī)和數(shù)字信號處理技術(shù)（FFT）的突破性發(fā)展，產(chǎn)生了第一臺孤立詞語音識別器、有限連續(xù)語音識別器。,4. 70年代初，隨著倒譜分析技術(shù)和線性預(yù)測技術(shù)的成功應(yīng)用，微電子學(xué)、微處理機(jī)芯片和專用信號處理芯片的不斷問世，進(jìn)一步推動了語音信號處理技術(shù)的發(fā)展。 5. 80年代初，矢量量化VQ應(yīng)用

18、于語音信號處理；隱式馬爾可夫模型HMM是80年代語音信號處理技術(shù)的重大發(fā)展。 6 近年來，人工神經(jīng)網(wǎng)絡(luò)研究取得了迅速的發(fā)展，語音識別是神經(jīng)網(wǎng)絡(luò)的一個(gè)重要應(yīng)用領(lǐng)域,第2章語音信號處理的基礎(chǔ)知識,語音的產(chǎn)生過程語音信號的特性分析語音信號生成的數(shù)學(xué)模型,2.1 語音的產(chǎn)生過程,什么是語音？語音的產(chǎn)生過程,1. 什么是語音,語音是帶有語言信息的聲音（聲波）。人們講話時(shí)發(fā)出的話語叫語音，它是一種聲音，具有稱為聲學(xué)特征的物理特性。語音（Speech）是聲音（Acoustic）和語言（Language）的組合體?？梢赃@樣定義語音：語音是由一連串的音組成語言的聲音。經(jīng)過聲電轉(zhuǎn)換得到電信號；經(jīng)過

19、聲光轉(zhuǎn)換得到光信號。,2. 語音的產(chǎn)生過程,語音的產(chǎn)生依賴于人類的發(fā)聲器官。發(fā)聲器官主要由喉、聲道和嘴構(gòu)成。人的說話過程可以分為五個(gè)階段：（1）想說階段（2）說出階段（3）傳送階段（4）理解階段（5）接收階段,2.2 語音信號的特性分析,語音信號的聲學(xué)特性語音信號的時(shí)域波形語音信號的頻譜特性語音信號的統(tǒng)計(jì)特性,2.2.1 語音信號的聲學(xué)特性,語音是人的發(fā)聲器官發(fā)出的一種聲波，它具有一定的音色，音調(diào)，音強(qiáng)和音長。音色也叫音質(zhì)，是一種聲音區(qū)別于另一種聲音的基本特征。音調(diào)是指聲音的高低，它取決于聲波的頻率。聲音的強(qiáng)弱叫音強(qiáng)，它由聲波的振動幅度決定。聲音的長短叫音長，它取決于發(fā)音時(shí)間的

20、長短。說話時(shí)一次發(fā)出的，具有一個(gè)響亮的中心，并被明顯感覺到的語音片段叫音節(jié)（Syllable）。一個(gè)音節(jié)可以由一個(gè)音素構(gòu)成，也可以由幾個(gè)音素構(gòu)成。音素是語音發(fā)音的最小單位。任何語言都有語音的元音（Vowel）和輔音（Consonant）兩種音素。,元音：當(dāng)聲帶振動發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時(shí)，這些聲腔完全開放，氣流順利通過產(chǎn)生的音素。構(gòu)成一個(gè)音節(jié)的主干，長度和能量看，元音在音節(jié)中都占主要部分。輔音：呼出的聲流，由于通路的某一部分封閉起來或受到阻礙，氣流被阻不能暢通，而克服發(fā)音器官的這種阻礙而產(chǎn)生的音素。只出現(xiàn)在音節(jié)的前端、后端或前后兩端發(fā)輔音時(shí)由聲帶是否振動引起濁音和

21、清音的區(qū)別：聲帶振動的是濁音聲帶不振動的是清音,基音頻率當(dāng)發(fā)濁音時(shí)，氣流通過聲門時(shí)使聲帶發(fā)生振動，產(chǎn)生準(zhǔn)周期激勵(lì)脈沖串，這個(gè)脈沖串的周期稱為基音周期，其倒數(shù)稱為基音頻率。濁音的聲帶振動基本頻率稱為基音頻率，一般用F0表示。無論一個(gè)音節(jié)或是一段連續(xù)語音，各個(gè)音節(jié)的元音段的F0都是隨時(shí)間變化的，該變化產(chǎn)生了聲調(diào)，其變化軌跡稱為聲調(diào)軌跡。基音頻率與個(gè)人聲帶的長短、厚薄、韌性、勁度和發(fā)音習(xí)慣等有關(guān)，在很大程度上反映了個(gè)人的特征。一般來說，男性說話者的基音頻率大致分布在50-200Hz，女性和小孩的基音頻率在200-450Hz之間。,共振峰共振峰是一組諧振頻率：聲道可以看成是一根具有非均勻截

22、面的聲管，在發(fā)音時(shí)起共鳴器的作用，當(dāng)元音激勵(lì)進(jìn)入聲道時(shí)會引起共振特性，產(chǎn)生一組共振頻率，稱為共振峰頻率（簡稱共振峰）。元音的一個(gè)重要聲學(xué)特性是共振峰（Formant）。共振峰參數(shù)是區(qū)別不同元音的重要參數(shù)，它一般包括共振峰頻率（Formant Frequency）的位置和頻帶寬度（Formant Bandwidth）。元音的共振峰與發(fā)音機(jī)制（舌位高低、前后；舌尖的狀態(tài)等）有關(guān)。,2.2.2 語音信號的時(shí)域波形和頻譜特性在時(shí)間域里，語音信號可以直接用它的時(shí)間波形表示出來，通過觀察時(shí)間波形可以看出語音信號的一些重要特性。觀察語音信號時(shí)間波形的特性，可以通過對語音波形的振幅和周期性來觀察不同性

23、質(zhì)的音素的差別。,下圖是漢語拼音“sou ke”的時(shí)間波形。表示這段語音波形時(shí)采用的采樣頻率是8kHz，量化精度是16bit。圖上標(biāo)明了時(shí)間及各個(gè)音節(jié)的起始位置。由于在時(shí)域波形里各個(gè)單音節(jié)間不好明顯地分界，因此，圖上標(biāo)出的某個(gè)音的起點(diǎn)只是粗略的。,從上圖可以看出，清輔音sk和元音ou e這兩類音的時(shí)間波形有很大區(qū)別。例如，從A點(diǎn)開始的音節(jié)s，以及從C點(diǎn)開始的k都是清輔音，它們的波形類似于白噪聲，振幅很小，沒有明顯的周期性；而從B點(diǎn)開始的元音ou以及從D點(diǎn)開始的e都具有明顯的周期性，且振幅較大。它們的周期對應(yīng)的就是聲帶振動的頻率，即基音頻率，它是聲門脈沖的間隔。如果考察其中一小段元音語音波形，從

24、它的頻譜特性大致可以看出它們的共振峰特性。,語音信號具有很強(qiáng)的時(shí)變特性，有些波形具有很強(qiáng)的周期性，有些波形具有很強(qiáng)的噪聲特性，且周期性語音和噪聲性語音的特征也在不斷變化之中。但在較短的時(shí)間內(nèi)，語音信號的特征可以認(rèn)為基本不變，所以，語音信號屬于短時(shí)平穩(wěn)信號，一般認(rèn)為在1030ms內(nèi)語音信號特性基本上是不變的，或者變化很緩慢。截取一段進(jìn)行付氏變換，求其短時(shí)譜。,下面分別看一下元音和輔音的短時(shí)頻譜。,于是，可以從中截取一小段進(jìn)行頻譜分析。下圖給出“sou”中音素“ou”的傅里葉變換：,2.2.3語音信號的語譜圖短時(shí)譜只能反映語音信號的靜態(tài)頻率特性，不能反映語音信號的動態(tài)頻率特性。因此，人們致力于

25、研究語音的時(shí)頻分析特性，把和時(shí)序相關(guān)的傅立葉分析的顯示圖形稱為語譜圖。語譜圖是一種三維頻譜，它是表示語音頻譜隨時(shí)間變化的圖形，其縱軸為頻率，橫軸為時(shí)間，圖像的黑白度對應(yīng)信號的能量。聲道的諧振頻率在圖上表現(xiàn)為黑帶，濁音部分則以出現(xiàn)條紋圖形為特征。記錄這種譜圖的儀器就是語譜儀。,2.2.4語音信號的統(tǒng)計(jì)特性語音信號的統(tǒng)計(jì)特性可以用它的波形振幅概率密度函數(shù)和一些統(tǒng)計(jì)量如均值和自相關(guān)函數(shù)來描述。表示語音信號的統(tǒng)計(jì)特性的概率密度的估算方法是根據(jù)長時(shí)間范圍內(nèi)一段語音信號的大量取樣數(shù)據(jù)的幅度絕對值計(jì)算出其幅度直方圖，然后，根據(jù)統(tǒng)計(jì)的振幅直方圖，尋找近似的概率密度表達(dá)式。,通過對語音信號的統(tǒng)計(jì)特性的

26、研究表明，語音信號振幅分布的概率密度有兩種逼近方法，一種是修正伽瑪（Gamma）分布概率密度函數(shù) 另一種是拉普拉斯（Laplace）分布概率密度函數(shù) 對于長期統(tǒng)計(jì)來說，用拉普拉斯分布描述語音信號的統(tǒng)計(jì)特性不及用伽瑪分布描述精確，但其函數(shù)式卻簡單一些。也可以用高斯分布（Gaussian）來近似。這三個(gè)分布函數(shù)中，伽瑪函數(shù)逼近的效果最好，其次是拉普拉斯函數(shù)，而高斯分布逼近效果最差。,2.3 語音信號生成的數(shù)學(xué)模型語音信號是一個(gè)非平穩(wěn)的隨機(jī)過程，但隨時(shí)間的變化很緩慢，可做一些合理的假設(shè)，將語音信號分成短段處理，在這些短段中可視為平穩(wěn)隨機(jī)過程，采用線性時(shí)不變模型。可將語音生成系統(tǒng)分成三個(gè)部分

27、，在聲門（聲帶）以下，稱為聲門子系統(tǒng)，負(fù)責(zé)產(chǎn)生激勵(lì)振動，是激勵(lì)系統(tǒng)；從聲門到嘴唇的呼氣通道是聲道，是聲道系統(tǒng)；語音從嘴唇輻射出去，嘴唇以外是輻射系統(tǒng)。下面分別介紹激勵(lì)模型、聲道模型、輻射模型，再介紹語音信號產(chǎn)生的數(shù)學(xué)模型。,2.3.1 激勵(lì)模型激勵(lì)模型一般分成濁音激勵(lì)和清音激勵(lì)兩種。濁音時(shí)，激勵(lì)信號由一個(gè)周期脈沖發(fā)生器產(chǎn)生，產(chǎn)生的序列是一個(gè)頻率等于基音頻率的沖激序列。清音時(shí)，激勵(lì)信號由一個(gè)隨機(jī)噪聲發(fā)生器產(chǎn)生?？稍O(shè)定其平均值為0，其自相關(guān)函數(shù)是一個(gè)單位沖激函數(shù)。,發(fā)濁音時(shí)，由于聲帶不斷張開和關(guān)閉，將產(chǎn)生間歇的脈沖波。這個(gè)脈沖波的波形類似于斜三角形的脈沖，它的數(shù)學(xué)表達(dá)式如下：式中，N1為

28、斜三角波上升部分的時(shí)間，N2為其下降部分的時(shí)間。單個(gè)斜三角波波形的頻譜的圖形如圖2-18所示。由圖可見，它是一個(gè)低通濾波器。它的變換的全極模型的形式是：,這里，c是一個(gè)常數(shù)。,顯然，上式表示斜三角波形可描述為一個(gè)二極點(diǎn)的模型。因此，斜三角波形串可視為加權(quán)了單位脈沖串激勵(lì)上述單個(gè)斜三角波模型的結(jié)果。而該單位脈沖串及幅值因子則可表示成下面的z變換形式：所以，整個(gè)濁音激勵(lì)模型可表示為：也就是說濁音激勵(lì)波是一個(gè)以基音周期為周期的斜三角脈沖串。,調(diào)節(jié)濁音信號的幅度,2.3.2 聲道模型關(guān)于聲道部分的數(shù)學(xué)模型，有多種觀點(diǎn)，目前最常用的有兩種建模方法。一是把聲道視為由多個(gè)等長的不同截面積的管子串聯(lián)而成

29、的系統(tǒng)。按此觀點(diǎn)推導(dǎo)出的叫“聲管模型”。另一個(gè)是把聲道視為一個(gè)諧振腔，按此推導(dǎo)出的叫“共振峰模型”。,共振峰模型，把聲道視為一個(gè)諧振腔。共振峰就是這個(gè)腔體的諧振頻率。由于人耳聽覺的柯替氏器官的纖毛細(xì)胞就是按頻率感受而排列其位置的，所以這種共振峰的聲道模型方法是非常有效的。一般來說，一個(gè)元音用前三個(gè)共振峰來表示就足夠了；而對于較復(fù)雜的輔音或鼻音，大概要用到前五個(gè)以上的共振峰才行。基于物理聲學(xué)的共振峰理論，可以建立起三種實(shí)用的共振峰模型：級聯(lián)型、并聯(lián)型和混合型。,（1）級聯(lián)型聲道模型這時(shí)認(rèn)為聲道是一組串聯(lián)的二階諧振器。從共振峰理論來看，整個(gè)聲道具有多個(gè)諧振頻率和多個(gè)反諧振頻率，所以它可被模擬為一個(gè)零極點(diǎn)的數(shù)學(xué)模型；但對

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第01講--緒論-語音信號處理基礎(chǔ)知識.ppt

文檔簡介

溫馨提示

最新文檔

評論

第01講--緒論-語音信號處理基礎(chǔ)知識.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔