第二章 語音信號的基礎(chǔ)知識.ppt_第1頁
第二章 語音信號的基礎(chǔ)知識.ppt_第2頁
第二章 語音信號的基礎(chǔ)知識.ppt_第3頁
第二章 語音信號的基礎(chǔ)知識.ppt_第4頁
第二章 語音信號的基礎(chǔ)知識.ppt_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、苗立,東北學(xué)院大學(xué)秦皇島分校電子情報系,第二章語音信號處理的基礎(chǔ)知識,語音信號處理,語音(Speech)=語音(Acoustic )語言(Language )語音是由一系列音素組成的語言的語音。 語音:人們說話時發(fā)出的語言叫做語音。 人們進行信息交換的聲音,是構(gòu)成語言的聲音/具有語言信息的聲音。 語音信號的基本概念,第二章語音信號處理的基礎(chǔ)知識,對語音的研究包括兩個方面,1 )語音中的各個聲音的排列受幾個規(guī)則控制,這些個的規(guī)則及其含義的研究被稱為語言學(xué)(linguistics )。 語言學(xué)是語音信號處理的基礎(chǔ)。 例如,可以利用句法和語義信息,減少語音識別中的搜索匹配范圍,提高正解率。 第2章語

2、音信號處理的基礎(chǔ)知識,其語音學(xué)與語音信號處理的聯(lián)系更加密切。 例如,利用現(xiàn)代信號處理技術(shù)建立發(fā)音的數(shù)學(xué)模型,使用決定發(fā)音方法的音響和非定常信號的分析理論,說明各種聲音現(xiàn)象的聲音信息的存儲形式等。 2章語音信號處理的基礎(chǔ)知識,2 )語音中各音的物理特性和分類的研究稱為語音學(xué)(phonetics )。 這是考慮了聲音生成、聲音識別等過程,以及各聲音的特征和分類。 語音學(xué)的基本內(nèi)容包括:說明發(fā)音語音學(xué)決定發(fā)音反應(yīng)歷程的音響語音學(xué)信號解析理論聲音現(xiàn)象的聽覺語音學(xué)識別過程、聲音信號的發(fā)生聲音信號的感知的線性發(fā)生模型聲音信號的非線性發(fā)生模型(理解)、本章主要討論的問題:第2章聲音信號處理的基礎(chǔ)知識、人的發(fā)

3、言過程分為5個階段, 想說的聲音信號的發(fā)生,腦中樞,發(fā)音器官,空氣,聽覺器官,腦中樞,聲音的發(fā)音器官,聲音信號的發(fā)生,肺和氣管:能量源咽:包括聲帶和聲門通道的振動源:諧振器,從聲門到唇的呼吸路徑,包括咽腔,口腔在內(nèi)的正常的呼吸系統(tǒng)空氣能夠進入肺,說話時腹部肌肉收縮橫隔膜從肺部呼出的氣流是由聲音產(chǎn)生的主動力。 氣管將肺部呼出的氣流輸送到咽部,是肺部氣流的通道。 氣管的上端是喉嚨。聲音信號的發(fā)生,喉位于氣管上端,實際上是由氣管末端的環(huán)繞軟骨組成的一個信息幀:前方稍高的軟骨稱為甲狀軟骨,前后方向環(huán)繞一周的稱為喉環(huán)狀軟骨,喉中的兩塊肌肉稱為聲帶,聲帶間的空隙稱為聲門。 聲帶打開時,聲門打開,空氣可以自

4、由呼吸,正常呼吸處于這種狀況下聲帶關(guān)閉時聲門關(guān)閉。 聲門和聲帶說話時,聲帶通過軟骨相互靠近,但沒有完全關(guān)閉,聲門形成狹縫。 氣流通過氣管通過咽頭時,勒緊的聲帶因氣流的沖擊而振動,不斷開閉,一連串的噴氣流從聲門向上送出。 我們將聲帶的接近、Tp、基音周期、聲帶的開閉稱為振動。 這個振動過程每周重新開始一次,一系列周期性的脈沖氣流被輸送到通道。 在這個過程中發(fā)出的聲音叫濁音。 例如,對外漢語發(fā)音的a、I、u、o等。 聲音信號的發(fā)生、F0=1/Tp、基本聲音頻率由聲帶的質(zhì)量決定。 由F0的大小決定聲音的高度,稱為音高。男性60-200Hz的女性和小盆友60-200Hz的女性,200-450Hz的女性

5、,基頻(Fundamental Frequency) F0,聲音信號的產(chǎn)生,聲帶的重要殘奧儀表:大致分為頻道,人,然后頻道(喉腔,咽腔,口腔)的響應(yīng)當(dāng)氣流在通道中流動時,該頻率被放大,好像通過了具有某種諧振特性的腔一樣,形成了在光譜上對應(yīng)的位置的峰值,被稱為諧振峰值。 說話時,由于舌頭和嘴唇的連續(xù)運動,頻道的形狀發(fā)生變化,共振頻率發(fā)生變化,發(fā)出不同的聲音。 信道的不同形狀對應(yīng)于不同的諧振頻率。 聲帶的振動頻率、輸出氣流的頻率、信道的共振特性、聲音信號的發(fā)生、鼻端、唇、共振頻率的校正、共振頻率,F(xiàn)n=(信道的橫截面均勻,在發(fā)生元音字母e時,信道大致均勻。 L=17cm,聲道長度n=1,2, 將3

6、稱為第一共振峰值F1=500Hz、第二共振峰值F2=1500Hz、第三共振峰值F3=2500Hz、c=340m/s的共振峰值與同一人不同,發(fā)出不同的聲音,共振峰值也不同,聲道的作用相當(dāng)于一個過濾煙嘴,它放大某個頻率(有) 前三個共振峰的大致范圍(Hz ),聲音信號的發(fā)生,鼻腔的作用得到軟顎的幫助,可以通過空氣,例如,n,ng是鼻音韻母,m,n,l是鼻音聲母。 鼻腔是諧振器,由于形狀是固定的,所以諧振峰的頻率是固定的。 口腔與鼻腔、口腔的作用、聲音信號的產(chǎn)生、將空氣從口腔中從人體中排除而產(chǎn)生的聲音稱為口音。 由于口腔形狀不固定,共振峰的頻率也不確定。 與激勵頻道的鈴鼠等效,聲音信號的發(fā)生,激勵源

7、:聲帶振動頻率基頻(基音頻率)清音帶不振動濁音聲帶振動頻道:可變諧振器的形狀,不同的聲諧振(諧振)頻率,發(fā)音的分類,濁音(voiced sounds ) : 濁音的激發(fā)源與準(zhǔn)周期的脈沖信號等價。 清音(unvoiced sounds ) :聲帶不振動,在聲道的某個地方保持收縮,氣流在聲道中收縮后,高速引起湍流,經(jīng)過主聲道(咽、口腔)的調(diào)整,變得無聲。 清音的激發(fā)源與光合十禮噪聲信號等效。 爆炸聲:通道關(guān)閉后產(chǎn)生壓縮空氣,打開突然地通道后產(chǎn)生的聲音。聲音信號的發(fā)生、聲音信號的發(fā)生、聲音是發(fā)聲器官發(fā)出的聲波,具有一定的音色、音調(diào)和音強和音長。 音色:也被稱為音質(zhì),是某個聲音區(qū)別于其他聲音的基本特性

8、。 聲帶的振動頻率、發(fā)音器官的送氣方式與聲道的形狀、尺寸密切相關(guān)。 音調(diào):聲音的高低取決于聲波的頻率。音強:音的強弱,聲波的振幅決定音的長度:音的長度,發(fā)音持續(xù)時間的長度,聲音的基本音響特性,聲音信號的發(fā)生,聲音信號的時域和頻率域的顯示,聲音信號的發(fā)生,聲音信號的時域波形,結(jié)論1 :時間的連續(xù)函數(shù),頻率幅度的經(jīng)時變化結(jié)論3 :元音字母為準(zhǔn)周期函數(shù)(基頻), 結(jié)論4 :清噪是隨機起伏,聲音信號的發(fā)生,聲音信號的頻率域波形,F(xiàn)1=500Hz,F(xiàn)2=1000Hz,F(xiàn)3=1500Hz,、2 )圖案的縱軸對應(yīng)于頻率,橫軸對應(yīng)于時間,圖像的灰度對應(yīng)于信號的能量。 3 )聲道的共振頻率以黑帶,濁音部分出現(xiàn)條

9、紋為特征,但是此時的時域波形具有周期性,在清音的時間間隔比較致密4 )“聲紋”用于說話者識別,load mtlb specgram(mtlb,512,F(xiàn)s聲音信號的生成, load specgram.mat wavplay(a,F(xiàn)s) specgram(a,512,F(xiàn)s,Kaiser (500,5,5 ),475 ),元音字母是構(gòu)成音節(jié)的主干,從長度和能量來看,在音節(jié)中占主要位置的輔音是音節(jié)的前端或音節(jié):發(fā)音時,明顯感覺到的聲音片斷是音節(jié)。 一個音節(jié)由一個音素或多個音素構(gòu)成。 單詞的最小單位是音節(jié),句子的最小單位是單詞。 1 )音素和音節(jié)、聲音信號的發(fā)生、音系簡單,對外漢語中1個文字是1個音節(jié)

10、,一般由23個音素組成,而且音素少,音節(jié)少。 英語中一個單詞由多個音節(jié)組成,一般是23個,一個音節(jié)由多個音素組成,一般是14個。 清輔音多,聽覺清亮、高揚、舒適、柔和。 有鮮明的輕音和小盆友化韻,單詞分界清晰,語言表達準(zhǔn)確豐富。 2 )漢語語音的特征是,在對外漢語,由音素構(gòu)成聲母和韻母。 聲音信號的發(fā)生,聲母:從音節(jié)開始的輔音,聲母完全由輔音擔(dān)當(dāng),但輔音不等于聲母。 因為輔音也可以作為韻尾放在音節(jié)的末尾。 (21個) b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c,所有的元音字母都是濁音。 根據(jù)a、o、e、I、u、單韻母(元音字母) ai、ei、ao、ou、i

11、a、ie、iao、iou、ua、uo、uai元音字母不同,有不同的基音頻率和共振峰值模式,它們是區(qū)分不同韻母的重要的殘奧計量器。不同韻母的重要殘奧儀表,區(qū)分語音信號的發(fā)生,有如下不同的概念,用于區(qū)分語音信號的發(fā)生,濁音和清音的留心:分類聲帶振動。 元音字母和輔音:按音素的發(fā)音特征分類,與聲道中的可動部分和固定部分的接觸點的位置密切相關(guān)。 聲母和韻母:按音節(jié)的結(jié)構(gòu)區(qū)分。 肯定是濁音。 輔音包括濁音和清音。 英語:由元音字母和輔音(這些個都是音素)構(gòu)成音節(jié),由幾個音節(jié)構(gòu)成一個詞。對外漢語:在對外漢語,用元音字母和輔音構(gòu)成聲母和韻母,聲調(diào)組成一個音節(jié),一個音節(jié)是一個字。 聲母、韻母、聲調(diào)是漢語語音的

12、三要素。 漢語語音之一與其他語言不同的是具有聲調(diào)(音調(diào))。 聲調(diào)是一音節(jié)念法上高低升降的變化,對外漢語有陰平()、陽平()、上聲()、去聲()四個聲調(diào)。 (4)漢語音節(jié)的一般結(jié)構(gòu)是語音信號的發(fā)生、聲調(diào)的變化是基音周期的變化,為了具體地描繪灰度值,采用“五度記數(shù)法”,用縱線表示語音的高低,從下往上依次表示1、2、3、4、5,5高、4半高、3中、2半上聲、去聲、聲音信號的產(chǎn)生、單獨發(fā)聲的一個音節(jié)或聲音流的任何一個音節(jié)都是可能的無聲區(qū)間、一個聲音信號的產(chǎn)生、二聲音信號的感知(自學(xué))、聽覺系統(tǒng)耳的結(jié)構(gòu)聽覺的形成耳蝸的作用聽覺特性人耳的聽閾及響度我屏蔽效應(yīng)對云同步屏蔽各種不同的掩蔽效應(yīng),進行異常屏蔽、三

13、語音信號的線性生成模型、激勵模型(肺部、氣管、聲帶)聲道模型(咽腔、口腔、喉腔、鼻腔)輻射模型(口唇、鼻孔)完整語音信號的數(shù)學(xué)模型,本節(jié)主要討論的問題:三語音信號的、激勵模型、激勵模型、三語音信號的線性生成模型、肺部氣流與聲帶的共同作用在產(chǎn)生濁音的情況下,聲激勵是準(zhǔn)周期的單位脈沖串,愛情動作片為了使增益殘奧計即濁音的激勵信號接近聲門振動氣流的實際波形,需要使脈沖序列通過聲門脈沖模型濾波器(實際上是斜三角波形) G(z )。 最后形成以基音周期為周期的斜三角形脈沖波。 1 )濁音激勵,三語音信號的線性發(fā)生模型,Tp是脈沖周期,聲門波模型產(chǎn)生單一聲門脈沖,單位脈沖串,單位脈沖串及振幅的z變換形式,

14、三語音信號的線性發(fā)生模型,將其表示為z變換,有脈沖串: E(z )濁音的n-1是斜三角波N2是其下降部分的時間,2 )清音激勵、清音激勵模擬隨機噪聲,實際上一般使用平均值0、色散值1的白噪聲。三語音信號的線性生成模型將聲激勵分為兩種情況,與實際不完全一致。 例如爆破聲在氣流聲門完全關(guān)閉的地方下面產(chǎn)生壓力,消除其障礙,迅速釋放壓力,產(chǎn)生瞬間的激勵。 以上的聲學(xué)模型沒有考慮。 應(yīng)該以一定的比例疊加兩種激勵,更符合現(xiàn)實。三語音信號的線性生成模型、信道模型(共振峰值模型)、線性系統(tǒng)信道V(z )、uG(n )、ul(n )、三語音信號的線性生成模型,1 )語音在信道中的傳播與很多物理定律(能量守恒)有

15、關(guān),有不同的模型2 )語音信號是非平穩(wěn)信號,是激勵和信道然而,由于在2030ms中音頻信號平穩(wěn),即激勵與信道幾乎沒有變化,所以在該時間段系統(tǒng)被認為是線性的。 用數(shù)學(xué)方法描述頻道的調(diào)音特性。 音響管模型和共鳴峰值模型、三聲音信號的線性發(fā)生模型、1 )音響管模型的“短時間”間聲道是形狀穩(wěn)定的級聯(lián)反應(yīng)管道,音響音在不同的截面積間傳播時反射。反射系數(shù): Km(Am 1 - Am)/(Am 1 Am) Am,Am 1是m,第m 1段的截面積Km是聲道的特性,確定Km的話聲道確定。A1 A2 A3.(a )立體圖(b )剖視圖、2 )共振峰值模型、三聲音信號的線性產(chǎn)生模型、聲道近似是共振器,共振峰值是該空洞的共振頻率,從共振峰值的觀點出發(fā),將描述聲道的模型稱為共振峰值模型。 一般的共振峰個數(shù)為35個。p、ak決定聲道的特性(人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論