版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
關(guān)于語音信號產(chǎn)生的數(shù)字模型第1頁,共59頁,2023年,2月20日,星期六§2.1人類的語言器官和語音產(chǎn)生過程
人類的語音是由人體發(fā)音器官在大腦控制下的生理運動產(chǎn)生的。發(fā)音器官包括:肺,喉,聲道等??諝庥煞尾颗湃牒聿?,經(jīng)過聲帶進入聲道,最后由嘴或鼻輻射出聲波,形成了語音。鼻腔口腔聲帶聲門第2頁,共59頁,2023年,2月20日,星期六MuscleforcelungVocalcords
NoseoutputMouthoutputVelumNasalcavityMouthcavityThecompletephysiologicalmechanismofspeechproduction
聲道excitationspeech第3頁,共59頁,2023年,2月20日,星期六喉的生理結(jié)構(gòu)
喉位于氣管的上端,實際上是氣管末端一圈軟骨構(gòu)成的一個框架,前方稍高處的軟骨稱為甲狀軟骨,前后方環(huán)成一圈的稱為喉部環(huán)形軟骨,喉中兩片肌肉稱為聲帶,聲帶之間的空隙為聲門。當聲帶張開時,聲門打開,空氣可自由呼出,正常呼吸就處于這種情況;當聲帶閉合,聲門關(guān)閉。甲狀軟骨聲門聲帶環(huán)形軟骨人的前方喉第4頁,共59頁,2023年,2月20日,星期六
當說話時,聲帶在軟骨的作用下相互靠近但不完全閉合,聲門變成一條窄縫,當氣流通過窄縫時壓力減小,外界壓力大,從而兩片聲帶完全閉合使得氣流不能通過,當氣流阻斷時壓力恢復正常,推開兩片聲帶,聲門再次打開,氣流再次流過。聲帶靠攏Tp基音周期
聲帶的開啟和閉合稱為振動。這一振動過程周而復始,形成了一串周期性脈沖氣流送入聲道。這個過程發(fā)出的音稱為濁音。如漢語發(fā)音的[a]、[i]、[u]和[o]等。第5頁,共59頁,2023年,2月20日,星期六GlottalClosureinstant
T第6頁,共59頁,2023年,2月20日,星期六女聲漢語拼音a的時域波形第7頁,共59頁,2023年,2月20日,星期六Tp基音周期fundamentalperiodVoicedexcitationUnvoicedexcitation(聲帶不振動,聲門開啟)第8頁,共59頁,2023年,2月20日,星期六男聲漢語拼音聲母s的時域波形第9頁,共59頁,2023年,2月20日,星期六
氣流從喉向上經(jīng)過口腔或鼻腔后從嘴或鼻孔向外輻射,期間的傳輸通道稱為聲道。氣流流過聲道時猶如通過了一個具有某種諧振特性的腔體,放大某些頻率,在頻譜上形成相應位置的峰起,稱為共振峰。
講話時,由于舌和唇的連續(xù)運動,使聲道形狀改變,隨即改變諧振頻率,使得發(fā)不同的音。聲道的不同的形狀,對應不同的諧振頻率。聲道第10頁,共59頁,2023年,2月20日,星期六發(fā)音的三種方式-excitation濁音(voicedsounds)聲帶開啟和閉合,在聲門處產(chǎn)生一個準周期性脈沖序列。(quasi-periodicsequence)清音(unvoicedsounds)聲帶完全舒展開來,聲道的某個部位發(fā)生收縮形成了一個狹窄的通道,當空氣流到達此處時被迫以高速沖過收縮區(qū),并在附近產(chǎn)生空氣的湍流,類似于白噪聲。(whitenoise)爆破音(plosive/stopsounds)聲帶完全舒展開來,聲道的某個部位完全閉合在一起,當空氣流到達時便在此處建立起空氣壓力,一旦閉合點突然開啟便會讓氣壓快速釋放,實際上也是一種空氣的湍流。(whitenoise)第11頁,共59頁,2023年,2月20日,星期六
☆
F0=1/Tp,基音頻率,由聲帶的質(zhì)量來決定。
☆
F0的大小決定了聲音的高低,稱為音高。
☆
男性的F0大致分布在:50~250Hz
☆
女性和兒童的F0大致分布在:100~500Hz基音頻率(FundamentalFrequency-pitch)F0第12頁,共59頁,2023年,2月20日,星期六鼻端嘴唇17cm8.5cm13cm聲道的無損模型聲道的諧振頻率formatfrequency諧振頻率發(fā)生在:Fn=(聲道的橫截面是均勻的,發(fā)元音e時,聲道近似是均勻的。)L=17cm,聲道的長度n=1,2,3…稱為第一共振峰F1=500Hz、第二共振峰F2=1500Hz、第三共振峰F3=2500Hz,…c=340m/s2n-14Lc第13頁,共59頁,2023年,2月20日,星期六基音頻率輸出氣流的頻率共振峰頻率女聲英文a的頻譜第14頁,共59頁,2023年,2月20日,星期六男聲漢語拼音聲母s的頻譜第15頁,共59頁,2023年,2月20日,星期六
一種聲道形狀對應一套共振峰
不同人的聲道大小不同,共振峰不同
同一人,發(fā)不同音,共振峰也不同總結(jié)前三個共振峰的大致范圍(Hz)
共振峰
成年男子
成年女子
帶寬f1200~800250~100040~70f2600~2800700~330050~90f31300~34001500~400060~180第16頁,共59頁,2023年,2月20日,星期六
時域波形:幅度-時間圖。大致得出音節(jié)的起始點、清音和濁音以及濁音的基音頻率。女聲漢語拼音a的時域波形第17頁,共59頁,2023年,2月20日,星期六
頻譜特性:幅度譜圖。得出基音周期、共振峰頻率及其位置。女聲英文a的頻譜第18頁,共59頁,2023年,2月20日,星期六鼻腔的作用
在軟腭的幫助下,可使空氣經(jīng)過鼻腔排除人體外,由此產(chǎn)生的語音稱為鼻音。如[n]、[ng]為鼻音韻母,[m]、[n]、[l]為鼻音聲母。鼻腔是一個諧振腔,由于形狀固定,故其共振峰頻率是確定的。第19頁,共59頁,2023年,2月20日,星期六MuscleforcelungVocalcords
NoseoutputMouthoutputVelumNasalcavityMouthcavityThecompletephysiologicalmechanismofspeechproduction
聲道excitationspeech第20頁,共59頁,2023年,2月20日,星期六uG(n)Av沖激序列發(fā)生器聲門脈沖模型G(z)隨機噪聲發(fā)生器基音周期TPAu清/濁音開關(guān)濁音激勵清音激勵§2.3語音信號產(chǎn)生的數(shù)字模型一、激勵模型第21頁,共59頁,2023年,2月20日,星期六聲門脈沖濾波器N1N2第22頁,共59頁,2023年,2月20日,星期六二、聲道模型(共振峰模型)短時線性系統(tǒng)聲道V(z)1.級聯(lián)型(元音)V1V2V3V4V5
聲道是一組串連的二階諧振器(一個諧振腔對應1個共振峰頻率)。第23頁,共59頁,2023年,2月20日,星期六
每個傳輸函數(shù)是一個全極點的IIR濾波器,這些極點確定了聲管的共振峰。若N取偶數(shù),V(z)一般有N/2對共軛極點,rkexp(±j2FkT),k=1~N/2。各個wk值分別與語音的共振峰相互對應。N的取值一般為8~12。aiz-1z-1bici第24頁,共59頁,2023年,2月20日,星期六傳輸函數(shù)N為極點個數(shù),G是增益參數(shù),ak為常系數(shù)。T為采樣周期第25頁,共59頁,2023年,2月20日,星期六2.并聯(lián)型(大部分輔音)傳輸函數(shù),零極點IIR濾波器V1V2V3V4V5
零極點IIR濾波器總是可以用全極點IIR濾波器來代替。因此可以用全極點模型來表示任何語音。第26頁,共59頁,2023年,2月20日,星期六三、輻射模型R(z)=R0(1-z-1)
唇端輻射損耗在高頻端較為顯著,而在低頻端影響較小,R(z)應具有高通特性。對高頻提升大約為每倍頻程6dB。第27頁,共59頁,2023年,2月20日,星期六四、完整的語音信號的數(shù)字模型Av沖激序列發(fā)生器聲門脈沖模型G(z)隨機噪聲發(fā)生器基音周期TPAN線性系統(tǒng)聲道V(z)輻射模型R(z)清/濁音開關(guān)傳輸函數(shù)第28頁,共59頁,2023年,2月20日,星期六傳輸函數(shù)的具體表達式:第29頁,共59頁,2023年,2月20日,星期六模型的特點
在這個模型中,TP、Av、AN、清/濁音開關(guān)的位置以及聲道濾波器的參數(shù)都是隨時間而變化,在10-30ms的時間間隔內(nèi)是保持不變的。這種特性稱為短時性。對于激勵信號而言,大部分情況下,這一結(jié)論也是正確的,但有些音變化速度特別快,爆破音,取5ms比較更為恰當。
第30頁,共59頁,2023年,2月20日,星期六§2.4語音信號的特性一、語音的聲學特性
語音是發(fā)聲器官發(fā)出的一種聲波,具有一定的音色、音調(diào)和音強和音長?!褚羯?又稱為音質(zhì),是一種聲音區(qū)別于另一種聲音的基本特性?!褚粽{(diào):聲音的高低,取決于聲波的頻率●音強:聲音的強弱,它由聲波的振動幅度所決定●音長:發(fā)音時間的長短第31頁,共59頁,2023年,2月20日,星期六(1)音系簡單,在漢語中一個字就是一個音節(jié),由一般為2~3個音素組成,而且具有音素少、音節(jié)少。英語中一個單詞由若干個音節(jié)組成,一般為2~3個,一個音節(jié)由若干個音素組成,一般為1~4個。(2)清輔音多,在聽感上有清亮、高揚和舒服、柔和的感覺。(3)有鮮明的輕重音和兒化韻,所以字詞分隔清楚,語言表達準確而豐富。漢語語音的特點第32頁,共59頁,2023年,2月20日,星期六
在漢語中,由元音和輔音構(gòu)成聲母和韻母。二、漢語的拼音方法
聲母:一個音節(jié)開始的輔音,聲母完全由輔音充當,但輔音不等于聲母,因為輔音還可以作為韻尾放在音節(jié)的末尾。b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c、s、r第33頁,共59頁,2023年,2月20日,星期六
韻母:在音節(jié)中占主要部分,音節(jié)中除了頭上的聲母以外的部分,由單、雙元音、元音帶上輔音等幾種不同的形式組成。所有元音都是濁音。
a、o、e、i、u、ü、ê單韻母(元音)
ai、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei、üe復韻母
an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、üan、ün鼻韻母i表示3個韻母,即韻母、舌尖前韻母和舌尖后韻母。第34頁,共59頁,2023年,2月20日,星期六
韻母是由單、雙元音、元音帶上輔音等幾種不同的形式組成。不同的元音有不同的基音頻率和共振峰模式,它們是區(qū)別不同韻母的重要參數(shù)。區(qū)別不同韻母的重要參數(shù)第35頁,共59頁,2023年,2月20日,星期六
聲母、韻母和聲調(diào)是漢語語音的三要素。漢語語音的一個不同于其他語言的是它具有聲調(diào)(音調(diào))。聲調(diào)是1個音節(jié)在念法上的高低升降的變化,漢語中有4個聲調(diào),即陰平(-)、陽平(′)、上聲()、和去聲(‵)。三、漢語音節(jié)的一般結(jié)構(gòu)第36頁,共59頁,2023年,2月20日,星期六
聲調(diào)的變化就是濁音基音周期的變化,為了將調(diào)值描寫地具體一些,一般采用“五度標記法”,用一條豎線表示聲音的高低,從上而下用1、2、3、4、5依次表示低、半低、中、半高、高。5高4半高3中2半低1低陰平陽平上聲去聲調(diào)類陰平陽平上聲去聲調(diào)值553521451第37頁,共59頁,2023年,2月20日,星期六四、語音信號的統(tǒng)計特性
語音信號振幅分布的概率密度有兩種逼近方法:修正伽瑪(Gamma)分布概率密度函數(shù):拉譜拉斯(Laplace)分布概率密度函數(shù):第38頁,共59頁,2023年,2月20日,星期六第39頁,共59頁,2023年,2月20日,星期六
人類接收語音由人耳來完成,空氣振動由耳廓收集,經(jīng)外耳道而抵達鼓膜,鼓膜隨之振動,使鼓室中的空氣和聽骨鏈也發(fā)生振動,聽骨鏈的振動經(jīng)前庭窗(卵圓窗)激勵前庭淋巴,變?yōu)橐翰?,液波使位于基底膜上的螺旋器受到刺激,將神?jīng)沖動經(jīng)聽神經(jīng)傳到中樞而產(chǎn)生聽覺?!?.5人類的聽覺功能第40頁,共59頁,2023年,2月20日,星期六
正常人的聽覺系統(tǒng)是極為靈敏的,可聽聲的范圍為20Hz-20kHz??陕犅暤淖钚÷晧杭?dB)稱為聽閾。-5~130dB,對低頻和高頻是不敏感的,聽閾為60dB,在1kHz附近最敏感。第41頁,共59頁,2023年,2月20日,星期六
如果信號是一個多頻率的信號,則產(chǎn)生的行波將沿著基底膜在不同的位置產(chǎn)生最大幅度,從這個意義上講,耳蝸就像一個頻譜分析儀,將復雜信號分解成各種頻率分量,這種作用稱為人耳的時頻分析特性。耳蝸在語音接收過程起著重要的作用。耳蝸對聲信號的時頻分析特性第42頁,共59頁,2023年,2月20日,星期六
人工耳蝸是一種電子裝置,能幫助重度及極重度耳聾患者獲得或重新恢復聽覺。它代替病變受損的聽覺器官,把聲音轉(zhuǎn)換成編碼的電信號傳入內(nèi)耳耳蝸,刺激分布在那里的聽神經(jīng),再由大腦產(chǎn)生聽覺。
人工耳蝸第43頁,共59頁,2023年,2月20日,星期六
麥克風接收聲音,并通過導線將其傳至言語處理器;言語處理器對聲音進行數(shù)字化、濾波編碼等處理,并將編碼信號經(jīng)導線傳至傳輸線圈;傳輸線圈將編碼信號通過耦合傳至皮下的接收器;接收器對編碼信號進行解碼;按信號選擇一定位置的電極,刺激耳蝸內(nèi)的聽神經(jīng)纖維,使其產(chǎn)生興奮,將信號傳入大腦,產(chǎn)生聽覺。人工耳蝸的工作原理第44頁,共59頁,2023年,2月20日,星期六人耳的掩蔽效應
人耳的掩蔽(maskingphenomenon)效應:在一個強信號附近弱信號將變得不可聞,被掩蔽掉了。第45頁,共59頁,2023年,2月20日,星期六掩蔽閾值
被掩蔽掉的不可聞信號的最大聲壓級稱為掩蔽門限和掩蔽閾值(maskingthreshold),在這個掩蔽閾值以下的聲音將被掩蔽掉。
掩蔽效應分為同時掩蔽(頻域掩蔽)和短時掩蔽(時域掩蔽)。同時掩蔽是指存在一個弱信號和一個強信號,當其頻率接近時,強信號會提高弱信號的閾值,就會導致弱信號變得不可聞。第46頁,共59頁,2023年,2月20日,星期六1kHz的聽閾1dB20dB4dB可聞聲3dB不可聞聲圖形描述第47頁,共59頁,2023年,2月20日,星期六
同時出現(xiàn)的A聲和B聲,若原來A聲的閾值為50dB,由于另一個頻率不同的B聲的存在使得A聲的閾值提高了68dB,則B聲稱為掩蔽聲,A聲稱為被掩蔽聲。掩蔽量為68dB-50dB=18dB。數(shù)學描述第48頁,共59頁,2023年,2月20日,星期六
掩蔽效應的作用
當只有A聲時,必須將聲壓級在50dB以上的聲音信號傳送出去,50dB以下的聲音是聽不到的。當同時出現(xiàn)了B聲,由于掩蔽效應,使得A聲中的68dB以下的聲音是聽不到了,可以不予傳送,只是傳送50dB以上的信號。
同時掩蔽時,掩蔽聲越強,掩蔽作用越大;掩蔽聲和被掩蔽聲的頻率越接近,掩蔽效果越明顯,當頻率相同時,掩蔽效果最大。第49頁,共59頁,2023年,2月20日,星期六
前向掩蔽:若被掩蔽聲A出現(xiàn)后,相隔(0.05s,2s)之內(nèi)出現(xiàn)了掩蔽聲B,對A起掩蔽作用,因為A聲尚未被人所反應接收而強大的B聲已來臨。短時掩蔽前向掩蔽和后向掩蔽
后向掩蔽:掩蔽聲B即使消失后,其掩蔽作用仍將持續(xù)一段時間,約(0.5s,2s),這時由于人耳的存儲效應所致。第50頁,共59頁,2023年,2月20日,星期六語譜圖(Spectrogram)
語音的時域分析和頻域分析是語音分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年翼城縣幼兒園教師招教考試備考題庫附答案解析(奪冠)
- 2025年五原縣幼兒園教師招教考試備考題庫附答案解析(奪冠)
- 2025年襄陽職業(yè)技術(shù)學院馬克思主義基本原理概論期末考試模擬題含答案解析(奪冠)
- 2025年鄭州城建職業(yè)學院單招職業(yè)技能考試題庫附答案解析
- 2025年巨鹿縣幼兒園教師招教考試備考題庫及答案解析(奪冠)
- 2025年浙江商業(yè)職業(yè)技術(shù)學院單招職業(yè)傾向性考試題庫附答案解析
- 2025年漢陰縣招教考試備考題庫帶答案解析(奪冠)
- 2025年平邑縣招教考試備考題庫帶答案解析(必刷)
- 2025年云南現(xiàn)代職業(yè)技術(shù)學院馬克思主義基本原理概論期末考試模擬題及答案解析(必刷)
- 2025年麗水職業(yè)技術(shù)學院單招職業(yè)技能考試模擬測試卷附答案解析
- 2026年官方標準版離婚協(xié)議書
- 2026 年初中英語《狀語從句》專項練習與答案 (100 題)
- 2026年遼寧省盤錦市高職單招語文真題及參考答案
- 農(nóng)投集團安全生產(chǎn)制度
- 近五年貴州中考物理真題及答案2025
- 2025年黑龍江省大慶市中考數(shù)學試卷
- 2025年國補自查自糾報告
- 山東煙草2026年招聘(197人)考試備考試題及答案解析
- 二級醫(yī)院的DRGs培訓課件
- 空芯光纖行業(yè)分析報告
- 2026年湖南中醫(yī)藥高等??茖W校單招職業(yè)傾向性測試題庫及答案詳解一套
評論
0/150
提交評論