版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第2章聲音信號簡介2.1人類語音信號的產(chǎn)生2.2語音信號的基本特征2.3聲音的特征提取2.4人類的聽覺感知2.5語音數(shù)據(jù)庫2人類語音信號是如何產(chǎn)生的2.1人類語音信號的產(chǎn)生32.1人類語音信號的產(chǎn)生人類語音信號的產(chǎn)生可以等效為下圖所示的過程,包括噪聲源(NoiseSource)、聲門源(GlottalSource)、聲道濾波器(Vocal-TractFilter)和輻阻抗(RadiationImpedance)。圖語音信號的產(chǎn)生42.1人類語音信號的產(chǎn)生
Z變換
52.1人類語音信號的產(chǎn)生
Z反變換62.2語音信號的基本特征音質(zhì)特征:頻率微擾、聲門參數(shù)、共振峰韻律特征:基頻、時長、過零率、對數(shù)能量譜相關(guān)特征:線性譜特征(線性預(yù)測系數(shù))
倒譜特征(線性預(yù)測倒譜系數(shù)、Mel頻率倒譜系數(shù))深度學(xué)習(xí)特征語音信號的基本特征72.3聲音的特征提取聲音特征手工聲音特征:韻律特征、音質(zhì)特征、譜特征、 Mel頻率倒譜系數(shù)深度語音特征:卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)(LSTM)、 SincNet、Transformer和注意力機(jī)制82.4人類的聽覺感知因為語音增強(qiáng)效果的最終度量是人的主觀感受,所以語音感知對語音增強(qiáng)研究有重要的作用:1、人耳對語音的感知是通過語音信號中各頻譜分量幅度獲取的,對各分量的相位則不敏感。2、人耳對頻譜分量強(qiáng)度的感受是頻率與能量譜的二元函數(shù),響度與頻譜幅度的對數(shù)成正比。3、人耳對頻率高低的感受近似與該頻率的對數(shù)值成正比。4、人耳有掩蔽效應(yīng),即強(qiáng)信號對弱信號有掩蔽抑制作用。掩蔽的程度是聲音強(qiáng)度與頻率的二元函數(shù)。5、短時譜中的共振峰對語音的感知十分重要,特別是第二共振峰比第一共振峰更為重要,因此對語音信號進(jìn)行一定程度的高通濾波不會對可懂度造成影響。6、人耳在兩人以上的講話中有能力分辯出需要聆聽的聲音。92.5語音數(shù)據(jù)庫語音數(shù)據(jù)庫是語音信號處理研究的基礎(chǔ),包括數(shù)據(jù)庫建設(shè)的目的、類型、創(chuàng)建與采集過程、標(biāo)準(zhǔn)化與共享原則以及倫理和法律方面的考量。自然語音數(shù)據(jù)庫語音識別數(shù)據(jù)庫聲音情感數(shù)據(jù)庫語音合成數(shù)據(jù)庫CallHome數(shù)據(jù)集TIMIT數(shù)據(jù)集LibriSpeech數(shù)據(jù)集2.5.1語音識別數(shù)據(jù)集112.5.2聲音情感數(shù)據(jù)庫圖二維的Arousal-Valence狀態(tài)空間圖語料庫年齡語言情感表現(xiàn)形式樣本數(shù)采樣頻率kHzDMO-DB成人德語表演型49416CASIA成人中文表演型960016ABC成人德語表演型43016FAUAIBO兒童德語自然型1821616eNTERFACE成人英語引導(dǎo)型127716SUSAS成人英語自然型35938VAM成人德語自然型94716TUMAVIC成人英語自然型300244表
不同語音情感數(shù)據(jù)庫間差異122.5.3多模態(tài)情感數(shù)據(jù)庫數(shù)據(jù)集名稱建立年份數(shù)據(jù)類型情感標(biāo)簽簡要描述eNTERFACE’052006語音、視頻憤怒、厭惡、恐懼、快樂、悲傷、驚訝來自14個不同國家的42名參與者,錄制了1277個視聽樣本RML2008語音、視頻憤怒、厭惡、恐懼、幸福、悲傷、驚訝8名參與者,錄制了720個視聽情感樣本IEMOCAP2008語音、視頻、文本、人體姿態(tài)中性、快樂、悲傷、憤怒、驚訝、恐懼、厭惡、沮喪、興奮10名演員,錄制了共10039段對話,平均對話時間為4.5sSAVEE2011語音、視頻生氣、厭惡、恐懼、高興、中性、悲傷、驚訝來自薩里大學(xué)的4位母語英語男性,每人錄制了120個音視頻片段AFEW2012語音、視頻憤怒、厭惡、恐懼、幸福、悲傷、驚訝、中性由1426個試聽片段構(gòu)成BAUM-1s2016語音、視頻快樂、憤怒、悲傷、厭惡、恐懼、驚訝31名土耳其參與者,共錄制了1222個視聽樣本CHEAVDI2016語音、視頻憤怒、快樂、悲傷、擔(dān)心、焦慮、驚訝、厭惡、中性從電影、電視劇、電視節(jié)目中獲取了140min的自發(fā)情感片段CMU-MOSI2016語音、視頻、文本消極、積極由93段視頻,2199個評論話語組成RAMAS2018語音、視頻、人體姿態(tài)、生理信號憤怒、厭惡、快樂、悲傷、恐懼、驚訝由10名演員錄制的7h高清晰度特寫視頻RAVDESS2018語音、視頻中性、平靜、快樂、悲傷、憤怒、恐懼、厭惡、驚訝24位演員,每人錄制60段講話、44首歌曲CMU-MOSEI2018語音、視頻、文本快樂、悲傷、憤怒、恐懼、厭惡、驚訝從YouTube上獲取了1000多名在線演講者的3837段視頻MELD2019語音、視頻、文本憤怒、厭惡、恐懼、喜悅、中立、悲傷、驚訝截取自電視劇Friends中的14
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 動物世界奇聞異事
- 2025河南國宏貿(mào)易發(fā)展集團(tuán)招聘2人備考題庫及參考答案詳解一套
- 2026年及未來5年市場數(shù)據(jù)中國膏劑行業(yè)市場全景分析及投資規(guī)劃建議報告
- 2026年及未來5年市場數(shù)據(jù)中國彩石類礦行業(yè)市場調(diào)查研究及投資策略研究報告
- 2026年及未來5年市場數(shù)據(jù)中國腐殖酸系列廢料行業(yè)市場調(diào)查研究及投資前景預(yù)測報告
- 老年慢性病患者的社交需求與生活質(zhì)量決策
- 2026年及未來5年市場數(shù)據(jù)中國塑料包裝袋行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略咨詢報告
- 老年慢性病家庭醫(yī)生簽約綜合干預(yù)方案
- 2026年及未來5年市場數(shù)據(jù)中國道路運(yùn)輸行業(yè)市場發(fā)展數(shù)據(jù)監(jiān)測及投資戰(zhàn)略規(guī)劃報告
- 進(jìn)爵童子介紹
- 2025-2030半導(dǎo)體缺陷檢測設(shè)備行業(yè)運(yùn)營模式與供需趨勢預(yù)測研究報告
- GB/T 46755-2025智能紡織產(chǎn)品通用技術(shù)要求
- 2026年湖南國防工業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫附答案
- 2026年殘疾人聯(lián)合會就業(yè)服務(wù)崗招聘筆試適配題含答案
- 2025年手術(shù)室護(hù)理實踐指南知識考核試題及答案
- 醫(yī)療器械ISO13485風(fēng)險評估報告
- 彩禮分期合同范本
- 顧客特殊要求培訓(xùn)
- 全民健身園項目運(yùn)營管理方案
- 2025年松脂市場調(diào)查報告
- 2025年英語培訓(xùn)機(jī)構(gòu)學(xué)員合同示范條款協(xié)議
評論
0/150
提交評論