聲音信號處理與項目實踐 課件 第2章 聲音信號簡介_第1頁
聲音信號處理與項目實踐 課件 第2章 聲音信號簡介_第2頁
聲音信號處理與項目實踐 課件 第2章 聲音信號簡介_第3頁
聲音信號處理與項目實踐 課件 第2章 聲音信號簡介_第4頁
聲音信號處理與項目實踐 課件 第2章 聲音信號簡介_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第2章聲音信號簡介2.1人類語音信號的產(chǎn)生2.2語音信號的基本特征2.3聲音的特征提取2.4人類的聽覺感知2.5語音數(shù)據(jù)庫2人類語音信號是如何產(chǎn)生的2.1人類語音信號的產(chǎn)生32.1人類語音信號的產(chǎn)生人類語音信號的產(chǎn)生可以等效為下圖所示的過程,包括噪聲源(NoiseSource)、聲門源(GlottalSource)、聲道濾波器(Vocal-TractFilter)和輻阻抗(RadiationImpedance)。圖語音信號的產(chǎn)生42.1人類語音信號的產(chǎn)生

Z變換

52.1人類語音信號的產(chǎn)生

Z反變換62.2語音信號的基本特征音質(zhì)特征:頻率微擾、聲門參數(shù)、共振峰韻律特征:基頻、時長、過零率、對數(shù)能量譜相關(guān)特征:線性譜特征(線性預(yù)測系數(shù))

倒譜特征(線性預(yù)測倒譜系數(shù)、Mel頻率倒譜系數(shù))深度學(xué)習(xí)特征語音信號的基本特征72.3聲音的特征提取聲音特征手工聲音特征:韻律特征、音質(zhì)特征、譜特征、 Mel頻率倒譜系數(shù)深度語音特征:卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)(LSTM)、 SincNet、Transformer和注意力機(jī)制82.4人類的聽覺感知因為語音增強(qiáng)效果的最終度量是人的主觀感受,所以語音感知對語音增強(qiáng)研究有重要的作用:1、人耳對語音的感知是通過語音信號中各頻譜分量幅度獲取的,對各分量的相位則不敏感。2、人耳對頻譜分量強(qiáng)度的感受是頻率與能量譜的二元函數(shù),響度與頻譜幅度的對數(shù)成正比。3、人耳對頻率高低的感受近似與該頻率的對數(shù)值成正比。4、人耳有掩蔽效應(yīng),即強(qiáng)信號對弱信號有掩蔽抑制作用。掩蔽的程度是聲音強(qiáng)度與頻率的二元函數(shù)。5、短時譜中的共振峰對語音的感知十分重要,特別是第二共振峰比第一共振峰更為重要,因此對語音信號進(jìn)行一定程度的高通濾波不會對可懂度造成影響。6、人耳在兩人以上的講話中有能力分辯出需要聆聽的聲音。92.5語音數(shù)據(jù)庫語音數(shù)據(jù)庫是語音信號處理研究的基礎(chǔ),包括數(shù)據(jù)庫建設(shè)的目的、類型、創(chuàng)建與采集過程、標(biāo)準(zhǔn)化與共享原則以及倫理和法律方面的考量。自然語音數(shù)據(jù)庫語音識別數(shù)據(jù)庫聲音情感數(shù)據(jù)庫語音合成數(shù)據(jù)庫CallHome數(shù)據(jù)集TIMIT數(shù)據(jù)集LibriSpeech數(shù)據(jù)集2.5.1語音識別數(shù)據(jù)集112.5.2聲音情感數(shù)據(jù)庫圖二維的Arousal-Valence狀態(tài)空間圖語料庫年齡語言情感表現(xiàn)形式樣本數(shù)采樣頻率kHzDMO-DB成人德語表演型49416CASIA成人中文表演型960016ABC成人德語表演型43016FAUAIBO兒童德語自然型1821616eNTERFACE成人英語引導(dǎo)型127716SUSAS成人英語自然型35938VAM成人德語自然型94716TUMAVIC成人英語自然型300244表

不同語音情感數(shù)據(jù)庫間差異122.5.3多模態(tài)情感數(shù)據(jù)庫數(shù)據(jù)集名稱建立年份數(shù)據(jù)類型情感標(biāo)簽簡要描述eNTERFACE’052006語音、視頻憤怒、厭惡、恐懼、快樂、悲傷、驚訝來自14個不同國家的42名參與者,錄制了1277個視聽樣本RML2008語音、視頻憤怒、厭惡、恐懼、幸福、悲傷、驚訝8名參與者,錄制了720個視聽情感樣本IEMOCAP2008語音、視頻、文本、人體姿態(tài)中性、快樂、悲傷、憤怒、驚訝、恐懼、厭惡、沮喪、興奮10名演員,錄制了共10039段對話,平均對話時間為4.5sSAVEE2011語音、視頻生氣、厭惡、恐懼、高興、中性、悲傷、驚訝來自薩里大學(xué)的4位母語英語男性,每人錄制了120個音視頻片段AFEW2012語音、視頻憤怒、厭惡、恐懼、幸福、悲傷、驚訝、中性由1426個試聽片段構(gòu)成BAUM-1s2016語音、視頻快樂、憤怒、悲傷、厭惡、恐懼、驚訝31名土耳其參與者,共錄制了1222個視聽樣本CHEAVDI2016語音、視頻憤怒、快樂、悲傷、擔(dān)心、焦慮、驚訝、厭惡、中性從電影、電視劇、電視節(jié)目中獲取了140min的自發(fā)情感片段CMU-MOSI2016語音、視頻、文本消極、積極由93段視頻,2199個評論話語組成RAMAS2018語音、視頻、人體姿態(tài)、生理信號憤怒、厭惡、快樂、悲傷、恐懼、驚訝由10名演員錄制的7h高清晰度特寫視頻RAVDESS2018語音、視頻中性、平靜、快樂、悲傷、憤怒、恐懼、厭惡、驚訝24位演員,每人錄制60段講話、44首歌曲CMU-MOSEI2018語音、視頻、文本快樂、悲傷、憤怒、恐懼、厭惡、驚訝從YouTube上獲取了1000多名在線演講者的3837段視頻MELD2019語音、視頻、文本憤怒、厭惡、恐懼、喜悅、中立、悲傷、驚訝截取自電視劇Friends中的14

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論