版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
主講:張群慧語(yǔ)音處理技術(shù)SpeechProcessingTechnology01模塊1語(yǔ)音數(shù)據(jù)處理--數(shù)據(jù)清洗--任務(wù)目標(biāo)掌握語(yǔ)音數(shù)據(jù)處理概念語(yǔ)音數(shù)據(jù)的讀取和可視化寫一個(gè)語(yǔ)音信號(hào)語(yǔ)音數(shù)據(jù)信號(hào)加窗語(yǔ)音數(shù)據(jù)信號(hào)分幀語(yǔ)音信號(hào)的短時(shí)時(shí)域與頻域處理任務(wù)內(nèi)容語(yǔ)音數(shù)據(jù)預(yù)處理語(yǔ)音數(shù)據(jù)處理的整個(gè)過程可以分為兩個(gè)部分:
高質(zhì)量低速率的語(yǔ)音編碼技術(shù)是其中最主要的要求,它將模擬語(yǔ)音信號(hào)變成數(shù)字信號(hào)以便在信道中傳輸。除了通信帶寬的要求外,嵌入式系統(tǒng)存儲(chǔ)容量的限制也要求對(duì)語(yǔ)音進(jìn)行壓縮,以滿足巨量數(shù)據(jù)情況下進(jìn)行實(shí)時(shí)或準(zhǔn)實(shí)時(shí)微處理器處理的目的。A/D轉(zhuǎn)換
把原始聲音的模擬輸入轉(zhuǎn)化為數(shù)字化信息;D/A轉(zhuǎn)換
把數(shù)字信息轉(zhuǎn)化為模擬數(shù)據(jù)。微處理器處理的目的。語(yǔ)音數(shù)據(jù)預(yù)處理任務(wù)內(nèi)容語(yǔ)音文件的讀取與可視化語(yǔ)音信號(hào)處理的研究起源于對(duì)發(fā)音器官的模擬。1939年美國(guó)H.杜德萊(H.Dudley)展出了一個(gè)簡(jiǎn)單的發(fā)音過程模擬系統(tǒng),以后發(fā)展成為聲道的數(shù)字模型。利用該模型可以對(duì)語(yǔ)音信號(hào)進(jìn)行各種頻譜及參數(shù)的分析,進(jìn)行通信編碼或數(shù)據(jù)壓縮的研究,同時(shí)也可根據(jù)分析獲得的頻譜特征或參數(shù)變化規(guī)律,合成語(yǔ)音信號(hào),實(shí)現(xiàn)機(jī)器的語(yǔ)音合成。語(yǔ)音文件的讀取與可視化任務(wù)內(nèi)容利用語(yǔ)音分析技術(shù),還可以實(shí)現(xiàn)對(duì)語(yǔ)音的自動(dòng)識(shí)別,發(fā)音人的自動(dòng)辨識(shí)。
如果與人工智能技術(shù)結(jié)合,還可以實(shí)現(xiàn)各種語(yǔ)句的自動(dòng)識(shí)別以至語(yǔ)言的自動(dòng)理解,從而實(shí)現(xiàn)人機(jī)語(yǔ)音交互應(yīng)答系統(tǒng),真正賦予計(jì)算機(jī)以聽覺的功能。語(yǔ)音文件的讀取與可視化(續(xù))任務(wù)內(nèi)容語(yǔ)音信號(hào)處理語(yǔ)音信號(hào)的產(chǎn)生和感知語(yǔ)音信號(hào)是一個(gè)非平穩(wěn)的時(shí)變信號(hào),但語(yǔ)音信號(hào)是由聲門的激勵(lì)脈沖通過聲道形成的,而聲道(人的口腔、鼻腔)的肌肉運(yùn)動(dòng)是緩慢的,所以“短時(shí)間”(10~30ms)內(nèi)可以認(rèn)為語(yǔ)音信號(hào)是平穩(wěn)時(shí)不變的。由此構(gòu)成了語(yǔ)音信號(hào)的“短時(shí)分析技術(shù)”。在短時(shí)分析中,將語(yǔ)音信號(hào)分為一段一段的語(yǔ)音幀,每一幀一般取10~30ms,我們的研究就建立在每一幀的語(yǔ)音特征分析上。任務(wù)內(nèi)容語(yǔ)音信號(hào)處理提取的不同的語(yǔ)音特征參數(shù)對(duì)應(yīng)著不同的語(yǔ)音信號(hào)分析方法:由于語(yǔ)音信號(hào)最重要的感知特性反映在功率譜上,而相位變化只起到很小的作用,所有語(yǔ)音頻域分析更加重要。時(shí)域分析頻域分析倒譜域分析...
在對(duì)語(yǔ)音信號(hào)處理的過程中,語(yǔ)音信號(hào)的質(zhì)量不僅取決于處理方法,同時(shí)取決于所提取的能夠表示該語(yǔ)音的特征參數(shù)是否合適。有了特征參數(shù)才可能利用這些參數(shù)進(jìn)行有效的處理。任務(wù)內(nèi)容信號(hào)加窗通常對(duì)信號(hào)截?cái)?、分幀需要加窗,因?yàn)榻財(cái)喽加蓄l域能量泄露,而窗函數(shù)可以減少截?cái)鄮?lái)的影響。信號(hào)加窗任務(wù)內(nèi)容信號(hào)分幀在分幀中,相鄰兩幀之間會(huì)有一部分重疊。信號(hào)分幀幀長(zhǎng)(wlen)=重疊(overlap)+幀移(inc)如果相鄰兩幀之間不重疊,那么由于窗函數(shù)的形狀,截取到的語(yǔ)音幀邊緣會(huì)出現(xiàn)損失,所以要設(shè)置重疊部分。inc為幀移,表示后一幀第前一幀的偏移量,fs表示采樣率,fn表示一段語(yǔ)音信號(hào)的分幀數(shù)。任務(wù)內(nèi)容信號(hào)分幀信號(hào)分幀的理論依據(jù),其中x是語(yǔ)音信號(hào),w是窗函數(shù):加窗截?cái)囝愃撇蓸樱瑸榱吮WC相鄰幀不至于差別過大,通常幀與幀之間有幀移,其實(shí)就是插值平滑的作用。任務(wù)內(nèi)容語(yǔ)音數(shù)據(jù)的短時(shí)時(shí)域處理與頻域處理短時(shí)能量和短時(shí)平均幅度短時(shí)能量和短時(shí)平均幅度的主要用途:
區(qū)分聲母和韻母的分界和無(wú)話段和有話段的分界
區(qū)分濁音和清音段,因?yàn)闈嵋舻亩虝r(shí)能量E(i)比清音大很多;任務(wù)內(nèi)容語(yǔ)音數(shù)據(jù)的短時(shí)時(shí)域處理與頻域處理發(fā)濁音時(shí)由于聲門波引起譜的高頻跌落,所以語(yǔ)音信號(hào)能量約集中在3kHz以下,發(fā)清音時(shí)多數(shù)能量集中在較高的頻率上,因?yàn)楦哳l意味著高的短時(shí)平均過零率,低頻意味著低的短時(shí)平均過零率,所以濁音時(shí)具有較低的過零率,而清音時(shí)具有較高的過零率。對(duì)于連續(xù)語(yǔ)音信號(hào),過零率意味著時(shí)域波形通過時(shí)間軸,對(duì)于離散信號(hào),如果相鄰的取樣值改變符號(hào),則稱為過零。短時(shí)平均過零率可以用來(lái)初步判斷清音和濁音可以用于判斷寂靜無(wú)話段與有話段的起點(diǎn)和終止位置。在背景噪聲較小的時(shí)候,用平均能量識(shí)別較為有效,在背景噪聲較大的時(shí)候,用短時(shí)平均過零率識(shí)別較為有效。短時(shí)自相關(guān)函數(shù)主要應(yīng)用于端點(diǎn)檢測(cè)和基音的提取,在韻母基因頻率整數(shù)倍處將出現(xiàn)峰值特性,通常根據(jù)除R(0)外的第一峰值來(lái)估計(jì)基音,而在聲母的短時(shí)自相關(guān)函數(shù)中看不到明顯的峰值。短時(shí)自相關(guān)函數(shù)任務(wù)內(nèi)容短時(shí)自相關(guān)函數(shù)短時(shí)平均幅度差函數(shù)用于檢測(cè)基音周期,而且在計(jì)算上比短時(shí)自相關(guān)函數(shù)更加簡(jiǎn)單。語(yǔ)音信號(hào)的短時(shí)頻域處理任務(wù)內(nèi)容短時(shí)自相關(guān)函數(shù)在語(yǔ)音信號(hào)處理中,在語(yǔ)音信號(hào)處理中,信號(hào)在頻域或其他變換域上的分析處理占重要的位置,在頻域上研究語(yǔ)音可以使信號(hào)在時(shí)域上無(wú)法表現(xiàn)出來(lái)的某些特征變得十分明顯,一個(gè)音頻信號(hào)的本質(zhì)是由其頻率內(nèi)容決定的,將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào)一般對(duì)語(yǔ)音進(jìn)行短時(shí)傅里葉變換。fft_audio=np.fft.fft(audio)將信號(hào)轉(zhuǎn)換為頻域之后,還需要將其轉(zhuǎn)換為有用的形式,梅爾頻率倒譜系數(shù)(MFCC),MFCC首先計(jì)算信號(hào)的功率譜,然后用濾波器組和離散余弦變換的組合來(lái)提取特征。梅爾頻率倒譜系數(shù)任務(wù)內(nèi)容頻譜任務(wù)內(nèi)容絕大部分信號(hào)都可以分解為若干不同頻率的正弦波。這些正弦波中,頻率最低的稱為信號(hào)的基波,其余稱為信號(hào)的諧波?;ㄖ挥幸粋€(gè),可以稱為一次諧波,諧波可以有很多個(gè),每次諧波的頻率是基波頻率的整數(shù)倍。諧波的大小可能互不相同。以諧波的頻率為橫坐標(biāo),幅值(大小)為縱坐標(biāo),繪制的系列條形圖,稱為頻譜。頻譜能夠準(zhǔn)確反映信號(hào)的內(nèi)部構(gòu)造。語(yǔ)譜圖任務(wù)內(nèi)容語(yǔ)譜圖綜合了時(shí)域和頻域的特點(diǎn),明顯的顯示出來(lái)了語(yǔ)音頻率隨時(shí)間的變化情況,語(yǔ)譜圖的橫軸為時(shí)間,縱軸為頻率任意給定頻率成分在給定時(shí)刻的強(qiáng)弱用顏色深淺表示。顏色深表示頻譜值大,顏色淺表示頻譜值小,語(yǔ)譜
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院醫(yī)務(wù)人員進(jìn)修與職稱評(píng)定制度
- 2026年春季學(xué)期XX市第七中學(xué)-學(xué)生生涯規(guī)劃-導(dǎo)師制實(shí)施報(bào)告:導(dǎo)師職責(zé)與幫扶成效
- 2026年健康生活方式與養(yǎng)生技巧健康管理課程作業(yè)題目
- 2026年經(jīng)濟(jì)分析與預(yù)測(cè)試題宏觀經(jīng)濟(jì)理論金融投資分析
- 2026年電子商務(wù)員考試試題及答案
- 德育應(yīng)急預(yù)案(3篇)
- 2025-2026學(xué)年第二學(xué)期初二年級(jí)地理備課組工作計(jì)劃:結(jié)合區(qū)域地理拓展學(xué)生視野提升地理實(shí)踐能力
- 2026年工程師創(chuàng)新思維訓(xùn)練題庫(kù)
- 2026年供應(yīng)鏈管理與物流優(yōu)化認(rèn)證題集
- 信息技術(shù)合同與項(xiàng)目管理辦法
- 巷道工程清包工合同范本
- 廣西鹿寨萬(wàn)強(qiáng)化肥有限責(zé)任公司技改擴(kuò)能10萬(wàn)噸-年復(fù)混肥建設(shè)項(xiàng)目環(huán)評(píng)報(bào)告
- 三級(jí)醫(yī)院營(yíng)養(yǎng)科建設(shè)方案
- (2025年標(biāo)準(zhǔn))彩禮收條協(xié)議書
- 賓得全站儀R-422NM使用說(shuō)明書
- ASTM-D1238中文翻譯(熔融流動(dòng)率、熔融指數(shù)、體積流動(dòng)速率)
- 短視頻創(chuàng)作-短視頻手機(jī)拍攝與剪輯
- 2025年國(guó)家公務(wù)員考試《申論》真題及答案解析(副省級(jí))
- 貴州省遵義市2024屆高三第三次質(zhì)量監(jiān)測(cè)數(shù)學(xué)試卷(含答案)
- 江蘇省勞動(dòng)合同模式
- 速凍食品安全風(fēng)險(xiǎn)管控清單
評(píng)論
0/150
提交評(píng)論