版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于BP神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù),匯報人:,目錄,一.語音識別概述 二.語音識別流程 三.語音信號預(yù)處理 四.語音識別特征提取 五.BP神經(jīng)網(wǎng)絡(luò)原理 六.語音識別程序設(shè)計,一.語音識別概述,語音識別以語音為研究對象,涉及到生理學(xué)、心理學(xué)、語言學(xué)、計算機科學(xué),以及信號處理等諸多領(lǐng)域,最終目的是實現(xiàn)人與機器進行自然語言通信,用語言操縱計算機。,語音識別系統(tǒng)可以分為孤立字(詞)語音識別系統(tǒng)、連接字語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)。 語音識別系統(tǒng)分為兩個方向:一是根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng);二是根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量,以及無限詞匯量語音識別
2、系統(tǒng)。,二.語音識別流程,從圖的系統(tǒng)整體架構(gòu)可以看到,建立基于BP神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)可分為兩個階段,即訓(xùn)練階段和識別階段。首先由用戶通過麥克風(fēng)輸入語音形成原始語音,然后系統(tǒng)對其進行預(yù)處理。預(yù)處理包括預(yù)加重,加窗分幀和端點檢測三個過程。系統(tǒng)的前端采用了端點檢測,目的是在一段語音信號中確定起點和終點。在特征提取部分,本系統(tǒng)采用了MFCC作為特征參數(shù),用于有效地區(qū)分數(shù)字1-5.,三.語音信號預(yù)處理,1.預(yù)加重,語音從嘴唇輻射會有6dB/oct的衰減,因此在對語音信號進行處理之前,希望能按6dB/oct的比例對信號加以提升(或加重),以使得輸出信號的電平相近似。可采用以下差分方程定義的數(shù)字濾波器:
3、,式中,系數(shù)常在0.9至1之間選取。,2.語音信號的分幀 語音信號是一種典型的非平穩(wěn)信號,它的均值函數(shù)u(x)和自相關(guān)函數(shù)R(xl,x2)都隨時間而發(fā)生較大的變化。但研究發(fā)現(xiàn),語音信號在短時間內(nèi)頻譜特性保持平穩(wěn),即具有短時平穩(wěn)特性。因此,在實際處理時可以將語音信號分成很小的時間段(約1030ms),稱之為“幀”。 在語音信號數(shù)字處理中常用的窗函數(shù)是矩形窗、漢明窗等,它們的表達式如下(其中N為幀長): 矩形窗: 漢明窗:,3端點檢測,基于短時能量和短時過零率的雙門限檢測法,在該算法中,短時能量檢測可以較好地區(qū)分出濁音和靜音。對于清音,由于其能量較小,在短時能量檢測中會因為低于能量門限而被誤判為靜
4、音,短時過零率則可以從語音中區(qū)分出靜音和清音。將兩種檢測結(jié)合起來,就可以檢測出語音段及靜音段。,下圖是我本科課程設(shè)計中一個關(guān)于端點檢測的程序GUI界面,其中語音是教材中的示例語音“他去無錫市”,我通過cooledit在示例語音中加入了白噪音,可以看出清音段混雜在噪音中,如果短時能量的門限值選取過高可能會屏蔽掉清音段,所以加入過零率能更好的識別出清音段。,由此圖可以看出門限值選取的合不合理很大程度上影響到端點識別的效果,四.語音識別特征提取,特征提?。杭磳Σ煌恼Z音尋找其內(nèi)在特征,由此來判別出未知語音,所以每個語音識別系統(tǒng)都必須進行特征提取。,語音信號的特征主要有時域和頻域兩種。 時域特征:短時
5、平均能量、短時平均過零率、共振峰、基音周期等; 頻域特征:線性預(yù)測系數(shù)(LPC)、LP倒譜系數(shù)(LPCC)、 Mel頻率倒譜系數(shù)(MFCC)等。 本實驗選取MEL頻率倒譜系數(shù)(MFCC)進行提取特征參數(shù)。,通過閱讀文獻了解到基于DTW算法和MFCC就已經(jīng)可以做到語音的識別了,但是泛化性比較差,中間測試過一個相關(guān)的程序只能識別特定的語音片段,更換說話人后識別效果很差。,五.BP神經(jīng)網(wǎng)絡(luò)原理,BP神經(jīng)網(wǎng)絡(luò)又稱誤差反向傳遞神經(jīng)網(wǎng)絡(luò)。提取了語音的特征參數(shù)后,靠神經(jīng)網(wǎng)絡(luò)中大量的連接權(quán)對輸入模式進行非線性運算,產(chǎn)生最大興奮的輸入點就代表了輸入模式對應(yīng)的分類。神經(jīng)網(wǎng)絡(luò)的連接權(quán)系數(shù)是在使用中根據(jù)識別結(jié)果的正確
6、與否不斷的進行自適應(yīng)修正。單隱層網(wǎng)絡(luò)的整個體系結(jié)構(gòu)如圖所示,分為輸入層、隱藏層和輸出層,其中隱藏層根據(jù)具體情況的需要,可以是一層結(jié)構(gòu)也可為多層結(jié)構(gòu)。,六.語音識別程序設(shè)計,數(shù)字的語音識別 實驗?zāi)康模鹤R別1 3 5三個數(shù)字(選擇135是因為135三個數(shù)字的識別率最高) 訓(xùn)練樣本:每個數(shù)字選取5個樣本進行訓(xùn)練(均為同一個人的樣本) 測試樣本:每個數(shù)字選取3個樣本進行識別測試(均為同一個人的樣本) T1 = 1 0 0 % 代表1 T3 = 0 1 0 % 代表3 T5 = 0 0 1 % 代表5,下表格為所用到的matlab程序及其功能:,netBP = newff(PR,30,10,3,tansig,tansig,tansig,trainbfg); %使用TRAINSIG,即共軛梯度法,其好處是當訓(xùn)練不收斂時,它會自動停止訓(xùn)練,而且耗時較其他算法(TRAINLM, TRAINGD)少,也就是收斂很快 netBP.trainParam.epochs = 100; %設(shè)置訓(xùn)練步數(shù) net tr = train(netBP,PS,T); %網(wǎng)絡(luò)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)訓(xùn)練:,Y = sim(n
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能康復(fù)輔助技術(shù)發(fā)展
- 醫(yī)療設(shè)備行業(yè)投資環(huán)境分析
- 核電安全培訓(xùn)考題課件
- 杜邦安全培訓(xùn)課件
- 《GB 14050-2008 系統(tǒng)接地的型式及安全技術(shù)要求》專題研究報告
- 杜牧介紹課件
- 《DLT 992-2006沖擊電壓測量實施細則》專題研究報告
- 2026年危險化學(xué)品經(jīng)營單位主要負責(zé)人安全管理知識測試含答案
- 2026年村級殘疾人之家管理知識題庫含答案
- 2026年訓(xùn)練傷防治與急救試題含答案
- 黨支部2026年度主題黨日活動方案
- 海姆立克急救課件 (完整版)
- 2025年互聯(lián)網(wǎng)營銷游戲化營銷案例解析可行性研究報告
- DB31∕T 1048-2020“上海品牌”認證通 用要求
- 病理性賭博的識別和干預(yù)
- 校園文化建設(shè)協(xié)議合同
- 2026屆高三語文聯(lián)考作文題目導(dǎo)寫分析及范文:當語言與真實經(jīng)驗脫鉤
- 《聽力考試室技術(shù)規(guī)范》
- 2024年廣東省高職高考語文試卷及答案
- 人工智能在職業(yè)院校人才培養(yǎng)中的應(yīng)用研究報告
- 土方開挖回填施工應(yīng)急預(yù)案方案
評論
0/150
提交評論