基于BP神經網絡的語音識別技術ppt課件_第1頁
基于BP神經網絡的語音識別技術ppt課件_第2頁
基于BP神經網絡的語音識別技術ppt課件_第3頁
基于BP神經網絡的語音識別技術ppt課件_第4頁
基于BP神經網絡的語音識別技術ppt課件_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、.,基于BP神經網絡的語音識別技術,匯報人:,.,目錄,一.語音識別概述 二.語音識別流程 三.語音信號預處理 四.語音識別特征提取 五.BP神經網絡原理 六.語音識別程序設計,.,一.語音識別概述,語音識別以語音為研究對象,涉及到生理學、心理學、語言學、計算機科學,以及信號處理等諸多領域,最終目的是實現(xiàn)人與機器進行自然語言通信,用語言操縱計算機。,.,語音識別系統(tǒng)可以分為孤立字(詞)語音識別系統(tǒng)、連接字語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)。 語音識別系統(tǒng)分為兩個方向:一是根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng);二是根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量,以及無

2、限詞匯量語音識別系統(tǒng)。,.,二.語音識別流程,從圖的系統(tǒng)整體架構可以看到,建立基于BP神經網絡的語音識別系統(tǒng)可分為兩個階段,即訓練階段和識別階段。首先由用戶通過麥克風輸入語音形成原始語音,然后系統(tǒng)對其進行預處理。預處理包括預加重,加窗分幀和端點檢測三個過程。系統(tǒng)的前端采用了端點檢測,目的是在一段語音信號中確定起點和終點。在特征提取部分,本系統(tǒng)采用了MFCC作為特征參數(shù),用于有效地區(qū)分數(shù)字1-5.,.,三.語音信號預處理,1.預加重,語音從嘴唇輻射會有6dB/oct的衰減,因此在對語音信號進行處理之前,希望能按6dB/oct的比例對信號加以提升(或加重),以使得輸出信號的電平相近似。可采用以下差

3、分方程定義的數(shù)字濾波器:,式中,系數(shù)常在0.9至1之間選取。,.,2.語音信號的分幀 語音信號是一種典型的非平穩(wěn)信號,它的均值函數(shù)u(x)和自相關函數(shù)R(xl,x2)都隨時間而發(fā)生較大的變化。但研究發(fā)現(xiàn),語音信號在短時間內頻譜特性保持平穩(wěn),即具有短時平穩(wěn)特性。因此,在實際處理時可以將語音信號分成很小的時間段(約1030ms),稱之為“幀”。 在語音信號數(shù)字處理中常用的窗函數(shù)是矩形窗、漢明窗等,它們的表達式如下(其中N為幀長): 矩形窗: 漢明窗:,.,3端點檢測,基于短時能量和短時過零率的雙門限檢測法,在該算法中,短時能量檢測可以較好地區(qū)分出濁音和靜音。對于清音,由于其能量較小,在短時能量檢測

4、中會因為低于能量門限而被誤判為靜音,短時過零率則可以從語音中區(qū)分出靜音和清音。將兩種檢測結合起來,就可以檢測出語音段及靜音段。,.,下圖是我本科課程設計中一個關于端點檢測的程序GUI界面,其中語音是教材中的示例語音“他去無錫市”,我通過cooledit在示例語音中加入了白噪音,可以看出清音段混雜在噪音中,如果短時能量的門限值選取過高可能會屏蔽掉清音段,所以加入過零率能更好的識別出清音段。,.,由此圖可以看出門限值選取的合不合理很大程度上影響到端點識別的效果,.,四.語音識別特征提取,特征提取:即對不同的語音尋找其內在特征,由此來判別出未知語音,所以每個語音識別系統(tǒng)都必須進行特征提取。,語音信號

5、的特征主要有時域和頻域兩種。 時域特征:短時平均能量、短時平均過零率、共振峰、基音周期等; 頻域特征:線性預測系數(shù)(LPC)、LP倒譜系數(shù)(LPCC)、 Mel頻率倒譜系數(shù)(MFCC)等。 本實驗選取MEL頻率倒譜系數(shù)(MFCC)進行提取特征參數(shù)。,通過閱讀文獻了解到基于DTW算法和MFCC就已經可以做到語音的識別了,但是泛化性比較差,中間測試過一個相關的程序只能識別特定的語音片段,更換說話人后識別效果很差。,.,五.BP神經網絡原理,BP神經網絡又稱誤差反向傳遞神經網絡。提取了語音的特征參數(shù)后,靠神經網絡中大量的連接權對輸入模式進行非線性運算,產生最大興奮的輸入點就代表了輸入模式對應的分類。

6、神經網絡的連接權系數(shù)是在使用中根據(jù)識別結果的正確與否不斷的進行自適應修正。單隱層網絡的整個體系結構如圖所示,分為輸入層、隱藏層和輸出層,其中隱藏層根據(jù)具體情況的需要,可以是一層結構也可為多層結構。,.,六.語音識別程序設計,數(shù)字的語音識別 實驗目的:識別1 3 5三個數(shù)字(選擇135是因為135三個數(shù)字的識別率最高) 訓練樣本:每個數(shù)字選取5個樣本進行訓練(均為同一個人的樣本) 測試樣本:每個數(shù)字選取3個樣本進行識別測試(均為同一個人的樣本) T1 = 1 0 0 % 代表1 T3 = 0 1 0 % 代表3 T5 = 0 0 1 % 代表5,.,下表格為所用到的matlab程序及其功能:,.,netBP = newff(PR,30,10,3,tansig,tansig,tansig,trainbfg); %使用TRAINSIG,即共軛梯度法,其好處是當訓練不收斂時,它會自動停止訓練,而且耗時較其他算法(TRAINLM, TRAINGD)少,也就是收斂很快 netBP.trainParam.epochs = 100; %設置訓練步數(shù) net tr = train(netBP,PS,T); %網絡訓練,神經網絡訓練:,Y = sim(net,Tes

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論