語音信號處理第六章語音識別_第1頁
語音信號處理第六章語音識別_第2頁
語音信號處理第六章語音識別_第3頁
語音信號處理第六章語音識別_第4頁
語音信號處理第六章語音識別_第5頁
已閱讀5頁,還剩98頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第六章 語音識別(speech recognition)6.16.1 語音識別技術(shù)的一般概念語音識別技術(shù)的一般概念6.2 6.2 語音識別的原理和識別系統(tǒng)的組成語音識別的原理和識別系統(tǒng)的組成6.3 6.3 6.4 6.4 6.5 6.5 說話人識別說話人識別 6.1 6.1 語音識別技術(shù)的一般概念語音識別技術(shù)的一般概念一、語音識別的定義一、語音識別的定義 二、語音識別的應(yīng)用二、語音識別的應(yīng)用 三、語音識別的類型三、語音識別的類型四、語音識別的方法四、語音識別的方法五、語音識別的主要問題五、語音識別的主要問題一、語音識別的定義一、語音識別的定義 語音識別是指從語音到文本的轉(zhuǎn)換,即讓計(jì)算語音識別是

2、指從語音到文本的轉(zhuǎn)換,即讓計(jì)算機(jī)能夠把人發(fā)出的有意義的話音變成書面語言。通機(jī)能夠把人發(fā)出的有意義的話音變成書面語言。通俗地說就是讓機(jī)器能夠聽懂人說的話。俗地說就是讓機(jī)器能夠聽懂人說的話。 所謂聽懂,有兩層意思,一是指把用戶所說的所謂聽懂,有兩層意思,一是指把用戶所說的話逐詞逐句轉(zhuǎn)換成文本;二是指正確理解語音中所話逐詞逐句轉(zhuǎn)換成文本;二是指正確理解語音中所包含的要求,作出正確的應(yīng)答。包含的要求,作出正確的應(yīng)答。二、語音識別的應(yīng)用二、語音識別的應(yīng)用 語音識別技術(shù)是以語音為研究對象,涉及到生理語音識別技術(shù)是以語音為研究對象,涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號處理等諸學(xué)、心理學(xué)、語言學(xué)、

3、計(jì)算機(jī)科學(xué)以及信號處理等諸多領(lǐng)域。多領(lǐng)域。 隨著語音識別技術(shù)的逐漸成熟,語音識別技術(shù)開隨著語音識別技術(shù)的逐漸成熟,語音識別技術(shù)開始得到廣泛的應(yīng)用,涉及日常生活的多個(gè)方面如電信、始得到廣泛的應(yīng)用,涉及日常生活的多個(gè)方面如電信、金融、新聞、公共事業(yè)等各個(gè)行業(yè),通過采用語音識金融、新聞、公共事業(yè)等各個(gè)行業(yè),通過采用語音識別技術(shù),可以極大的簡化這些領(lǐng)域的業(yè)務(wù)流程以及操別技術(shù),可以極大的簡化這些領(lǐng)域的業(yè)務(wù)流程以及操作;提高系統(tǒng)的應(yīng)用效率。作;提高系統(tǒng)的應(yīng)用效率。語音互動(dòng)功能展示語音互動(dòng)功能展示2012年三星發(fā)布的ES8000系列智能電視支持語音控制功能,例如音量調(diào)節(jié)、頻道切換、網(wǎng)絡(luò)資訊搜索等,無論是多復(fù)

4、雜的功能用戶都可以通過語音控制功能來進(jìn)行操作。除了語音控制功能外,三星ES8000系列智能電視還加入了手勢控制功能,通過電視內(nèi)置攝像頭的識別,用戶可以對智能電視進(jìn)行從簡單到復(fù)雜的功能控制。http:/ 1)孤立詞識別(字或詞間有停頓,用于控制系統(tǒng))孤立詞識別(字或詞間有停頓,用于控制系統(tǒng))(2 2)連接詞識別(十個(gè)數(shù)字連接而成的多位數(shù)字識別)連接詞識別(十個(gè)數(shù)字連接而成的多位數(shù)字識別或由少數(shù)指令構(gòu)成詞條的識別,用于數(shù)據(jù)庫查詢、電或由少數(shù)指令構(gòu)成詞條的識別,用于數(shù)據(jù)庫查詢、電話和控制系統(tǒng))話和控制系統(tǒng))(3 3)連續(xù)語音識別(自然的說話方式)連續(xù)語音識別(自然的說話方式)(4 4)語音理解及會(huì)話

5、(識別出會(huì)話語言)語音理解及會(huì)話(識別出會(huì)話語言)12.2.根據(jù)識別的詞匯量來分,有:根據(jù)識別的詞匯量來分,有:(1 1)大詞匯()大詞匯(10001000個(gè)以上的詞匯,如會(huì)議系統(tǒng))個(gè)以上的詞匯,如會(huì)議系統(tǒng))(2 2)中詞匯()中詞匯(202010001000個(gè)詞匯,如訂票系統(tǒng))個(gè)詞匯,如訂票系統(tǒng))(3 3)小詞匯()小詞匯(1 12020個(gè)詞匯,如語音電話撥號)個(gè)詞匯,如語音電話撥號)3.3.根據(jù)講話人的范圍來分,有:根據(jù)講話人的范圍來分,有:(1 1)單個(gè)特定人)單個(gè)特定人(2 2)多講話人(有限的講話人)多講話人(有限的講話人)(3 3)與講話者無關(guān))與講話者無關(guān)( (任何人的聲音都能識

6、別任何人的聲音都能識別) )1,24. 4. 根據(jù)識別采用的方法來分,有:根據(jù)識別采用的方法來分,有:(1 1)模板匹配法)模板匹配法(2 2)隨機(jī)模型法()隨機(jī)模型法(HMMHMM)(3 3)概率語法分析法)概率語法分析法(4 4)神經(jīng)網(wǎng)絡(luò)法)神經(jīng)網(wǎng)絡(luò)法四、語音識別的方法四、語音識別的方法1.1.模板匹配法模板匹配法 在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫。遍,并且將其特征矢量作為模板存入模板庫。 在識別階段,將輸入語音的特征矢量依次與模板在識別階段,將輸入語音的特征矢量依次與模板庫中的每個(gè)模板進(jìn)行相似度比較

7、,將相似度最高者作庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果輸出。為識別結(jié)果輸出。3特征矢量特征矢量LPC倒譜c(n)語語文文學(xué)學(xué)音音wen模板庫模板庫 由于語音有較大的隨機(jī)性,即使同一個(gè)人在不同時(shí)由于語音有較大的隨機(jī)性,即使同一個(gè)人在不同時(shí)刻的同一句話發(fā)的同一個(gè)音,也不可能具有完全相同刻的同一句話發(fā)的同一個(gè)音,也不可能具有完全相同的時(shí)間長度,因此時(shí)間伸縮處理是必不可少的。的時(shí)間長度,因此時(shí)間伸縮處理是必不可少的。 DTWDTW用滿足一定條件的時(shí)間規(guī)整函數(shù),描述待識別用滿足一定條件的時(shí)間規(guī)整函數(shù),描述待識別模式和參考模板的時(shí)間對應(yīng)關(guān)系,求解兩個(gè)模板累積模式和參考模板的時(shí)間對應(yīng)關(guān)系

8、,求解兩個(gè)模板累積距離測度最小對應(yīng)的規(guī)整函數(shù)。距離測度最小對應(yīng)的規(guī)整函數(shù)。DTWDTW保證了兩個(gè)模板間保證了兩個(gè)模板間存在最大聲學(xué)相似性。存在最大聲學(xué)相似性。DTW(Dynamic Time Warping) DTW(Dynamic Time Warping) 動(dòng)態(tài)時(shí)間規(guī)整動(dòng)態(tài)時(shí)間規(guī)整2.2.隨機(jī)模型法隨機(jī)模型法 采用采用HMMHMM模型,使用概率參數(shù)來進(jìn)行估計(jì)和判決。模型,使用概率參數(shù)來進(jìn)行估計(jì)和判決。無聲無聲段段鼻音鼻音段段聲母聲母輔音段輔音段元音元音段段送氣送氣段段前過前過渡段渡段后過后過渡段渡段1)1)發(fā)音的各個(gè)段構(gòu)成相應(yīng)的狀態(tài)。發(fā)音的各個(gè)段構(gòu)成相應(yīng)的狀態(tài)。(2)(2)基本單元發(fā)音速率

9、(停留時(shí)間和轉(zhuǎn)移時(shí)間)對應(yīng)狀基本單元發(fā)音速率(停留時(shí)間和轉(zhuǎn)移時(shí)間)對應(yīng)狀態(tài)轉(zhuǎn)移概率。態(tài)轉(zhuǎn)移概率。(3)(3)聲學(xué)變化(聲學(xué)變化(LPCLPC倒譜)對應(yīng)輸出序列,概率分布呈倒譜)對應(yīng)輸出序列,概率分布呈混合高斯密度函數(shù)。混合高斯密度函數(shù)。3 概率語法分析法概率語法分析法這種方法用于大長度范圍的連續(xù)語音識別。人類的語言受到語法,詞法,語義的約束,將這些約束與“區(qū)別性特征”相結(jié)合,就可以構(gòu)成一個(gè)“由底向上”或“自頂向下”的交互作用的知識系統(tǒng),不同層次的知識可以用若干規(guī)則來描述。54 人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是在模擬人腦神經(jīng)組織的基礎(chǔ)上發(fā)展起來的計(jì)算系統(tǒng),它由大量的計(jì)算單元通過豐富聯(lián)結(jié)構(gòu)成

10、的復(fù)雜的網(wǎng)絡(luò)。在一定程度上反映了人腦功能的若干基本特性,是一種更接近人的認(rèn)知過程的計(jì)算模型。構(gòu)成人工神經(jīng)網(wǎng)絡(luò)的三個(gè)基本要素是:1神經(jīng)元2網(wǎng)絡(luò)拓?fù)?網(wǎng)絡(luò)的訓(xùn)練算法1.1.對自然語言的識別和理解。首先必須將連續(xù)的對自然語言的識別和理解。首先必須將連續(xù)的 講話分解為詞、音素等單位,其次要建立一個(gè)講話分解為詞、音素等單位,其次要建立一個(gè) 理解語義的規(guī)則。理解語義的規(guī)則。2.2.語音信息量大。語音模式不僅對不同的說話人語音信息量大。語音模式不僅對不同的說話人 不同,對同一說話人也是不同的,例如,一個(gè)不同,對同一說話人也是不同的,例如,一個(gè) 說話人在隨意說話和認(rèn)真說話時(shí)的語音信息是說話人在隨意說話和認(rèn)真說

11、話時(shí)的語音信息是 不同的。一個(gè)人的說話方式隨著時(shí)間變化。不同的。一個(gè)人的說話方式隨著時(shí)間變化。五、語音識別的主要問題五、語音識別的主要問題3.3.語音的模糊性。說話者在講話時(shí),不同的詞可能語音的模糊性。說話者在講話時(shí),不同的詞可能 聽起來是相似的。這在英語和漢語中常見。聽起來是相似的。這在英語和漢語中常見。4.4.單個(gè)字母或詞、字的語音特性受上下文的影響,單個(gè)字母或詞、字的語音特性受上下文的影響, 以致改變了重音、音調(diào)、音量和發(fā)音速度等。以致改變了重音、音調(diào)、音量和發(fā)音速度等。5.5.環(huán)境噪聲和干擾對語音識別有嚴(yán)重影響,致使識環(huán)境噪聲和干擾對語音識別有嚴(yán)重影響,致使識 別率低。別率低。6.2

12、6.2 語音識別原理和識別系統(tǒng)的組成語音識別原理和識別系統(tǒng)的組成一、語音識別的步驟和框圖一、語音識別的步驟和框圖 二、預(yù)處理二、預(yù)處理三、語音特征參數(shù)的提取三、語音特征參數(shù)的提取四、模式匹配四、模式匹配語音識別原理模式匹配原理:未知語音模式與已知語音模式逐一比較,最佳匹配的參考模式作為識別結(jié)果。識別步驟:n 學(xué)習(xí)訓(xùn)練分析語音特征參數(shù),建立模板庫;n 識別測試按照一定的測度和準(zhǔn)則與系統(tǒng)模型進(jìn)行比較,通過判決得出結(jié)果;1. 語音識別本質(zhì)就是模式識別語音識別本質(zhì)就是模式識別語音識別層次模型 應(yīng) 用 層 語 言 層 語 音 層 聲 學(xué) 層語句識別層語義應(yīng)用層次音節(jié)感知層音節(jié)感知層詞語感知層特征提取層事

13、件提取層物理接口層預(yù)處理層MFCC、LPCC、PLP、過零率、能量、pitch .語音幀序列天安門 怎么 走停頓、清/濁音、爆破、鼻音、擦音、聲調(diào)天安門怎么走?t ian an m en z en m e z outian an men zen me zou聲波1.1.根據(jù)識別系統(tǒng)的類型選擇能滿足要求的一種識別根據(jù)識別系統(tǒng)的類型選擇能滿足要求的一種識別 方法,采用語音分析技術(shù)預(yù)先分析出這種方法所方法,采用語音分析技術(shù)預(yù)先分析出這種方法所 要求的語音特征參數(shù),這些語音參數(shù)作為標(biāo)準(zhǔn)模要求的語音特征參數(shù),這些語音參數(shù)作為標(biāo)準(zhǔn)模 式由計(jì)算機(jī)存儲起來,形成標(biāo)準(zhǔn)模式庫,稱為模式由計(jì)算機(jī)存儲起來,形成標(biāo)準(zhǔn)模

14、式庫,稱為模 板。這個(gè)過程稱為板。這個(gè)過程稱為“學(xué)習(xí)學(xué)習(xí)”和和“訓(xùn)練訓(xùn)練”。在某些。在某些識別識別 系統(tǒng)中,還備有專家知識庫,其中存放由語言學(xué)系統(tǒng)中,還備有專家知識庫,其中存放由語言學(xué) 家總結(jié)的各種知識,如同音字判決規(guī)則、語法規(guī)家總結(jié)的各種知識,如同音字判決規(guī)則、語法規(guī) 則、語義規(guī)則等。則、語義規(guī)則等。一、語音識別的步驟一、語音識別的步驟2. 2. 識別:將輸入語音進(jìn)行處理,提取特征參數(shù),識別:將輸入語音進(jìn)行處理,提取特征參數(shù), 和模式庫中的模板進(jìn)行比較匹配,作出判決。和模式庫中的模板進(jìn)行比較匹配,作出判決。預(yù)處理預(yù)處理語音特征語音特征參數(shù)分析參數(shù)分析失真測度失真測度計(jì)算計(jì)算識別決策識別決策標(biāo)

15、準(zhǔn)標(biāo)準(zhǔn)模板模板專家專家知識知識模式匹配模式匹配語音識別的框圖語音識別的框圖 語音信號的放大、防混疊濾波、自動(dòng)增益控制、語音信號的放大、防混疊濾波、自動(dòng)增益控制、模數(shù)轉(zhuǎn)換、消除噪聲、端點(diǎn)檢測。模數(shù)轉(zhuǎn)換、消除噪聲、端點(diǎn)檢測。二、預(yù)處理二、預(yù)處理 端點(diǎn)檢測:從包含語音的一段信號中確定出語音端點(diǎn)檢測:從包含語音的一段信號中確定出語音的起點(diǎn)和終點(diǎn)。有效的端點(diǎn)檢測不僅能使處理的時(shí)的起點(diǎn)和終點(diǎn)。有效的端點(diǎn)檢測不僅能使處理的時(shí)間減到最小,而且能排除無聲段的噪聲干擾。端點(diǎn)間減到最小,而且能排除無聲段的噪聲干擾。端點(diǎn)檢測的正確與否影響到識別率的高低。檢測的正確與否影響到識別率的高低。語音端點(diǎn)檢測的方法:短時(shí)能量和

16、短時(shí)過零率。語音端點(diǎn)檢測的方法:短時(shí)能量和短時(shí)過零率?;诜茸V高階統(tǒng)計(jì)量的魯棒語音端點(diǎn)檢測算法基于倒譜特征的帶噪語音端點(diǎn)檢測基于子帶能量特征的語音端點(diǎn)檢測 特征參數(shù)和識別方法有關(guān)系,是語音識別的關(guān)特征參數(shù)和識別方法有關(guān)系,是語音識別的關(guān)鍵之處,選擇的好壞直接影響語音識別的精度。鍵之處,選擇的好壞直接影響語音識別的精度。 語音特征參數(shù)包括:短時(shí)平均能量、短時(shí)過零語音特征參數(shù)包括:短時(shí)平均能量、短時(shí)過零率、頻譜、三個(gè)共振峰頻率(率、頻譜、三個(gè)共振峰頻率(F1F1、F2F2、F3F3的頻率值、的頻率值、帶寬、幅值)、線性預(yù)測系數(shù)、帶寬、幅值)、線性預(yù)測系數(shù)、LPCLPC倒譜和倒譜和MelMel倒譜

17、倒譜等等。三、語音特征參數(shù)的提取三、語音特征參數(shù)的提取X=fft(x,2nextpow2(2*size(x,1)-1);%S=abs(X).2;%短時(shí)功率譜R=ifft(S);%R=R./m;%有偏自相關(guān)估計(jì)a,e=levinson(R,N);%利用Levinson-Durbin算法求出預(yù)測系數(shù)a,和預(yù)測誤差e10)()(NmjwmnjwnemxeX*2()()() |()|jwjwjwjwnnnnS eXeXeXe1)1()()(NNkjwknjwnekReSLpc系數(shù)系數(shù)Lpc系數(shù)1.0000-2.13911.8856-1.13850.7225-0.39520.01600.3351-0.7

18、1941.0214-0.82880.4264-0.1412求求lpcc系數(shù)系數(shù)tmp=x(i,:).*hamming(FrameLen);tmp=lpc(tmp,FrameLen-1);tmp=rceps(tmp);tmp=tmp(2:n_lpcc+1).*CepWeight;lpcc=lpcctmp;functionxhat,yhat=rceps(x)xhat=real(ifft(log(abs(fft(x);lpcc=-1.49620.5480-0.1578-0.04200.19910.37650.4383-0.59150.11220.38870.0116-0.0329functioncc

19、c=mfcc(x)求求mfcc系數(shù)系數(shù)bank=melbankm(24,256,16000,0,0.5);s=x.*hamming(256);t=(abs(fft(s).2;%能量譜c1=dctcoef*log(bank*t(1:129);%mel濾波器輸出做離散余弦變換m=Columns1through71.4985 -7.5020 -0.4085 -5.6619 0.6332 -0.0486 7.3819Columns8through148.1189 1.7566 -2.4322 -2.0207 -0.4320 3.5821 -1.9725Columns15through210.9683

20、1.5440 -1.4582 -0.7480 2.7221 -1.4598 -1.8205Columns22through24 -3.2768 -1.0493 -0.6542 將未知語音的特征參數(shù)與模板參數(shù)逐一進(jìn)行將未知語音的特征參數(shù)與模板參數(shù)逐一進(jìn)行比較與匹配,判決的依據(jù)是失真測度最小的準(zhǔn)則。比較與匹配,判決的依據(jù)是失真測度最小的準(zhǔn)則。 語音識別的測度有很多,歐氏距離測度及其變語音識別的測度有很多,歐氏距離測度及其變形、形、線性預(yù)測失真測度等。線性預(yù)測失真測度等。四、模式匹配四、模式匹配KiiiyxKYXd122)(1),(1.1.均方誤差歐氏距離均方誤差歐氏距離KiiiyxKYXd11|1

21、),(2.2.絕對值平均誤差絕對值平均誤差3.3.加權(quán)歐氏距離測度加權(quán)歐氏距離測度KiiiyxiwKYXd12)(1),(RaaaRaYXdTTLLR)(ln),(對數(shù)似然比失真測度對數(shù)似然比失真測度R R是輸入語音信號的自相關(guān)矩陣是輸入語音信號的自相關(guān)矩陣Ta輸入語音信號的預(yù)測系數(shù)矢量輸入語音信號的預(yù)測系數(shù)矢量( )Ta碼字預(yù)測系數(shù)矢量碼字預(yù)測系數(shù)矢量1)(),(RaaaRaYXdTTM模型失真測度模型失真測度 先對系統(tǒng)中的每個(gè)字,做一個(gè)碼本作為該字先對系統(tǒng)中的每個(gè)字,做一個(gè)碼本作為該字的參考(標(biāo)準(zhǔn))模板的參考(標(biāo)準(zhǔn))模板, ,共有共有M M個(gè)字,故共有個(gè)字,故共有M M個(gè)碼個(gè)碼本,組成一個(gè)

22、模板庫。本,組成一個(gè)模板庫。 識別時(shí),對于任意輸入的語音識別時(shí),對于任意輸入的語音特征矢量序列特征矢量序列X XXX1 1 , X, X2 2 , , X, , XN N ,計(jì)算該序列中每一個(gè)特計(jì)算該序列中每一個(gè)特征矢量對模板庫中的每個(gè)碼本的總平均失真量誤征矢量對模板庫中的每個(gè)碼本的總平均失真量誤差,找出最小的失真誤差對應(yīng)的碼本(代表一個(gè)差,找出最小的失真誤差對應(yīng)的碼本(代表一個(gè)字),將對應(yīng)的字輸出作為識別的結(jié)果。字),將對應(yīng)的字輸出作為識別的結(jié)果。模式匹配過程模式匹配過程特征矢量序列特征矢量序列 X XXX1 1 , X, X2 2 , , X, , XN N 模板庫模板庫 Y Y1 1 ,

23、 Y, Y2 2 , , Y, , YM M特征矢量特征矢量序列形成序列形成任意任意語音語音幀幀X X碼本碼本Y Y1 1Y Y2 2Y YM M計(jì)算計(jì)算失真誤差失真誤差判決判決輸出結(jié)果輸出結(jié)果Y Yi i 每一個(gè)字做一每一個(gè)字做一個(gè)碼本,共個(gè)碼本,共M M個(gè)字個(gè)字模板庫模板庫XX1 1 , X, X2 2 , , X, , XN N 模板庫模板庫語語碼本碼本YY1 1 ,Y,Y2 2 ,Y,YN N 學(xué)學(xué)碼本碼本音音碼本碼本文文碼本碼本wenwen 用來存儲各種語言學(xué)知識,如漢語聲調(diào)變調(diào)規(guī)則、用來存儲各種語言學(xué)知識,如漢語聲調(diào)變調(diào)規(guī)則、音長分布規(guī)則、同音字判別規(guī)則、構(gòu)詞規(guī)則、語法規(guī)音長分布規(guī)

24、則、同音字判別規(guī)則、構(gòu)詞規(guī)則、語法規(guī)則、語義規(guī)則等。對于不同的語言有不同的語言學(xué)專則、語義規(guī)則等。對于不同的語言有不同的語言學(xué)專家知識庫。家知識庫。 專家知識庫專家知識庫 判決是語音識別的最后一步,也是系統(tǒng)識別效果判決是語音識別的最后一步,也是系統(tǒng)識別效果的最終表現(xiàn)。根據(jù)若干準(zhǔn)則及專家知識,判決選出可的最終表現(xiàn)。根據(jù)若干準(zhǔn)則及專家知識,判決選出可能結(jié)果中最好的結(jié)果,由識別系統(tǒng)輸出。能結(jié)果中最好的結(jié)果,由識別系統(tǒng)輸出。6.3 6.3 動(dòng)態(tài)時(shí)間規(guī)整動(dòng)態(tài)時(shí)間規(guī)整一、動(dòng)態(tài)時(shí)間規(guī)整的提出一、動(dòng)態(tài)時(shí)間規(guī)整的提出 二、動(dòng)態(tài)時(shí)間規(guī)整的定義二、動(dòng)態(tài)時(shí)間規(guī)整的定義 三、動(dòng)態(tài)時(shí)間規(guī)整的原理描述三、動(dòng)態(tài)時(shí)間規(guī)整的原理

25、描述四、動(dòng)態(tài)時(shí)間規(guī)整的應(yīng)用四、動(dòng)態(tài)時(shí)間規(guī)整的應(yīng)用一、動(dòng)態(tài)時(shí)間規(guī)整的提出一、動(dòng)態(tài)時(shí)間規(guī)整的提出 語音信號具有很強(qiáng)的隨機(jī)性,不同的發(fā)音習(xí)慣,語音信號具有很強(qiáng)的隨機(jī)性,不同的發(fā)音習(xí)慣,發(fā)音時(shí)所處的環(huán)境不同,心情不同都會(huì)導(dǎo)致發(fā)音持發(fā)音時(shí)所處的環(huán)境不同,心情不同都會(huì)導(dǎo)致發(fā)音持續(xù)時(shí)間長短不一的現(xiàn)象。如單詞最后的聲音帶上一續(xù)時(shí)間長短不一的現(xiàn)象。如單詞最后的聲音帶上一些拖音,或者帶上一點(diǎn)呼吸音,此時(shí),由于拖音或些拖音,或者帶上一點(diǎn)呼吸音,此時(shí),由于拖音或呼吸音會(huì)被誤認(rèn)為一個(gè)音素,造成單詞的端點(diǎn)檢測呼吸音會(huì)被誤認(rèn)為一個(gè)音素,造成單詞的端點(diǎn)檢測不準(zhǔn),造成特征參數(shù)的變化,從而影響測度估計(jì),不準(zhǔn),造成特征參數(shù)的變化,

26、從而影響測度估計(jì),降低識別率,因此在語音識別時(shí),首先有必要對語降低識別率,因此在語音識別時(shí),首先有必要對語音信號進(jìn)行時(shí)間規(guī)整。音信號進(jìn)行時(shí)間規(guī)整。二、動(dòng)態(tài)時(shí)間規(guī)整的定義二、動(dòng)態(tài)時(shí)間規(guī)整的定義 一次正確的發(fā)音應(yīng)該包含構(gòu)成該發(fā)音的全部音一次正確的發(fā)音應(yīng)該包含構(gòu)成該發(fā)音的全部音素以及正確的音素連接次序。素以及正確的音素連接次序。 其中各音素持續(xù)時(shí)間的長短與音素本身以及講其中各音素持續(xù)時(shí)間的長短與音素本身以及講話人的狀況有關(guān)。為了提高識別率,克服發(fā)同一音話人的狀況有關(guān)。為了提高識別率,克服發(fā)同一音而發(fā)音時(shí)間長短的不同,對輸入語音信號進(jìn)行伸長而發(fā)音時(shí)間長短的不同,對輸入語音信號進(jìn)行伸長或縮短直到與標(biāo)準(zhǔn)模

27、式的長度一致。這個(gè)過程稱為或縮短直到與標(biāo)準(zhǔn)模式的長度一致。這個(gè)過程稱為時(shí)間規(guī)整。時(shí)間規(guī)整。三、動(dòng)態(tài)時(shí)間規(guī)整的原理描述三、動(dòng)態(tài)時(shí)間規(guī)整的原理描述 6060年代由日本學(xué)者提出,算法的思想是把未年代由日本學(xué)者提出,算法的思想是把未知量伸長或縮短知量伸長或縮短( (壓擴(kuò)壓擴(kuò)) ),直到與參考模板的長度一,直到與參考模板的長度一致,在這一過程中,未知單詞的時(shí)間軸會(huì)產(chǎn)生扭曲致,在這一過程中,未知單詞的時(shí)間軸會(huì)產(chǎn)生扭曲或彎折,以便其特征量與標(biāo)準(zhǔn)模式對應(yīng)?;驈澱郏员闫涮卣髁颗c標(biāo)準(zhǔn)模式對應(yīng)。 DTW DTW 是把時(shí)間規(guī)整和距離測度計(jì)算結(jié)合起來。設(shè)是把時(shí)間規(guī)整和距離測度計(jì)算結(jié)合起來。設(shè)測試語音參數(shù)共有測試語音參

28、數(shù)共有I I幀矢量,而參考模板共有幀矢量,而參考模板共有J J幀矢量,幀矢量,I I和和J J不等,尋找一個(gè)時(shí)間規(guī)整函數(shù)不等,尋找一個(gè)時(shí)間規(guī)整函數(shù)j=w(i)j=w(i),它將測試,它將測試矢量的時(shí)間軸矢量的時(shí)間軸i i非線性地映射到模板的時(shí)間軸非線性地映射到模板的時(shí)間軸j j上,并上,并使該函數(shù)使該函數(shù)w(i)w(i)滿足:滿足:原理描述原理描述IiiwiwRiTdD1)()(),(min第第i i幀測試矢量幀測試矢量T(i)T(i)和第和第j j幀模幀模板矢量板矢量R(j)R(j)之間的距離測度之間的距離測度處于最優(yōu)時(shí)間規(guī)整情況下兩矢量的最佳匹配距離處于最優(yōu)時(shí)間規(guī)整情況下兩矢量的最佳匹配距

29、離IiiwiwRiTdD1)()(),(min 計(jì)算兩倒譜矢量幀計(jì)算兩倒譜矢量幀(i(i和和j) j) 間的歐氏距間的歐氏距離,兩矢量幀中分別具有離,兩矢量幀中分別具有p p個(gè)倒譜參數(shù)。個(gè)倒譜參數(shù)。pkjijikckcccdiwRiTd12)()(),()(),(A AB B j ji ij ji i時(shí)間規(guī)整函數(shù)時(shí)間規(guī)整函數(shù)j=w(i)j=w(i) 為了使為了使T T(測試)的第(測試)的第i i個(gè)樣本與個(gè)樣本與R R(參考)的第(參考)的第j j個(gè)樣本對正,其對應(yīng)的點(diǎn)不在直線對角線上,得到個(gè)樣本對正,其對應(yīng)的點(diǎn)不在直線對角線上,得到1 1條彎曲的曲線。條彎曲的曲線。j=w(i)j=w(i)稱

30、為規(guī)整函數(shù)。稱為規(guī)整函數(shù)。 時(shí)間規(guī)整要解決的問題是使元素時(shí)間規(guī)整要解決的問題是使元素a a和元素和元素b b之間匹之間匹配,使每對匹配樣本之間的差別最小配,使每對匹配樣本之間的差別最小, ,達(dá)到歐氏距離達(dá)到歐氏距離最小。最小。不同音長的匹配距離不同音長的匹配距離(D(D3 3DD2 2) )待測模式待測模式T T參考模式參考模式R Rt tt tt tt t線 性 匹 配線 性 匹 配D D2 2( (T T, ,R R) )非 線 性 匹 配非 線 性 匹 配D D3 3( (T T, ,R R) ) 時(shí)間規(guī)整就是按照兩模式之間的所有矢量幀間時(shí)間規(guī)整就是按照兩模式之間的所有矢量幀間的距離最小

31、的原則,不斷計(jì)算兩模式間的距離,以的距離最小的原則,不斷計(jì)算兩模式間的距離,以尋找最優(yōu)的路徑尋找最優(yōu)的路徑, ,一般應(yīng)使規(guī)整函數(shù)一般應(yīng)使規(guī)整函數(shù)w(i)w(i)滿足下列條滿足下列條件:規(guī)整函數(shù)件:規(guī)整函數(shù)w(i)w(i)在在A A和和B B的端點(diǎn)必須匹配,有:的端點(diǎn)必須匹配,有: 起點(diǎn):起點(diǎn):i(k)=j(k)=1 i(k)=j(k)=1 終點(diǎn):終點(diǎn):i(k)=I j(k)=Ji(k)=I j(k)=J 為了防止漫無目的從為了防止漫無目的從(1,1)(1,1)搜索到搜索到(I,J)(I,J),因此對,因此對兩點(diǎn)之間路徑的斜率予以規(guī)定,最大為兩點(diǎn)之間路徑的斜率予以規(guī)定,最大為2 2,最小為,最小

32、為1/21/2。時(shí)間規(guī)整過程時(shí)間規(guī)整過程ijJI11(1,1)(1,1)(I,J)(I,J)j-J=(i-I)/2j-J=(i-I)/2j-J=2(i-I)j-J=2(i-I)j=i/2j=i/2j=2ij=2i全局最優(yōu)全局最優(yōu)動(dòng)態(tài)時(shí)間規(guī)正法動(dòng)態(tài)時(shí)間規(guī)正法(DTW)(DTW)的具體解法的具體解法 規(guī)定行進(jìn)方向規(guī)定行進(jìn)方向, ,設(shè)計(jì)局部路徑約束設(shè)計(jì)局部路徑約束c ck k=(i,j)=(i,j)(i,j-1)(i,j-1)(i-1,j-1)(i-1,j-1)(i-1,j)(i-1,j)(i-2,j-1)(i-2,j-1)(i(i-1,j-2)-1,j-2)i ij j22211),(), 1(2

33、)1,2(),(2)1, 1(),()1,(2)2, 1(min),(jidjidjigjidjigjidjidjigjig 由規(guī)定的行進(jìn)方向可知在任由規(guī)定的行進(jìn)方向可知在任意一點(diǎn)(意一點(diǎn)(i,ji,j), ,其其g(T(i),R(j)=g(i,j)(g(T(i),R(j)=g(i,j)(代價(jià)函代價(jià)函數(shù)值數(shù)值) )可由它前面點(diǎn)的可由它前面點(diǎn)的g(i-1,j-g(i-1,j-2 2)或)或g(i-1,j-1)g(i-1,j-1)或或g(i-2,j-1)g(i-2,j-1)按下式計(jì)算:按下式計(jì)算:最佳匹配失真測度最佳匹配失真測度/距離距離 D(D(T T, ,R R)=g(I,J)/(I+J)=g

34、(I,J)/(I+J) ),()(),(jidjRiTdc ck k=(i,j)=(i,j)(i,j-1)(i,j-1)(i-1,j-1)(i-1,j-1)(i-1,j)(i-1,j)(i-2,j-1)(i-2,j-1)(i-1,j-2)(i-1,j-2)22211c ck k=(i,j)=(i,j)(i,j-1)(i,j-1)(i-1,j-1)(i-1,j-1)(i-1,j)(i-1,j)(i-2,j-1)(i-2,j-1)(i(i-1,j-2)-1,j-2)22211),(), 1(2)1,2(),(2)1, 1(),()1,(2)2, 1(min),(jidjidjigjidjigjid

35、jidjigjig代價(jià)函數(shù)代價(jià)函數(shù)d(T(i),R(j)d(T(i),R(j)d(T(i),R(j-1)d(T(i),R(j-1)g(i-1,j-2)g(i-1,j-2)i ij j21g(i,j)g(i,j)(),()1(),(2)2, 1(),(jRiTdjRiTdjigjig代價(jià)函數(shù)g(i-1,j-1)g(i-1,j-1)i ij j2d(T(i),Rj)d(T(i),Rj)g(i,j)g(i,j)(),(2) 1, 1(),(jRiTdjigjig代價(jià)函數(shù)d(T(i),R(j)d(T(i),R(j)d(T(i-1),R(j)d(T(i-1),R(j)g(i-2,j-1)g(i-2,j-

36、1)i ij j21g(i,j)g(i,j)(),()(),1(2) 1, 2(),(jRiTdjRiTdjigjig代價(jià)函數(shù) 每一個(gè)點(diǎn)的總代價(jià)函數(shù)是前一點(diǎn)總代價(jià)函數(shù)和每一個(gè)點(diǎn)的總代價(jià)函數(shù)是前一點(diǎn)總代價(jià)函數(shù)和到達(dá)該點(diǎn)的代價(jià)函數(shù)之和的最小值。到達(dá)該點(diǎn)的代價(jià)函數(shù)之和的最小值。 總代價(jià)函數(shù)總代價(jià)函數(shù) 時(shí)間規(guī)整,它把時(shí)間規(guī)整,它把1 1個(gè)個(gè)k k個(gè)階段的決策,化為個(gè)階段的決策,化為k k個(gè)單個(gè)單階段的決策過程,以便使計(jì)算簡化階段的決策過程,以便使計(jì)算簡化. .這種決策過程稱這種決策過程稱為動(dòng)態(tài)規(guī)劃計(jì)劃。為動(dòng)態(tài)規(guī)劃計(jì)劃。動(dòng)態(tài)時(shí)間規(guī)正法動(dòng)態(tài)時(shí)間規(guī)正法(DTW)(DTW)的計(jì)算實(shí)例的計(jì)算實(shí)例1 1 設(shè)待識語

37、音模式為設(shè)待識語音模式為T T=acc=acc, 參考模式為參考模式為R R=cbac=cbac, 若若a a、b b 、 c c之間的距離分別為之間的距離分別為 d(a,b)=d(b,a)=2d(a,b)=d(b,a)=2、d(a,c)=d(c,a)=3d(a,c)=d(c,a)=3、 d(b,c)=d(c,b)=1d(b,c)=d(c,b)=1、d(a,a)=d(b,b)=d(c,c)=0d(a,a)=d(b,b)=d(c,c)=0 試用試用DTWDTW法,在點(diǎn)陣圖上畫出最佳匹配路徑,法,在點(diǎn)陣圖上畫出最佳匹配路徑,并計(jì)算出最佳匹配距離并計(jì)算出最佳匹配距離D(D(T T, ,R R) )。

38、300033211300d(a,b)=d(b,a)=2、 d(a,c)=d(c,a)=3、d(b,c)=d(c,b)=1、 d(a,a)=d(b,b)=d(c,c)=0acc1234c3a2b1c矢量距離待識語音模式待識語音模式參參考考模模式式2 2accacbcR3 31 1i ij j1 12 23 34 4(c,c)(a,c)g(3,4)g(1,1)=d(a,c)=3),(), 1(2)1,2(),(2)1, 1(),()1,(2)2, 1(min),(jidjidjigjidjigjidjidjigjig標(biāo)號標(biāo)號標(biāo)號標(biāo)號212 2accaccbR3 31 1i ij j1 12 23

39、34 4(c,c)(a,c)3 , 1 (),(),(2)3 , 1 ()4(),3()4(),2(2)3 , 1 ()3 , 2(),(2)3 , 2()4(),3(2)3 , 2(32)2 , 2(),(),(2)2 , 2()4(),3()3(),3(2)2 , 2(min)4 , 3(gccdccdgRTdRTdggccdgRTdggccdacdgRTdRTdggg(2,2)g(2,3)g(1,3)g(3,4)2223000332113002 2accaccbR3 31 1i ij j1 12 23 34 4(c,c)(a,c)g(1,3),(), 1(2)1,2(),(2)1, 1(

40、),()1,(2)2, 1(min),(jidjidjigjidjigjidjidjigjig523),(),(),()3(),1 ()2(),1 ()1 (),1 ()3 , 1 (aadbadcadRTdRTdRTdg3000332113002 2accaccbR3 31 1i ij j1 12 23 34 4(c,c)(a,c)g(2,2),(), 1(2)1,2(),(2)1, 1(),()1,(2)2, 1(min),(jidjidjigjidjigjidjidjigjig(2,2)(1,1)2 ( (2), (2)( , )2 ( , )3 2 15ggd TRd a cd c b

41、 3000332113002 2accaccbR3 31 1i ij j1 12 23 34 4(c,c)(a,c)g(2,3),(), 1(2)1,2(),(2)1, 1(),()1,(2)2, 1(min),(jidjidjigjidjigjidjidjigjig(1,1)2 ( (2), (2)( (2), (3)( , )2 ( , )( , )8(2,3)min(1,2)2 ( (2), (3)( , )( , )2 ( , )11gd TRd TRd a cd c bd c aggd TRd a cd a bd c ag(1,2)3000332113005)3 , 1 (8)3 ,

42、 2(11656)2 , 2(min)4 , 3(gggg2 2accaccbR3 31 1i ij j1 12 23 34 4(a,c)g(1,3)g(3,4)j時(shí)間規(guī)整時(shí)間規(guī)整函數(shù)函數(shù)j=w(i)j=w(i)i2 23 31 11 12 23 34 4D(T,R)=g(I,J)/(I+J)=g(3,4)/(3+4)=5/7最佳匹配距離:T(i)=1 2 3 4T(i)=1 2 3 41234124R(j)=1,2,4R(j)=1,2,4g(4,3)(1,1) g(1,1)動(dòng)態(tài)時(shí)間規(guī)正法動(dòng)態(tài)時(shí)間規(guī)正法(DTW)(DTW)的計(jì)算實(shí)例的計(jì)算實(shí)例2 222) 1 , 3 () 4 , 4 () 2

43、 , 4 (2) 1 , 3 () 2 , 3 () 4 , 4 (2) 2 , 3 (12) 2 , 2 () 4 , 4 () 4 , 3 (2) 2 , 2 (min) 3 , 4 (gddggdggddggg(3,1)g(3,2)g(2,2)1 ( ),( ( )( ,)( )( )pijijkd T iR w id c cc kck絕對值平均距離T(i)T(i)1234124R(j)R(j)(4,4) g(4,3)(1,1) g(1,1)g(2,2)0)2 , 2(2) 1 , 1 ()2 , 2(dggT(i)T(i)1234124R(j)R(j)(4,4)g(4,3)(1,1)

44、g(1,1)g(3,2)3)2 , 3(2) 1 , 2() 1 , 1 ()2 , 3(2) 1 , 2(1)2 , 3()2 , 2(2) 1 , 1 (min)2 , 3(ddddgddggT(i)1234124R(j)(4,4) g(4,3)(1,1)g(1,1)g(3,1)321) 1 , 3() 1 , 2() 1 , 1 () 1 , 3(dddg74322) 1 , 3(321)4 , 4(2)2 , 3(22012)2 , 2(min)3 , 4(gdgggT(i)1234124R(j) 1 2 3 43 2 1i ij j時(shí)間規(guī)整函數(shù)時(shí)間規(guī)整函數(shù)j=w(i)j=w(i)D(

45、T,R)=g(I,J)/(I+J)=g(4,3)/(4+3)=2/7最佳匹配距離四、動(dòng)態(tài)時(shí)間規(guī)整的應(yīng)用四、動(dòng)態(tài)時(shí)間規(guī)整的應(yīng)用 DTWDTW算法簡潔,運(yùn)算算法簡潔,運(yùn)算量小,適合小型的孤立量小,適合小型的孤立詞的識別。例如語音計(jì)詞的識別。例如語音計(jì)數(shù)器,語音呼叫電話等。數(shù)器,語音呼叫電話等。開始開始語音采樣和量化語音采樣和量化端點(diǎn)檢測端點(diǎn)檢測LPCLPC倒譜分析倒譜分析DTWDTW的識別算法的識別算法 語音模板語音模板識別結(jié)果輸出識別結(jié)果輸出 建立摸板total=10;n_lpcc=12;fori=1:totaln=num2str(i);disp(Workingwithnumbern)s=nnf

46、s=readwav(xn);%讀語音eval(s);s=nn=voicedet(nn,fs);%端點(diǎn)檢測eval(s);s=mn=getceps(nn,fs,n_lpcc);%計(jì)算lpcc系數(shù)eval(s)end識別程序total=10;n_lpcc=12;tfs=readwav(test);t=voicedet(t,fs);wm=getceps(t,fs,n_lpcc);dispPerformingspeechrecognitionbyDTW.fori=1:totaln=num2str(i);s=dis(n)=dtw(wm,mn);%計(jì)算待識別矢量和參考矢量的距離eval(s)enddisp

47、Matchingresults:disindex=find(dis=min(dis)檢測結(jié)果Doingendpointdetectionfortest.wav.ExtractionLPCCparametersfortest.wav.PerformingspeechrecognitionbyDTW.Matchingresults:dis=1.0e+009*1.00000.00001.00000.000000.00001.00000.00000.00000.0000index=56.4 6.4 基于統(tǒng)計(jì)模型框架的識別法基于統(tǒng)計(jì)模型框架的識別法 詞匯表詞匯表 W(k), 1kNW(k), 1kN 參

48、考模式參考模式 R R(k), 1kN(k), 1kN 失真測度失真測度 D(D(T T, ,R R(k)(k) DTW DTW距離距離 判判 別別 n = argminDn = argminD 識別結(jié)果識別結(jié)果 W(n)W(n)模式匹配模式匹配一一、語音識別問題的形式化描述語音識別問題的形式化描述詞詞 匯匯 表表 W(k), 1kN W(k), 1kN 參考模式參考模式 M(k), 1kNM(k), 1kN概率測度概率測度 P(P(T T|M(k)|M(k) P: P:由由M(k)M(k)生成生成T T的概率的概率判判 別別 n=argmaxP(n=argmaxP(T T|M(k)|M(k)

49、識別結(jié)果識別結(jié)果 W(n)W(n)統(tǒng)計(jì)模型統(tǒng)計(jì)模型v 問題一:給定模型參數(shù)問題一:給定模型參數(shù) 和觀和觀測序列測序列 ,如何快速求出在該模型,如何快速求出在該模型下,觀測符號序列的輸出概率下,觀測符號序列的輸出概率 ?(?(前向前向算法和后向算法)算法和后向算法)),(BAMN).(21ToooO )|(OP隱馬爾可夫模型的三個(gè)基本問題隱馬爾可夫模型的三個(gè)基本問題v問題二:給定模型參數(shù)和觀測序列,如何找出問題二:給定模型參數(shù)和觀測序列,如何找出一個(gè)最佳狀態(tài)序列?(一個(gè)最佳狀態(tài)序列?(ViterbiViterbi算法算法)v 問題三:如何得到模型中的五個(gè)參數(shù)?使模型問題三:如何得到模型中的五個(gè)參

50、數(shù)?使模型參數(shù)最優(yōu)化參數(shù)最優(yōu)化? ? (Baum-WelchBaum-Welch算法算法) 前向算法前向算法 前向算法按照輸出觀察值序列的時(shí)間,從前向后遞推計(jì)算前向算法按照輸出觀察值序列的時(shí)間,從前向后遞推計(jì)算輸出概率。首先說明下列符號的定義:輸出概率。首先說明下列符號的定義: ( )tj輸出的觀察符號序列給定模型時(shí),輸出符號序列的概率從狀態(tài)Si到狀態(tài)Sj的轉(zhuǎn)移概率從狀態(tài)Si到狀態(tài)Sj發(fā)生轉(zhuǎn)移時(shí)輸出的概率輸出部分符號序列o1,o2,ot,并且達(dá)到狀態(tài)Sj的概率,即前向概率。12,. TOo oo(|)P Oija()ijtb OOtO前向算法前向算法s s1 1s s2 2s sN Nsj時(shí)刻

51、時(shí)刻t-1ta1ja2j2jaNjNj1( )ti()ijtbo11( )( )( )Nttij ijtiji a b ot時(shí)刻的前向概率前向概率等于t-1時(shí)刻的所有狀態(tài)的的和,在t時(shí)刻對所有狀態(tài)的前向概率都計(jì)算一次,則每個(gè)狀態(tài)的前向概率都更新了一次,然后進(jìn)入t+1時(shí)刻的遞推過程。當(dāng)從狀態(tài)Si到狀態(tài)Sj沒有轉(zhuǎn)移時(shí),1( )()tij ijtai a bo前向算法是一個(gè)遞推算法。(1)初始化初始狀態(tài)的前向概率設(shè)為1,其他狀態(tài)的為0(2)遞推公式如下0ija后向算法:后向算法:與前向算法類似,后向算法按輸出與前向算法類似,后向算法按輸出觀察值序列的時(shí)間,從后向前遞推計(jì)算輸出概率觀察值序列的時(shí)間,從

52、后向前遞推計(jì)算輸出概率的方法。的方法。0(/ )(1)P O( )ti后向概率后向概率:從狀態(tài)Si開始到狀態(tài)SN結(jié)束輸出部分符號序列的概率。ViterbiViterbi算法算法 該算法解決了給定一個(gè)觀察值序列和一個(gè)模型,在最佳該算法解決了給定一個(gè)觀察值序列和一個(gè)模型,在最佳的意義上確定一個(gè)狀態(tài)序列的問題。的意義上確定一個(gè)狀態(tài)序列的問題。HMMHMM輸出一個(gè)觀察值序輸出一個(gè)觀察值序列時(shí),可能通過的狀態(tài)序列路徑有多種,這里面使輸出概率列時(shí),可能通過的狀態(tài)序列路徑有多種,這里面使輸出概率最大的狀態(tài)序列就是所求的最佳狀態(tài)序列。最大的狀態(tài)序列就是所求的最佳狀態(tài)序列。問題二:給定模型參數(shù)和觀測序列,如何找

53、出一問題二:給定模型參數(shù)和觀測序列,如何找出一個(gè)最佳狀態(tài)序列?個(gè)最佳狀態(tài)序列? prob,q=viterbi(hmm,O)1211 211 2,.( )max.,.|tttttq qqa iP q qqqi o oo找一個(gè)狀態(tài)序列,這個(gè)狀態(tài)序列在找一個(gè)狀態(tài)序列,這個(gè)狀態(tài)序列在t t時(shí)狀態(tài)為時(shí)狀態(tài)為i i,并且,并且狀態(tài)狀態(tài)i i與前面與前面t-1t-1個(gè)狀態(tài)構(gòu)成的狀態(tài)序列的概率值最大個(gè)狀態(tài)構(gòu)成的狀態(tài)序列的概率值最大 )(1tjob1( )tai1( )max( )( )ttij ijtia jai a b os1s2sNsja1ja2jaNj( )tajBaum-Welch 算法:算法:(1)

54、適當(dāng)選擇轉(zhuǎn)移概率和輸出概率)適當(dāng)選擇轉(zhuǎn)移概率和輸出概率 的初始值。的初始值。( )ijijabk和7v問題三:如何得到模型中的五個(gè)參數(shù)?使模型參數(shù)最優(yōu)化問題三:如何得到模型中的五個(gè)參數(shù)?使模型參數(shù)最優(yōu)化?(2)給定一個(gè)(訓(xùn)練)觀察值符號序列)給定一個(gè)(訓(xùn)練)觀察值符號序列 對對 利用下式進(jìn)行重估,得利用下式進(jìn)行重估,得 。12,.,TOo oo( )ijijabk和( )ijijabk和11:1( , )( )()( )( , )( )( )( , )( )()( )( )( , )( )()( )tttij ijttttijtttjttttij ijttt oktijttij ijtttti

55、 ji a bojai jiji ji a bojbki ji a boj(3)再給定一個(gè)(訓(xùn)練)觀察值符號序列,把前)再給定一個(gè)(訓(xùn)練)觀察值符號序列,把前 一次的一次的 作為初始值重新計(jì)算作為初始值重新計(jì)算 (4)如此反復(fù),直到)如此反復(fù),直到 收斂為止。收斂為止。收斂判斷方法收斂判斷方法:(1)前后兩次的輸出概率的差值前后兩次的輸出概率的差值小于一定閾值或模型參數(shù)幾乎不變?yōu)橹?。(小于一定閾值或模型參?shù)幾乎不變?yōu)橹埂#?)固)固定訓(xùn)練次數(shù)。如對于一定數(shù)量的訓(xùn)練數(shù)據(jù),利用這定訓(xùn)練次數(shù)。如對于一定數(shù)量的訓(xùn)練數(shù)據(jù),利用這些數(shù)據(jù)反復(fù)訓(xùn)練若干次即可。些數(shù)據(jù)反復(fù)訓(xùn)練若干次即可。( )ijijabk和(

56、 )ijijabk和( )ijijabk和三、三、隱馬爾可夫模型在語音識別中的應(yīng)用隱馬爾可夫模型在語音識別中的應(yīng)用1.1.利用利用HMMHMM進(jìn)行孤立字語音識別,每一字必須有一進(jìn)行孤立字語音識別,每一字必須有一個(gè)個(gè)HMMHMM模型模型 P1,P2,P3P1,P2,P3 來描述,通過學(xué)習(xí)和訓(xùn)練來來描述,通過學(xué)習(xí)和訓(xùn)練來完成完成。字庫字庫語語文文學(xué)學(xué)音音語語S1S2S32.2.現(xiàn)對一個(gè)要識別的未知字語音,首先通過分幀、現(xiàn)對一個(gè)要識別的未知字語音,首先通過分幀、參數(shù)分析和特征參數(shù)提取,取得一組向量序列參數(shù)分析和特征參數(shù)提取,取得一組向量序列XX1 1,X,X2 2,.X,.XN N,N,N為幀長。為

57、幀長。wenwenXX1 1,X,X2 2,.X,.XN N 發(fā)音發(fā)音3.3.通過矢量量化把通過矢量量化把XX1 1,X,X2 2,.X,.XN N 轉(zhuǎn)化成一組符號轉(zhuǎn)化成一組符號序列(碼字)序列(碼字)O=oO=o1 1,o,o2 2,.o,.oN N, o, oi i為碼本中的碼為碼本中的碼字字, ,這個(gè)碼本是所有字的一個(gè)共同的碼本。這個(gè)碼本是所有字的一個(gè)共同的碼本。XX1 1,X,X2 2,.X,.XN N Y Y1 1Y Y2 2Y YJ Joo1 1,o,o2 2,.o,.oN N 碼本碼本 4. 4. 用這組符號用這組符號oo1 1,o,o2 2,.o,.oN N 計(jì)算在每個(gè)計(jì)算在每

58、個(gè)HMMHMM上的上的輸出概率,輸出概率最大的輸出概率,輸出概率最大的HMMHMM對應(yīng)的孤立字,就對應(yīng)的孤立字,就是識別結(jié)果。是識別結(jié)果。oo1 1,o,o2 2,.o,.oN N 字庫字庫語語文文學(xué)學(xué)音音S1S2S3S1S2S3S1S2S3S1S2S3前向后向算法計(jì)算前向后向算法計(jì)算P(O|)P(O|);2. 2. Baum-Welch Baum-Welch 算法求出最優(yōu)解算法求出最優(yōu)解=argmaxP(O|)argmaxP(O|);3. 3. ViterbiViterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列;算法解出最佳狀態(tài)轉(zhuǎn)移序列;4. 4. 根據(jù)最佳狀態(tài)序列對應(yīng)的根據(jù)最佳狀態(tài)序列對應(yīng)的給出候選音節(jié)或聲韻母給出候選音節(jié)或聲韻母5. 5. 通過語言模型形成詞和句子通過語言模型形成詞和句子四、經(jīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論