版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第10章語音識別 南京工程學(xué)院
梁瑞宇第10章語音識別概述語音識別原理與系統(tǒng)構(gòu)成動態(tài)時間規(guī)整隱馬爾可夫模型人工智能與語音識別性能評測第10章語音識別南京工程學(xué)院梁瑞宇10.1
概述語音識別主要指讓機器聽懂人說的話,即在各種情況下,準(zhǔn)確地識別出語音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖。它是一門涉及面很廣的交叉學(xué)科,與計算機、通信、語音語言學(xué)、數(shù)理統(tǒng)計、信號處理、神經(jīng)生理學(xué)、神經(jīng)心理學(xué)和人工智能等學(xué)科都有著密切的關(guān)系。隨著計算機技術(shù)、模式識別和信號處理技術(shù)及聲學(xué)技術(shù)等的發(fā)展,使得能滿足各種需要的語音識別系統(tǒng)的實現(xiàn)成為可能。近二三十年來,語音識別在工業(yè)、軍事、交通、醫(yī)學(xué)、民用諸方面,特別是在計算機、信息處理、通信與電子系統(tǒng)、自動控制等領(lǐng)域中有著廣泛的應(yīng)用。當(dāng)今,語音識別產(chǎn)品在人機交互應(yīng)用中,已經(jīng)占到越來越大的比例。第10章語音識別南京工程學(xué)院梁瑞宇10.1
概述語音識別系統(tǒng)按照不同的角度、不同的應(yīng)用范圍、不同的性能要求有不同的分類方法:?孤立詞/連續(xù)語音?Isolated
or
Continuous
speech?認(rèn)人/不認(rèn)人?Speaker-dependent
or
Independent?小詞匯量/大詞匯量?Small
or
large
vocabulary?安靜環(huán)境/噪雜環(huán)境?Environment
robustness?一般信道/電話信道?Channel
adaptability第10章語音識別南京工程學(xué)院梁瑞宇10.1
概述語音識別方法一般有模板匹配法、隨機模型法和
概率語法分析法三種。雖然,這三種方法都可以
說是建立在最大似然決策貝葉斯判決的基礎(chǔ)上的,但具體做法不同。模板匹配法——簡單,但實用性不強隨機模型法——主流的語音識別算法概率語法分析法——用于大長度范圍的連續(xù)語音識別第10章語音識別 南京工程學(xué)院
梁瑞宇基于云計算服務(wù)的語音識別Siri和Voice
Actions分別作為當(dāng)今兩大智能陣營蘋果
iOS
5和谷歌Android4.0的重點特征推出。它們都是語音輸入服務(wù),目的是讓生活更加輕松簡單,無需手動操作,通過說話就可以播放音樂、上網(wǎng)搜索、發(fā)送短信郵件。南京工程學(xué)院梁瑞宇第10章語音識別基本原理語音壓縮包編碼用戶語音內(nèi)容云服務(wù)器互聯(lián)網(wǎng)上傳識別本機識別器分析下載可以理解的語言選取識別可能性最高的片段進(jìn)行優(yōu)先處理根據(jù)用戶最有可能的語音命令整理出一個候選列表,并陳列出來第10章語音識別 南京工程學(xué)院
梁瑞宇10.2
語音識別原理與系統(tǒng)構(gòu)成10.2.1
基本構(gòu)成第10章語音識別 南京工程學(xué)院
梁瑞宇基本構(gòu)成語音識別系統(tǒng)的本質(zhì)就是一種模式識別系統(tǒng),包括前段預(yù)處理、后端模式識別以及訓(xùn)練模型等基本單元。預(yù)處理過程包括預(yù)濾波、采樣、量化、分幀、加窗、預(yù)加重和端點檢測甚至降噪。特征參數(shù)的提取,特征的數(shù)量和維度呈增加的趨勢。語音識別系統(tǒng)分為兩個主要階段:訓(xùn)練階段:將數(shù)據(jù)庫中的語音樣本進(jìn)行特征參數(shù)提取,為每個詞條建立一個識別基本單元的聲學(xué)模型以及進(jìn)行文法分析的語言模型,并保存為模板庫;識別階段:將待識別語音信號經(jīng)過相同的處理獲得語音參數(shù),然后按照一定的準(zhǔn)則和測度將待識別樣本特征與訓(xùn)練樣本特征進(jìn)行比較,通過判決后得出識別結(jié)果。第10章語音識別 南京工程學(xué)院
梁瑞宇10.2.1
基本構(gòu)成研究得最早也最成熟的孤立字(詞)識別系統(tǒng)的特點包括:?單詞之間有停頓,可使識別問題簡化?單詞之間的端點檢測比較容易?單詞之間的協(xié)同發(fā)音影響較小?一般孤立單詞的發(fā)音都比較認(rèn)真系統(tǒng)存在的問題較少,較容易實現(xiàn),且其許多技術(shù)對其他類型系統(tǒng)有通用性并易于推廣,如稍加補充一些知識即可用于其他類型系統(tǒng)。第10章語音識別 南京工程學(xué)院
梁瑞宇10.2.1
基本構(gòu)成在語音識別中,孤立單詞識別是基礎(chǔ)。孤立字(詞)識別的三個主要目標(biāo):?擴大詞匯量?提高識別精度?降低計算復(fù)雜度要達(dá)到這三個目標(biāo),關(guān)鍵問題是:?特征的選擇和提取?失真測度的選擇?匹配算法的有效性第10章語音識別 南京工程學(xué)院
梁瑞宇10.2.2
前端處理語音特征提取的關(guān)鍵在于使語音識別的類內(nèi)距離盡量小,類間距離盡量大。特征參數(shù)提取是語音識別的關(guān)鍵問題,特征參數(shù)選擇的好壞直接影響到語音識別的精度。識別參數(shù)可以是下面的某一種或幾種的組合:平均能量、過零率、頻譜、共振峰、倒譜、線性預(yù)測系數(shù)、偏自相關(guān)系數(shù)、聲道形狀的尺寸函數(shù),以及音長、音高、聲調(diào)等超聲短信息函數(shù)。此外,美爾倒譜參數(shù)也是常用的語音識別特征參數(shù)。除了這些靜態(tài)參數(shù)以外,上述參數(shù)的時間變化也反映了語音特征的動態(tài)特性,因此也常常被用于語音識別當(dāng)中。提取的語音特征參數(shù)有時還要進(jìn)行進(jìn)一步的變換處理,如正交變換、主元素分析等,以達(dá)到特征降維的目的,減少運算量,提高識別性能的目的。第10章語音識別南京工程學(xué)院梁瑞宇10.2.3
關(guān)鍵組成*語音與語言模型語音模型一般指的是用于參數(shù)匹配的聲學(xué)模型。而語言模型一般是指在匹配搜索時用于字詞和路徑約束的語言規(guī)則?,F(xiàn)在公認(rèn)的較好的概率統(tǒng)計模型是隱馬爾科夫模型(HMM),可以根據(jù)環(huán)境和話者引起的特征參數(shù)的變動,實現(xiàn)非特定人的語音識別。對于漢語來說,音素、聲母—韻母、字、詞等都可以作為識別基本單元。但是,識別正確率和系統(tǒng)的復(fù)雜度(運算量和存儲量等)之間總是存在矛盾。在漢語連續(xù)語音識別時,采用聲母和韻母作為識別的參數(shù)基元、以音節(jié)字為識別基元,結(jié)合同音字理解技術(shù)以及詞以上的句子理解技術(shù)的一整套策略,可望實現(xiàn)漢語全字(詞)語音識別和理解的目的。第10章語音識別南京工程學(xué)院梁瑞宇10.2.3
關(guān)鍵組成*語音識別算法主流算法包括:基于參數(shù)模型的隱馬爾可夫模型(HMM)——主要用于大詞匯量的語音識別系統(tǒng),它需要較多的模型訓(xùn)練數(shù)據(jù),較長的訓(xùn)練時間及識別時間,而且還需要較大的內(nèi)存空間基于非參數(shù)模型的矢量量化(VQ)方法——所需的模型訓(xùn)練數(shù)據(jù),訓(xùn)練與識別時間,工作存儲空間都很小,但是對于大詞匯量語音識別的識別性能不如HMM好?;趧討B(tài)時間規(guī)整(DTW)算法——應(yīng)用在小詞匯量、孤立字(詞)識別系統(tǒng)人工神經(jīng)網(wǎng)絡(luò)(ANN)、ANN/HMM法、VQ/HMM法等。第10章語音識別南京工程學(xué)院梁瑞宇10.2.3
關(guān)鍵組成*語音識別算法用于語音識別的距離測度有多種,如歐氏距離及其變形的歐氏距離測度、似然比測度、加權(quán)的識別測度等。選擇什么樣的距離測度與識別系統(tǒng)采用什么語音特征參數(shù)和什么樣的識別模型有關(guān),如線性預(yù)測系數(shù)和倒譜系數(shù)都有相應(yīng)的距離測度。對于匹配計算而得的測度值,根據(jù)若干準(zhǔn)則及專家知識,判決選出可能的結(jié)果中最好的結(jié)果作為識別結(jié)果,由識別系統(tǒng)輸出,這一過程就是判決。在語音識別中,一般都采用K最鄰近(KNN)準(zhǔn)則來進(jìn)行決策。因此,選擇適當(dāng)?shù)木嚯x測度的門限值是問題的關(guān)鍵,這往往需要大量實驗來多次調(diào)整這些門限值才能得到滿意的識別結(jié)果。第10章語音識別南京工程學(xué)院梁瑞宇10.2.3
關(guān)鍵組成*語音識別算法模式識別部分是將輸入語音特征參數(shù)信息與訓(xùn)練時預(yù)存的參考模型(或模板)進(jìn)行比較匹配。由于發(fā)音速率的變化,輸出測試語音和參考模式間存在著非線性失真,即與參考模式相比輸入語音的某些音素變長而另一些音素卻縮短,呈現(xiàn)隨機的變化。根據(jù)參考模式是模板或是隨機模型,最
有效的兩種時間規(guī)正策略分別是DTW技術(shù)和HMM技術(shù)。除了發(fā)音速率的變化外,相對于參考模式,測試語音還可能出現(xiàn)其他的語音變化,如連續(xù)/音渡/音變等聲學(xué)變化、發(fā)音人心理及生理變化、與話者無關(guān)的情況下發(fā)音人的變化以及環(huán)境變化等。如何提高整個系統(tǒng)對各種語音變化和環(huán)境變化的魯棒性,一直是研究的熱點。第10章語音識別南京工程學(xué)院梁瑞宇10.3
動態(tài)時間規(guī)整10.3.1
基本構(gòu)成系統(tǒng)首先對語音進(jìn)行預(yù)處理,然后逐幀進(jìn)行特征提取。語音識別系統(tǒng)選用美爾頻率倒譜系數(shù)(MFCC)及其一階和二階差分作為特征參數(shù)。在識別階段,系統(tǒng)選用動態(tài)時間規(guī)整(DTW)技術(shù)作為模式匹配算法,進(jìn)行語音識別。第10章語音識別 南京工程學(xué)院
梁瑞宇10.3.2
動態(tài)時間規(guī)整基于模板匹配的語音識別算法需要解決的一個關(guān)鍵問題是說話人對同一個詞的兩次發(fā)音不可能完全相同,這些差異不僅包括音強的大小、頻譜的偏移,更重要的是發(fā)音時音節(jié)的長短不可能完全相同,而且兩次發(fā)音的音節(jié)往往不存在線性對應(yīng)關(guān)系。第10章語音識別南京工程學(xué)院梁瑞宇10.3.2
動態(tài)時間規(guī)整直接匹配是假設(shè)測試模板和參考模板長度相等,即線性時間規(guī)整技術(shù)假設(shè)說話速度是按不同說話單元的發(fā)音長度等比例分布的,即3)DTW是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術(shù),它尋找一個規(guī)整函數(shù) ,將測試矢量的時間軸n非線性地映射到參考模板的時間軸m上,并使該函數(shù)滿足:第10章語音識別南京工程學(xué)院梁瑞宇10.3.2
動態(tài)時間規(guī)整DTW算法的實質(zhì)就是運用動態(tài)規(guī)劃的思想,利用局部最佳化的處理來自動尋找一條路徑,沿著這條路徑,兩個特征矢量之間的累積失真量最小,從而避免由于時長不同而可能引入的誤差。DTW算法要求參考模板與測試模板采用相同類型的特征矢量、相同的幀長、相同的窗函數(shù)和相同的幀移。為了使動態(tài)路徑搜索問題變得有實際意義,在規(guī)整函數(shù)上必須要加一些限制,否則找出的最優(yōu)路徑很可能使兩個根本不同的模式之間的相似性很大,從而使模式比較變得毫無意義。第10章語音識別 南京工程學(xué)院
梁瑞宇10.3.2
動態(tài)時間規(guī)整通常規(guī)整函數(shù)必須滿足:1)邊界限制:規(guī)整發(fā)生在起點幀和端點幀之間,反映在規(guī)整函數(shù)上就是:單調(diào)性限制:規(guī)整函數(shù)必須保證匹配路徑不違背語音信號各部分的時間順序,即規(guī)整函數(shù)必須滿足單調(diào)性限制:連續(xù)性限制:為了保證信息損失最小,規(guī)整函數(shù)一般規(guī)定不允許跳過任何一點。即:第10章語音識別南京工程學(xué)院梁瑞宇10.3.2
動態(tài)時間規(guī)整DTW算法分兩步進(jìn)行,
一是計算兩個模式各幀之間的距離,即求出幀匹配距離矩陣,二是在幀匹配距離矩陣中找出一條最佳n
m路徑。搜索路徑的過程為:搜索從(1,1)點出發(fā),點
(i,i)可達(dá)到的前個點只可能是(in+1
m,i)、n+1
m+1
n
m+1(i
,i )
和(i
,i )
。那么一定選擇這三個距離中的最小者所對應(yīng)的點作為其前續(xù)格點,這時此路徑的累積距離為:第10章語音識別南京工程學(xué)院梁瑞宇10.3.3
算法的改進(jìn)DTW算法雖然簡單有效,但是動態(tài)規(guī)劃方法需要
存儲較大的矩陣,直接計算將會占據(jù)較大的空間,計算量也比較大。因此,在實際應(yīng)用中會將DTW
算法進(jìn)行一些改進(jìn)以減少存儲空間和降低計算量。常見的改進(jìn)方法有搜索寬度限制、放寬端點限制
等。第10章語音識別 南京工程學(xué)院
梁瑞宇10.4
隱馬爾可夫模型10.4.1
隱馬爾可夫模型概述語音信號是時變的,所以用模型表示時,其參數(shù)也是時變的。HMM既解決了用短時模型描述平穩(wěn)段信號的問題,又解決了每個短時平穩(wěn)段是如何轉(zhuǎn)變到下一個短時平穩(wěn)段的問題。HMM是建立在一階Markov鏈的基礎(chǔ)之上的,因此它們的概率特性基本相同。不同點是HMM是一個雙內(nèi)嵌式隨機過程,即HMM是由兩個隨機過程組成,一個隨機過程描述狀態(tài)和觀察值之間的統(tǒng)計對應(yīng)關(guān)系的,它解決了用短時模型描述平穩(wěn)段的信號的問題;由于實際問題比Markov鏈模型所描述的更為復(fù)雜,觀察到的事件并不像Markov鏈模型一樣與狀態(tài)一一對應(yīng),所以HMM通過另一組與概率分布相聯(lián)系的狀態(tài)轉(zhuǎn)移的統(tǒng)計對應(yīng)關(guān)系來描述每個短時平穩(wěn)段是如何轉(zhuǎn)變到下一個短時平穩(wěn)段的情況。第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.1
隱馬爾可夫模型概述HMM是一個輸出符號序列的統(tǒng)計模型,具
有N個狀態(tài),它按一定的周期從一個狀態(tài)轉(zhuǎn)移到另一個狀態(tài),每次轉(zhuǎn)移時,輸出一個符號。轉(zhuǎn)移到哪一個狀態(tài),轉(zhuǎn)移時輸出什么符號,分別由狀態(tài)轉(zhuǎn)移概率和轉(zhuǎn)移時的輸出概率來決定。因為只能觀測到輸出符號序列,而不能觀測到狀態(tài)轉(zhuǎn)移序列(即模型輸出符號序列時,不能知道通過了哪些狀態(tài)路徑),所以稱為隱藏的馬爾可夫模型。第10章語音識別南京工程學(xué)院梁瑞宇設(shè)有N個缸,每個缸中裝有很多彩色的球,在同一個缸中不同顏色球的多少由一組概率分布來描述。實驗的步驟如下:根據(jù)某個初始概率分布,隨機的選擇N個缸中的一個缸,如第i個缸。再根據(jù)這個缸中彩色球顏色的概率分布,隨機地選擇一個球,記下球的顏色,記為o1,再把球放回缸中。又根據(jù)描述缸的轉(zhuǎn)移的概率分布,選擇下一個缸,如第個j缸,再從缸中隨機選一個球,記下球的顏色,記為o2
。一直進(jìn)行下去,可以得到一個描述球的顏色的序列o1
,o2
,
…,由于這是觀察到的事件,因而稱之為觀察值序列。如果每個缸中只裝有一種彩色的球,則根據(jù)球的顏色的序列o1
,
o2
,…,就可以知道缸的排列。但球的顏色和缸之間不是一一對應(yīng)的,所以缸之間的轉(zhuǎn)移以及每次選取的缸被隱藏起來了,并不能直接觀察到。而且,從每個缸中選擇什么顏色的球是由彩球顏色概率分布隨機決定的。此外,每次選取哪個缸則由一組轉(zhuǎn)移概率所決定。一個著名例子---球和缸的實驗第10章語音識別南京工程學(xué)院梁瑞宇10.4.1
隱馬爾可夫模型概述一個簡單的三狀態(tài)HMM(aab)S1->S1->S1->S3:0.3*0.8*0.3*0.8*0.2*1.0S1->S1->S2->S3:0.3*0.8*0.5*1.0*0.6*0.5S1->S2->S2->S3:0.5*1.0*0.4*0.3*0.6*0.5第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.2
隱馬爾可夫模型的定義1)離散Markov過程Markov鏈?zhǔn)荕arkov隨機過程的特殊情況,即Markov鏈?zhǔn)菭顟B(tài)和時間參數(shù)都離散的Markov過程。n階Markov過程:一階Markov過程:這里,Pij(t,t+1)是從當(dāng)時刻t的狀態(tài)i到時刻t+1的狀態(tài)j的轉(zhuǎn)移概率。當(dāng)這個轉(zhuǎn)移概率是與時間無關(guān)的常數(shù)時,稱其為具有常數(shù)轉(zhuǎn)移概率的Markov過程。第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.2
隱馬爾可夫模型的定義2)隱Markov模型HMM類似于一階Markov過程,不同的是HMM是一個雙內(nèi)嵌式隨機過程。如前所述,HMM由兩個隨機過程組成:一個是狀態(tài)轉(zhuǎn)移序列,它對應(yīng)著一個單純Markov過程;另一個是每次轉(zhuǎn)移時輸出的符號組成的符號序列。對于隱Markov模型,把所有可能的狀態(tài)轉(zhuǎn)移序列都考慮進(jìn)去,則有:第10章語音識別 南京工程學(xué)院
梁瑞宇假定一段時間的氣象可由一個三狀態(tài)的馬爾可夫模型M描述,S1:雨,S2:多云,S3:晴,狀態(tài)轉(zhuǎn)移概率矩陣為:如果第一天為晴天,根據(jù)這一模型,在今后七天中天氣為O=“晴晴雨雨晴云晴”的概率為第10章語音識別南京工程學(xué)院梁瑞宇10.4.2
隱馬爾可夫模型的定義i
i3)HMM的基本元素語音識別用HMM可以用下面六個模型參數(shù)來定義,即:S:模型中狀態(tài)的有限集合,即模型由幾個狀態(tài)組成。在球與缸的實驗中的缸就相當(dāng)于狀態(tài)。O:輸出的觀測值符號的集合,即每個狀態(tài)對應(yīng)的可能的觀察值數(shù)目。在球與缸實驗中所選彩球的顏色就是觀察值。π:系統(tǒng)初始狀態(tài)概率的集合。π
表示初始狀態(tài)是s的概率,即在球與缸實驗中,它指開始時選取某個缸的概率。第10章語音識別南京工程學(xué)院梁瑞宇10.4.2
隱馬爾可夫模型的定義3)HMM的基本元素A:狀態(tài)轉(zhuǎn)移概率的集合。所有轉(zhuǎn)移概率可以構(gòu)成一個轉(zhuǎn)移概率矩陣,即ij
i
j其中,a
(k)是從狀態(tài)S
到狀態(tài)S
時的轉(zhuǎn)移概率。在球與缸實驗中,其描述了選取當(dāng)前缸的條件下選取下一個缸的概率。ij
ijB:輸出觀測值概率的集合。B={b
(k)},其中b
(k)是從狀i
j態(tài)S
到狀態(tài)S
轉(zhuǎn)移時觀測值符號k的輸出概率,即缸中球的顏色k出現(xiàn)的概率。F:系統(tǒng)終了狀態(tài)的集合。第10章語音識別南京工程學(xué)院梁瑞宇10.4.2
隱馬爾可夫模型的定義3)HMM的基本元素嚴(yán)格來說Markov模型是沒有終了狀態(tài)的,只是語音識別的Markov模型要設(shè)定終了狀態(tài)。因此,一個HMM可記為:可簡寫為:因此,HMM可分為兩部分:一個是Markov鏈,由π
、A描述,產(chǎn)生的輸出為狀態(tài)序列;另一個是一個隨機過程,由B描述,產(chǎn)生的輸出為觀察值序列。第10章語音識別 南京工程學(xué)院
梁瑞宇HMM的三個基本問題評估問題:對于給定模型,求某個觀察值序列的概率P(O|λ)解碼問題:對于給定模型和觀察值序列,求可能性最大的狀態(tài)序列maxQ{P(S|O,λ)}學(xué)習(xí)問題:對于給定的一個觀察值序列O,調(diào)整參數(shù)λ,使得觀察值出現(xiàn)的概率P(O|λ)最大賭場的欺詐某賭場在擲骰子時采用的作弊方法:在連續(xù)多次擲骰子的過程中,通常使用公平骰子A,偶而混入一個灌鉛骰子B。AB0.90.10.2公平骰子灌鉛骰子0.8第10章語音識別南京工程學(xué)院梁瑞宇骰子A骰子B1點1/602點1/61/83點1/61/84點1/63/165點1/63/166點1/63/8公平骰子A與灌鉛骰子B的區(qū)別:第第1100章章語語音音識識別別
南南京京工工程程學(xué)學(xué)院院
梁梁瑞瑞宇宇時間1234567骰子AAABAAA擲出點數(shù)3345162一次連續(xù)擲骰子的過程模擬隱序列明序列查封賭場后,
調(diào)查人員發(fā)現(xiàn)了一些連續(xù)擲骰子的記錄,其中有一個骰子擲出的點數(shù)記錄如下:124552646214614613613666166466163661636616361651561511514612356234
…第10章語音識別 南京工程學(xué)院
梁瑞宇給定:一個骰子擲出的點數(shù)記錄124552646214614613613666166466163661636616361651561511514612356234評估問題:會出現(xiàn)這個點數(shù)記錄的概率有多大?求P(O|λ)解碼問題:點數(shù)序列中的哪些點數(shù)是用骰子B擲出的?
求maxQ{P(S|O,λ)}學(xué)習(xí)問題:
作弊骰子擲出各點數(shù)的概率是怎樣的?公平骰子擲出各點數(shù)的概率又是怎樣的 ? 賭場是何時換用骰子的 ?南京工程學(xué)院梁瑞宇第10章語音識別本例中HMM的定義隱狀態(tài)集:
S={骰子A,骰子B}明字符集:
V={1,2,3,4,5,6}初始狀態(tài)概率:
π1=1,
π2=0隱狀態(tài)轉(zhuǎn)移概率
:a11=0.9,
a12=0.1a21=0.8,
a22=0.2初始狀態(tài)明字符生成概率
:b11
=
b12=…=b16=1/6b21=0,
b22=b23=1/8,
b24=b25=3/16,
b26=3/81.001:1/62:1/63:1/64:1/65:1/66:1/60.80.90.21:02:1/83:1/84:3/165:3/166:3/80.1骰子A骰子B第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法t1)前向-后向算法——前向算法前向算法即按輸出觀察值序列的時間,從前向后遞推計算輸出概率。計算步驟:1)給每個狀態(tài)準(zhǔn)備一個數(shù)組變量α
(j),初始化時令初始狀1
0
0態(tài)S的數(shù)組變量α
(1)為1,其它狀態(tài)數(shù)組變量α
(j)為0;t
t2)根據(jù)t時刻輸出的觀察符號o
計算α
(j):T當(dāng)狀態(tài)S
到狀態(tài)S
沒有轉(zhuǎn)移時,
α
=0;i
j
ij當(dāng)t≠T時轉(zhuǎn)移到2),否則執(zhí)行4);把最終的數(shù)組變量α
(N)內(nèi)的值取出,則:第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法2)前向-后向算法——后向算法后向算法即按輸出觀察值序列的時間,從后向前遞推計算輸出概率的方法。計算步驟:初始化:遞推公式:(3)最后結(jié)果:第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法t2)維特比(Viterbi)算法計算步驟:1)給每個狀態(tài)準(zhǔn)備一個數(shù)組變量α
′(j),初始化時令初始1
0
0狀態(tài)S的數(shù)組變量α
′(1)為1,其它狀態(tài)數(shù)組變量α
′(j)為0;t
t2)根據(jù)t時刻輸出的觀察符號o
計算α
′(j):i
j
ij當(dāng)狀態(tài)S
到狀態(tài)S
沒有轉(zhuǎn)移時,
α
=0;設(shè)計一個符號數(shù)組變量把每一次使α
′(j)最大的狀態(tài)i保存下來;t3)當(dāng)t≠T時轉(zhuǎn)移到2),否則執(zhí)行4);T4)把最終的數(shù)組變量α
′(N)內(nèi)的值取出,則第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法3)Baum-Welch算法利用Baum-Welch算法進(jìn)行HMM訓(xùn)練的具體步驟:1)適當(dāng)?shù)剡x擇aij和bij的初始值。常用的設(shè)定方式為:給予從狀態(tài)轉(zhuǎn)移出去的每條弧相等的轉(zhuǎn)移概率,即給予每一個輸出觀察符號相等的輸出概率初始值,即并且每條弧上給予相同的輸出概率距陣;第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法t3)Baum-Welch算法2)給定一個(訓(xùn)練)觀察值符號序列O,由初始模型計算γ
(i,j)等,并且由重估公式計算以下兩種概率;t3)再給定一個(訓(xùn)練)觀察值符號序列O,把2)計算的概率作為初始模型計算γ
(i,j)等,由上述重估公式,重新計算兩種概率;4)如此反復(fù),直到兩種概率收斂為止。第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法3)Baum-Welch算法模型收斂,停止訓(xùn)練的判定方法也很重要。因為并不是訓(xùn)練的越多越好,訓(xùn)練過頭反而會使模型參數(shù)精度變差。一種判定方法是前后兩次的輸出概率的差值小于一定閾值或模型參數(shù)幾乎不變?yōu)橹?;另一種判定方法是采用固定訓(xùn)練次數(shù)的辦法,如對于一定數(shù)量的訓(xùn)練數(shù)據(jù),利用這些數(shù)據(jù)反復(fù)訓(xùn)練十次(或若干次)即可。另外,訓(xùn)練數(shù)據(jù)的數(shù)量也很重要,一般來講,要想訓(xùn)練一個好的HMM,至少需要同類別數(shù)據(jù)幾十個左右。HMM訓(xùn)練(參數(shù)估計問題)是HMM在語音處理中應(yīng)用的關(guān)鍵問題,與前面討論的兩個問題相比,這也是最困難的一個問題。第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.4
基于隱馬爾可夫模型的孤立字(詞)識別利用HMM進(jìn)行孤立字(詞)語音
識別時,主要分為兩個階段,即訓(xùn)練階段和識別階段。假設(shè)總共有G個待識別的孤立字(詞),在訓(xùn)練階段,對于每一個孤立字(詞)g,進(jìn)行預(yù)處理和特征提取,得到的語音信號的特征矢量序列的集合作為觀察值序列O(g)。然后,利用HMM的Baum-Welch算法估計出與當(dāng)前孤立字(詞)對應(yīng)的HMM的參數(shù)M(g)。當(dāng)所有孤立字(詞)
HMM所對應(yīng)的HMM參數(shù)估計出之后,訓(xùn)練過程結(jié)束。第10章語音識別 南京工程學(xué)院
梁瑞宇10.4.4
基于隱馬爾可夫模型的孤立字(詞)識別在識別階段,對于任一待識別的語音X′,首先將其進(jìn)行預(yù)處理和特征提取,得到對應(yīng)的特征矢量序列O′。然后,利用
HMM的前向—后向算法計算該特征矢量序列在訓(xùn)練好的每個孤立字(詞)HMM上的輸出概率P(O′|M(g)),把輸出概率最大的HMM所對應(yīng)的孤立字(詞)作為識別結(jié)果。第10章語音識別 南京工程學(xué)院
梁瑞宇10.5
人工智能與語音識別2009年,學(xué)者將傳統(tǒng)的HMM-GMM中的聲學(xué)模型替換為DBN-HMM模型,成功搭建了一個單音素的語音識別系統(tǒng)。隨后,越來越多的神經(jīng)網(wǎng)絡(luò)架構(gòu)被挖掘出來并成功應(yīng)用在語音識別系統(tǒng)中,如DNN、CNN、RNN等。在語音深度識別領(lǐng)域中,端到端的學(xué)習(xí)模型逐漸成為這幾年研究的熱潮。與傳統(tǒng)框架相比,
端到端的語音識別模型省去了繁雜的發(fā)音模型、聲學(xué)模型、語言模型的分支,完成的是從語音
輸入到文字輸出的直接映射。第10章語音識別南京工程學(xué)院梁瑞宇10.5.1常用開源數(shù)據(jù)集一、英文數(shù)據(jù)集
1)LibriSpeech公開數(shù)據(jù)集中最常用的英文語料,其中包含了1000小時的16kHz有聲書錄音,并且經(jīng)過切割和整理成每條10秒左右的、經(jīng)過文本標(biāo)注的音頻文件,非常適合入門使用。數(shù)據(jù)取自LibriVox項目的已讀有聲讀物。2)2000
HUB5
English
Evaluation
Transcripts該數(shù)據(jù)集由語言數(shù)據(jù)協(xié)會開發(fā),由NIST(美國國家標(biāo)準(zhǔn)技術(shù)研究院)贊助的2000
HUB5評估中使用的40個英語電話對話組成。Hub5系列評估的重點是通過電話進(jìn)行對話語音,其特殊任務(wù)是將對話語音轉(zhuǎn)錄為文本。第10章語音識別南京工程學(xué)院梁瑞宇二、中文數(shù)據(jù)集THCHS30是一個很經(jīng)典的中文語音數(shù)據(jù)集,包含了1萬余條語音文件,大約40小時的中文語音數(shù)據(jù)。它是由清華大學(xué)語音與語言技術(shù)中心出版。ST-CMDS是由AI數(shù)據(jù)公司沖浪科技發(fā)布的中文語音
數(shù)據(jù)集,包含10萬余條語音文件,大約100余小時的語音數(shù)據(jù)。AISHELL-1是由北京希爾公司發(fā)布的一個中文語音
數(shù)據(jù)集,其中包含178小時的開源版數(shù)據(jù)。該數(shù)據(jù)集包含
400個來自中國不同地區(qū)、具有不同的口音的人的聲音。
4)aidatatang_1505zh是數(shù)據(jù)堂推出AI數(shù)據(jù)開源計劃面向高校和學(xué)術(shù)機構(gòu)等非商業(yè)組織群體,首次開源的數(shù)據(jù)集為:1505小時中文普通話語音數(shù)據(jù)集。第10章語音識別南京工程學(xué)院梁瑞宇10.5.2語音喚醒√語音喚醒技術(shù)也稱為關(guān)鍵詞檢測技術(shù),是語音識別任務(wù)的一個分支,需要從一串語音流檢測出有限個預(yù)先定義的激活詞或者關(guān)鍵詞,而不需要對所有的語音進(jìn)行識別?!踢@類技術(shù)是嵌入式設(shè)備具備語音交互能力的基礎(chǔ),可以被應(yīng)用到多種設(shè)備上,比如手機、智能音箱、機器人、智能家居、車載設(shè)備、可穿戴設(shè)備等?!掏ǔ#O(shè)備喚醒詞是默認(rèn)的或者預(yù)先設(shè)定的,大部分中文喚醒詞是4個字,音節(jié)覆蓋越多,其差異越大,相應(yīng)的喚醒和誤喚醒性能越好。第10章語音識別南京工程學(xué)院梁瑞宇常用特征√目前最常用的語音特征包括語譜和MFCC等?!袒趯?shù)表示的特征(如MFCC)會壓縮動態(tài)范圍,經(jīng)過對數(shù)運算之后,放大了小幅值的動態(tài)范圍,而壓縮了大幅值的動態(tài)范圍,比如安靜語音幅值會占據(jù)大部分動態(tài)范圍。其次,這些特征與語音響度強相關(guān),而預(yù)期音量不應(yīng)該對喚醒結(jié)果造成影響?!蘂oogle提出信道能量歸一化的特征(per-channelenergy
normalization,PCEN):是采用一階無限濾波其中,
是原始特征,器平滑之后的特征平滑系數(shù)。第10章語音識別南京工程學(xué)院梁瑞宇典型深度學(xué)習(xí)模型Google在2014年提出了用深度神經(jīng)網(wǎng)絡(luò)的方法來實現(xiàn)語音喚醒,稱之為Deep
KWS。喚醒分為三個步
驟:特征提取、經(jīng)過深度神經(jīng)網(wǎng)絡(luò)輸出后驗概率和后處理判決。首先對輸入語音做特征提取,然后經(jīng)過DNN網(wǎng)絡(luò)得到一個三分類的后驗概率,三分類分別對應(yīng)關(guān)鍵字
Okey、Google和其他,最后經(jīng)過后處理得到置信度得分,用于喚醒判決。第10章語音識別南京工程學(xué)院梁瑞宇2015年,Google提出基于CNN的KWS模型,典型的卷積網(wǎng)絡(luò)結(jié)構(gòu)含一層卷積層和一層最大池化層。相比DNN,CNN的優(yōu)勢在于:1)DNN不關(guān)心頻譜結(jié)構(gòu),輸入特征做任何拓?fù)渥冃我膊粫绊懽罱K性能,然而頻譜在時頻域都有高度相關(guān)性,CNN在抓取空間信息方面更有優(yōu)勢;2)CNN通過對不同時頻區(qū)域內(nèi)的隱層節(jié)點輸出取平均的方式,比DNN用更少的參數(shù)量,能克服不同的說話風(fēng)格帶來的共振峰偏移問題。但是,CNN建模的一個缺陷是:一般尺寸的卷積核不足以表達(dá)整個喚醒詞上下文,而RNN正好擅長基于上下文建模。RNN的缺點在于無法表達(dá)連續(xù)頻譜的空間關(guān)系,而CNN正好擅長基于空間關(guān)系建模。因此,語音任務(wù)中出現(xiàn)將CNN和RNN結(jié)合的CRNN模型結(jié)構(gòu),并以CTC作為損失函數(shù),百度將這個模型結(jié)構(gòu)應(yīng)用在喚醒任務(wù)上,并大幅縮減了模型參數(shù)量。第10章語音識別南京工程學(xué)院梁瑞宇10.5.3
DeepSpeechDeepSpeech
V1百度研究團(tuán)隊于2014年底發(fā)布了第一代深度語音識別系統(tǒng)DeepSpeech。系統(tǒng)采用了端對端的深度學(xué)習(xí)技
術(shù),也就是說,系統(tǒng)不需要人工設(shè)計組件對噪聲、混響或揚聲器波動進(jìn)行建模,而是直接從語料中進(jìn)行學(xué)習(xí)。團(tuán)隊采用7000小時的干凈語音語料,通過添加人工噪音的方法生成10萬小時的合成語音語料,并在
SWITCHBOARD評測語料上獲得了16.5%的WER。當(dāng)時的實驗顯示,百度的語音識別效果比起谷歌、
Bing與Apple
API而言優(yōu)勢明顯。第10章語音識別南京工程學(xué)院梁瑞宇Deepspeech
V1的核心是一個RNN。每個時刻RNN
輸出的是一個概率分布,表示這個時刻輸出某個字符的概率。字符集包括a-z這26個字母,空格,撇號和空字符。第10章語音識別南京工程學(xué)院梁瑞宇DeepSpeech的模型包含5個隱層:前3層是全連接層,對于第1層,在t時刻的輸入不只是t時刻的特征,而且還包括它的前后C幀特征,共計2C+1幀。前3層通過如下公式計算:第四層是一個雙向的遞歸層,包含了兩組隱藏單元,其中一組是前向遞歸,另一組是后向遞歸,計算公式為:第10章語音識別 南京工程學(xué)院
梁瑞宇第五層把第四層的前向和后向輸出加起來當(dāng)做輸入最后一層是一個全連接層(無激活函數(shù)),它使用
softmax把輸出變成對應(yīng)每個字符的概率第10章語音識別南京工程學(xué)院梁瑞宇(2)DeepSpeech
V22015年年底,百度推出了DeepSpeech
2,它基于
LSTM-CTC的端對端語音識別技術(shù),通過將機器學(xué)習(xí)領(lǐng)域的LSTM建模與CTC訓(xùn)練引入傳統(tǒng)的語音識別框架里,提出了具有創(chuàng)新性的漢字語音識別方法。并能夠通過深度學(xué)習(xí)網(wǎng)絡(luò)識別嘈雜環(huán)境下的兩種完全不同的語言——英語與普通話,而端到端的學(xué)習(xí)能夠使系統(tǒng)處理各種條件下的語音,包括嘈雜環(huán)境、口音及區(qū)別不同語種。DeepSpeech2相對于v1來說,加深了其網(wǎng)絡(luò)結(jié)構(gòu)。共有9層網(wǎng)絡(luò),其中包括了雙向RNN(或GRU),一層前瞻卷積,一層時序卷積以及三層CNN。在v2中使
用了GRU,GRU
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 往屆生考試題目及答案
- 近期小程序測試題目及答案
- 技術(shù)崗的考試題目及答案
- 裝載機考試題目及答案
- 鄉(xiāng)村疫情面試題目及答案
- 寧德語文面試題目及答案
- 辦公室員工培訓(xùn)課程研發(fā)制度
- 鎮(zhèn)火災(zāi)隱患排查整治制度
- 銀行干部廉潔制度
- 五史答題競賽題目及答案
- 2026河北石家莊技師學(xué)院選聘事業(yè)單位工作人員36人備考考試試題附答案解析
- 云南省2026年普通高中學(xué)業(yè)水平選擇性考試調(diào)研測試歷史試題(含答案詳解)
- 企業(yè)培訓(xùn)課程需求調(diào)查問卷模板
- GB 4053.3-2025固定式金屬梯及平臺安全要求第3部分:工業(yè)防護(hù)欄桿及平臺
- 2026屆福州第三中學(xué)數(shù)學(xué)高二上期末檢測模擬試題含解析
- 2025年下屬輔導(dǎo)技巧課件2025年
- 企業(yè)法治建設(shè)培訓(xùn)課件
- (一模)鄭州市2026年高中畢業(yè)年級(高三)第一次質(zhì)量預(yù)測數(shù)學(xué)試卷(含答案及解析)
- 2026中央廣播電視總臺招聘124人參考筆試題庫及答案解析
- 羽毛球二級裁判員試卷
- 通風(fēng)與空調(diào)監(jiān)理實施細(xì)則abc
評論
0/150
提交評論