【畢業(yè)學(xué)位論文】中文關(guān)鍵詞檢出系統(tǒng)的研究與實(shí)現(xiàn)-計(jì)算機(jī)科學(xué)與技術(shù)系_第1頁
【畢業(yè)學(xué)位論文】中文關(guān)鍵詞檢出系統(tǒng)的研究與實(shí)現(xiàn)-計(jì)算機(jī)科學(xué)與技術(shù)系_第2頁
【畢業(yè)學(xué)位論文】中文關(guān)鍵詞檢出系統(tǒng)的研究與實(shí)現(xiàn)-計(jì)算機(jī)科學(xué)與技術(shù)系_第3頁
【畢業(yè)學(xué)位論文】中文關(guān)鍵詞檢出系統(tǒng)的研究與實(shí)現(xiàn)-計(jì)算機(jī)科學(xué)與技術(shù)系_第4頁
【畢業(yè)學(xué)位論文】中文關(guān)鍵詞檢出系統(tǒng)的研究與實(shí)現(xiàn)-計(jì)算機(jī)科學(xué)與技術(shù)系_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀

【畢業(yè)學(xué)位論文】中文關(guān)鍵詞檢出系統(tǒng)的研究與實(shí)現(xiàn)-計(jì)算機(jī)科學(xué)與技術(shù)系.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

重慶郵電大學(xué)碩士論文 摘要 I 摘 要 關(guān)鍵詞檢出技術(shù)就是從連續(xù)的語音流中檢測并識別出表征預(yù)定義關(guān)鍵詞表中單詞的語音段的 一種技術(shù)。 本文討論的 關(guān)鍵詞檢出技術(shù)基于概率統(tǒng)計(jì)方法的語音識別 技術(shù)。一個完整的關(guān)鍵詞檢出系統(tǒng)應(yīng)該包含三大模塊,分別是聲學(xué)模型、識別模塊和后處理模塊。其中聲學(xué)模型的訓(xùn)練雖然不在關(guān)鍵詞檢出系統(tǒng)的研究范圍內(nèi),但是卻是必不可少的部分;識別模塊主要研究的是語音段的發(fā)現(xiàn)和對齊的問題,若采用連續(xù)語音識別的方法,還應(yīng)該考慮剪枝的策略;后處理模塊主要是通過設(shè)計(jì)一種置信度方法,對識別階段的輸出結(jié)果給出置信分?jǐn)?shù), 也是給出衡量一個關(guān)鍵詞檢出系統(tǒng)性能參數(shù)的模塊。 本文研究的重點(diǎn)是可定制的中文關(guān)鍵詞檢出系統(tǒng),研究分為以下幾個方面: 基于上下文相關(guān)的擴(kuò)展聲韻母(中文語音基元的建模和利用決策樹對 模型規(guī)模的限制 。 通過上下文相關(guān)的擴(kuò)展聲韻母,有效的解決了可定制詞表的關(guān)鍵詞識別系統(tǒng)的實(shí)現(xiàn)問題;利用中文語音的先驗(yàn)知識,采用決策樹方法對模型的狀態(tài)和參數(shù)進(jìn)行了共享,有效的限制了大詞表關(guān)鍵詞檢出系統(tǒng)中的模型數(shù)量膨脹的問題。 提出了 多條路徑?jīng)Q策的不匹配幀加權(quán)的置信度方法,并作為關(guān)鍵詞檢出的后處理部分的實(shí)現(xiàn)。普通的基于駐留歸一化的方法無法利用徑的決策信息,而部分采用 置信度方法又無法詳細(xì)刻劃連續(xù)語音中關(guān)鍵詞附近的識別效果,采用綜合 條路徑的信息并利用 不匹配幀 描述關(guān)鍵詞附近的信息以進(jìn)行路徑得分的加權(quán)的置信度 的方法很好的解決了這個問題。 關(guān)鍵詞: 語音識別,關(guān)鍵詞檢出,置信度, 基于 不匹配幀加權(quán) 重慶郵電大學(xué)碩士論文 I is of of An or of is of a it a in is in to MM s) of to a of on of my be of in of of a in a in of 慶郵電大學(xué)碩士論文 目錄 錄 摘 要 . . . 論 . 音識別的基本原理 . 音識別的工作流程 . 點(diǎn)檢測 . 學(xué)特征的選擇和計(jì)算 . 絡(luò)搜索 . 能評價 . 鍵詞檢出的介紹及近年來的研究進(jìn)展 . 文結(jié)構(gòu) . 章小結(jié) . 12第二章 關(guān)鍵詞檢出系統(tǒng)的設(shè)計(jì) . 鍵詞檢出系統(tǒng)的整體框架 . 統(tǒng)各功能模塊的確定 . 章小結(jié) . 18第三章 可定制的聲學(xué)模型的訓(xùn)練 . 學(xué)基元與隱馬爾科夫模型表示 . 態(tài)共享與決策樹方法的引入 . 策樹的建立 . 章小結(jié) . 24第四章 網(wǎng)絡(luò)搜索策略 . 同步算法 . 言模型的加入 . 枝策略 . 存 . 棧解碼 . 章小結(jié) . 37第五章 置信度分析 . 信度的原理 . 39重慶郵電大學(xué)碩士論文 目錄 信度問題的難點(diǎn) . 法的提出 . 法評估以及實(shí)驗(yàn) . 章小結(jié) . 46第六章 結(jié)論及未來的工作 . 論 . 來的工作 . 47參考文獻(xiàn) . 49致 謝 . 54重慶郵電大學(xué)碩士論文 第一章 緒論 1 第一章 緒論 語音識別就是將數(shù)字化的語音流轉(zhuǎn)化為有意義的符號的過程。語音識別技術(shù)可以應(yīng)用于許多領(lǐng)域,比如語音撥號,自動語音臺,語音聽寫,語音指令控制,自動監(jiān)聽等。由于目前對人類聽覺感知原理的認(rèn)知尚未得到進(jìn)一步的發(fā)展,語音識別技術(shù)無法完全獲得仿生學(xué)上的理論支撐,相反的,目前比較主流的做法則是尋找一種比較好的聲學(xué)感知特征來刻畫多變的語音形態(tài)背后的相對穩(wěn)定的特征,并利用統(tǒng)計(jì)學(xué)的辦法對語音信號和模型進(jìn)行匹配。本章首先介紹語音識別的原理,然后簡單介紹關(guān)鍵詞識別的應(yīng)用 ,最后是對本文結(jié)構(gòu)的描述。 音識別的基本原理 目前的語音識別研究本質(zhì)上就是一個基于統(tǒng)計(jì)的模式分類的問題。假設(shè)有類的集合 11, ,一個模式則由一個特征的集合來描述,唯一的屬于某一個類。這個特征的集合通常由特征矢量組成,一個特征矢量的各維由某一類特征組成,可以表示為 11,dX xx x= 。需要注意的是特征矢量與類并不是一一對應(yīng),比如,不同的類可能對應(yīng)于同一個特征矢量 ,而不同的特征矢量可能屬于同一個類。于是特征矢量與類應(yīng)當(dāng)看做隨機(jī)變量。模式分類的過程就是將 特征矢量映射到某一個類上。這個映射函數(shù)也稱為決策函數(shù), 可以寫成 :,。 于是問題轉(zhuǎn)化為尋找一種最小分類錯誤的決策函數(shù) g 的過程。 錯分率可以定義為將特征矢量錯分的概率: ( ) ( ) ( )( )gx (由于特征矢量與類并非一對一映射,所以可以取得分類錯誤概率的下界,也就是所說的貝葉斯錯誤率,記為 L*,而相應(yīng)的決策函數(shù)稱為貝葉斯分類器,記為 g*。于是,根據(jù)最大后驗(yàn)概率準(zhǔn)則,有: *( ) | )x Pw x= (然后,根據(jù)貝葉斯公式,有: (| )( )( |)()w (代入公式 : 重慶郵電大學(xué)碩士論文 第一章 緒論 2 *(| )( )( ) | ) ( )()w x px w = (其中 ()當(dāng)于一個獨(dú)立參數(shù)被忽略了。語音識別就是通過估計(jì)(| )w (也稱為聲學(xué)概率)和 ()也稱為語言模型)來計(jì)算*()語音識別中,聲學(xué)事件 的統(tǒng)計(jì)特性就是由聲學(xué)模型來描述的,在基于語音識別里,我們假設(shè)每一個字(這里應(yīng)該理解為語音建模的最小基元)對應(yīng)的觀察向量序列都是由一個馬爾科夫鏈產(chǎn)生的。由圖 示,一個 是一個離散時域的有限狀態(tài)自動機(jī),隨著每一幀語音而改變狀態(tài),并且在 t 時刻到達(dá) j 狀態(tài)的時候,以 ()而自動機(jī)的轉(zhuǎn)移特性由轉(zhuǎn)移概率1| )ij t ta q jq i= = = 來描述 ,其中表 t 時刻的模型的狀態(tài)。一般來說,每一個 包含一頭一尾兩個非發(fā)射( 狀態(tài),用以描述語音向量產(chǎn)生和結(jié)束的時刻。 1 2 34 512a 23a 453a 44ab(x )x )x )個 5 狀態(tài)從左至右 意圖 圖 述的就是一個 5 狀態(tài)從左至右的 型。該模型有 5 個狀態(tài),其中 2 個非發(fā)射狀態(tài), 3 個發(fā)射狀態(tài);每一個發(fā)射狀態(tài)僅能夠向右邊或自己跳轉(zhuǎn)。對某一個狀態(tài) i 來說,永遠(yuǎn)滿足: 11 (而發(fā)射概率 ()j 狀態(tài)的空間分布。在離散型下,該發(fā)射概率是一個多項(xiàng)式分布,而在連續(xù) 型下,則是用高斯混合密度( 表征。所謂高斯混合密度,其實(shí)就是多維高斯分布的加權(quán)和,也即是: 重慶郵電大學(xué)碩士論文 第一章 緒論 3 ( )1() ; ,Mj t jm t jm c (其中( );,t jm 就是高斯分布的密度,語音向量的期望,而一個用協(xié)方差矩陣表示的方差。依照高維高斯分布(也稱為高維正態(tài)分布)的公式,不難得到: ( )11() ()212 21;,(2 )jm jm =(其中 D 表示語音向量的維度。一般來說,每一個發(fā)射概率的密度函數(shù)都描述一個聲音事件,所以我們希望不同的概率密度要盡可能的具有區(qū)分性,以便于系統(tǒng)對聲學(xué)特性具有相對的魯棒性。 對于一個模型參數(shù)已知的系統(tǒng)來說,相當(dāng)于給定了 )中0=P(P(P(1)P(1)P(2)P(3)P(3)圖 綴樹詞典搜索過程 對于每個前驅(qū)詞 v,我們引入詞典的一份拷貝,這樣在搜索的過程中,當(dāng)詞結(jié)束的假設(shè) w 出現(xiàn)時,我們總能夠知道它的前驅(qū)詞為 v。 一個典型的基于 元文法)的非上下文相關(guān)的前綴樹搜索過程如圖 示。當(dāng)然如果采用特殊的詞典結(jié)構(gòu),是可以避免搜索過程中樹 的拷貝的。曾經(jīng)提出了一種語法指導(dǎo)下的單樹搜索算法28。 確定了語言層次的網(wǎng)絡(luò)結(jié)構(gòu)以后,可以進(jìn)一步描述在該層次上的搜索策略了,首先定義兩個變量: Qv(t,s) 表示時刻 t 到達(dá)前驅(qū)詞為 v 的詞法樹的狀態(tài) s 的最佳部分路徑的得分; Bv(t,s) 表示時刻 t 到達(dá)前驅(qū)詞為 v 的詞法樹的狀態(tài) s 的最佳部分路徑的起始時間。 這兩個變量的計(jì)算根據(jù)以下遞推公式: ( ) ( , ) | ( 1, )v t s= ( ) ( 1, (, )v t s (以上公式 )vs v 時假設(shè) (t,s)的最佳前驅(qū)狀態(tài)。 重慶郵電大學(xué)碩士論文 第四章 網(wǎng)絡(luò)搜索策略 32 后向指針 (, )vB 前驅(qū)詞 v 不同的是,正在處理的詞 w 的索引只有當(dāng)路徑假設(shè)到達(dá)詞法樹的結(jié)束結(jié)點(diǎn)后才有可能知道,因?yàn)樵~法樹的每個結(jié)束結(jié)點(diǎn)標(biāo)記的是詞典中的對應(yīng)詞。 在詞的邊界,我們需要為每個詞 w 找到它的最佳前驅(qū)詞 v。我們定義 : ( ) ( ; ) : ( , )wt p w v Q (這里 w 的結(jié)束狀態(tài)。為了能夠傳播路徑假設(shè),我們需要在處理時刻 t 的數(shù)據(jù)幀前傳遞分?jǐn)?shù)和時間索引: ( 1, 0) ( ; 1)vQ t s H = ( 1, 0) 1s t= (于是,前綴樹搜索 算法流程參見圖 示: 按照時間順序從左至右: 初始化:聲學(xué)層:處理( 設(shè) ( 1, 0) ( ; 1)vQ t s H = ( 1, 0) 1s t= 時間對準(zhǔn):使用 算 (, )vQ 播后向指針 (, )vB 不可能的假設(shè)進(jìn)行剪枝 對每一個詞 w: 詞對層( 處理詞邊界假設(shè) 計(jì)算 ( )( ; ) : | ( , )wt p w v Q ( )0( ; ) : | ( , )wt p w v Q 存儲最佳前驅(qū)詞00: ( ;)V V 存儲最佳邊界00: (; ) 對每個詞對( v,w)存儲: 詞邊界 (; , ): (; ) 詞的得分 ( ; , ): ( , )/ ( ; )t Q 圖 綴樹搜索算法流程 枝策略 若設(shè)全部模型的狀態(tài)總數(shù)是 N,待識別語音段的總幀數(shù)是 T 的話,維特比算法的搜索空間復(fù)雜度是 O(時間復(fù)雜度則是 O(因此,對重慶郵電大學(xué)碩士論文 第四章 網(wǎng)絡(luò)搜索策略 33 于一個大詞表的連續(xù)語音識別器來說,就算是借助于動態(tài)規(guī)劃的方法, 基本的維特比算法仍然需要遍歷數(shù)量巨大的網(wǎng)絡(luò),在這樣的情況下,在每一幀的路徑分更新的過程中,及時的淘汰掉似乎不可能在接下來的搜索中有機(jī)會保留下來的路徑,會極大的節(jié)省搜索的事件,這種思想就是稱為剪枝。剪枝算法是一種啟發(fā)式的算法,因?yàn)樵谌空Z音段對齊完成之前,并沒有辦法獲取確定性的信息以幫助淘汰掉必然沒有機(jī)會成為最優(yōu)的路徑。 比較簡單的剪枝算法就是所謂的集束搜索( 一種策略就是給定一個閾值,在搜索的 t 時刻,若之前的路徑的分?jǐn)?shù)到當(dāng)前節(jié)點(diǎn)的開銷大于最優(yōu)路徑的得分與閾值的和,則應(yīng)該淘汰。也有一種做法是限定每一步搜索中保留的最大的 w 個部分路徑,此時我們說這個束的寬度就是w。這種看似簡單的策略與幀同步算法相結(jié)合,還是取得了不錯的效果,這是由于幀同步算法本身的時間同步性決定的。由于相比較的路徑都對應(yīng)于同樣的局部觀察向量序列,因此局部路徑的累積似然分作為評價最優(yōu)路徑的度量,可以取得不錯的效果。 剪枝可以分為幾個層次,這幾個層次在剪枝的時機(jī)上也不一樣。 聲學(xué)剪枝:在到達(dá)每一幀之前,按照剪枝策略進(jìn)行剪枝。 語言模型剪枝:在每一個語法節(jié)點(diǎn)的邊界,在加入語言層的得分之后,按照剪枝策略進(jìn)行剪枝。 存N 典的維特比算法在每一步搜索中僅僅保留最優(yōu)的路徑,而在關(guān)鍵詞檢出中,常常還需要后處理階段對一遍搜索的結(jié)果進(jìn)行置信度分析。相對簡單的語言層設(shè)計(jì),讓關(guān)鍵詞識別相比于連續(xù)語音識別的一遍搜索的結(jié)果更多的反映了聲學(xué)的似然度,因此,最優(yōu)路徑往往并非一定是正確結(jié)果。若能保留盡可能多的中間結(jié)果,并借助于某種后處理方法,將聲學(xué)似然度不是最大的,但是卻更有可能成為正確結(jié)果的路徑進(jìn)行重新打分,便可以提高系統(tǒng)的識別正確率, 果的生成,就成為識別器設(shè)計(jì)的一個重要需求。因?yàn)椋斜匾獙?jīng)典的維特比算法進(jìn)行修改,使識別結(jié)果具有更多的信息。 常用的的中間結(jié)果的數(shù)據(jù)結(jié)構(gòu)有詞格網(wǎng)絡(luò)(、詞圖( 徑,而 表的生成需要借助于詞格網(wǎng)絡(luò)。詞格網(wǎng)絡(luò)的生成與幀同步搜索是同時進(jìn)行的, 一個典型的詞格網(wǎng)絡(luò)如圖 示。在 一個完整的詞格網(wǎng)絡(luò)中,邊表重慶郵電大學(xué)碩士論文 第四章 網(wǎng)絡(luò)搜索策略 34 示詞(這里指識別基元)對應(yīng)的模型,端點(diǎn)表示詞邊界的時間信息,還應(yīng)該記錄詞的累積聲學(xué)概率對于不同上下文的同一個音子,應(yīng)該處于不同的路徑中,而對于歷史路徑上音子序列相同但是時間點(diǎn)有所變化的,按照 9的算法,則應(yīng)該合并。 格網(wǎng)絡(luò)示意圖 本文采用修改的幀同步算法產(chǎn)生詞格,可以避免在遍歷詞格以產(chǎn)生表的時候重新遍歷 狀態(tài)- 特征空間格柵(,并能夠避免由于維特比近似造成的某些路徑的丟失,以下詳細(xì)描述。 若采用不修改的采用基于維特比的幀同步算法,對于 t 時刻到達(dá)態(tài),處于 w 模型的格柵中的某個點(diǎn) (; ; )t s W 來說,只能保留最小似然分的路徑,這個在孤立詞識別中是沒有任何問題的,但是,對于連續(xù)語音識別來說,由于單詞的邊界有可能出現(xiàn)于任何一幀,于是,有必要保留任何一條似然分?jǐn)?shù)處于集束寬度內(nèi)的路徑,然而,此時 (; ; )t s W 還有可能有來自于不同的前驅(qū)詞 的入弧,這時,若按照標(biāo)準(zhǔn)的維特比算法求最小值,則會造成該路徑的丟失,如圖 示。 因此,需要維持一個后向的列表,該列表中的每一個元素代表詞格中的每一條邊,其中需要保存的信息應(yīng)該包括前驅(qū)詞指針,當(dāng)前部分路徑得分,以及前驅(qū)詞入弧的時刻。這樣,在向前擴(kuò)展的時候,保存相同前驅(qū)詞的路徑得分的總和而不是最小值,并將此語法節(jié)點(diǎn)放入隊(duì)列;對于不同前驅(qū)詞的路徑應(yīng)該單獨(dú)建立節(jié)點(diǎn)放入隊(duì)列。對于狀態(tài)- 特征空間中的路徑,按照最小路徑(最大似然分)的分?jǐn)?shù)和集束寬度(閾值)進(jìn)行剪枝;對于不同歷史語法節(jié)點(diǎn)路徑,則維護(hù)一個 列表,其中每一條路徑按照分?jǐn)?shù)進(jìn)行排序。 重慶郵電大學(xué)碩士論文 第四章 網(wǎng)絡(luò)搜索策略 35 由于區(qū)分了前驅(qū)詞,可以保證不同上下文的路徑不會被丟失,如圖 圖 同步算法輸出 徑的示意圖 圖 改的幀同步算法輸出 徑的示意圖 重慶郵電大學(xué)碩士論文 第四章 網(wǎng)絡(luò)搜索策略 36 設(shè) (; , )示最佳前驅(qū)詞 的入弧時刻, ( ; ( ; , ), )j tw w 即是 | )表示從時刻 到當(dāng)前時刻單詞累積似然分。 則修改的幀同步 算法流程如圖 示。 執(zhí)行前綴樹搜索 ; 按照時間順序從左至右: 對與 t 時刻的任一詞對 (, ) 存儲最佳前驅(qū)詞的入弧時刻 (; , ) 存儲當(dāng)前路徑的累積分?jǐn)?shù) ( ; ( ; , ), )j tw w 存儲指向前驅(qū)詞的指針 輸出 1果; 回溯生成詞格或者 表; 圖 改的幀同步 算法流程 棧解碼 對于時間同步的搜索算法,前面已經(jīng)給出了比較詳細(xì)的論述。下面將對時間異步的搜索算法做一簡單介紹。 時間異步的搜索算法可以通過堆棧解碼器(來實(shí)現(xiàn)。堆棧解碼器在解碼的過程中將使用一些堆棧,這些堆棧包含著一定數(shù)目的詞的假設(shè)。 通常,這些假設(shè)將通過使用詞典得到擴(kuò)展,擴(kuò)展出來的新的假設(shè)則插入到對應(yīng)的堆棧中。當(dāng)所有的堆棧(除了結(jié)果堆棧)都變?yōu)榭諘r,結(jié)果堆棧里將包含最佳假設(shè)、 設(shè)或者網(wǎng)格( ,具體的結(jié)果形式依賴于搜索的模式。 通常堆棧 的是后進(jìn)先出(沖區(qū),但是實(shí)際上它可以是一個非常簡單的按照某種分?jǐn)?shù)排序的的假設(shè)的列表(優(yōu)先隊(duì)列, 排序所基于的分?jǐn)?shù)可以 是: 部分假設(shè)的對數(shù)似然度, 整個完整的句子的對數(shù)似然度的預(yù)測(A* 準(zhǔn)則)10, 其它一些能夠反映部分假設(shè)的正確性的分?jǐn)?shù)30。 所有堆棧解碼器都至少包括如下兩個層次: 外層 , 在堆棧之間循環(huán)(詞級的搜索); 內(nèi)層, 在時間和狀態(tài)之間循環(huán)來搜索詞(狀態(tài)級的搜索)31。每當(dāng)找到一個可能的詞邊界時,該詞的語言模型分?jǐn)?shù)就可以加上去。由重慶郵電大學(xué)碩士論文 第四章 網(wǎng)絡(luò)搜索策略 37 于這個動態(tài)的語言模型分?jǐn)?shù)可以考慮任何歷史詞,因此在堆棧解碼器中可以很容易地使用任何類型的 N 階 馬爾科夫 語言模型或者非馬爾科夫語言模型。 把語言模型的使用從狀態(tài)空間的 維 特比搜索過程分離開來還有其它一些好處。由于詞假設(shè)的生成完全和詞內(nèi)的搜索獨(dú)立開來,因此詞內(nèi)的搜索可以采取非常高效的方式來實(shí)現(xiàn),并不需要回溯指針的存儲。詞的網(wǎng)格可以很輕松地生成。采用類似的過程, 表也能夠很容易地產(chǎn)生。 由于本文所實(shí)現(xiàn)的關(guān)鍵詞檢出系統(tǒng)并未采用時間異步算法,在這里就不多介紹了。 章小結(jié) 本章主要是介紹基于連續(xù)語音識別方法的關(guān)鍵詞檢出系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)以及搜索算法。首先對各種常用的搜索算法進(jìn)行了介紹并比較相互的優(yōu)點(diǎn)和缺點(diǎn),然后對本文所提出和實(shí)現(xiàn)的基于幀同步的維特比網(wǎng)絡(luò)搜索算法的修改算法進(jìn)行了闡述,包括多個層次上搜索網(wǎng)絡(luò)的結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu)的介紹,相應(yīng)算法的分析以及 選路徑生成的算法。重慶郵電大學(xué)碩士論文 第五章 置信度分析 38 第五章 置信度分析 語音識別系統(tǒng)的魯棒性問題,是語音識別技術(shù)走向?qū)嶋H應(yīng)用的主要問題,包括兩個方面:一是移植問題,在語音識別技術(shù)走向?qū)嶋H應(yīng)用過程中,人們發(fā)現(xiàn),一個在實(shí)驗(yàn)室中非常成功的語音識別系統(tǒng)(識別率可以達(dá)到90以上),在實(shí)際應(yīng)用環(huán)境中,效果往往不是很理想,識別率甚至可能不到 50,根本無法使用;二是拒識問題,就是在系統(tǒng)遇到非預(yù)期的輸入時,拒絕識別,防止誤操作,這對檢測系統(tǒng)或命令識別系統(tǒng)來說尤其重要。 語音識別系統(tǒng)移植性差的根源在于訓(xùn)練和應(yīng)用的不匹配性:訓(xùn)練數(shù)據(jù)不可能包含所有的說話人、說話方式和背景噪聲等,這樣,訓(xùn)練出來的模型就與實(shí)際應(yīng)用存在不同程度的差異,導(dǎo)致模型精度下降,識別率降低。為了提高系統(tǒng)對應(yīng)用環(huán)境的魯棒性,可以通過聲學(xué)特征的補(bǔ)償來實(shí)現(xiàn),如各種抗噪算法,也可以通過模型層的自適應(yīng)調(diào)整來實(shí)現(xiàn),通常這兩種方法是結(jié)合在一起使用的。為了調(diào)整系統(tǒng)的模型參數(shù),我們往往需要花費(fèi)較大的精力去準(zhǔn)備訓(xùn)練數(shù)據(jù),對模型進(jìn)行有監(jiān)督的自適應(yīng)調(diào)整。如果我們能夠從系統(tǒng)在實(shí)際應(yīng)用環(huán)境下的輸出結(jié)果中挑選出正確的結(jié)果,對系統(tǒng)模型參數(shù)進(jìn)行無監(jiān)督的自適應(yīng)調(diào)整,那么系統(tǒng)的性能將會在實(shí)際應(yīng)用過程中不斷提高3233。 語音識別中的拒識問題,則是實(shí)際應(yīng)用中提出來的:在實(shí)際應(yīng)用環(huán)境下,系統(tǒng)接收到非預(yù)期輸入的情況是在所難免的,如果系統(tǒng)沒有拒識的能力,在收到非預(yù)期輸入時也根據(jù)最大似然的識別結(jié)果作出動作,則會出現(xiàn)很多誤操作,帶來許多的不便。 語音識別系統(tǒng)魯棒性的這兩個典型問題,實(shí)際上可以歸結(jié)為同一個問題,即置信度( 題。所謂置信度問題,就是在沒有參考答案的情況下,如何讓計(jì)算機(jī)對語音識別結(jié)果的可靠性給出一個 “ 客觀” 的度量,從而使得系統(tǒng)可以根據(jù)這個可靠性的度量,對識別結(jié)果的對錯進(jìn)行判決。利用置信度信息,我們就選擇識別結(jié)果可靠性比較高的部分,對系統(tǒng)模型進(jìn)行無監(jiān)督自適應(yīng),提高系統(tǒng)性能;或者根據(jù)識別結(jié)果的置信度,對識別結(jié)果可靠性比較低的結(jié)果進(jìn)行拒識,減少系統(tǒng)的誤操作。 可見,置信度問題的解決,對提高語音識別系統(tǒng)的魯棒性具有重要作用。因此,在本文的關(guān)鍵詞檢出系統(tǒng)中,置信度的設(shè)計(jì)成為了主要的工作。 重慶郵電大學(xué)碩士論文 第五章 置信度分析 39 信度的原理 回憶第一章緒論,曾經(jīng)談到過語音識別算法一般利用最大后驗(yàn)概率決策規(guī)則進(jìn)行識別 ,得到的識別結(jié)果滿足 公式 給定 X ,對于所有詞模型 來說 ,P(X)是常量 P(X)忽略不計(jì), 即識別器給出的識別結(jié)果是詞表中相對最匹配的詞, 而不是置信度足夠大的詞. 在實(shí)際的語音識別系統(tǒng)中, 后處理的語音確認(rèn)過程給出識別候選結(jié)果的置信度水平, 并根據(jù)置信度大小接受或拒絕候選結(jié)果。 我們將影響置信度參數(shù) 因素分成兩個部分:一是單獨(dú)的聲學(xué)置信度,即語音特征和該詞的聲學(xué)模型的匹配程度;二是考慮語言環(huán)境的置信度,即包含該詞的上下文環(huán)境出現(xiàn)的概率及其聲學(xué)的相似程度。這樣,詞的置信度就可以表示為: ( ) ( ) ( ), , ,M M t t t t t + (其中, ( , )AM s t t 和 ( , )LM s t t 分別為 ,t 的 “ 純聲學(xué)” 和“ 帶語言” 的置信度, 和 則為加權(quán)系數(shù),用于平衡動態(tài)范圍或者兩者的影響比例,在不同的語法約束條件下,兩個置信度的影響是不一樣的,這樣,詞的置信度就分為“ 純聲學(xué) ” 和 “ 帶語言” 兩個部分。其中, “ 純聲學(xué)” 的置信度是最基本的,與具體的語法約束無關(guān);而“ 帶語言” 的置信度則與具體的語法約束條件有關(guān),通常是結(jié)合聲學(xué)信息一起計(jì)算的。 在本文的關(guān)鍵詞檢出系統(tǒng)中僅僅考慮聲學(xué)置信度的計(jì)算。 目前聲學(xué)置信度的一般計(jì)算方法大致有兩種:基于聲學(xué)似然比的方法和基于聲學(xué)后驗(yàn)概率的方法,這兩種方法都是對聲學(xué)似然度進(jìn)行某種方式的歸一化,只是歸一化的分母不同而已。對詞 ,t ,其聲學(xué)置信度的計(jì)算如下33: 11( , ) ( )s e t t CM (式中, 構(gòu)成音素的個數(shù), i 個三音子( CM(該三音子的聲學(xué)置信度,因此,詞 W 的聲學(xué)置信度是用其三音子聲學(xué)置信度的算術(shù)平均來計(jì)算的。三音子的聲學(xué)置信度 CM(算如下30: ( ) ( )( ) ( ) ( )( )( )( )( )( )|1( ) ii q = =+ +重慶郵電大學(xué)碩士論文 第五章 置信度分析 40 ( ) ( )( )( )( )( )( ) 1 t q pq +(上式中,( )表 t 時刻該音子所對應(yīng)的 型的狀態(tài),( )表示觀察向量。別表示音子 i 的起始和結(jié)束幀號。( )( )示語言模型的似然分,為常數(shù)可以忽略。( )()第 t 幀的歸一化參數(shù),可以是用 “ 反模型” 的似然度,也可以用“ 所有” 模型的似然度之和,這樣分別得到似然比和后驗(yàn)概率??梢?,三音子的聲學(xué)置信度是其每幀對數(shù)似然比或?qū)?shù)后驗(yàn)概率的 算術(shù)平均。 本文所實(shí)現(xiàn)的關(guān)鍵詞檢出系統(tǒng)采用 方式來估計(jì)( )()也即: ( ) ( )() () ()11Nt pq (公 式(是目前聲學(xué)置信度最典型的計(jì)算方法,也是試驗(yàn)效果比較好的方法。 在關(guān)鍵詞檢出系統(tǒng)中,識別的過程是在連續(xù)的語音中識別出內(nèi)嵌在中間的關(guān)鍵詞作為候選,并根據(jù)置信度對候選結(jié)果進(jìn)行確認(rèn)的過程。根據(jù)檢測任務(wù)分成幾種情況。對于是否含有關(guān)鍵詞這樣的任務(wù),關(guān)鍵詞檢出也被稱為關(guān)鍵詞確認(rèn);面對事先可以確認(rèn)語音中含有并且僅有一個關(guān)鍵詞的任務(wù)或者無約束的情況,即既可能有也可能沒有,有也不一定只有一個的情況,在復(fù)雜程度以及所采取的算法上面也有一定的區(qū)別。對于可能出現(xiàn)多于一個關(guān)鍵詞的情況,通常采取將出現(xiàn)一次以上同樣的關(guān)鍵詞的情況視為出現(xiàn)了多次不同的關(guān)鍵詞并按照關(guān)鍵詞的起始時間進(jìn)行區(qū)別,對先后出現(xiàn)的,語音幀上重疊的關(guān)鍵詞候選則視為同一個關(guān)鍵詞。本文的關(guān)鍵詞檢出的置信度處理關(guān)鍵詞出現(xiàn)無約束的情況。 信度問題的難點(diǎn) 在關(guān)鍵詞識別問題中,由于使用者說話方式難以限定(自然發(fā)音,不規(guī)范語法)以及背景噪聲,往往會給識別結(jié)果引入大量的錯誤, 關(guān)鍵詞檢出中的置信度問題,就是對識別結(jié)果給出一個置信度得分,使得這個置信度得分的高低直接反映識別結(jié)果的可靠程度。影響置信度的因素很多,包括識別結(jié)果自身的信息、路徑搜索過程中的競爭路徑信息、輔助模型給出的對比信息等,這些都對置信度的計(jì)算有不同程度的影響。 從置信度計(jì)算的基本方法來看,大致分為三類:基于特征分類器的方重慶郵電大學(xué)碩士論文 第五章 置信度分析 41 法、基于似然比檢驗(yàn)( 方法和基于后驗(yàn)概率的方法35。基于特征的方法首先是選定一個特征,并訓(xùn)練一個兩類的分類器,然后比較待識別樣本到兩類的距離差,若距離差小于預(yù)先給定的閾值,則認(rèn)為識別錯誤,反之則認(rèn)為識別正確。用于設(shè)計(jì)這類分類器的特征有很多,例如:狀態(tài)駐留時間、競爭路徑密度、相似路徑條數(shù)等;還有人將多個特征合并進(jìn)行分類以獲得更好的分辨率,但是這樣做的前提是在假設(shè)以上多種參數(shù)之間有較低的統(tǒng)計(jì)相關(guān)性,顯然這個前提并不正確。 基于似然比檢驗(yàn)的置信度計(jì)算方法需要用到所謂的反模型( 36,而反模型的精細(xì)程度也極大的影響似然比檢驗(yàn)方法的有效性。基于后驗(yàn)概率的方法就是利用貝葉斯公式求觀察序列的后驗(yàn)概率,最重要的就是估計(jì)分母的方法。 7的做法是首先離線計(jì)算所有上下文相關(guān)音子序列的語言模型,然后對所有可能的上下文相關(guān)音子序列上計(jì)算似然分求和作為先驗(yàn)概率的估計(jì),計(jì)算量大;基于詞格網(wǎng)絡(luò)(38的方法則是利用前向后向算法計(jì)算包含關(guān)鍵詞命中的所有可能路徑的概率作為先驗(yàn)概率;基于 9的方法則是將前 N 條得分最高的路徑代替全部路徑來估算先驗(yàn)概率,增大 N 可以提高精度然而這是以性能作為代價。 置信度問題從本質(zhì)上說,就是對識別結(jié)果的正確與否進(jìn)行判決的一個兩類分類問題,因此,置信度研究的關(guān)鍵和重點(diǎn)在于如何尋找有效的特征,并找到從這些特征計(jì)算置信度的方法,使其區(qū)分能力達(dá)到比較好的效果。如果采用人工判決的方法,在沒有參考答案的情況下,我們判斷識別結(jié)果的正確與否,往往需要借助語義層次的信息,結(jié)合自己的經(jīng)驗(yàn)和知識,才能得到比較好的判決效果,而這些信息在計(jì)算機(jī)中是很難利用的。目前用于置信度計(jì)算的信息主要包括以下三類: (1) 識別結(jié)果本身的信息:如聲學(xué)得分、語言得分、狀態(tài)駐留時間、語言模型回退情況等信息,可以直接從識別結(jié)果中得到。 (2) 搜索過程中的信息:如競爭路徑條數(shù)、詞圖密度等信息,在識別結(jié)果中不能直接得到,是在搜索的動態(tài)過程中體現(xiàn)出來的。 (3) 輔助模型提供的信息:如聲學(xué)似然比等,不僅需要識別結(jié)果本身,還需要借助額外的模型(通常稱為背景模型或反模型)計(jì)算得到。 置信度計(jì)算的難點(diǎn)就在于,以上所有這些信息各自的區(qū)分能力都不是很強(qiáng),而彼此也很難整合到一起。另外,在不同的語法約束條件下,能夠利用的語言信息往往是不一樣的,很難得到統(tǒng)一的置信度計(jì)算方法。例如,在關(guān)鍵詞檢測或者孤立詞系統(tǒng)識別中,就很難利用語言模型的信息進(jìn)行置信度計(jì)算。 重慶郵電大學(xué)碩士論文 第五章 置信度分析 42 因此,置信度研究的重點(diǎn)和難點(diǎn)在于,如何有效地選擇和綜合利用上述信息,計(jì)算在不同語法約束條件的置信度,使其區(qū)分能力達(dá)到最好,這也是本文的研究重點(diǎn)所在。并非所有的信息都能有效地整合到置信度計(jì)算中,也并非所有的特征都能具有很好的區(qū)分能力,因此,在置信度計(jì)算過程中,往往就需要根據(jù)具體情況,選擇比較有效的信息進(jìn)行整合,才能達(dá)到比較好的效果。 法的提出 置信度定義在不同的層次上(狀態(tài),音子,詞或者句子),反映了不同的物理意義。 比如對于一個局部來說,低的音子級別的置信度和音子內(nèi)某個 態(tài)的高的置信度說明了該音子是一個被錯誤匹配的模型,而對于一個由多個音子組成的詞來說,這樣錯誤匹配的音子個數(shù)越多,反映了該詞被誤識的可能性越大40。 出可以用不匹配音子懲罰對命令詞的識別結(jié)果進(jìn)行修正41,首先介紹幾個概念: 某一幀的幀最佳音子是指識別到該幀時似然分 最高的路徑(所在的 態(tài)代表的音子。 對某一識別結(jié)果音子,出現(xiàn)頻率定義為這個音子內(nèi) 的幀最佳音子所占的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論