【畢業(yè)學(xué)位論文】漢語語音識別說話驗證-模式識別與智能系統(tǒng)_第1頁
【畢業(yè)學(xué)位論文】漢語語音識別說話驗證-模式識別與智能系統(tǒng)_第2頁
【畢業(yè)學(xué)位論文】漢語語音識別說話驗證-模式識別與智能系統(tǒng)_第3頁
【畢業(yè)學(xué)位論文】漢語語音識別說話驗證-模式識別與智能系統(tǒng)_第4頁
【畢業(yè)學(xué)位論文】漢語語音識別說話驗證-模式識別與智能系統(tǒng)_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

【畢業(yè)學(xué)位論文】漢語語音識別說話驗證-模式識別與智能系統(tǒng).pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 文摘要 由于自動語音識別做不到 100%準(zhǔn)確,就非常值得對識別結(jié)果加以驗證。理想的驗證器應(yīng)該能夠區(qū)分正確和錯誤的識別結(jié)果, 或者指出某個識別結(jié)果正確的可能性。本論文以檢驗識別假設(shè)為背景研究漢語語音 識別的說話驗證和置信度估計,不特別針對普通語音識別或關(guān)鍵詞識別。 所研究的方法對普通語音識別和關(guān)鍵詞識別的識別結(jié)果驗證是通用的。 語音識別的錯誤可以分為兩類,誤識和非法聲響造成的系統(tǒng)虛警。論文指出了誤識與非法聲響在驗證任務(wù)中的不同地位, 提出分別研究對它們的拒識,并采用相應(yīng)的評價方法。本論文還強(qiáng)調(diào)了在評價驗證方法 時,必須考慮具有不同性質(zhì)的非法聲響。本論文采集了三個不同性質(zhì)非法聲響庫, 分別對應(yīng)說話噪音,隨意應(yīng)答和無關(guān)長句。對非法聲響拒識的研究將在這三個庫上展開。 論文研究了可資驗證利用的信息源及其綜合方法, 提出了歸一化音節(jié)長度方差(研究了基于 線性模型的信息源綜合和驗證,取得了良好的效果。信息源 綜合后的驗證無論在對非法聲響還是對誤識的拒識能力上都比單獨的信息源要好。 論文提出采用 性模型估計的后驗概率驗證漢語數(shù)碼 語音識別,數(shù)碼語音的情況下將識別的精度從 高到 其驗證性能遠(yuǎn)遠(yuǎn)超過了常用的反詞模型和前二選驗證。 論文提出采用高斯混合模型作為垃圾模型, 該模型在性能和訓(xùn)練速度上具有優(yōu)勢,便于實時的計算置信度。對電話語音識別系統(tǒng),在拒絕 5%的合法語音的同時可以拒絕掉幾乎 100%的短非法聲響和 80%的無關(guān)長句。在線垃圾模型常常用來作為研究驗證的基準(zhǔn)方法,本論文通過 直接計算半音節(jié)在線垃圾似然度,并從競爭集中去除模糊半音節(jié),顯著地提高了性能。 另一方面,根據(jù)半音節(jié)模型的統(tǒng)計相似度來減小競爭集,使運(yùn)算量下降到原來的 10%左右,而保持相當(dāng)?shù)尿炞C性能。在研究中,詞表無關(guān)一直被強(qiáng)調(diào)。 反詞模型在說話驗證中被廣泛使用。 本論文考察了反詞模型在數(shù)碼語音識別驗證中的效果,對基于半音節(jié)模型的識別系統(tǒng) ,根據(jù)漢語語音的特點,特別提出了基于反半音節(jié)模型的詞表無關(guān)說話驗證。由于語音數(shù)據(jù)與研究力度的關(guān)系,尚未取得預(yù)期的效果。 關(guān)鍵詞:說話驗證,置信度,拒識 清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 s is in it is to a or us to be as of is or it a or be as by of It is in OV be as in it is OV of be in OV OV be is to be is to It of OV on a is of LP is of on is as by to is to it is to % it OV 0% is as it is be by or On to is 0% is is in It is in is to of t be 華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 第一章 說話驗證 本章將綜述本論文的選題意義,概要介紹相關(guān)歷史 ,研究現(xiàn)狀以及論文的安排。 什么是說話驗證 自動語音識別系統(tǒng)將輸入的聲音映射為文本, 給出聲音的內(nèi)容, 實際上是給出有關(guān)輸入聲音內(nèi)容的假設(shè)。在許多情 況下,我們不僅關(guān)心假設(shè)的內(nèi)容,還關(guān)心假設(shè)有多么可靠,也就是說假設(shè)在多大概率上是正確 的。這個概率就是嚴(yán)格意義上的置信度( 。估計置信度,并據(jù)此對識別結(jié)果的正確性做出判斷就是說話驗證( 。首先需要區(qū)別置信度與系統(tǒng)的識別率(或者稱為精度) 。識別率是指,在系統(tǒng)識別的語音中,識別結(jié)果是正確的所占的比率。而對一個輸入識別系統(tǒng)的聲響,會提供給我們一組觀測值 ,而當(dāng)它經(jīng)識別系統(tǒng)處理后,識別系統(tǒng)又會提供給我們另一組觀測值 ,這兩組觀測值構(gòu)成了我們對該聲響的全部知識 。置信度就是指,當(dāng)觀察到知識),( = ),( = ,識別結(jié)果正確的后驗概率。換句話說,有許多輸入使觀測值為 , 其中被系統(tǒng)正確識別的輸入所占的比例就是這樣的輸入的置信度。 廣義的置信度可以是正確概率的任意一種單調(diào)映射結(jié)果。 什么要說話驗證 只要自動語音識別不是 100%的可靠,如果能給出識別結(jié)果的可靠性并對識別結(jié)果的正確性加以驗證就會有利于減少識別錯誤。 而在下列情況下置信度估計與驗證是非常重要的。 第一,識別系統(tǒng)經(jīng)常遇到非法聲響( 。諸如關(guān)鍵詞識別系統(tǒng)( ,口語對話系統(tǒng)( 使用環(huán)境惡劣的識別系統(tǒng)。利用驗證可以使系統(tǒng)降低虛警率( ,提高抗干擾和噪聲能力( 1清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 第二,識別錯誤代價非常高。諸如語音撥號,重要設(shè)備的語音操作( 語音確認(rèn) (統(tǒng)。驗證對誤識可以起到“寧可錯拒一千,不可放過一個”的作用,降低系統(tǒng)運(yùn)轉(zhuǎn)代價。 第三,需要利用識別結(jié)果進(jìn)行下一步操作 ,而識別結(jié)果的正確性將影響下一步的在何種程度上依賴識別結(jié)果。 比如, 無監(jiān)督的說話人自適應(yīng) ( ,文本相關(guān)的說話人識別( ,自動語音翻譯( 和多模式人機(jī)交互系統(tǒng)( 第四,比較兩個精度接近的語音識別系統(tǒng)。在識別精度接近的情況下,如果一個識別系統(tǒng)正確和錯誤的識別結(jié)果在置信度上有更大的區(qū)分性, 這個系統(tǒng)顯然要更好一些,因為它可以更可靠地告訴我們什么時候相信它。 以上幾種情況對于語音識別技術(shù)的深入發(fā)展和應(yīng)用都至關(guān)重要。 因此本論文的選題具有深刻的理論意義和實用背景。 究綜述 史 說話驗證從關(guān)鍵詞識別研究發(fā)展出來, 現(xiàn)在已經(jīng)用到幾乎所有的語音識別問題中。下面通過對其產(chǎn)生和發(fā)展過程的 回顧來綜述國內(nèi)外發(fā)展動態(tài)和文獻(xiàn) 根據(jù) (鄭方, 1997), 關(guān)鍵詞的研究始于 1973 年的 當(dāng)時叫作 “采用模板匹配。關(guān)鍵詞( 提 法是 1977年由 先采用的。 1985 年, 一次在關(guān)鍵詞識別中采用了 白)方法。由于系統(tǒng)基于 板匹配,此時的補(bǔ)白還是補(bǔ)白模板 ( 隨著 法在語音識別中的流行, ( et 1990)提出了一個基于法的關(guān)鍵詞識別系統(tǒng),用來在交換機(jī)上 自動識別用戶的接通命令。這一個是關(guān)鍵詞的識別系統(tǒng),假定輸入語音中最多包 含一個關(guān)鍵詞。也就是說,這個系統(tǒng)一次只能檢測出一個關(guān)鍵詞。因此從這一點看 來,它仍是基于孤立語音識別技術(shù)的關(guān)鍵詞識別系統(tǒng)。作者提出了與補(bǔ) 白模板對應(yīng)的垃圾模型( 2清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 稱為 ,用來對非關(guān)鍵詞語音建模,區(qū)分關(guān)鍵詞語音和非關(guān)鍵詞語音。垃圾模型成為說話 驗證最重要的方法之一。 肯實驗室的 著于 1990 年提了第一個基于連續(xù)語音識別技術(shù)的 鍵詞識別方法( 1990)。這個系統(tǒng)用于連續(xù)的對話語音( 關(guān)鍵詞的識別,由于采用連續(xù)語音識別技術(shù),補(bǔ)白模型(部分維特比回溯技術(shù) ( 可以識別出語音流中的任意多個關(guān)鍵詞,用于語音監(jiān)聽。 隨著 練算法的提出,( 1992)第一此次將基于 術(shù)引入到關(guān)鍵詞識別中來,這導(dǎo)致了區(qū)分技術(shù)后來在說話驗證中的廣泛應(yīng)用 (1997)(996)。 至此的關(guān)鍵詞識別系統(tǒng)及其說話驗證都是詞表 /任務(wù)相關(guān)的 (也就是說,系統(tǒng)是針對特定的詞表 /任務(wù)訓(xùn)練和調(diào)試的,如果要更新詞表改變?nèi)蝿?wù),必須重新采集語音庫,重新訓(xùn)練。由于諸如音頻信息檢索這樣的應(yīng)用要求根據(jù)使用者需要迅速更新詞表, 詞表相關(guān)的說話驗證就顯得力不從心了。正是在這種需求的推動下,關(guān) 鍵詞識別和說話驗證研究迅速轉(zhuǎn)向了詞表 /任務(wù)無關(guān)(系統(tǒng)( 1992)(1993)(1994)(1995)( 996)(et 1997)(1998)。直到今天這仍然是說話驗證研究中的一個熱點 1993 到 1994 年( et 1993)和( et 994)提出在線垃圾模型( 法,現(xiàn)在已經(jīng)成為比較驗證方法常用的基準(zhǔn)方法( 當(dāng) 練算法開始流行時,人 (et 1994)提出了關(guān)鍵詞識別的 練算法,同樣把優(yōu)化目標(biāo)轉(zhuǎn)換成和系統(tǒng)性能直接相關(guān)的 這一思路直接產(chǎn)生了說話驗證的最小驗證錯誤訓(xùn)練 (法 (et 996)( 1997)(1998)。 (1997)提出反詞模型( 提高英語連續(xù)數(shù)碼識別的驗證。反詞模型已經(jīng)被 證明十分有效,并得到廣泛應(yīng)用( et 999)。 3清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 同時,隨著語音識別技術(shù)的成熟和投 入實用,人們發(fā)現(xiàn)即使非關(guān)鍵詞識別系統(tǒng)也經(jīng)常遇到詞表中沒有的新詞和無關(guān)的聲響。 如何檢測出這些詞表外的說話對提高識別系統(tǒng)的自然度和更新識別系統(tǒng)很重要。 說話驗證自然就被應(yīng)用到普通識別系統(tǒng)中來( 1994)( 1997) 。包括通過檢測新詞,更新大詞表語音識別的詞表和語言模型( 1996)( 996) ;拒絕會導(dǎo)致系統(tǒng)錯誤啟動的非法聲響( 1992)( 1993)( et 1996)( et 1998)等等。另一方面,語音識別也越來越多地與其他技術(shù)結(jié)合去解決比語音識別更難的問題,諸如 et 1997)( et 1997)( et 1998) ,多模式人機(jī)交互( 998)等。還有一些相關(guān)的任務(wù)如無監(jiān)督說話人自適應(yīng)和文本相關(guān)說話人識別,也需要語音識別提供的 結(jié)果。在這些應(yīng)用中,語音識別結(jié)果的正確性會影響整個任務(wù)的完成情況。 在另一些系統(tǒng)中需要把多個語音識別器的結(jié)果綜合起來( 1999) ,也需要評價各個識別器結(jié)果的可靠性。這些都成為了置信度估計與說話 驗證研究新的應(yīng)用背景。 關(guān)鍵詞識別,置信度估計和說話驗證的研究在國外已經(jīng)進(jìn)行多年,正在進(jìn)入高潮,而在國內(nèi)的研究則剛剛起步(鄭方, 1997) (徐明星等, 1998)(劉加等, 1998)(韋曉東等, 1998)其中(鄭方, 1997) (徐明星等, 1998)提出了一個基于音節(jié)的漢語無限制語音流的關(guān)鍵詞識 別系統(tǒng),采用了獨特統(tǒng)計拒識方法。( 劉加等,1998) 采用了類似 (et 1997)音子網(wǎng)格 (方法,利用前二選識別結(jié)果進(jìn)行拒識,取得一定的效果。( 韋曉東等, 1998)的報道了垃圾模型在拒識中的應(yīng)用,這是國內(nèi)見諸文獻(xiàn)的第一家。 同應(yīng)用背景下的驗證 下面將按不同的應(yīng)用背景對當(dāng)前的置信度估計和說話驗證研究加以綜述。 9 對話系統(tǒng)( 對話系統(tǒng)是目前語音識別研究與其他 學(xué)科結(jié)合與應(yīng)用最熱門的領(lǐng)域。 語音識別的結(jié)果需要與其他許多模塊結(jié)合起來 才能完成實時人機(jī)對話的任務(wù), 因此識別結(jié)果的可靠性非常重要。 這樣的系統(tǒng)包括 天氣報告 統(tǒng) ( et 2000), 實驗室的自動電話轉(zhuǎn)接任務(wù)( (et 1997)(et 998), 汽車預(yù)定任務(wù) ( 清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 和電影查詢?nèi)蝿?wù) ( et 1997) (et 1998), 司的歐洲自動鐵路信息系統(tǒng)( et 1999)等等。 9 監(jiān)聽系統(tǒng)( 語音識別的自動監(jiān)聽因為其軍用目的而很 早就得以發(fā)展。自動監(jiān)聽需要從語音流中實時地報告關(guān)鍵詞(往往是敏感的軍事,政治 ,經(jīng)濟(jì)話題)出現(xiàn),而且漏報( 代價較高。 R. 八十年代末開始在 林肯實驗室研究 (989)(1992),后來將研究帶到 995)(996)。 統(tǒng)與技術(shù)公司也一直在進(jìn)行類似的研究 ( et 1993)( et 1994)。 9 語音數(shù)據(jù)庫檢索系統(tǒng) 這是由互聯(lián)網(wǎng)發(fā)展產(chǎn)生的需求。由于互聯(lián)網(wǎng)上大量音頻 (包括語音)數(shù)據(jù)的存在,如何對它們進(jìn)行內(nèi)容標(biāo)注和檢索( 得重要。這樣的任務(wù)要求關(guān)鍵詞識別和驗證詞表無關(guān),但是標(biāo)注不需要實時進(jìn)行。劍橋的 早就開發(fā)出一個實驗系統(tǒng) 1990) 。包括肯實驗室( et 991)和 統(tǒng)與技術(shù)(et 1992)都在進(jìn)行這方面的研究。劍橋大學(xué)工程系 在這一領(lǐng)域處于領(lǐng)先地位(994)( et 1997)。 9 大詞表連續(xù)語音識別系統(tǒng)的置信度標(biāo)注 對現(xiàn)有的大詞表連續(xù)語音識別系統(tǒng)進(jìn) 行置信度標(biāo)注有許多潛在的用途, 包括對識別系統(tǒng)進(jìn)行自適應(yīng),將識別系統(tǒng)加入到自然語言理解 , 多模式人機(jī)交互中等。最成功的例子是美國 學(xué)和德國 學(xué)為他們合作開發(fā)的自動語音翻譯( 統(tǒng) 在版本已經(jīng)到 制的置信度標(biāo)注器( 統(tǒng)。這個系統(tǒng)以 0/1 的方式給出對識別假設(shè)正確性的判斷, 減小識別錯誤對翻譯系統(tǒng)的困擾( 1997) 。在英國,研究者也為劍橋大學(xué)基于人工神經(jīng)網(wǎng)絡(luò)/詞表連續(xù)語音識別系統(tǒng)開發(fā)出了置信度估計系統(tǒng)( 999)。 一直在它的 合大詞表連續(xù)語音識別系統(tǒng)上展開5清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 置信度與拒識的研究(1997 )。 最后愿意概括一下說話驗證領(lǐng)域主要的研究機(jī)構(gòu)和研究者, 1) M. R. A. 2) 實驗室的 R. ; 3) 德國 學(xué)的 T. T. 4) 斯坦福研究院 ( M. Z. 們中的許多已經(jīng)離開 入了語音技術(shù)公司 5) 統(tǒng)與技術(shù)的 H. M. 。由于這些優(yōu)秀的研究人員和研究機(jī)構(gòu)的存在。 語音識別的置信度估計和說話驗證已經(jīng)擁有了相對獨立和穩(wěn)定的學(xué)術(shù)環(huán)境。 關(guān)于置信度與說話驗證的論文已經(jīng)多次出現(xiàn)在 語音識別界的國際權(quán)威刊物上, 語音識別界的權(quán)威國際會議 每年辟出專題,在會議 收錄論文報道這一領(lǐng)域的最新進(jìn)展。置信度估計和說話驗證正在進(jìn)入研究的黃金時期。 6清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 論文工作 本論文將以檢驗識別假設(shè)為背景研究說話驗證和置信度估計,因此不特別針對普通語音識別或關(guān)鍵詞識別,不涉及 普通語音識別和關(guān)鍵詞識別本身的問題。所研究的方法對普通語音識別和關(guān)鍵詞識別的識別結(jié)果驗證是通用的。 許多驗證的基本方法都得到了研究,將在論文的不同章節(jié)中出現(xiàn)。 第二章將對說話驗證的數(shù)學(xué)原理進(jìn)行分析,論述本論文評價說話驗證的方法和語音數(shù)據(jù)庫,并且引入本論文研究說話驗證的識 別系統(tǒng),包括基于整詞和基于子詞的識別系統(tǒng),包括基于孤立語音識別 和連續(xù)語音識別的系統(tǒng)。 第三章將論述可資說話驗證利用的信息源。提出了利用音節(jié)長度方差對錯誤識別結(jié)果進(jìn)行拒識。強(qiáng)調(diào)了利用語音結(jié)構(gòu)信息的重要性。 第四章以漢語數(shù)碼語音識別為背景, 研究了 計后驗概率在說話驗證中的應(yīng)用。提出了用 和 計后驗概率拒絕錯誤識別的方法。并將其與反詞模型,線性模型和似然比等拒識方法進(jìn)行比較。 第五章在基于半音節(jié)的識別系統(tǒng):電話語音識別系統(tǒng)和語音確認(rèn)系統(tǒng)上研究了垃圾模型和在線垃圾模型在任務(wù) /詞表無關(guān)說話驗證中的應(yīng)用和改進(jìn)。提出了采用高斯混合垃圾模型和直接從半音節(jié)計算的在線垃圾似然度, 研究了優(yōu)化計算在線垃圾似然度競爭集的方法。在研究 過程中注意了方法的任務(wù) /詞表無關(guān)性。對比實驗證明了這些方法的有效性。 第六章研究了多個信息源的綜合利用方法,包括基于規(guī)則和基于統(tǒng)計模型的綜合方法。研究了利用 線性模型綜合信息源的方法。 第七章總結(jié)全文并給出對今后研究工作的展望。 清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 第二章 數(shù)學(xué)與評價 統(tǒng)計假設(shè)檢驗(和貝頁斯決策分析(說話驗證和置信度估計的數(shù)學(xué)基礎(chǔ)。對某個輸入語音 X ,語音識別器( 出識別結(jié)果 C;這個結(jié)果實際上是關(guān)于輸入語音的一個假設(shè)( )(P )假)拒絕00|() 。而對此結(jié)果驗證( 主要手段就是統(tǒng)計假設(shè)檢驗( 。另一方面,如果將識別器的輸出看成是驗證器(的輸入,那么驗證器 實際是一個分類器( ,判斷輸入究竟屬于類 1(正確)還是類 0(錯誤) 。因此,說話驗證又可以看成是模式分類( 題。而貝頁斯決策分析正是模式分類的統(tǒng)計數(shù)學(xué)基礎(chǔ)。本章將介紹說話驗證的數(shù)學(xué)原理和評價方法,分 析兩個不同數(shù)學(xué)角度的內(nèi)在聯(lián)系,最后給出本論文將要用到的驗證評價方法和研究采用的識別系統(tǒng)。 計假設(shè)檢驗 根據(jù) 設(shè)檢驗理論( 976), 可以將說話驗證歸結(jié)為這樣一個統(tǒng)計假設(shè)檢驗問題。 零假設(shè) ( 識別結(jié)果正確。與之對應(yīng)是備選假設(shè) ( 識別結(jié)果錯誤。 說話驗證就是對零假設(shè)進(jìn)行檢驗。 根據(jù)假設(shè)本身的性質(zhì)(真 /假)以及假設(shè)檢驗的結(jié)果(接受/拒絕) ,有以下四種結(jié)果出現(xiàn):正確接受( 真),錯誤拒絕( 真) ,錯誤接受( 假)和正確拒絕( 假) 。因此假設(shè)檢驗可能出現(xiàn)兩種錯誤:錯誤拒絕 ( 錯誤接受( ,分別稱為第一類錯誤和第二類錯誤。出現(xiàn)兩類錯誤的概率分別為 和 。假設(shè)檢驗的勢 (為。設(shè)輸入識別器的語音為 )|(0而分布 與)|(1知,根據(jù) 理,當(dāng) )=|108清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 時接受零假設(shè) 是優(yōu)的。 所謂優(yōu)是指使在使 受限的情況下, 檢驗的勢 (所有可能檢驗中最大的。 0H )I(其中 稱為檢驗的臨界閾值( 取不同值,假設(shè)檢驗將工作在不同的工作點 ( 從似然比建設(shè)檢驗的角度來看說話驗證,對不同說話驗證統(tǒng)計方法,實際是從不同的角度來估計分布 )|(0 )|(1 表 2受 0H 拒絕 0 N(A, T) N(R, T) 0H 假 N(A, F) N(R, F) 設(shè)我們有 N 個識別結(jié)果來評測檢驗算法,對應(yīng)不同識別結(jié)果性質(zhì)和不同檢驗結(jié)果的樣本數(shù)見(見表 2 其中 表示 為 Y( T/F)且假設(shè)檢驗結(jié)果為 X( A/R) 的測試樣本數(shù), 而樣本總數(shù)),( (),(),(),( + += 。用這些樣本可以估計檢驗算法的性能參數(shù)。 系統(tǒng)的 (無條件)錯誤率 ( 計為: ( ,(+; =類似,可以分別估計兩類錯誤率如下 : 錯誤拒絕率( : ),(),(),(|()I(00= 真)拒絕 ; 錯誤接受率( : ),(),(),(|()0= 假)接受 ; 二者統(tǒng)稱為 條件錯誤率 ( 而檢驗的勢為 ),(),(),(|()00= 假)拒絕 。 9清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 頁斯決策分析 換個角度看說話驗證。 設(shè)識別器給出識別結(jié)果 H 以及識別過程中得到的特征矢量 S S。那么驗證器的任務(wù)是根據(jù) ,把 H 分類為正確或錯誤,分別對應(yīng)假設(shè)檢驗中的接受和拒絕。這樣分類也有四種錯誤。從這個角度來看,不同的說話驗證方法實際是從不同的角度來估計分布 )|( 確 )| 或者是)|( 確 )|( 誤與 。設(shè)將正確識別拒絕的損失為 A,將錯誤識別接受的損失為 B,正確的拒絕和接受損失為 0。如下表 表 2受 拒絕 正確 0=(接受,正確) A=(拒絕,正確) 錯誤 B=(接受,錯誤) 0=(拒絕,錯誤) 設(shè)對輸入 S ,采取的決策(接受 /拒絕)為 )(則驗證的條件期望風(fēng)險為 )|()|(),()|)( 誤)正確正確) += ),S 錯誤 )|()|( 誤接受 = )|()|( 確拒絕 = 驗證的期望風(fēng)險為 = ()|)( ,理想的驗證決策應(yīng)該使 果在進(jìn)行每個驗證決策時,都使條件期望風(fēng)險最小,就能使在對所有 驗證時,其期望風(fēng)險也最小。這就是最小 風(fēng)險貝頁斯決策。因此理想的驗證決策是, |()|()|()|( 確拒絕錯誤接受 =11)|( 正確 時, 當(dāng) 接受識別結(jié)果。將上式的右邊用域值 代替,對應(yīng)不同的閾值,也會有不同的驗證工作點。當(dāng)?shù)谝活愬e誤的代價相對第二類錯誤的代價越大, 越??;反之, 越大。10清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 直觀地看,當(dāng)錯誤接受的代價相對大時,要驗 證接受一個識別結(jié)果就困難,接受的條件就越苛刻。 從貝頁斯決策的角度來看說話驗證,實際上是對 S 估計 )|( 確 。 系 可以觀察從似然比假設(shè)檢驗與 從貝頁斯決策角度解決說話驗證問題的聯(lián)系。 )()|()(),()()()|()|(01010111)|()(),()()()|()|(10101000= )()()|()|(01錯誤正確當(dāng) 與 互補(bǔ)時,有0(1)(01= ;而 正是識別系統(tǒng)的識別率 )(0 ,因此有 )1)|()|()|(10=()|= )11()|()|()|()|(101)|( 正確這個公式顯示出兩個解決問題不同角度的內(nèi)在聯(lián)系。 話驗證的評價 統(tǒng)計假設(shè)檢驗在信號檢測理論中早就得到廣泛應(yīng) 用。因此,說話驗證的評價與信號檢測的評價 (原理上是完全一致的。說話驗證器作為假設(shè)檢驗器,與信號檢測器一樣,可以在不同的工作點上工作 。因此,評價其特性就要考慮所有的工作點的特性,也就是工作點組成 的曲線特性??紤]整個工作特性曲線的評價方法稱為動態(tài)方法,而只考慮曲線 上特殊點的方法稱為靜態(tài)方法 /參數(shù)。下面將介紹主要的評價方法。 11清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 價方法 圖 2 受機(jī)工作特性, 線是指以第一類錯誤率 為自變量畫出的 (勢)變化曲線;或者以 為自變量畫出的 變化曲線。如圖 2第一種方式給出了四條 線。其中的粗實線由隨機(jī)接受( 假設(shè)檢驗得到,它的含意是:隨機(jī) 接受時,假設(shè)檢驗對零假設(shè)無論真假,拒絕的可能性完全相同。粗虛線是理想的假設(shè)檢驗( 性能,總是能 100%地拒絕錯誤零假設(shè)。另外兩條細(xì)線由兩個性能不同的實際假設(shè)檢驗產(chǎn)生。由于它們對錯誤假設(shè)的拒絕率比對真確零假 設(shè)的要高,它們的性能比隨機(jī)接受好,但比理想情況又差。其中的實線 對應(yīng)的假設(shè)檢驗又比虛線的好,因為當(dāng)對真確零假設(shè)拒絕率相同情況下,它對錯誤零假設(shè)拒絕率更高。 真)拒絕00|()I( 假)拒絕00|( 受00|() 真)接受00|( (P)I(P )數(shù)與 線密切相關(guān)。它是指在一定區(qū)間 線下的面積。它衡量假設(shè)檢驗方法在該區(qū)間中的整體性能。當(dāng)考慮整個(0 , 1)工作范圍時,隨機(jī)拒絕的 想假設(shè)檢驗的 1, 而實際假設(shè)檢驗的 于 1之間。顯而易見,對于特定的工作范圍, 大,驗證的性能越好 測錯誤折衷, 線則是以 為自變量畫出 的變化曲線,并且取對數(shù)坐標(biāo)的形式。由 線可以確定另一個重要的性能指標(biāo),等錯點( ,即 與 相等時的工作點。 12清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識別說話驗證 較基于不同性能識別系統(tǒng)的驗證 說話驗證研究總是在一定的語音識別系統(tǒng)上展開的。 同樣的識別系統(tǒng)可以采取不同的驗證方法,而同樣的驗證方法可以用在不同的識別系統(tǒng)上。 由于歷史的原因,研究者總是在現(xiàn)有的識別系統(tǒng)上研究說話驗證, 因此導(dǎo)致識別系統(tǒng)往往不同。而要比較他們提出的說話驗證方法,就需 要有一種與識別系統(tǒng)性能無關(guān)的評價方法。 設(shè)隨機(jī)變量 A 為零假設(shè)的性質(zhì)(正確 1/錯誤 0) ,隨機(jī)變量 Z 為假設(shè)檢驗的結(jié)果(接受 1/拒絕 0) 。二者的互信息為 )|()()|()(),( = )(應(yīng)零假設(shè)性質(zhì)的不確定度,反映假設(shè)檢驗的難度。 )11( += 其中 P 為零假設(shè) (識別結(jié)果) 正確的概率, 即識別器的識別率 (精度) ; 顯然當(dāng)時,識別器越精確,識別結(jié)果性質(zhì)的不確定度就越小。 5.0p)(H | 加入驗證和拒識后零假設(shè)性質(zhì)的不確定度。 =)()()|()|()|()|( +=0()0|()1()1|()()|()|( +=)(0|()1|()1)(0|()(0|()1)(0|()1|()1|(|( 其中, P 為識別器精度,而 假)拒絕00|()0|0( I)(|()1|0(00= 真)拒絕 |()0|1(00= 假)接受 真)接受00|()1|1( 它們的估計方法見本章的 由于驗證和拒識對零假設(shè)的性質(zhì)做出了判斷,零假設(shè)性質(zhì)的不確定度應(yīng)該減小。驗證和拒識越可靠,減小得就越多。但是,減小的程度還與識別器自身的性能有關(guān),也就是說,與驗證和拒識任務(wù) 的難度有關(guān)。當(dāng)識別器性能差時, 大,一個簡單的驗證就使 比 小得多。 因此, 采用互信息 來評價驗)( (;( 鐘 林:漢語語音識別說話驗證 證嚴(yán)重依賴識別器的性能,即驗證任務(wù)的難度。要減小這種依賴,一個簡單的想法就是用任務(wù)的難度對驗證取得的熵減小歸一化,這樣就得到歸一化互信息(也成為驗證的效率( )()|()()()|()()();();(= 其典型的曲線可以參見( 999)。 論文的評價方式 本論文研究說話驗證在兩方面對識別系統(tǒng)的貢獻(xiàn): 通過拒識提高系統(tǒng)對合法語音( 識別精度,即拒識誤識( ;通過驗證拒識非法聲響( 。因此,需要從兩個方面來衡量說話驗證的性能。我們把零假設(shè) 錯誤的情況分為兩類: 指對合法語音的誤識,指非法聲響。拒識后系統(tǒng)對合法語音的識別精度( 0接受真 =+=),(),(),(|(100對非法聲響的拒識性能可以用對非法聲響的拒識率 (衡量: 非法聲響數(shù)拒絕的非法聲響數(shù)非法)拒絕 =+=),(),(),(|(2220)拒絕00|( 關(guān)系是: ),(),(),(),(),(),(),(),(),(),(),(),(),(22212122121+= (),()(),(),(|(2200+= 假)拒絕 1(),(),(|(200= 假)拒絕 其中,驗證的(無條件)錯誤率, K 為非法語音在測試語音中所占的比例。 不同的語音識別任務(wù)面對的非法聲響在統(tǒng)計上也不盡相同。 從研究驗證方法對非法聲響拒識的角度出發(fā), 我們更關(guān)心的是驗證方法對各種可能遇到的非法聲響的拒識能力,而不是驗證方法對某個具體識別任務(wù)上面 臨非法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論