已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀
(通信與信息系統(tǒng)專業(yè)論文)基于蟻群算法的語音識別系統(tǒng)的研究.pdf.pdf 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
摘要 語音識別的研究工作始于上個世紀5 0 年代,至今已經(jīng)形成了完整的理論體 系,目前語音識別的研究也已經(jīng)進入了商品化階段,基礎(chǔ)性理論相當完善,各 種各樣的產(chǎn)品也相繼涌現(xiàn)。然而語音識別在實現(xiàn)過程中通常涉及多種因素,需 要同時考慮,并且它作為一門交叉學(xué)科,涉及到了信號處理、模式識別、人工 智能、計算機科學(xué)、語言學(xué)和認知科學(xué)等眾多學(xué)科,所以語音識別距離理想目 標仍有很大距離,相關(guān)的技術(shù)難關(guān)還有待克服。 本文對語音識別的主要過程進行了詳細的介紹。語音識別首先對輸入的語 音信號必須進行預(yù)處理,以保證系統(tǒng)獲得一個比較理想的處理對象。在語音的 特征參數(shù)提取階段,文中介紹了在實際應(yīng)用中常用到的特征參數(shù):線性預(yù)測倒 譜參數(shù)( l p c c ) 、m e l 頻率倒譜參數(shù)( m f c c ) 等。在識別階段,介紹了基于矢量量 化的識別技術(shù)以及動態(tài)時間歸整的識別技術(shù)( d t w ) 。在此基礎(chǔ)上,引入了蟻群 算法的基本原理。 蟻群算法是最新發(fā)展的一種模擬昆蟲王國中螞蟻群體智能行為的仿生優(yōu)化 算法,它具有較強的魯棒性、優(yōu)良的分布式計算機制、易于與其他方法相結(jié)合 等優(yōu)點。蟻群算法作為一種新的用于解決復(fù)雜優(yōu)化問題的全局搜索方法,已經(jīng) 成功應(yīng)用于求解t s p 問題、調(diào)度問題、指派問題等,顯示出了蟻群算法在處理 復(fù)雜優(yōu)化問題方面的優(yōu)越性。 本文利用蟻群算法優(yōu)化機制,結(jié)合傳統(tǒng)的d t w 算法,提出了一種新的基 于蟻群算法的動態(tài)時間規(guī)劃算法來搜索語音信號特征參數(shù)序列之間匹配的全局 最優(yōu)路徑,進而以此衡量語音信號之間的相似度,從而使系統(tǒng)的識別效果有了 進一步的提高。 文中最后對新的語音識別系統(tǒng)各模塊進行了仿真測試,給出了仿真計算結(jié) 果。實驗結(jié)果表明,采用基于蟻群算法的語音識別系統(tǒng)識別效果要好于采用傳 統(tǒng)d t w 算法的語音識別系統(tǒng)。 關(guān)鍵詞:語音識別,端點檢測,蟻群算法,d t w a b s t r a c t t h es p e e c hr e c o g n i t i o nw h i c hh a sb e e nr e s e a r c h e ds i n c et h e1 9 5 0 s ,h a s d e v e l o p e dt oa ni n t e g r a t e dt h e o r ya n db e e nc o m m o d i t i z e dw i t hp e r f e c tb a s i ct h e o r y a n dl o t so fp r o d u c t ss u c c e s s i v e l ye m e r g i n g h o w e v e r , t h ep r a c t i c eo fs p e e c h r e c o g n i t i o ni sr e l a t e dt ov a r i o u sf a c t o r s ,w h i c hm u s tb ec o n s i d e r e ds i m u l t a n e o u s l yi n t h ep r o c e s s a sac r o s s d i s c i p l i n e ,i ta l s oh a se v e r y t h i n gt od ow i t hm a n ys u b j e c t s , s u c ha ss i g n a lp r o c e s s i n g ,p a t t e r nr e c o g n i t i o n ,a r t i f i c i a li n t e l l i g e n t ,c o m p u t e rs c i e n c e , l i n g u i s t i c sa n de p i s t e m i cs c i e n c e t h e r e f o r e ,t h e r ea r es t i l lm a n ya s s o c i a t e d t e c h n o l o g i c a ld i f f i c u l t i e st ob ec o n q u e r e da n dt h ec u r r e n ts p e e c hr e c o g n i t i o ni ss t i l l f a rf r o mt h ef i n a lt a r g e t t h em a i np r o c e s so f s p e e c hr e c o g n i t i o n i sa n a l y z e da n d i n v e s t i g a t e dt h o r o u g h l y f i r s t ,t h ei n p u to fs p e e c hs i g n a l sm u s tb ep r e p r o c e s s e di nt h es y s t e mi na d v a n c e ,s o t h a tt h eo b j e c tf o rt h es y s t e mt op r o c e s si s c o m p a r a t i v e l yi d e a l ,s e c o n d l y , t h e f r e q u e n t l y u s e dc h a r a c t e r i s t i cp a r a m e t e r s ,s u c ha sl p c ca n dm f c c ,a r ei n t r o d u c e d i nd e t a i lw h e nc o m i n gt oa b s t r a c t i n gc h a r a c t e r i s t i c sw h i l es o m ek e yt e c h n i q u e s i n c l u d i n gv qa n dd t wa r e a n a l y z e di nt h er e c o g n i t i o ns t e p t h e n ,t h eb a s i c p r i n c i p l e so fa n tc o l o n ya l g o r i t h ma r ei n t r o d u c e d a n tc o l o n ya l g o r i t h mw h i c hi so n eo ft h ea l g o r i t h m sl a t e s td e v e l o p e d ,i sa b i o n i co p t i m i z a t i o na l g o r i t h mb ys i m u l a t i n gt h ei n t e l l i g e n c eo fa n t ss w a r mi ni n s e c t k i n g d o m a san e wa l g o r i t h mu s e dt os o l v ec o m p l e xo p t i m i z a t i o np r o b l e m so f g l o b a ls e a r c hm e t h o d ,t h ea n tc o l o n ya l g o r i t h mw i t hi t sr o b u s t n e s s ,g o o dd i s t r i b u t e d c o m p u t i n g m e c h a n i s ma n d e a s y - c o m b i n a t i o n w i t ho t h e rm e t h o d sh a sb e e n s u c c e s s f u l l ya p p l i e di n t ot s p , s c h e d u l i n ga n da s s i g n m e n tp r o b l e m s ,s h o w i n gm a n y a d v a n t a g e si nd e a l i n gw i t ht h ec o m p l e xo p t i m i z a t i o np r o b l e m s b yc o m b i n i n g a n t c o l o n ya l g o r i t h mo p t i m i z a t i o nm e c h a n i s mw i t ht h e t r a d i t i o n a ld t w a l g o r i t h m ,an e wd y n a m i ct i m ep r o g r a m m i n ga l g o r i t h mb a s e do n t h ea n tc o l o n ya l g o r i t h mi sp r o p o s e d ,w h i c hi su s e dt os e a r c ht h es p e e c hs i g n a l s c h a r a c t e r i s t i cp a r a m e t e r ss e q u e n c e sf o r t h eg l o b a l o p t i m a lp a t h ,b yw h i c ht h e s i m i l a r i t yb e t w e e nt h es p e e c hs i g n a l si sm e a s u r e d t h u s ,t h er e c o g n i t i o nr e s u l to ft h e h s y s t e mh a sb e e nf u r t h e ri m p r o v e d t h en e w s p e e c hr e c o g n i t i o ns y s t e mi st e s t e db ys i m u l a t i n ge v e r ys i n g l em o d u l e a n de v a l u a t e dw i t ht h er e s u l tf i g u r e ss h o w ni nt h ef i n a lp a r t t h ee x p e r i m e n t a l r e s u l t si l l u s t r a t et h a tt h es p e e c hr e c o g n i t i o ns y s t e mb a s e do na n tc o l o n ya l g o r i t h m h a sb e t t e rp e r f o r m a n c et h a nt h a tb a s e do nt r a d i t i o n a ld t w a l g o r i t h m k e y w o r d :s p e e c hr e c o g n i t i o n ,e n d p o i n td e t e c t i o n ,a n tc o l o n ya l g o r i t h m ,d t w i i i 獨創(chuàng)性聲明 本人聲明,所呈交的論文是本人在導(dǎo)師指導(dǎo)下進行的研究t 作及取得的研究成果。盡我 所知,除了文中特別加以標注和致謝的地方外,論文中不包含基他人已經(jīng)發(fā)表或撰寫過的研 究成果,也不包含為獲得武漢理_ - e 大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。與我 一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。 簽名:缸日期:型銣口 關(guān)于論文使用授權(quán)的說明 本人完全了解武漢理工大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即學(xué)校有權(quán)力保留、送交 論文的復(fù)印件,允許論文被杏閱和借閱;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以采用影 印、縮印或其它復(fù)制手段保存論文。 ( 保密的論文在解密后應(yīng)遵守此規(guī)定 武漢理t 大學(xué)碩士學(xué)位論文 1 1 研究背景與意義 第1 章緒論 語言是人類創(chuàng)造的,也是人類區(qū)別于地球上其它生物的本質(zhì)特征之一i l 】, 更是人類最重要的交流工具,有著自然、方便、準確性高等特點。隨著計算機 和人工智能機器的廣泛應(yīng)用,人們發(fā)現(xiàn):人與機器最方便、最直接的溝通方式 是語言通信。讓機器聽懂人類所說的話,明白人所表達的意思,并且根據(jù)說話 者的意思而做出相應(yīng)的動作,這就是語音識別技術(shù)。 語音識別就是指智能機器自動識別語音的技術(shù)【l 】,有廣義和狹義之分。廣 義上的語音識別技術(shù)是指識別出語音信號中“感興趣的內(nèi)容 其中包括:識別 說話人的內(nèi)容、說話人的身份、說話人的語言等。而狹義上語音識別技術(shù)是指 準確的識別出語音信號所表達的意思,準確的理解語音信號所表達的含義。在 計算機普及的今天讓計算機聽懂入的語言是人類所向往的事,對計算機直接用 語言發(fā)號施令,解放我們的雙手就顯得特別重要了。世界上各大i t 的著名公司 如:p h i l i p s 、i b m 、i n t e l 等都投入巨大的財力、精力對語音識別進行研究。微 軟總裁蓋茨曾經(jīng)就說過:“我們將在這幾十年中,克服語音識別的障礙,下一代 的系統(tǒng)操作軟件及應(yīng)用程序的用戶界面將拋棄鍵盤與鼠標,代以真正意義上的 人機對話j 。 蟻群算法作為一種新的用于解決復(fù)雜優(yōu)化問題的全局搜索方法,已經(jīng)成功 應(yīng)用于求解t s p 問題、調(diào)度問題、指派問題等,顯示出了蟻群算法在處理復(fù)雜 優(yōu)化問題1 3 , 4 方面的優(yōu)越性。蟻群算法最早由意大利學(xué)者d o r i g o 等人【5 ,6 1 在2 0 世 紀9 0 年代初首先提出來的,它是受自然界中的螞蟻集體行為的啟發(fā)而提出的, 算法具有分布式計算、信息正反饋和啟發(fā)式搜索的特征,本質(zhì)上是進化算法中 的一種新型隨機性優(yōu)化算法。 在基于模板匹配的語音識別系統(tǒng)中,d t w ( d y n a m i ct i m ew a r p i n g ) 算法被廣 泛應(yīng)用。但d t w 算法是一種局部最優(yōu)算法,其每一步搜索都是根據(jù)局部優(yōu)化 的判斷進行的,因此這個時間規(guī)整路徑不一定達到全局最優(yōu)。利用蟻群算法優(yōu) 化機制,結(jié)合傳統(tǒng)的d t w 算法,可以為基于模板匹配的語音識別系統(tǒng)做出一 些有意義的研究工作。 武漢理工大學(xué)碩十學(xué)位論文 1 2國內(nèi)外研究現(xiàn)狀 語音識別的研究工作起源于2 0 世紀5 0 年代,1 9 5 2 年a t & tb e l l 實驗室的 d a v i s 等人實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)a u d r y 系統(tǒng), 這個系統(tǒng)主要依賴每個數(shù)字輔音部分的頻譜進行識別。1 9 5 6 年r c a 實驗室的 o l s o n 等人也獨立地研制出l o 個單音節(jié)部分的識別系統(tǒng),系統(tǒng)采用從帶通濾波 器組獲得的頻譜參數(shù)作為語音的特征。1 9 5 9 年f r y 和d e n e s 等人嘗試構(gòu)建音素 識別器來識別4 個元音和9 個輔音,并采用頻譜分析和模式匹配來進行識別策 略。與此同時m i t 林肯實驗室的f o r g i e 等人研究了1 0 個元音的識別,并采用 了聲道時變估計技術(shù)。 2 0 世紀6 0 年代,1 9 6 0 年gf a n t 在其論作語音產(chǎn)生的聲學(xué)原理中提出 了語音產(chǎn)生的聲源濾波器模型,為語音信號參數(shù)的處理提供了理論基礎(chǔ)。 隨后計算機的應(yīng)用推動了語音識別的發(fā)展。這時期推出的兩大關(guān)鍵技術(shù):動態(tài) 規(guī)劃( d p ,d y n a m i cp r o g r a m m i n g ) 和線性預(yù)測分析技術(shù)( l p ,l i n e a rp r e d i c t i o n ) , 對語音識別發(fā)展意義深遠。值得一提的是6 0 年代中期,美國斯坦福大學(xué)的r e d d y 就開始嘗試用動態(tài)跟蹤音素的方法來進行連續(xù)語音識別,開展了卓有成效的工 作。 2 0 世紀7 0 年代,語音識別進入一個新的里程碑,日本學(xué)者s a k o e 給出了 動態(tài)時間彎折算法( d t w ,d y n a m i ct i m ew a r p i n g ) ,并在實際中得到應(yīng)用,實 現(xiàn)了基于特定人孤立詞語音識別系統(tǒng)。d t w 是一種模式匹配和模型訓(xùn)練技術(shù), 它應(yīng)用動態(tài)規(guī)劃方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難 題,在孤立詞語音識別中獲得了良好性能。i t a k u r a 基于語音編碼中廣泛使用的 線性預(yù)測編碼( l p c ,l i n e a rp r e d i c t i v ec o d i n g ) 技術(shù),通過定義基于l p c 頻譜參 數(shù)的合適的距離測度,成功地將其擴展到語音識別中。 2 0 世紀8 0 年代,l i n d a 、b u z o 、g r a y 等人解決了矢量量化( v q ,v e c t o r q u a n t i z a t i o n ) 碼本生成的方法,并將矢量量化技術(shù)成功地應(yīng)用到語音編碼中。隨 后語音識別研究進一步走向深入,出現(xiàn)了大量連續(xù)語音的識別算法。典型代表 為b e l l 實驗室推出的分層構(gòu)造( l b ,l e v e lb u i l d i n g ) 技術(shù)。到了1 9 8 8 年美國 的卡內(nèi)基一梅隆大學(xué)運用矢量量化( v q ,v e c t o rq u a n t i z a t i o n ) 和隱馬爾可夫 ( h m m ,h i d d e nm a r k o vm o d e l s ) 技術(shù)開發(fā)了針對非特定人連續(xù)語音的s p h i n x 系統(tǒng),在語音識別方面取得了巨大的成功,這是世界上第一個高性能的非特定 2 武漢理工大學(xué)碩士學(xué)位論文 人、大詞匯量、連續(xù)語音識別系統(tǒng)。 到了8 0 年代后期,人工神經(jīng)網(wǎng)絡(luò)( a n n ,a r t i f i c i a ln e u r a ln e t w o r k ) 技術(shù)用 于語音識別也開始廣泛開展,大部分采用基于反向傳播算法的多層感知網(wǎng)絡(luò)。 a n n 具有區(qū)分復(fù)雜的分類邊界能力,所以有助于模式的區(qū)分。 進入2 0 世紀9 0 年代以后,語音識別從實驗室走向?qū)嵱?。許多發(fā)達國家如 美國、日本、韓國以及m m 、a t & t 、l & h 等著名公司都為語音識別系統(tǒng)的實 用化開發(fā)研究投以巨資。a t & t 開發(fā)了能識別英文發(fā)音卡號的信用卡語音系統(tǒng)。 i b m 公司率先推出v i av o i c e 大詞匯量非特定人漢語連續(xù)語音識別系統(tǒng), m i c r o s o f t 公司也開發(fā)了中文識別引擎,兩者代表了當時漢語識別的最高水平。 從9 0 年代末開始,一些大規(guī)模的語音識別系統(tǒng)在實際中開始廣泛應(yīng)用。 1 9 9 6 年9 月,c h a r l e ss c h w a b 開通了首個大規(guī)模商用語音識別應(yīng)用系統(tǒng):股票 報價系統(tǒng)。該系統(tǒng)有效地提高了服務(wù)質(zhì)量和客戶滿意度,并減少了呼叫中心的 費用。隨后s c h w a b 又開通了語音股票交易系統(tǒng)。美國主要電信運營商s p r i n t 的p c s 部門自2 0 0 0 年來為客戶開通了語音驅(qū)動系統(tǒng),提供客戶服務(wù)、語音撥 號、查號和更改地址等業(yè)務(wù),2 0 0 1 年9 月開通的可以以自然方式對話的咨詢系 統(tǒng),更實現(xiàn)了以自然、開放的詢問方式實時獲得所需要的信息。 我國語音識別研究工作相對國際水平起步較晚,1 9 8 6 年我國高科技發(fā)展計 翅j ( 8 6 3 計劃) 啟動,語音識別作為智能計算機系統(tǒng)研究的一個重要組成部分而被 專門列為研究課題,從此我們開始有組織地進行語音識別技術(shù)的研究。經(jīng)過二 十余年的發(fā)展,理論上也逐漸成熟,越來越多的大學(xué)和研究所加入到語音識別 研究中來。清華大學(xué)的王作英教授提出了一個基于段長分布的非齊次隱馬爾可 夫模型。以此理論為指導(dǎo)所設(shè)計的語音識別聽寫機系統(tǒng)在1 9 9 8 年的全國語音識 別系統(tǒng)8 6 3 評測中取得冠軍,從而顯示了這一新模型的生命力和在這一研究領(lǐng) 域內(nèi)的領(lǐng)先水平。2 0 0 2 年中科院自動化所推出的面向不同計算平臺和應(yīng)用的中 文語音系列產(chǎn)品p a t t e k a s r ,表明我國“8 6 3 高技術(shù)領(lǐng)域的又一重量級核 心技術(shù)破土而出,也是我國首次擁有完全自主知識產(chǎn)權(quán)并形成產(chǎn)品化的語音識 別技術(shù)。 ,國內(nèi)外眾多媒體和專家將語音識別技術(shù)評為2 1 世紀前十年將對人類生活 方式產(chǎn)生重大影響的十大科技進展之一。比爾蓋茨預(yù)測:“未來十年語音技術(shù) 將成為主流。 中國互聯(lián)網(wǎng)絡(luò)中心也預(yù)測:“未來五年,中文語音技術(shù)領(lǐng)域?qū)?有1 3 0 0 億元的市場容量。 3 武漢理工大學(xué)碩士學(xué)位論文 1 3 語音識別系統(tǒng)的分類 一個復(fù)雜的語音識別系統(tǒng),根據(jù)服務(wù)對象、詞匯量大小、工作環(huán)境、發(fā)音 方式、任務(wù)性質(zhì)等諸多因素的不同,可以分為以下幾類1 4 l j : ( 1 ) 按發(fā)音方式分類 按發(fā)音方式語音識別系統(tǒng)可分為孤立詞語音識別系統(tǒng)、連接詞語音識別系 統(tǒng)和連續(xù)語音識別系統(tǒng)。 孤立詞語音識別系統(tǒng)指人在發(fā)音時,以單個詞的發(fā)音方式向語音識別系統(tǒng) 輸入語音,詞與詞之間要有足夠的時間間隙,以便系統(tǒng)能夠檢測到始末點。采 用這種方式的語音識別系統(tǒng)已經(jīng)有了較為成熟的算法,實現(xiàn)起來較為容易。連 接詞語音識別系統(tǒng)指以詞或詞組為發(fā)音單位向系統(tǒng)輸入語音。與孤立詞發(fā)音相 比,這種發(fā)音方式比較自然,且輸入效率也比較高。中小詞匯量連接詞語音識 別系統(tǒng)的識別率目前可以做得很高,并達到了實用水平。連續(xù)語音識別系統(tǒng)指 在輸入語音時,完全按照人的最自然的說話方式輸入。這種系統(tǒng)是最方便的輸 入系統(tǒng),但是,實現(xiàn)起來也是最復(fù)雜和最困難的。 ( 2 ) 按應(yīng)用對象分類 按應(yīng)用對象語音識別系統(tǒng)可分為特定人和非特定人識別系統(tǒng)。特定人的語 音識別系統(tǒng),對于每一個使用者都必須建立專用的參考模板庫。非特定入語音 識別的原則是事先用許多人( 通常3 0 4 0 人) 的語音樣本訓(xùn)練系統(tǒng),使用者無論是 否參加過采樣訓(xùn)練都可以只用一套參考模板,使用該系統(tǒng)進行語音識別。 這兩類系統(tǒng)的應(yīng)用對象大不相同,為了達到良好的識別效果,其系統(tǒng)結(jié)構(gòu)、 特征參數(shù)選擇以及識別方法都可能有極大的差別。對于非特定人的語音識別系 統(tǒng)來說,由于要考慮各種復(fù)雜因素,實現(xiàn)起來要比特定人的語音識別系統(tǒng)困難 得多。 ( 3 ) 按識別詞匯量的大小分類 按詞匯量的大小可分為小詞匯量識別系統(tǒng)、中等詞匯量識別系統(tǒng)、大詞匯 量識別系統(tǒng)和無限詞匯量識別系統(tǒng)。隨著詞匯數(shù)目的增加,潛在的詞間相似性 會增加,系統(tǒng)的搜索運算開銷及存儲開銷相應(yīng)增加,識別系統(tǒng)的難度一般也會 增加。當系統(tǒng)所能識別的詞匯量越大時,實現(xiàn)起來就越困難 9 , 4 1 1 。 4 武漢理工大學(xué)碩士學(xué)位論文 1 4 本文研究的主要內(nèi)容 目前,語音識別系統(tǒng)大多采用模式匹配的原理。本文分析完整的語音識別 系統(tǒng)的系統(tǒng)結(jié)構(gòu)和系統(tǒng)的各個模塊,利用蟻群算法優(yōu)化機制,結(jié)合傳統(tǒng)的d t w 算法,設(shè)計出一種蟻群動態(tài)時間規(guī)劃算法?;诒菊n題的研究內(nèi)容和主要工作, 本文的結(jié)構(gòu)如下: 第一章主要介紹了本課題的背景、目的和意義,同時介紹了語音識別的國 內(nèi)外研究現(xiàn)狀。 第二章分析完整的語音識別系統(tǒng)的系統(tǒng)結(jié)構(gòu)與系統(tǒng)的各個模塊,討論了語 音的預(yù)處理、端點檢測等識別技術(shù),并討論了經(jīng)典的語音特征參數(shù),即線性預(yù) 測倒譜系數(shù)( l p c c ,l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t ) 和m e l 頻率倒譜系 數(shù)( m f c c ,m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ) 以及經(jīng)典模版匹配識別技術(shù) ( d t w ,d y n a m i ct i m ew a r p i n g ) ,為后來的蟻群動態(tài)時間規(guī)劃算法的引入打下基 礎(chǔ)。 第三章詳細介紹了經(jīng)典蟻群算法的的原理及特點,結(jié)合傳統(tǒng)的d t w 算法, 提出基于蟻群算法的動態(tài)時間規(guī)劃算法,詳細介紹了基于蟻群算法的動態(tài)時問 規(guī)劃算法的基本原理,螞蟻構(gòu)造路徑,信息素更新機制。 第四章采用蟻群動態(tài)時間規(guī)劃算法實現(xiàn)語音識別系統(tǒng),對語音信號的預(yù)處 理、端點檢測以及特征提取進行了仿真實現(xiàn),并與d t w 算法對比做了動態(tài)時 間規(guī)劃的仿真試驗。 第五章進行了系統(tǒng)的總結(jié)以及對進一步工作的展望。 5 武漢理工大學(xué)碩十學(xué)位論文 第2 章語音識別系統(tǒng)的系統(tǒng)結(jié)構(gòu)分析 2 1 語音識別系統(tǒng)總體結(jié)構(gòu) 從總體上看,語音識別處理過程可以由一個框架來表示。其結(jié)構(gòu)如圖2 1 所示。從這個總體結(jié)構(gòu)可以看出:語音識別對輸入的語音信號首先要進行預(yù)處 理,對信號進行適當放大和增益控制,并進行預(yù)加重和端點檢測。然后進行數(shù) 字化,將模擬信號轉(zhuǎn)化為數(shù)字信號以便用計算機來處理,接著進行特征提取, 用反映語音信號特點的若干特征參數(shù)來代表話音。對特征參數(shù)的要求是:( 1 ) 提 取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性;( 2 ) 各階參數(shù)之間有 良好的獨立性;( 3 ) 特征參數(shù)要計算方便,最好有高效的計算方法,以保證語音 識別的實時實現(xiàn)。常用的特征包括短時平均能量或幅度、短時平均過零率、短 時自相關(guān)函數(shù)、線性預(yù)測系數(shù)、短時傅里葉變換和倒譜等。 i 一_ 一一j 圖2 - 1 語音識別系統(tǒng)的原理框圖 果 語音識別技術(shù)分為兩個階段:訓(xùn)練階段和識別階段。在訓(xùn)練階段,對用特 征參數(shù)形式表示的語音信號進行相應(yīng)的處理,獲得表示識別基本單元共性特點 的標準數(shù)據(jù),以此構(gòu)成參考模板,將所有能識別的基本單元的參考模板結(jié)合在 一起,形成參考模式庫;在識別階段,將待識別的語音經(jīng)特征提取后逐一與參 考模式庫中的各個模板按某種原則進行比較,找出最相像的參考模板所對應(yīng)的 發(fā)音,即為識別結(jié)果1 7 j 。 6 武漢理t 大學(xué)碩士學(xué)位論文 2 2 語音信號的預(yù)處理與端點檢測 2 2 1 語音信號的采樣與預(yù)加重 根據(jù)n y q u s t i 采樣定理,如果模擬信號的頻譜帶寬是有限的( 例如不包含高 于無的頻率成分) ,那么用不小于2 厶的取樣領(lǐng)率進行取樣,則能從取樣信號中 恢復(fù)出原模擬信號【8 】。就語音信號而言,濁音語音的頻譜一般在4 k h z 以上便迅 速下降,而清音語音信號的頻譜在4 k h z 以上頻段反而呈上升趨勢,甚至超過 了8 k h z ,以后仍然沒有明顯下降的趨勢【s 】。因此,為了精確表示語音信號,一 般認為必須保留1 0 k h z 以下的所有頻譜成分,這意味著采樣頻率應(yīng)當?shù)扔诨虼?于2 0 k h z 。但是在許多實際應(yīng)用中并不需要采用這么高的取樣頻率,實驗表明 對語音清晰度和可懂度有明顯影響的成分,最高頻率約為5 7 k h z 。例如 i t u ( i n t e m a t i o n a lt e l e e o m m u n i e a t i o n u n i o n ,國際電信聯(lián)盟) 在g 7 2 9 中提出的語 音編解碼系統(tǒng)采樣頻率為8 k h z ,只利用了3 4 k h z 以內(nèi)的語音信號分量p ,1 0 1 ,雖 然這樣的采樣頻率對語音清晰度是有損害的,但受損失的只是少數(shù)輔音,而語 音信號本身的冗余度又比較大,少數(shù)輔音清晰度下降并不明顯影響語句的可懂 度。因此語音識別時常用的采樣頻率為8 k h z 、1 0k h z 或1 6k h z 。本課題采用 了8 k h z 和1 6 k h z 兩種采樣頻率進行試驗。 語音信號在采樣之前要進行預(yù)濾波處理。預(yù)濾波的目的是:( 1 ) 抑制輸入信 號各頻率分量中頻率超過f 2 的所有分量( ,= 為采樣頻率) ,以防止混疊干擾; ( 2 ) 抑制5 0 h z 的電源干擾。進行預(yù)預(yù)濾波處理后,再采用合適的采樣頻率進行 采樣。目前,較好的聲卡通常都帶有帶通濾波器。 由于語音信號的平均功率譜受到聲門激勵和口鼻輻射的影響,語音信號從 嘴唇輻射后有6 d b o c t ( 倍頻程) 的衰減。因此,在對語音信號進行分析之前, 要對語音信號的高頻部分加以提升,利用在處理前提升聲音中高頻達到減小噪 聲的效果,使得語音信號的頻譜變得平坦,壓縮信號器的動態(tài)范圍,提高信噪 比。提升的方法有兩種:其一是用模擬電路實現(xiàn);其二是用數(shù)字電路實現(xiàn)。采 用數(shù)字電路實現(xiàn)6 d b o c t 預(yù)加重的數(shù)字濾波器的形式為: ) ,( 刀) = x ( 刀) 一c t x ( n 一1 )( 2 1 ) 其中:x ( n ) 為原始語音序列;y ( n ) 為預(yù)加重后的序列:口為預(yù)加重系數(shù)。 通常,a 的值取0 9 1 0 之間的數(shù),通常取o 9 8 或者o 9 7 1 1 】。本課題采用口= o 9 8 7 武漢理工大學(xué)碩士學(xué)位論文 進行語音的預(yù)加重。 2 2 2 語音信號的加窗 語音信號是一種典型的非平穩(wěn)信號,其特性是隨時間變化的。但是,語音 的形成過程是與發(fā)音器官的運動密切相關(guān)的,這種物理運動比起聲音振動速度 來講要緩慢得多,因此語音信號常??杉俣槎虝r平穩(wěn)的,即在1 0 - - 2 0 m s 這樣 的時間段內(nèi),其頻譜特性和某些物理特征參量可近似地看作是不變的。這樣, 就可以采用平穩(wěn)過程的分析處理方法來處理了。由此導(dǎo)出了各種“短時”處理 方法,以后討論的各種語音特征參數(shù)的提取都基于這個假定。這種依賴于時間 處理的基本方法,是將語音信號分隔為一些短段( 幀) 再加以處理。這些幀就好 像是來自一個具有固定特性的持續(xù)語音片段一樣,一般都按要求重復(fù)( 常是周期 的) ,對每幀語音進行處理就等效于對固定特性的持續(xù)語音進行處理。短段之間 彼此經(jīng)常有一些重疊,對每一幀的處理結(jié)果是一個數(shù)或是一組數(shù)【i 2 】。經(jīng)過處理 后將從原始語音序列產(chǎn)生一個新的依賴于時間的序列,被用于描述語音信號的 特征。 設(shè)原始語音信號采樣序列為x ( 聊) ,將其分成短段等效于乘以幅度為1 的移 動窗x ( n m ) 。當移動窗幅度不是l 而是按一定函數(shù)取值時,所分成的短段語 音的各個取樣值將受到一定程度的加權(quán)。 對語音信號的各個短段進行處理,實際上就是對各個短段進行某種變換或 施以某種運算,其一般式為: 二竺 q = x ( 塒) 】w 0 一m ) ( 2 - 2 ) 其中砸木 表示某種變換,它可以是線性的也可以是非線性的,x ( 朋) 為輸入 語音信號序列。q 是所有各段經(jīng)過處理后得到的一個時間序列。 對語音信號加窗時,用的最多的三種窗函數(shù)是矩形窗、漢明窗( h a m m i n g ) 、 漢寧窗( h a n n i n g ) ,其定義分別為: :1 ) 矩形窗:w ( n ) : 2o 以上,- 1 ( 2 - 3 ) 8 武漢理工大學(xué)碩十學(xué)位論文 漢明窗:w :卜4 一o 4 6 c 。s ( 罟) ;o n n o i s e m a x ( n o i s e m a x 為噪聲上限) s g n x ( n ) 】= 一1x ( 刀) n o i s e m a x ( n o i s e m a x 為噪聲下限) ( 2 9 ) is g n x ( n ) 】= 0 o t h e r w i s e r v ( 喲2 素o 露一i ( n 為一陣聲音的長度) ( 2 - 1 0 ) 【( 刀) = o d t h e r w i s e 有噪聲的情況下,單純用短時能量或者短時過零率不能準確檢測出語音信 號。本課題采用短時能量和短時過零率相結(jié)合的方法,利用短時能量和短時過 零率兩個門限來確定語音信號的起點和終點,目的是從采集到的語音信號中分 離出真正的語音信號作為系統(tǒng)處理的對象。 2 3 特征參數(shù)的提取 語音識別的首要步驟是特征提取,有時也稱為前端處理,與之相關(guān)的內(nèi)容 則是特征間的距離度量。所謂特征提取,即對不同的語音尋找其內(nèi)在特征,由 此來判別出未知語音,所以每個語音識別系統(tǒng)都必須進行特征提取。特征的選 擇對識別效果至關(guān)重要,選擇的標準應(yīng)體現(xiàn)對異音字之問的距離盡可能大,而 同音字之間的距離應(yīng)盡可能小。若以前者距離與后者距離之比為優(yōu)化準則確定 目標量,則應(yīng)是該量最大。同時,還要考慮特征參數(shù)的計算量,應(yīng)在保持高識 別率的情況下,盡可能減少特征維數(shù),以減小存儲要求并利于實時實現(xiàn)1 1 只1 6 j 。 語音的特征參數(shù)多種多樣,在實際應(yīng)用中,可以根據(jù)需要選擇不同的語音 參數(shù)或幾種參數(shù)的組合。在語音識別中經(jīng)常用到的特征參數(shù)有l(wèi) p c 倒譜參數(shù) ( l p c c ) 和m e l 頻率倒譜參數(shù)( m f c c ) 等。 1 0 武漢理工大學(xué)碩士學(xué)位論文 2 3 1 線性預(yù)測系數(shù) 線性預(yù)測( l i n e a rp r e d i c t i o n ) 基本思想是由于語音信號樣點之間存在相關(guān) 性,所以可以用過去的樣點值來預(yù)測現(xiàn)在或未來的樣點值,即一個語音的抽樣 能夠用過去若干個語音抽樣的線性組合來逼近,通過使實際語音信號抽樣值和 線性預(yù)測抽樣值之間的誤差在均方準則下達到最小值來求解預(yù)測系數(shù),而這組 預(yù)測系數(shù)就反映了語音信號的特征,故可以用這組語音特征參數(shù)進行語音識別 或語音合成等。 ( 1 ) 線性預(yù)測的基本原理 若一個隨機過程用一個p 階的全極點系統(tǒng)受白噪聲激勵產(chǎn)生的輸出來模 擬,設(shè)這個系統(tǒng)的傳遞函數(shù)為: ,1 h ( z ) = s ( z ) u ( z ) = l 一 ( 2 - 1 1 ) l 一鯫s 以 七= l 其中g(shù) 為增益常數(shù),s ( z ) 和u ( z ) 分別為輸出信號s 0 ) 和輸入信號“0 ) 的 z 變換,那么s 0 ) 和u ( n ) 的關(guān)系可以表示為差分方程: s ( 月) = 嚷s ( 聹一七) t 劬( 刀) ( 2 一1 2 ) k = l 觀察上式,可以將與 ) 有關(guān)的部分理解為用信號的前p 個樣本來預(yù)測當 前樣本,即定義預(yù)測器: s ( 甩) = a k s ( 刀一尼) ( 2 一1 3 ) k = l 由于預(yù)測系數(shù) 吼) 在預(yù)測過程中看作常數(shù),所以它是一種線性預(yù)測器,這 種預(yù)測器最早用于語音編碼,因此稱為線性預(yù)測編碼( l i n e a rp r e d i c t i v ec o d i n g , l p c ) ,該預(yù)測器的系統(tǒng)函數(shù)為: 日( s ) = 吼s 。 ( 2 1 4 ) 可見,如果信號s ( n ) 符合公式( 2 1 1 ) 所描述的模型假定, 作為線性預(yù)測器對信號s ( n ) 的預(yù)測,其誤差應(yīng)為: e ( n ) = g u ( n ) 那么用公式( 2 1 3 ) ( 2 1 5 ) 武漢理工大學(xué)碩十學(xué)位論文 但是,實際信號不是精確地符合這個假定,因此實際的預(yù)測誤差應(yīng)為: “p p ( ,1 ) = s ( 刀) 一s ( 刀) = s ( n ) - q s ( n - k ) ( 2 1 6 ) k = l 上式表明預(yù)測誤差序列是信號s ( 刀) 通過一個具有如下系統(tǒng)函數(shù)產(chǎn)生的輸 出: a ( s ) = l - q s 。 ( 2 1 7 ) 比較上式與式( 2 1 1 ) 可知,k = ,叫i 誤差濾波器彳( z ) 是系統(tǒng)日( z ) 的逆濾波器, 即: 彳( s ) = g 日( z )( 2 1 8 ) 由于給定的只有信號s ( ,1 ) 和一個未知的模型公式( 2 一l1 ) ,要想這個模型盡可 能精確地描述信號s 仞) ,應(yīng)使公式( 2 1 6 ) 所得到的預(yù)測誤差在某一短時的總能量 盡可能小,并在此準則下求出最佳預(yù)測系數(shù) 吼 。為此定義短時平均預(yù)測誤差 能量: e = ( ) :軍 s 。( ,) s 。;) 2 ( 2 - ,9 ) = 咖滬p 叩。( j - k ) k = l = l ( ) 一叩。l l j 其中( ,) 是在抽樣點n 附近選擇的一個語音幀,即: ( ) = s ( ,z + _ ,) ( 2 2 0 ) 使公式2 1 9 中e 為最小的 ) 必定滿足 璺:o ( 凈1 ,2 ,p ) 動: 、。 由此便得到以 鯫) 為變量的線性方程組: 噸a ( i ,尼) = 吮( f ,o ) i = 1 ,2 ,p 其中: ( 2 2 1 ) ( 2 - 2 2 ) 以( f ,尼) = s ( j - i ) s 。( j - k ) ( 2 - 2 3 ) j 1 2 武漢理t 大學(xué)碩士學(xué)位論文 該線性方程組通常有唯一解,一旦解出其中的變量 q ,便可得到一種最 小預(yù)測誤差能量計算公式: e = s :( 歹) 一嘎氏( ) & ( j - k ) 7 掃1 f 2 2 4 ) = 九( o ,o ) - 吒九( o ,七) k = l 由公式( 2 1 6 ) 計算出的最小預(yù)測誤差序列e ( n ) 稱為預(yù)測殘差序列。e 就是 預(yù)測殘差能量。 對于增益因子g ,因為其在短時內(nèi)為一個常數(shù)。根據(jù)公式( 2 1 5 ) 矛1 ( 2 1 6 ) , 有: n - i e = p 2 ( ) = g 2 甜2 ( ) ( 2 2 5 ) ,= l 若所分析的信號s ( n ) 符合公式( 2 1 1 ) 所定義的模型,那么輸入信號“印) 可以 認為是一個單位方差的白噪聲序列。如果只考慮s ( n ) 被一短時窗截得的部分, 那么輸入信號也可以是一個單位脈沖序列6 ( 尼) 。在這種情況下,可以得出: n 一 g=e(2-26) 事實上,語音信號可以近似認為由清音和濁音組成的信號,。對于濁音,激 勵p ( 咒) 是以基音周期重復(fù)的單位沖激;對于清音,e ( ,z ) 接近白噪聲,所以上述 模型的假定能獲得較好的效果【4 2 1 。 ( 2 ) 求解線性預(yù)測方程組的程序?qū)崿F(xiàn) 由前面介紹的線性預(yù)測原理可知在建立說話人識別模型的同時確定了線性 預(yù)測系數(shù)為變量的線性方程組,即公式( 2 2 2 ) ,重新將其定義如下: q 吮( i ,七) = 允( f ,o ) i = 1 ,2 ,p ( 2 2 7 ) k = l 其中吮( f ,k ) 只給出了以下形式: q k , ( i ,尼) = j 。( j - i ) x s ( j - k ) ( 2 - 2 8 ) j 上式計算織( f ,k ) 中歹的求和范圍沒有給定。通常丸( f ,k ) 可以定義為自相關(guān) 函數(shù),方程組( 2 2 4 ) 有多種解法,以下給出d u r b i n 遞推算法【4 3 1 ,該遞推程序如 下: 1 3 武漢理工大學(xué)碩士學(xué)位論文 ( 1 ) 給定預(yù)測器階數(shù)p ; ( 2 ) 計算短時自相關(guān)函數(shù)尺( ,) ,= o ,1 ,p ; ( 3 ) 計算k 1 = 一r ( 1 ) r ( o ) ; ( 4 ) 計算以y 2 k ; ( 5 ) 爿一) 2 j 胛) ; ( 6 ) 令m = 2 ; ( 7 ) 。川朋) + 藝q i - i ) ;m k :- i m r ( 1 i - m 1 ) :k ;( 7 ) 伽 一r ( 朋) + q _ 1i ;= 伽; ( 8 ) 口;,= 珥m - 1 + k “) 口:,i = 1 ,2 ,( ,挖一1 ) ; ( 9 ) m p 由于l p c 階數(shù)p 一般取1 4 ,要小于一幀語音采樣點數(shù)m ,因此l p c c 只 代表h ( ,z ) ( 刀= 1 ,2 ,m ) 的前p 個值。若倒譜分析階數(shù)大于p 時,由式( 2 3 4 ) 的 第四部分即可求出。實驗發(fā)現(xiàn)倒譜分析階數(shù)取1 6 能較好地表征語音的特征參 數(shù)。 l p c c 反映的是說話人聲道特征。這個倒譜是從一幀短時語音段中獲取的, 是語音在某一時刻某一幀的倒譜。它反映了語音信號倒譜的靜態(tài)信息,故稱為 靜態(tài)倒譜。由于語音信號的緩變特性,任意時刻的某一幀倒譜將有所不同,即 靜態(tài)倒譜將隨時間作緩慢變化,這個變化的軌跡即倒?jié)摰膭討B(tài)信息。短時譜隨 時間的變化表示為: y + a o 塑嬰塑e - j n( 2 35 ) 急d t 上式只能用有限差分近似,利用在有限長窗函數(shù)內(nèi)的多項式來擬合倒譜系 數(shù)的軌跡。一階正交多項式系數(shù),即時間上的廣義譜斜率可表示為a h 加) ( f ) 。 燮磐5 h 壩歸kk w , h 壩f 州量吸七2 ( 2 - 3 6 ) “ k = - k k = - k 其中吸是長為2 k + l 的窗,a h ( 刀) ( f ) 稱為動態(tài)倒譜。 由于選用的兩種倒譜一個反映了靜態(tài)信息,另一個反映了動態(tài)信息,兩者 互相補償,充分表征了說話人聲道模型。 語音的基音頻率是聲帶振動的基本頻率,它反映了聲帶激勵源的特點?;?音容易被模仿,不宜單獨使用,但它可以與倒譜參數(shù)相結(jié)合。由于倒譜參數(shù)和 基音參數(shù)分別描述了說話人聲道、聲帶特征,從而可以充分反映說話人特征。 l p c c 的各種變形,例如差分倒譜、倒譜加權(quán)、自適應(yīng)分量加權(quán)倒譜、倒 譜均值減、a r m a 模型的零極點倒譜、r a s t a 倒譜等也已成功地應(yīng)用在噪聲 語音特征提取中。 1 7 武漢理j 二大學(xué)碩十學(xué)位論文 2 3 3m e l 頻率倒譜參數(shù) l p c 模型是基于語音發(fā)音機理的,描述的是聲道特性,l p c c 系數(shù)也是基 于合成的參數(shù),這種參數(shù)沒有充分利用人耳的聽覺特性。在語音識別中,常用 的語音特征是基于m e l 頻率的倒譜系數(shù)( m e lf r e q u e n e yc e p s t r u mc o e m c i e n t , m f c c ) 。由于m f c c 參數(shù)是將人耳的聽覺感知特性和語音的產(chǎn)生機制相結(jié)合, 因此目前大多數(shù)語音識別系統(tǒng)中廣泛使用這種特征。 人耳具有一些特殊的功能,這些功能使得人耳在嘈雜的環(huán)境中,以及各種 變異情況下仍能正常地分辨出各種語音,其中耳蝸起了很關(guān)鍵的作用。耳蝸實 質(zhì)上相當于一個濾波器組,耳蝸的濾波作用是在對數(shù)頻率尺度上進行的,在 1 0 0 0 h z 以下為線性尺度,而1 0 0 0 h z 以上為對數(shù)尺度,這就使得入耳對低頻信 號比對高頻信號更敏感。根據(jù)這一原則,研究者根據(jù)心理學(xué)實驗得到了類似于 耳蝸作用的一組濾波器組,這就是m e l 頻率濾波器組。 m e l 頻率倒譜系數(shù)是將信號的頻譜,首先在頻域?qū)㈩l率軸變換為m e l 頻率 刻度,再變換到倒譜域得到的倒譜系數(shù)。 m e l ,是音高的單位,音高是一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026貴州黔南州三都縣中國移動公司招聘14人備考題庫帶答案詳解(考試直接用)
- 2026浙江省財開集團有限公司社會招聘備考題庫及一套參考答案詳解
- 2026年低功耗智能計算項目可行性研究報告
- 2026江西省撫州市直屬學(xué)校招聘碩士研究生60人備考題庫附答案詳解(研優(yōu)卷)
- 2026年衛(wèi)星健康監(jiān)控系統(tǒng)項目可行性研究報告
- 2026江蘇淮安淮陰工學(xué)院招聘工作人員120人備考題庫附答案詳解(滿分必刷)
- 2026浙江杭州市西湖區(qū)西廬幼兒園招聘幼兒教師1人備考題庫(非事業(yè))附答案詳解(能力提升)
- 2026河南省科學(xué)院激光制造研究所招聘20人備考題庫附答案詳解(奪分金卷)
- 2026河南南陽市書院高中教師招聘4人備考題庫帶答案詳解(鞏固)
- 2026湖南常德市柳葉湖旅游度假區(qū)開發(fā)公益性崗位備考題庫及答案詳解(基礎(chǔ)+提升)
- 鉆探施工安全培訓(xùn)
- 博士組合物使用指南
- 高校輔導(dǎo)員隊伍建設(shè)基本情況報告
- 《相變儲熱供暖工程技術(shù)標準》
- 安裝防雨棚合同協(xié)議書
- DL∕T 1917-2018 電力用戶業(yè)擴報裝技術(shù)規(guī)范
- 光伏維修維保合同
- CJJ 82-2012 園林綠化工程施工及驗收規(guī)范
- 黑龍江商業(yè)職業(yè)學(xué)院單招《語文》考試復(fù)習(xí)題庫(含答案)
- 變壓器借用合同范本
- 新員工廉潔從業(yè)培訓(xùn)課件
評論
0/150
提交評論