基于Matlab的語音識別系統(tǒng)的設計_第1頁
基于Matlab的語音識別系統(tǒng)的設計_第2頁
基于Matlab的語音識別系統(tǒng)的設計_第3頁
基于Matlab的語音識別系統(tǒng)的設計_第4頁
基于Matlab的語音識別系統(tǒng)的設計_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

語音識別主要是讓機器聽懂人說的話,即在各種情況下,準確地識別出語音的內容,從而根據(jù)其信息執(zhí)行人的各種意圖。語音識別技術既是國際競爭的一項重要技術,也是每一個國家經(jīng)濟發(fā)展不可缺少的重要技術支撐。本文基于語音信號產(chǎn)生的數(shù)學模型,從時域、頻域出發(fā)對語音信號進行分析,論述了語音識別的基本理論。在此基礎上討論了語音識別的五種算法:動態(tài)時間伸縮算法①ynamicTimeWarpingDTW)、基于規(guī)則的人工智能方法、人工神經(jīng)網(wǎng)絡(ArtificialNeuralNetwork,ANN)方法、隱馬爾可夫(HiddenMarkovModel,HMM)方法、HMM和ANN的混合模型。重點是從理論上研究隱馬爾可夫但乂乂)模型算法,對經(jīng)典的HMM模型算法進行改進。語音識別算法有多種實現(xiàn)方案,本文采取的方法是利用Matlab強大的數(shù)學運算能力,實現(xiàn)孤立語音信號的識別。Matlab是一款功能強大的數(shù)學軟件,它附帶大量的信號處理工具箱為信號分析研究,特別是文中主要探討的聲波分析研究帶來極大便利。本文應用隱馬爾科夫模型(HMM)為識別算法,采用MFCC(MEL頻率倒譜系數(shù))為主要語音特征參數(shù),建立了一個漢語數(shù)字語音識別系統(tǒng),其中包括語音信號的預處理、特征參數(shù)的提取、識別模板的訓練、識別匹配算法;同時,提出利用Matlab圖形用戶界面開發(fā)環(huán)境設計語音識別系統(tǒng)界面,設計簡單,使用方便,系統(tǒng)界面友好。經(jīng)過統(tǒng)計,識別效果明顯達到了預期目標。關鍵詞:語音識別算法;HMM模型;Matlab;GUIABSTRACTSpeechRecognitionisdesignedtoallowmachinestounderstandwhatpeoplesay,andaccuratelyidentifythecontentsofvoicetoexecutetheintentofpeople.Speechrecognitiontechnologyisnotonlyanimportantinternationallycompetedtechnology,butalsoanindispensablefoundationaltechnologyforthenationaleconomicdevelopment.Basedonthemathematicalmodelfromthespeechsignal,thispaperanalyzeaudiosignalfromthetimedomain,frequencydomainproceeding,anddiscussedthebasictheoryofspeechrecognitiontechnology.Fivealgorithmarediscussed:DynamicTimeWarping(DTW)、Rule-basedArtificialIntelligence,ArtificialNeuralNetwork(ANN),HiddenMarkovModel(HMM),HMMcombinedwithANN.ThefocusisputinthetheoreticalstudiesofHiddenMarkov(HMM)modelalgorithm,andtheclassicalHMMalgorithmisimproved.Speechrecognitionalgorithmisrealizedinvariousprograms,thisarticletakingthemethodistouseMatlabpowerfulmathematicaloperationabilitytorealizetherecognitionofspeechsignalisolation.Matlabisapowerfulmathematicsoftwarewithamassoftoolboxesdealingwithsignalprocessing.Itgivesaterrificshortcuttotheresearchofsignalprocessing,especiallythewaveanalysis.Wecancharacterizethesoundwithkeyparameterssuchasintensity,frequencyetc.Inthispaper,hiddenMarkovmodel(HMM)recognitionalgorithmusingMFCC(MELfrequencycepstralcoefficients)asthemainvoicecharacteristicparameters,theestablishmentofaChinesedigitalspeechrecognitionsystem,includingthepreprocessingofthespeechsignal,theextractionofcharacteristicparametersthetrainingoftherecognitiontemplate,identifyingmatchingalgorithm;thesametime,theuseofMatlabgraphicaluserinterfacedevelopmentenvironmentdesignedspeechrecognitionsysteminterface,isdesignedtobesimple,easytouse,friendlyinterface.Besides,tohaveasimpleexplorationofthevoicerecognitionisanothertarget.Afterstatistics,recognitionresultobviouslyismadeoutastheexpectedgoal.Keywords:Speechrecognitionalgorithm;HMMmodel;Matlab;GUIII目錄TOC\o"1-5"\h\z\o"CurrentDocument"一、前言 1\o"CurrentDocument"語音識別的發(fā)展歷史 1\o"CurrentDocument"語音識別研究現(xiàn)狀 1\o"CurrentDocument"語音識別系統(tǒng)的分類 2\o"CurrentDocument"語音識別系統(tǒng)的基本構成 3\o"CurrentDocument"語音識別技術難點 3\o"CurrentDocument"語音識別發(fā)展前景 4\o"CurrentDocument"二、語音信號分析 4\o"CurrentDocument"語音學知識 4\o"CurrentDocument"音素和音節(jié) 5\o"CurrentDocument"漢語的聲調 5\o"CurrentDocument"語音信號產(chǎn)生模型 6\o"CurrentDocument"語音信號數(shù)字化和預處理 7\o"CurrentDocument"數(shù)字化 7\o"CurrentDocument"預加重處理 7\o"CurrentDocument"防混疊濾波 8\o"CurrentDocument"加窗處理 8\o"CurrentDocument"語音信號的時域分析 9\o"CurrentDocument"短時能量分析 9\o"CurrentDocument"短時平均過零率 11\o"CurrentDocument"短時自相關函數(shù)和短時平均幅度差函數(shù) 12\o"CurrentDocument"語音端點檢測 13\o"CurrentDocument"語音信號的頻域分析 14\o"CurrentDocument"濾波器組法 14\o"CurrentDocument"傅立葉頻譜分析 14\o"CurrentDocument"特征參數(shù)提取 15\o"CurrentDocument"LPCC倒譜系數(shù) 15\o"CurrentDocument"Mel頻率倒譜系數(shù) 16\o"CurrentDocument"三、語音識別主要算法 17\o"CurrentDocument"動態(tài)時間伸縮算法 17\o"CurrentDocument"基于規(guī)則的人工智能方法 18\o"CurrentDocument"人工神經(jīng)網(wǎng)絡方法 19\o"CurrentDocument"隱馬爾可夫方法 20\o"CurrentDocument"HMM和ANN的混合模型 21\o"CurrentDocument"四、隱含馬爾可夫模型算法 23\o"CurrentDocument"HMM的基本理論和數(shù)學描述 23\o"CurrentDocument"HMM的三個基本問題及解決算法 24\o"CurrentDocument"HMM算法的改進 31IIITOC\o"1-5"\h\z\o"CurrentDocument"HMM的結構和類型 33\o"CurrentDocument"HMM算法實現(xiàn)的問題 34\o"CurrentDocument"五、基于Matlab環(huán)境下的語音識別算法實現(xiàn) 35\o"CurrentDocument"識別系統(tǒng)平臺介紹 35\o"CurrentDocument"在Matlab中HMM算法的實現(xiàn) 36\o"CurrentDocument"端點檢測 36\o"CurrentDocument"特征參數(shù)提取 36\o"CurrentDocument"訓練和識別 37\o"CurrentDocument"實驗結論分析 38\o"CurrentDocument"六、結束語 39回顧 39展望 39\o"CurrentDocument"七、致謝 40\o"CurrentDocument"參考文獻 40IV河南理工大學畢業(yè)設計(論文)說明書一、前言語音識別的發(fā)展歷史作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別技術一直受到各國科學界的廣泛關注。以語音識別開發(fā)出的產(chǎn)品應用領域非常廣泛,有聲控電話交換、語音撥號系統(tǒng)、信息網(wǎng)絡查詢、家庭服務、賓館服務、旅行社服務系統(tǒng)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務、銀行服務、股票查詢服務、計算機控制、工業(yè)控制、語音通信系統(tǒng)、軍事監(jiān)聽、信息檢索、應急服務、翻譯系統(tǒng)等,幾乎深入到社會的每個行業(yè)、每個方面,其應用和經(jīng)濟社會效益前景非常廣泛。因此語音識別技術既是國際競爭的一項重要技術,也是每一個國家經(jīng)濟發(fā)展不可缺少的重要技術支撐。研究語音識別,開發(fā)相應的產(chǎn)品有著廣泛的社會意義和經(jīng)濟意義。語音識別中的說話人辨認的研究始于20世紀30年代。早期的工作主要集中在人耳聽辨試驗和探討聽音識別的可能性方面。Bell實驗室的L.G.Kesta目視觀察語譜圖進行識別,提出了“聲紋(Voiceprint)”的概念。Bell實驗室的S.Pruzansky提出了模版匹配和概率統(tǒng)計方差分析的聲紋識別方法,形成了聲紋識別研究的一個高潮。60年代末和70年代初語音識別最重要的發(fā)展是語音信號線性預測編碼(LPC)技術和動態(tài)時間規(guī)整(DTW)技術,有效地解決了語音的特征提取和時間不等長匹配問題,對特定人的語音識別十分有效。研究特點是以孤立字語音識別為主,通常把孤立字作為一個整體來建立模板。80年代,語音識別研究的重點之一是連接詞語音識別,開發(fā)了各種連接詞語音識別和關鍵詞識別算法,如多級動態(tài)規(guī)劃語音識別算法。另一個重要發(fā)展是語音識別算法從模板匹配技術轉向基于統(tǒng)計模型技術。語音識別研究現(xiàn)狀20世紀90年代后,在細化模型的設計、參數(shù)提取和優(yōu)化,以及系統(tǒng)的自適應技術上取得了一些關鍵進展。語音識別技術進一步成熟,并開始向市場提供產(chǎn)品。由于中國的國際地位不斷提高,以及在經(jīng)濟和市場方面所處的重要地位,漢語語音識別也越來越受到重視。IBM、Microsoft.L&H等公司相繼投入到漢語語音識別系統(tǒng)的開發(fā)中,其投資也逐年增加。IBM開發(fā)的Viavoice和Microsoft開發(fā)的中文識別引擎代表了當前漢語語音識別的最高水平。臺灣的一些大學和研究所也開發(fā)出大詞匯量非特定人連續(xù)語音識別演示系統(tǒng)。日本也先后在語音識別領域大展頭角,還有如Philips公司開發(fā)的Speech—Media和SpeechPearl兩套軟件,涵蓋了自然語音識別與理解的對話系統(tǒng)。我國語音識別研究工作近年來發(fā)展很快,同時也從實驗室逐步走向實用。從1987年開始執(zhí)行863計劃后,國家863《智能計算機主題》專家組為語音識別研究立項。每兩年滾動一次,從1991年開始,專家組每一至二年舉行一次全國性的語音識別系統(tǒng)測試。漢語語音識別研究已經(jīng)走上組織化的道路。目前我國大詞匯量連續(xù)語音識別系統(tǒng)的研究已經(jīng)接河南理工大學畢業(yè)設計(論文)說明書近國外最高水平。語音識別發(fā)展到一定階段,世界各國都加快了語音識別引用系統(tǒng)的研究開發(fā),通常連續(xù)語音是含有較完整語法信息的連續(xù)語句,最接近于人的自然講話方式,從非連續(xù)語音到連續(xù)語音的研究面臨著很多完全不同的技術難點,非連續(xù)語音的識別是一些孤立的聲波片段,連續(xù)語音則面臨著如何切分聲波的問題。諸如此類的新問題使連續(xù)語音識別率的提高比非連續(xù)語音更加困難。經(jīng)過幾十年的發(fā)展和摸索,人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個特性一起集中于一個系統(tǒng)中,并以此確定了統(tǒng)計方法和模型在語音識別和語音處理中的主流地位。在聲學識別層次,以多個說話人發(fā)音的大規(guī)模語音數(shù)據(jù)為基礎,以馬爾可夫鏈為基礎的語音序列建模方法HMM(隱含馬爾可夫模型)比較有效的解決了語音信號短時穩(wěn)定、長時時變的特性,并且能根據(jù)一些基本建模單元構造成連續(xù)語音的句子模型,達到了比較高的建模精度和建模靈活性。目前在語音識別研究領域非常活躍的課題為穩(wěn)健語音識別、說話人自適應技術、大詞匯量關鍵詞識別算法、語音識別的可信度評測算法、基于類的語言模型和自適應語言模型,以及深層次的自然語音的理解。研究的方向也越來越側重于口語對話系統(tǒng)。語音識別系統(tǒng)的分類語音識別是近年來十分活躍的一個研究領域。在不遠的將來,語音識別技術有可能作為一種重要的人機交互手段,輔助甚至取代傳統(tǒng)的鍵盤、鼠標等輸入設備,在個人計算機上進行文字錄入和操作控制。本文介紹了語音識別的基本流程、所用到的語音參數(shù)算法、語音識別的訓練算法和識別算法做初步的探究,主要運用了特定人孤立詞識別的DTW算法和非特定人識別的連續(xù)HMM算法的Matlab識別系統(tǒng)。語音識別按說話人的講話方式可分為孤立詞(IsolatedWord)識別、連接詞(ConnectedWord)識別和連續(xù)語音(ContinuousSpeech)識別。孤立詞識別是指說話人每次只說一個詞或短語,每個詞或短語在詞匯表中都算作一個詞條,一般用在語音電話撥號系統(tǒng)中。連接詞語音識別支持一個小的語法網(wǎng)絡,其內部形成一個狀態(tài)機,可以實現(xiàn)簡單的家用電器的控制,而復雜的連接詞語音識別系統(tǒng)可以用于電話語音查詢、航空定票等系統(tǒng)。連續(xù)語音識別是指對說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機。顯然,連續(xù)非特定人語音識別的難度要大得多,因為不僅有說話人口音的問題,還有協(xié)同發(fā)音、斷字斷句、搜索等問題,除了考慮語音的聲學模型外還要涉及到語言模型,如構詞法、文法等。從識別對象的類型來看,語音識別可以分為特定人(SpeakerDependent)語音識別和非特定人(SpeakerIndependent)語音識別。特定人是指只針對一個用戶的語音識別,非特定人則可用于不同的用戶。實際上,非特定人語音識別的初始識別率往往都比較低,一般都要求用戶花一定的時間對系統(tǒng)進行訓練,將系統(tǒng)的參數(shù)進行一定的自適應調整,才能使識別率達到滿意的程度。非特定人大詞表連續(xù)語音識別是近幾年研究的重點,也是研究的難點。目前的連續(xù)語音識別大多是基于HMM(隱馬爾可夫模型)框架,并將聲學、語言學的知識統(tǒng)一引入來改善這個框架,其硬件平臺通常是功能強大的工作站或PC機。河南理工大學畢業(yè)設計(論文)說明書語音識別系統(tǒng)的基本構成語音識別系統(tǒng)的典型實現(xiàn)方案為:輸入的模擬語音信號首先要進行預處理,包括預濾波、采樣和量化、加窗、端點檢測、預加重等。語音信號經(jīng)預處理后,接下來很重要的一環(huán)就是特征參數(shù)提取。對特征參數(shù)的要求是:1,提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性。2,各階參數(shù)之間有良好的獨立性。3,特征參數(shù)要計算方便,最好有高效的計算方法,以保證語音識別的實時實現(xiàn)。在訓練階段,將特征參數(shù)進行一定的處理之后,為每個詞條得到一個模型,保存為模版庫。在識別階段,語音喜好經(jīng)過相同的通道得到語音參數(shù),生成測試模版,與參考模版進行匹配,將匹配分數(shù)最高的參考模版作為識別結果。同時還可以在很多先驗知識的幫助下,提高識別的準確率。語音識別技術難點雖然語音識別已突破了最初對技術的檢驗階段,而進入通過對話及系統(tǒng)形象的設計,建立用戶喜愛的應用系統(tǒng)時期。然而語音技術本身仍在不斷進步,為市場提供更新更好的應用模式和技術。目前,技術及應用的焦點主要集中在三個方面。首先,帶口音(Dialect)語音的識別。首先要明確的是,口音是指同一種語言在不同地區(qū)的發(fā)音有所不同,與同一地區(qū)(例如中國)的不同方言是有區(qū)別的。例如,中國的八大方言多屬于與普通話(北方語系)不同的語系。也就是說是有別于普通話的不同的語言,應該用不同的聲學模型來描述。而對于口音的適應性首先是由聲學模型本身的品質決定的。對某一種口音,語言的聲學模型的適應性決定了基礎識別率,而在此基礎上的優(yōu)化和模型適應方案則提供了很好的解決方案。例如Nuance公司,作為擁有最大市場和最多用戶的公司,也擁有最多的用戶語音數(shù)據(jù),保證了它極高的基礎識別率。此外,該公司的系統(tǒng)優(yōu)化工具為所有系統(tǒng)提供一個實用、有效的優(yōu)化方法。優(yōu)化過程對所有系統(tǒng)的表現(xiàn)都會有提高,也可以解決小范圍的口音問題。而針對嚴重的口音問題,它的聲學模型適應機制提供了很好的解決方案,可以使系統(tǒng)的識別率有很大改善。焦點之二是背景噪音。人多的公共場所巨大的噪音對語音識別的影響自不用說,早期即使在實驗室環(huán)境下,敲擊鍵盤、挪動麥克風都會成為背景噪音。它將破壞原始語音的頻譜,或者把原始語音部分或全部掩蓋掉,造成識別率下降。實際應用中,噪音是無法避免的。研究將要解決的問題就是如何把原始語音從背景噪音中分離出來,即所謂提高音質(speechenhancement)或減噪(noisereduction)的預處理。這將會使識別系統(tǒng)具有很強的適應性。在這方面,Nuance優(yōu)化的語音參數(shù)、靈活的模型結構、新的建模方法以及獨有的噪音抑制功能,使得系統(tǒng)在背景環(huán)境噪聲、手機、車載免提等高噪音環(huán)境下能保持良好的工作狀況。第三個就是“口語”的問題。這就是用戶說話的自由度問題。它既涉及到自然語言理解,又與聲學有關。語音識別技術的最終目的是要讓用戶在“人機對話”的時候,能夠像進行“人人對話”一樣自然。而一旦用戶以踉人交談的方式來進行語音輸入時,口語的語法不規(guī)范和語序不正常的特點會給語義的分析和理解帶來困難。你也許接觸到一些語音軟件聲稱是可以做到自然語言識別,而在這方面真正有實用商業(yè)系統(tǒng)的只有Nuance公司。Nuance的最新版識別軟件所提供的“隨意說(Sayanything)”技術,使用戶可以以自然的河南理工大學畢業(yè)設計(論文)說明書語言說出自己的需求。例如,“我對我的手機上的一些功能不太明白,想問一下”,或者“嗯,我的賬單應該到期了,請幫我查一下要交多少錢”。它為用戶提供了一種像“人人對話”的自然語音交互界面,這種更加友善的界面允許一般對話時的一些行為,如停頓及不完全的語句等。語音識別發(fā)展前景語音技術是目前世界上最熱門和最具有發(fā)展前景的技術之一。從某種意義上說,語音識別是將計算機變成真正的“智能化”設備的最佳途徑。語音作為當前通訊系統(tǒng)中最自然的通信媒介,隨著計算機和語音處理技術的發(fā)展,不同語種之間的語音翻譯將成為語音研究的熱點。自然語音數(shù)據(jù)庫的設計:語音特征的提??;利用語音料庫進行聲學模型訓練的研究;適應說話人聲學模型的研究;語音識別算法的研究:語言翻譯和對話處理的研究等成為語音技術的熱點方向。語音識別研究的另一個發(fā)展方向是人體語言與口語相結合的多媒體人機交互。目前這種采用聲覺、視覺兩種信息融合進行識別的研究在全球范圍內己經(jīng)展開,成為語音識別研究的重要發(fā)展方向和研究熱點之一。一位業(yè)界的資深人士對IT產(chǎn)業(yè)發(fā)展的提出的八大預言之一即為:語音成為新人機界面。語音識別技術的成熟使人機界面發(fā)生革命性突破,網(wǎng)絡時代用戶需要更自然、更簡單、更方便的以語音為中心點的人機界面。未來幾年里,真正實用的語音識別和音字轉換技術將首次走出實驗室,走進千家萬戶的電器設備中。摩爾定律所預言的硬件產(chǎn)品奇跡般的更新速度使計算機處理復雜運算的能力突飛猛進,也使體積龐大的語音庫有機會棲身于普通用戶的硬盤或其他存儲介質上;技術方面,新的語音統(tǒng)計算法日趨成熟:市場需求方面,簡化PDA、移動電話和其他信息家電原本繁瑣的操作步驟的最佳途徑便是通過語音技術。另外,語音識別是一門交叉學科,語音識別技術關系到多學科的研究領域,在不同領域上的進步都會促進語音識別的發(fā)展。(1)物理學(聲學):聲音產(chǎn)生與傳播原理、聲電轉換以及聲音在房間回響等相關知識。(2)生理學:有關人的聲道與耳朵的生理結構、耳朵的聽覺特征,在腦內高層的語言處理等。(3)統(tǒng)計學和模式識別理論;基于各種統(tǒng)計方法對模式進行匹配,以及建立有關的統(tǒng)計模型,對語音特征參數(shù)進行估值和分類。(4)信息理論和計算機科學:各種算法的研究、快速搜索查找匹配的方法。(5)語言學:有關人的語言產(chǎn)生、感覺方面的知識。(7)數(shù)字信號處理技術:信號的時域分析、噪聲消除、數(shù)字濾波、線性預測等方面的知識。(8)微電子技術:超大規(guī)模集成電路(VLSI)技術的發(fā)展對語音識別的具體應用有很大的影響,VLSI使語音識別系統(tǒng)商品化成為可能。二、語音信號分析語音學知識在連續(xù)數(shù)字語音識別過程中,為了提高連續(xù)數(shù)字匹配搜索算法的有效性以及數(shù)字的識別率,必須要將對數(shù)字語音的研究細化到語音學的層次上,包括對各數(shù)字的音素和音節(jié)的特性和各數(shù)字的聲調進行深入研究。河南理工大學畢業(yè)設計(論文)說明書音素和音節(jié)音素是語音信號的最基本組成單位,可分為濁音和清音兩大類。濁音通過喉部發(fā)聲,發(fā)聲時聲帶振動,聲帶振動的基本頻率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。清音通過將口腔內有的空氣釋放出來而發(fā)聲,發(fā)聲時喉部封閉,由于該氣流通過一個狹窄通道時在口腔中形成流,因此具有明顯的隨機噪聲的特點。音節(jié)是由音素結合而成的發(fā)聲最小單位,一個音節(jié)由“元音”和“輔音”構成。當聲帶振動發(fā)出的聲音氣流從喉腔、咽腔進入口腔從唇腔出去時,這些聲腔完全開放,氣流順利通過,這種音稱為元音。元音構成一個音節(jié)的主干,無論從長度還是能量上看,元音在音節(jié)中都占主要部分。所有元音都是濁音。發(fā)音時呼出的氣流,由于通路的某一部分封閉起來或受到阻礙,氣流被阻不能暢通,而克服發(fā)音器官的這種阻礙而產(chǎn)生的音素稱為輔音。輔音也有清濁之分。輔音出現(xiàn)在音節(jié)的前端或者后端或前后兩端。漢語的聲調漢語是一種聲調語言,相同聲母和韻母構成的音節(jié)隨聲調的不同而具有完全不同的意義,對應著不同的漢字。所以,在漢語的相互交談中,不但要憑借不同的元音和輔音來辨別這些字或詞的意義,還需要從不同的聲調來區(qū)別它,也就是說聲調有辨義作用。漢語普通話的聲調有陰平、陽平、上聲、去聲等四種聲調(另外,有時還包括“輕聲”),這些基本的調型在語句中雖然受語法、語氣的影響而有所變動,但基本上不改變原有的模式一調型。聲調的變化就是濁音基音周期(或基音頻率)的變化,各個韻母段中基音周期隨時問的變化產(chǎn)生了聲調,變化的軌跡稱為聲調曲線。聲調曲線從一個韻母的起始端開始,到韻母的終止端結束。不同聲調的聲調曲線的開始段稱為彎頭段,呈共同上升走向;末尾一段呈共同下降走向,稱為降尾段;而中間一段具有不同的特點,這一段稱為調型段。一般來說,彎頭段和降尾段對聲調的聽辨不起作用,起作用的是調型段。而一段語音,它的起始和結尾處的波形幅度較小,要準確地測出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測調型段這一部分波形的基音周期。圖2.1給出了單獨說一個音節(jié)時的四種聲調的典型曲線(F0/Hz)。

河南理工大學畢業(yè)設計(論文)說明書語音信號產(chǎn)生模型語音信號是聲道被激勵發(fā)生共振而產(chǎn)生的輸出。由于在發(fā)音過程中聲道是運動的,因此可以用一個時變線性系統(tǒng)來模擬。理想的模型是線性的,且時不變的;但是語音信號是一連串的時變過程,且聲門和聲道相互耦合形成了語音信號的非線性特性。做一個合理的假設,當在較短的時間間隔內表示語音信號時,則可以采用線性時不變模型。它包括激勵模型、聲道模型、和輻射模型。圖2.2給出了經(jīng)典的語音信號的產(chǎn)生模型,語音信號被看成是線性時不變系統(tǒng)在隨機噪聲或準周期脈沖序列激勵下的輸出。圖2.2語音信號產(chǎn)生模型河南理工大學畢業(yè)設計(論文)說明書語音信號數(shù)字化和預處理數(shù)字化為了將原始的模擬語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個步驟,從而得到時間和幅度上均為離散的數(shù)字語音信號。根據(jù)采樣定理,當采樣頻率大于信號的2倍帶寬時,在采樣過程中不會丟失信息,且從采樣信號中可以精確地重構原始信號波形。在實際語音信號處理中,采樣頻率通常為7?10kHz。在信號的帶寬不明確時,采樣前應接入抗混疊濾波器(低通濾波器),使其帶寬限制在某個范圍內;否則,如果采樣頻率不滿足采樣定理,則會產(chǎn)生混疊。此時,信號中的高頻成分將產(chǎn)生失真。采樣之后要對信號進行量化,在量化過程中不可避免的會產(chǎn)生誤差。量化后的信號值與原始信號之間的差值為量化誤差,又稱為量化噪聲。信號與量化噪聲的功率之比為量化信噪比。若用5*2表示輸入語音信號序列的方差,2X皿a表示信號的峰值,B表示量化分辨率(量化位長),52表示噪聲序列的方差,則量化信噪比為:eTOC\o"1-5"\h\z52 X (21)SNR=10lg(—)=6.02B+4.77—20lg(—max) (41)52 5e *假設語音信號的幅度服從Laplacian分布,此時信號幅度超過45*的概率很小,只有0.35%,因而可以取X=45。此時上式變?yōu)镾NR=6.02B-7.2。上式表明,量化器中每位字長對SNR貢獻為6dB;當B=7位時,SNR=35dB。此時量化后的語音質量能滿足一般通信系統(tǒng)的要求。研究表明:要使語音波形的動態(tài)變化信噪比達到55dB的信噪比,B應取10位以上。為了在語音信號變化范圍內保持35dB的信噪比,常用12位來量化,其中附加的5位用于補償30dB左右的輸入動態(tài)范圍變化。2.2.2預加重處理由于語音信號的平均功率譜受聲門激勵和鼻輻射的影響,在800Hz以上的高頻時約按6dB/oct衰減,為此要在預處理中進行預加重。預加重的目的是提升高頻部分,使信號的頻譜變得平坦,以便于進行聲道參數(shù)分析或頻譜分析。預加重在防混疊濾波與A/D轉換之前進行。這樣,不僅能夠進行預加重,而且可以壓縮信號的動態(tài)范圍,有效地提高信噪比。所以為盡量提高SNR,應在A/D轉換之前進行預加重。同時,預加重也可在A/D轉換之后進行,用具有6dB/oct地提升高頻特性地預加重數(shù)字濾波器實現(xiàn)。它一般是一階的,即:H(z)=1-uz-i,式中u值接近于1,本文中去為0.94。加重的信號在分析處理后,需要進行去加重處理,即加上6dB/oct的下降的頻率特性來還原成原來的特性。圖2.3所示為對語音信號“0”的預加重處理結果。從下圖可以明顯

河南理工大學畢業(yè)設計(論文)說明書[ 20C04JOO600C 30JO 100J0 [ 20C04JOO600C 30JO 100J0 12000采樣點卻1Ub他0理-051經(jīng)高逋濾波節(jié)后弓聲音口013.C5他nI也1-1C5-01C2OCO4300 600C 30JO 1OOJO12000采樣點數(shù)圖2.3語音信號“0”的預加重處理效果防混疊濾波A/D轉換之前還需要加一個防混疊濾波器。如果頻率干擾(50或60Hz)不嚴重或另有抗干擾措施,則不必用帶通濾波器而只用低通濾波器即可。低通濾波器的截至頻率由語音信號帶寬決定,用于慮除高于l/2采樣頻率的信號成分或噪聲,并且希望其帶內波動和帶外衰減特性盡可能好。A/D轉換后采用低通濾波器作為平滑濾波器,對重構的語音波形的高次諧波起平滑作用,以去除高次諧波失真。對于這種低通濾波器的特性和A/D轉換頻率,也要求與采樣時具有相同的關系。加窗處理已經(jīng)數(shù)字化的語音信號序列將被依次存入一個數(shù)據(jù)區(qū)。在語音信號處理中,一般用循

環(huán)隊列的方式來存儲這些數(shù)據(jù),以便用一個有限容量的數(shù)據(jù)區(qū)來應付數(shù)量極大的語音數(shù)據(jù)。

在進行處理時,按幀從此數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取一幀,如此進行下去。一般

來說,語音信號處理的幀長一般取20ms(當F『8kHz時,相應每幀由160個信號樣值)。在

s

河南理工大學畢業(yè)設計(論文)說明書取數(shù)據(jù)時,前一幀與后一幀的交疊部分稱為幀移。幀移與幀長之比一般取為0?0.5。在對語音信號進行短時分析的過程中,信號流的處理用分段或分幀來實現(xiàn)。一般每秒的幀數(shù)為33?100,視實際情況而定。分幀既可連續(xù),也可采用交疊分段的方法,用可移動的有限長度窗口進行加權的方法來實現(xiàn)。在10?20ms這樣的時間段內,數(shù)字化后的語音信號的頻譜特性和某些物理特征參量可近似地看作是不變地。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。這種時間以來處理的基本手段,一般是用一個長度有限的窗序列w(n)截取一段語音信號來進行分析,并讓這個窗滑動,以便分析任意時刻附近的信號。其一般式為g"t[%(㈤上似n_m),其中nm二一8T[*]表示某種運算{x(m)}為輸入信號序列。通幫采用最多的窗函數(shù)是矩形窗、漢寧窗(Hanning)和哈明窗(Hamming)。本文主要采用哈明窗,其公式為:(2-2)0.54-0.46cos2.m~^,n=0-Lw(n)=< IL-1J(2-2)、0,n=其他其中L是窗長。通常認為在一個語音幀內,應含有1?7個基音周期。然而,不同人的基音周期變化范圍很大,從女性兒童的2ms到老年男子的14ms(即基音頻率為50?70Hz),所以L的選擇比較困難。通常在10kHz采樣頻率下,L折衷選擇為100?200個采樣點(即持續(xù)時間為10?20ms)。語音信號的時域分析對信號分析最自然最直接的方法是以時間為自變量進行分析,語音信號典型的時域特征包括短時能量、短時平均過零率、短時自相關系數(shù)和短時平均幅度差。短時能量分析對于信號x(n),短時能量定義為:(2-3)XL(m)w(n一m?=XL(m)w(n-m?=x2(n)*h(n)(2-3)nm=-8 m=n-N+1式中,h(n)=w2(n),N為窗長,[表示在信號的第n個點開始加窗函數(shù)時的短時能量。可以看出,短時能量可以看作語音信號的平方經(jīng)過一個線性濾波器的輸出,該線性濾波器的單位沖激響應為h(n),如圖2.4所示。圖2.4短時能量的方框圖表示如果用xw表示x(n)經(jīng)過加窗處理后的信號,窗函數(shù)的長度為N,則短時能量可表示為:河南理工大學畢業(yè)設計(論文)說明書如圖2.5所示為語音如圖2.5所示為語音E="藝一%2(m)

n wm-n“0”時域波形圖和語音(2-4)“0”短時能量圖。J.5-In-1

J100語音信號口0.5 1 rs 2 2.5口才舊 [產(chǎn)南音悟目n網(wǎng)片能聶函救1 ?d Rn1; 14RIF21故致UUG040J.5-In-1

J100語音信號口0.5 1 rs 2 2.5口才舊 [產(chǎn)南音悟目n網(wǎng)片能聶函救1 ?d Rn1; 14RIF21故致UUG040II曲程空日?nu圖2.5語音信號“0”的短時能力函數(shù)利用短時能量可以區(qū)分清音和濁音,因為濁音的能量比清音的能量大得多;其次可以用短時能量對有聲段和無聲段進行判定,對聲母和韻母分界,以及對連字分界等。在語音識別系統(tǒng)中,一股也作為特征中的一維參數(shù)來表示語音信號能量的大小和超音段信息。短時能量由于是對信號進行平方運算,因而認為增加了高低信號之間的差距,因此要采用短時平均幅度來表示能量的變化,其公式為:M=X1%(m)w(n-m)-n更1%(m)(2-5)nm--s如圖2.6所示為“0”的短時平均幅度圖。從圖中可觀察到,短時平均幅度對能量小的信號累計效果要比短時能量好。10河南理工大學畢業(yè)設計(論文)說明書語音信號口短時平均一度MJ,Iji語音信號口短時平均一度MJ,IjiIr.?hi?G.0 / 4I0 "II.' 14 "6I:-I曠如圖2.6語音信號“0”的短時平均幅度短時平均過零率短時平均過零率是指每幀內信號通過零值的次數(shù)。對于連續(xù)語音信號,可以考察其時域波形通過時間軸的情況。對于離散信號,它實質上是信號采樣點符號變化的次數(shù)。在一定程度上短時過零率可以反映出頻率的信息,在濁音段一般具有較低的過零率,而在清音段具有較高的過零率,這樣就可以初步判斷清音和濁音,但只是相對而言,沒有精確的數(shù)值關系。短時平均過零率公式為:(2-6):£IsgnL(m)]一sgnL(m-1)Hw(n-m)m--8(2-6)~n藝1sgnL(m)]-sgnL(m-1)H2 w wm-nSgn[*]是符號函數(shù)。為了解決低頻的干擾,我們設立一個門限T,將過零率的含義修改為跨過正負門限的次數(shù)。于是有:z-1Xn2m--8( )(2-7)〉w\n-m)Isgn[%(m)-T]-sgn[%(m-1)-TH+IsgnL(mz-1Xn2m--8( )(2-7)〉w\n-m)另外,可以將短時平均過零率和短時能量結合起來判斷語音起止點的位置,即進行端點檢測。在背景噪聲較小的情況下,短時能量比較準確,但當背景噪聲較大時,短時平均過零率可以獲得較好的檢測效果。一次一般的識別系統(tǒng),其前端的端點檢測過程都是將這兩個參數(shù)結合用于檢測語音是否真的開始。如圖2.7語音信號“0”的過零率,可為端點檢測提供參考。11

河南理工大學畢業(yè)設計(論文)說明書■n叫 - 1「 ; 2■■■1寸B io"10: 2-I6 8II2 -10: 2-I6 8II2 -1 6 18 二00642圖2.7語音信號“0”的短時平均過零率短時自相關函數(shù)和短時平均幅度差函數(shù)語音信號xw(n)的短時自相關函數(shù)Rn(k)的計算式如下:R(k)=Nkx(m2(m+1)(0<k<K)(2-8)n n nm=0這里K是最大的延遲點數(shù)。短時自相關函數(shù)具有一些性質,如它是偶函數(shù)假設序列具有周期性,則其自相關函數(shù)也是同周期的周期函數(shù)等。因此對于濁音語音可以用自相關函數(shù)求出語音波形序列的基音周期。短時自相關函數(shù)是語音信號時域分析的重要參量。但是,計算自相關函數(shù)的運算量很大,其原因是乘法運算所需要的時間較長。利用快速傅立葉變換等簡化計算方法都無法避免乘法運算。為了避免乘法,一個簡單的方法就是利用差值,為此常常采用另一種與自相關函數(shù)類似作用的參量,即短時平均幅度差函數(shù)(AMDP)。平均幅度差函數(shù)能夠代替自相關函數(shù)進行語音分析,是基于這樣一個事實:如果信號是完全的周期信號(設周期為Np。),則相距為周期的整數(shù)倍的樣點上的幅值是相等的,差值為零。即: Pd(n)=x(n)-x(n+k)=0(k=0,±N,±2N,)(2-9)p p對于實際的語音信號,d(n)雖不為零,但其值很小。這些極小值將出現(xiàn)在整數(shù)倍周期12河南理工大學畢業(yè)設計(論文)說明書的位置上。為此,可定義短時平均幅度差函數(shù):TOC\o"1-5"\h\zF(k)=NS1-kx(m)-x(m+k) (2T0)n n nm二0顯然,如果x(n)在窗口取值范圍內具有周期性,則將出現(xiàn)極小值。如圖2.8所示,對于周期性的x(n),F(xiàn)n(k)也呈現(xiàn)周期性。與Rn(k)相反的是,在周期的各個整數(shù)倍點上Fn(k)具有谷值而不是峰值。 n n語音信號口正時V圖2.8語音信號“0”的自相關函數(shù)語音端點檢測語音端點檢測的準確性和可靠性,對系統(tǒng)識別率的提高起著重要的作用當系統(tǒng)收到一段包含語音的信號時,系統(tǒng)需要對語音的端點進行定位,丟棄語音前.后多余的噪音段。如果語音前后噪音保留過多,則會增加不同語音的共同成分,對識別產(chǎn)生干擾;而如果語音部分被切割掉,則會造成語音信息的丟失,若丟失的恰是區(qū)分語音的重要特征,則造成誤識。正確確定語音端點也會減少系統(tǒng)的計算量和存儲量。語音端點檢測算法主要是根據(jù)語音的一些特征參數(shù),短時能量、過零率等完成端點檢測。端點檢測有雙門限前端檢測算法和多門限過零率前端檢測算法。雙門限前端檢測算法用于有話、無話鑒別或詞語前端檢測,通常窗長(即幀長)取10?15ms,幀間隔(即采樣間隔)取5?10ms,有一定的抗干擾能力,即使存在小的隨機噪聲,只要它不使信號越過正負門限所構成的帶,就不會產(chǎn)生虛假的過零率。多門限過零率前端檢測算法是設多個高低不同的門限。與一股的單門限過零率法相13

河南理工大學畢業(yè)設計(論文)說明書比,可明顯地減少前端誤判,但是有時存在較大時延。因為首次找到高門限越過點,再往前推可能要搜索200ms左右才能找到清音的起點,這就不便于實現(xiàn)實時特征提取。語音信號的頻域分析語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關的。因此,對語音信號進行頻譜分析,是認識語音信號和處理語音信號的的重要方法。濾波器組法利用一組濾波器來分析語音信號的頻譜,方法使用簡單、實時性好、受外界環(huán)境的影響小。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。寬帶帶通濾波器具有平坦性,用它可以粗略地求取語音的頻譜,其頻率分辨率降低,相當于短時處理時窗寬較窄的那種情況。使用窄帶帶通濾波器,其頻率分辨率提高,相當于短時處理時窗寬較寬的那種情況。語音信號乂6)輸入帶通濾波器/,f2,……fn,濾波器輸出為具有一定頻帶的中心頻率為f/f2,……fn的信號??梢詫V波器組的輸出經(jīng)過自適應增量調制器變?yōu)槎M制脈沖信號,再經(jīng)過多路開關,變?yōu)橐淮M制脈沖信號。這種信號可以輸入計算機進行各種分析和處理。傅立葉頻譜分析傅立葉頻譜分析是語音信號頻域分析中廣泛采用的一種方法。它是法國科學家J.Fourier在1807年為了得到熱傳導方程的簡便解法而提出的。傅立葉頻譜分析的基礎是傅立葉變換,用傅立葉變換及其反變換可以求得傅立葉譜、自相關函數(shù)、功率譜、倒譜。由于語音信號的特性是隨著時間緩慢變化的,由此引出語音信號的短時分析。XX%(mXX%(m)w(n一m)e-jwm(2-11)m=一8式中,w(n)為窗口函數(shù)。圖2.9是從帶通濾波器作用理解短時傅立葉變換。圖2.9圖2.9從帶通濾波器作用理解短時傅里葉變換(ejww)可以看作是加窗后函數(shù)的傅立葉變換,為了實現(xiàn)反變換,將X(jw)進行頻率n14

河南理工大學畢業(yè)設計(論文)說明書采樣,即令wk=2nK/L則有eejwk^=不L(m)w(n一m)e-jwkm](2-12)m=-8式中,L為頻率采樣點數(shù)。短時功率譜實際上是短時傅立葉變換幅度的平方,它是信號x(n)的短時自相關函數(shù)的傅立葉變換,即PQw)=Xeejw)2=牙R(k)ejwk(2-13)

n n nk=-8式中小(口是自相關函數(shù)。圖2.10是幾種譜之間的關系。俾里葉變換傅里葉瓦斐汝尺間目相關面軌MP附傅里葉瓦斐汝尺間目相關面軌MP附景豹地空X亡?博里葉惜圖2.10幾種基于短時傅里葉變換譜之間的關系2.5特征參數(shù)提取LPCC倒譜系數(shù)線性預測倒譜參數(shù)(LinearPredictionCepstrumCoefficient,LPCC)是線性預測系數(shù)在倒譜域中的表示,該特征是基于語音信號為自回歸信號的假設,利用線性預測分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點是計算量小,易于實現(xiàn),對元音有較好的描述能力,其缺點在于對輔音的描述能力較差,抗噪聲性能較差。語音信號的倒譜與LPC系數(shù)之間的遞推關系:ac(n-kac(n-k),1<n<p(2-14)c(n)=Xac(n-k)n>p或是由LPC得到C (n)=C (n)+2:1?C (n-k)C (k) (2-15)LPCC LPC nLPCC LPCk=1根據(jù)同態(tài)處理的概念和語音信號產(chǎn)生的模型,語音信號的倒譜c(n)等于激勵信號的倒15

河南理工大學畢業(yè)設計(論文)說明書譜e(n)與聲道傳輸函數(shù)的倒譜E(h)之和。通過分析激勵信號的語音特點以及聲道傳輸函數(shù)的零極點分布情況,可知e(n)的分布范圍很寬,c(n)從低時域延伸到高時域,而h(n)主要分布于低時域中。語音信號所攜帶的語音信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語音識別中通常取語音信號倒譜的低時域構成LPC倒譜特征c,即c=CcG),c(2),…,c(q)]10<q<16 (2-16)式中,q為LPC倒譜特征的階數(shù)。然而LPCC同時也繼承了LPC的缺陷,其主要的一點就是LPC在所有的頻率上都是線性逼近語音的,而這與人的聽覺的特性是不一致的;而且LPC包含了語音高頻部分的大部分噪聲細節(jié),這些都會影響系統(tǒng)的性能。Mel頻率倒譜系數(shù)美爾頻標倒譜系數(shù)(MelFrequencyCepstrumCoefficient,MFCC)考慮了人耳的聽覺特性,將頻譜轉化為基于Mel頻標的非線性頻譜,然后轉換到倒譜域上。由于充分考慮了人耳的聽覺特性,而且沒有任何的前提假設,MFCC參數(shù)具有良好的識別性能和抗噪聲能力,但其計算量和計算精度要求高。MFCC不同于LPCC。在漢語數(shù)碼語音識別中,MFCC參數(shù)的性能明顯優(yōu)于LPCC參數(shù)。MFCC是采用濾波器組的方法計算出來的,這組濾波器在頻率的美爾坐標上是等寬的。這是因為人類在對約1000Hz以上的聲音頻率范圍的感知不遵循線性關系,而是遵循在對數(shù)頻率坐標上的近似線性關系。Mel頻率可以用如下公式表示:fMel=fMel=2596*10g(1+f/700)(2-17)對頻率軸的不均勻劃分是MFCC特征區(qū)別于普通倒譜特征的最重要的特點。將頻率按照式(2-17)變換到Mel域后,Mel帶通濾波器組的中心頻率是按照Mel頻率刻度均勻排列的。在實際應用中,MFCC倒譜系數(shù)計算過程如下:(1)將信號進行分幀,預加重和加哈明窗處理,然后進行短時傅立葉變換并得到其頻譜。(2)求出頻譜平方,即能量譜,并用M個Mel帶通濾波器進行濾波;由于每一個頻帶中分量的作用在入耳中是疊加的,因此將每個濾波器頻帶內的能量進行疊加,這時第k個濾波器輸出功率譜X(k)。(3)將每個濾波器的輸出取對數(shù),得到相應頻帶的對數(shù)功率譜;并進行反離散余弦變換,得到L個MFCC系數(shù),一般L取12?16個左右。MFCC系數(shù)為Cn=工log%(kKsJG—0.5%/M]n=1,2,…,L (2-18)(4)將這種直接得到的MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征傲一階和二階差16河南理工大學畢業(yè)設計(論文)說明書分。得到相應的動態(tài)特征。三、語音識別主要算法動態(tài)時間伸縮算法日本學者首先將動態(tài)規(guī)劃的概念用于解決孤立詞識別時說話速度不均勻的難題,提出了著名的DTW算法,當詞匯表較小以及各個詞條不易于混淆時,這個算法取得了很大成功。從而自60年代末期開始引起了語音識別的研究熱潮。在孤立詞語音識別中,最為簡單有效的方法就是該算法,該算法基于動態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。用于孤立詞識別,DTW算法與HMM算法在相同的環(huán)境條件下,識別效果相差不大,但HMM算法要復雜得多,主要體現(xiàn)在HMM算法在訓練階段需要提供大量的語音數(shù)據(jù),通過反復計算才能得到模型參數(shù),而DTW算法的訓練中幾乎不需要額外的計算。所以在孤立詞語音識別中,DTW算法仍得到廣泛的應用。在訓練和建立模板階段以及在識別階段,都采用端點檢測算法確定語音的起點和終點。已存入模板庫的各個詞條稱為參考模板,一個參考模板可表示為,m為訓練語音幀的時序標號,m=1為起點語音幀,m=M為終點語音幀,因此為該模板所包含的語音幀總數(shù),為第幀的語音特征矢量。所要識別的一個輸入詞條語音稱為測試模板,可表示為,為測試語音幀的時序標號,n=1為起點語音幀,n=N為終點語音幀,因此N為該模板所包含的語音幀總數(shù),T(n)為第n幀的語音特征矢量。參考模板與測試模板一般采用相同類型的特征矢量(如MFCC系數(shù))、相同的幀長、相同的窗函數(shù)和相同的幀移。測試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計算它們之間的距離D[T,R],距離越小則相似度越高。為了計算這一失真距離,應從T和R中各個對應幀之間的距離算起。設n和m分別是T和R中任意選擇的幀號,d[T(n),R(m)]表示這兩幀之間的距離。距離函數(shù)取決于實際采用的距離度量,在DTW算法中通常采用歐氏距離。DTW算法是把時間規(guī)正和距離測度計算結合起來的一種非線性規(guī)正技術。如設:(1)參考模板特征矢量序列為a1,a2,…,aM。(2)輸入語音特征矢量序列為b1,b2,…,bN,如果MWN,那么DTW算法就是要尋找時間規(guī)正函數(shù)m=w(n),它把輸入模板的時間軸療非線性的映射到參考模板的時間軸m,并且該w滿足:D=min£din,w(n)] (3T)w(n)n=1式中,d[n,w(n)]是第n幀輸入矢量和第m幀參考矢量的距離,D是相應于最優(yōu)時間規(guī)正下二模板的距離測度。若N=M則可以直接計算,否則要考慮將T(n)和R(m)對齊。對齊可以采用線性擴張的方法,如果N<M可以將T線性映射為一個M幀的序列,再計算它與之間的距離。但是這樣的計算沒有考慮到語音中各個段在不同的情況下的持續(xù)時間會產(chǎn)生或長或短的變化,因此識別效果不可能最佳。因而更多地是采用動態(tài)規(guī)劃(DP)的方法。DTW是17河南理工大學畢業(yè)設計(論文)說明書一個典型的最優(yōu)化問題。它用滿足一定條件的時間規(guī)正函數(shù)w(n)描述輸入模板和參考模板的時間對應關系,求解二模板匹配時累計距離最小所對應的規(guī)正函數(shù):所以DTW保證了二模板間存在的最大聲學相似性。DTW算法的優(yōu)點是既簡單又有效,對于小詞匯表孤立詞識別系統(tǒng)十分適用。但它沒有一個有效的用統(tǒng)計方法進行訓練的框架。也不容易將底層和頂層的各種知識用到識別算法中,因此在解決大詞匯表、連續(xù)語音,非特定人語音識別問題時較HMM相形見細。圖3.1為基于DTW的孤立字語音識別流程圖。圖3.1基于DTW的語音識別流程圖基于動態(tài)時間歸整匹配的DTW算法從目前來看,可能是一個最為小巧的語音識別的算法。其系統(tǒng)開銷小,識別速度快,在對付小詞匯量的語音命令控制系統(tǒng)中是一個非常有效的算法。但是,如果系統(tǒng)稍微復雜一些,這種算法就顯得力不從心了?;谝?guī)則的人工智能方法持這種觀點的專家認為,用其識別語音有種種困難,但是人類識別語音卻并不困難。如果能將這些原理加以發(fā)現(xiàn)并且歸納為一些規(guī)則,由計算機執(zhí)行,就能接近人類同樣的水平。語音學家通過研究不同語音的語譜及其變化后發(fā)現(xiàn),雖然不同的人說同一些語音時,相應的語譜機器變化種種差異,但是總有一些共同的特點足以使他們區(qū)分于其他語音,這些特點就是語音學家提出的“區(qū)別性特征(DistinctiveFeature)”。另一方面,人類的語言要受詞、句法、語義等約束,人在識別語音的過程中充分應用了這些約束以及對話環(huán)境的有關信息,將來自聲學一一語音學的“區(qū)別性特征”(這稱為一個識別系統(tǒng)的“底層”)與來自構詞、句法、語義和語用約束(這稱為識別系統(tǒng)的“頂層”)相互結合,就可以構成一個“由底向上(Bottom-up)”和“由頂向下(Top-down)”交互作用的識別系統(tǒng),不同層次的知識可以用若干規(guī)則來描述。美國卡內基一一梅隆大學在七十年代完成的Happy系統(tǒng)是基于這個理論的最成功的語18河南理工大學畢業(yè)設計(論文)說明書音識別系統(tǒng)。這個系統(tǒng)應用了“黑板模式”完成底層和頂層之間不同層次的信息交換和規(guī)則調用,在人工句法約束的1000詞表的連續(xù)語音識別任務中,所產(chǎn)生的語義誤差不大于10%,雖然從人工智能的角度看,對這個系統(tǒng)評價很高,但從語音識別的角度所做的評價與此相反,因為從語音識別的角度看,語音的多變性和不確定性是其固有的,一些研究者經(jīng)長期研究后著重宣稱:人們對于語音的最大知識就是確認對于語音的無知,正是需要在這一前提下來研制具有高識別率的系統(tǒng)。知識和規(guī)則的方法之所以很難取得更大的進展,既由于語音的多變,又由于規(guī)則的難以搜集完備,還有執(zhí)行規(guī)則的算法難以高效運行。所以從七十年代后期到現(xiàn)在,雖然仍然有人應用人工智能的方法進行語音識別,但他們很少取得成果。人工智能的方法己不再是現(xiàn)代語音識別研究的主流。人工神經(jīng)網(wǎng)絡方法人工神經(jīng)網(wǎng)絡的出發(fā)點是通過模擬大腦的機制(實際上人們到目前為止還不完全清楚大腦的思維機制),將包括聽覺系統(tǒng)的生物神經(jīng)系統(tǒng)的信息處理機制引入機器學習的研究中,使其具有學習和理解的能力。著名的神經(jīng)網(wǎng)絡研究專家Hecht-Nielsen給人工神經(jīng)網(wǎng)絡下的定義是:“人工神經(jīng)網(wǎng)絡是由人工建立的以有向圖為拓撲結構的動態(tài)系統(tǒng),它通過對連續(xù)或斷續(xù)的輸入作狀態(tài)響應而進行信息處理”。一個神經(jīng)網(wǎng)絡包含大量類似大腦神經(jīng)元的處理單元,這些單元之間相互連接形成一定的拓撲結構,并相互影響。所有的神經(jīng)元協(xié)同工作,使整個網(wǎng)絡呈現(xiàn)出大規(guī)模的集體計算行為,系統(tǒng)的所有計算都是由這些單元完成的,而單元之間的連接權決定了網(wǎng)絡對任意輸入模式的計算響應。連接權的建立是通過訓練算法進行的。神經(jīng)網(wǎng)絡之所以能吸引眾多研究人員的興趣,在于它具有一系列傳統(tǒng)的數(shù)字計算機系統(tǒng)及線性網(wǎng)絡所沒有的優(yōu)點。人工神經(jīng)網(wǎng)絡在語音識別中的主要應用,如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測等,其中用的最多的是神經(jīng)網(wǎng)絡的區(qū)分能力。最初是用神經(jīng)網(wǎng)絡將語音段分成清音和濁音兩類,或分成鼻音、摩擦音和爆破音三類。這些實驗都取得了很好的分類結果,充分顯示了神經(jīng)網(wǎng)絡強大的分類區(qū)分能力。在基于神經(jīng)網(wǎng)絡的語音識別方法中,系統(tǒng)參數(shù)就是整個神經(jīng)網(wǎng)絡的權值所構成的集合,這些權值是針對全部待識別的語音基元,經(jīng)過大量訓練學習而建立的,是語音特征在系統(tǒng)中的一種映射。它完全不同于傳統(tǒng)識別方法的地方在于:單個權值與識別基元之間不存在明確的對應關系,只存在整個權值構成的系統(tǒng)參數(shù)與整個識別空間之間的對應關系。也就是說,系統(tǒng)參數(shù)只在整體上有意義,是不可分的。從信息處理的角度來看:一組信息的存儲在神經(jīng)網(wǎng)絡內部是混迭在一起的,在存儲過程中對信息進行了大量的加工,而絕對不是只把它們孤立地放在那里。信息存儲和信息處理二者密不可分,信息處理過程同人腦一樣,如同一個黑箱。但神經(jīng)網(wǎng)絡識別方法有個較大的缺點,就是時序性很差,沒有解決時間對準問題。圖3.2為基于神經(jīng)網(wǎng)絡的語音識別示方法原理圖。19河南理工大學畢業(yè)設計(論文)說明書圖3.2基于神經(jīng)網(wǎng)絡的語音識別方法原理圖神經(jīng)網(wǎng)絡對語音進行分類有兩個基本方法:靜態(tài)識別和動態(tài)識別。在靜態(tài)識別中,神經(jīng)網(wǎng)絡一次輸入整個待識的語音特征矢量序列,然后做出一個判決。而在動態(tài)分類網(wǎng)絡中,神經(jīng)網(wǎng)絡輸入一幀加窗語音矢量序列,這個窗在語音矢量序列上滑動,網(wǎng)絡就做出一系列局部決策,這些局部決策不斷地整合形成一個全局決策。靜態(tài)網(wǎng)絡在音素識別問題上的識別效果非常好,而動態(tài)分類在字以及句子層面上的識別效果比較好。神經(jīng)網(wǎng)絡依靠連接權能夠進行長時間記憶和知識存儲,但對于輸入模式的瞬時響應的短時記憶能力比較差。語音信號是一種典型的動態(tài)模式序列,前后幀之間的時間相關性非常強,所以要將神經(jīng)網(wǎng)絡應用于語音識別,必須解決好瞬時輸出的記憶問題。因此考慮將人工神經(jīng)網(wǎng)絡與已經(jīng)發(fā)展的方法結合構成一種混和系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡或者作為其前端進行預處理,或者作為后端進行后處理??傊?,是希望通過這種結合充分發(fā)揮各自的特長。隱馬爾可夫方法基于統(tǒng)計的HMM算法可能是目前最為成功的一種語音識別模型和算法了。目前所能見到的各種性能優(yōu)良的連續(xù)語音識別系統(tǒng)幾乎無一例外地采用了這種模型。這是因為這種數(shù)學模型出現(xiàn)的時間較早,人們對它的研究也比較深入,己建立起了完整的理論框架。從20世紀80年代初人們開始用這種模型來描述語音信號后,就不斷有人對它進行了各種改良和發(fā)展。這種隱含馬爾可夫模型的算法是將語音看成是一連串特定狀態(tài),這種狀態(tài)是不能被直接觀測到的(如這種狀態(tài)可以是語音的某個音素的特征),而是以某種隱含的關系與語音的觀測量(或特征)相關聯(lián)。而這種隱含關系在口服模型中通常以概率形式表現(xiàn)出來,模型的輸出結果也以概率形式給出。這為系統(tǒng)最后給出一個穩(wěn)健的判決創(chuàng)造了條件。如今,各種形式的}砌模型和算法己日趨成熟,以它為基礎己經(jīng)形成了語音識別的整體框架模型,它統(tǒng)一了語音識別中聲學層和語音學層的算法結構,制定了最佳的搜索和匹配算法,以概率的形式將聲學層中得到的信息和語音學層中己有的信息比較理想的結合在一起。因此,HMM語音識別模型與算法是迄今為止最為完美的一個語音識別模型,從中也可看出好的理論體系對研究工作所起的重要的指導作用。圖3.3為一個基于HMM的語音識別流程圖。20河南理工大學畢業(yè)設計(論文)說明書圖3.3基于HMM的語音識別框圖目前,基本上所有實驗系統(tǒng)和實用化的產(chǎn)品都是使用HMM方法,比如IBM公司的ViaVoice系統(tǒng)、卡內基梅隆大學SPHINX系統(tǒng)和DragonSystem的NaturallySpeaking系統(tǒng)等。也正是基于成熟的HMM方法設計了嵌入式環(huán)境下(如手機,PDA等)的語音識別系統(tǒng)。隨著語音識別研究工作的深入開展,HMM語音識別方法愈來愈收到人們的重視,基于HMM技術的識別系統(tǒng)的缺點就在于統(tǒng)計模型的建立需要依賴一個較大的語音庫。這在實際工作中占有很大的工作量。且模型所需要的存儲量和匹配計算(包括特征矢量的輸出概率計算)的運算量相對較大,通常需要具有一定容量SRAN的DSP才能完成。另外,它的一個最主要的缺點是根據(jù)詞模型推出的狀態(tài)段長分布是指數(shù)分布,這不符合語音的本質屬性,因此,現(xiàn)在推出了一種非齊次的 HMM語音識別模型(DurationDistributionBasedHiddenMarkovModel,簡稱DDBHMM)。在此模型中用狀態(tài)的段長分布函數(shù)替代了齊次HMM中的狀態(tài)轉移矩陣,徹底拋棄了“平穩(wěn)的假設”,而從非平穩(wěn)的角度考慮問題,使模型成為一種基于狀態(tài)段長分布的隱含Markov模型。段長分布函數(shù)的引入澄清了經(jīng)典HMM語音識別模的許多矛盾,DDBHMM比國際上流行的HMM語音識別模型有更好的識別性能和更低的計算復雜度(訓練算法比較流行的Baum算法復雜度低兩個數(shù)量級)。由于該模型解除了對語音信號狀態(tài)的齊次性和對語音特征的非相關性的限制,因此,為語音識別研究的深入發(fā)展提供了一個和諧的框架。HMM和ANN的混合模型語音信號是一種典型的動態(tài)模式序列,前后幀之間的時間相關性非常強,所以要將神經(jīng)網(wǎng)絡應用于語音識別,必須解決好瞬時輸出的記憶問題。因此考慮將人工神經(jīng)網(wǎng)絡與已經(jīng)發(fā)展的方法結合構成一種混合系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡或者作為其前端進行預處理,或者作為后端進行后處理。ANN和HMM可以以不同的方式進行結合,如ANN直接實現(xiàn)HMM,兩者在幀層面上的結合,語音層面上的結合,音段層面的結合和子層面上的結合等方式,而HMM和ANN混合模型的結合,即能優(yōu)化HMM模型,又能充分利用每一種技術的長處:HMM的時間建模和ANN21河南理工大學畢業(yè)設計(論文)說明書的聲學建模,特別是用神經(jīng)網(wǎng)絡計算HMM狀態(tài)的觀測概率。用神經(jīng)網(wǎng)絡來估計觀測概率,設計和訓練神經(jīng)網(wǎng)絡的方法有很多,最簡單的方式就是將一幀語音矢量直接映射成觀察概率,網(wǎng)絡的訓練也是一幀接一幀地進行,這種方法就成為幀層面上的網(wǎng)絡訓練。在音段層面方式中,神經(jīng)網(wǎng)絡的輸入來自整個語音段,而不是一幀語音或固定長度的語音窗。這樣就可以讓網(wǎng)絡更好地利用存在音段中的所有語音幀之間的相關性,而且還可以更容易地利用其它信息,比如時長。這個方法的缺點是必須先對語音進行分段,神經(jīng)網(wǎng)絡才能對分出的各個音段進行計算。在這些不同的結合形式中,實驗結果表明,幀層面上的結合比較符合HMM和ANN兩種方法的特點。與傳統(tǒng)的HMM相比,混合HMM/ANN模型不僅在理論上拋棄了HMM一系列不合理假設,而且在訓練過程中自然地引入了HMM狀態(tài)之間的區(qū)分機制?;旌夏P涂朔俗畲笏迫粶蕜t(MLE)區(qū)分能力差的缺陷。而且在系統(tǒng)體系上又保持了HMM的框架,所以混合HMM/ANN模型是HMM和ANN兩種模型的有機結合,具有明確的數(shù)學和物理意義。與傳統(tǒng)的HMM相比,混合HMM/ANN模型還為融合多種語音特征矢量,考慮不同層次上的多種約束提供了一個非常方便的接口?;旌夏P徒Y構還充分利用了ANN的下述特性,克服YHMM的一系列缺陷和不足,主要特點如下:(1)混合模型可以自適應學習以適應語音數(shù)據(jù)的變化;可以不必拘泥于選取特殊的語音參數(shù)面對綜合的輸入模式進行訓練和識別。(2)可以把人的聽覺模型融合于ANN中,在ANN的輸入端可以同時加載相鄰數(shù)幀的語音特征矢量,因而和語音信號的實際情況更加符合。(3)分類神經(jīng)網(wǎng)絡的輸出端可以逼近任意形式的概率分布函數(shù),它能很好地掌握蘊含在訓練數(shù)據(jù)中的概率分布特性,所以能夠較真實地描述語音信號的概率分布特性。(4)ANN的訓練著眼于描述類間的邊界,而不是描述每一類內的分布.所以是一種區(qū)分性訓練。在處理語音信號的時變特性方面?;旌夏P屠肶HMM在這方面的特長。所以混合模型在系統(tǒng)框架上保持了傳統(tǒng)HMM的框架,而局部功能模塊如:概率估計、上下文關聯(lián)等則通過ANN實現(xiàn),這樣有機地將HMM和ANN的各自優(yōu)勢統(tǒng)一在一個系統(tǒng)之中.又彌補了各自的不足。在混合HMM/ANN中用神經(jīng)網(wǎng)絡來進行聲學建模,而時域建模依賴于傳統(tǒng)的HMM。用神經(jīng)網(wǎng)絡進行聲學建模一般有兩種方法:第一種方法是預測網(wǎng)絡。預測網(wǎng)絡的輸入是相繼的幾幀語音特征矢量,輸出下一幀語音的預測值,通過給每一個音子分配一個預測網(wǎng)絡,就可以比較每個音素預測網(wǎng)絡的預測誤差,選取其中具有最小預測誤差的網(wǎng)絡與當前語音段匹配,體現(xiàn)了相鄰語音幀之間的時域相關性。第二種方法是分類網(wǎng)絡。在分類網(wǎng)絡中,輸入還是相繼的幾幀語音矢量。但輸出直接映射成HMM狀態(tài)。分類網(wǎng)絡可以用n個輸出節(jié)點表示n個類,將輸入映射成n類中的一種。分類網(wǎng)絡具有簡單直觀、在本質上是區(qū)分性的、在設計上是模塊化的、可以方便地組合成更大的系統(tǒng)、具有完善的數(shù)學解釋等優(yōu)點,所以可以很容易地集成到HMM的統(tǒng)計識別框架中。22河南理工大學畢業(yè)設計(論文)說明書四、隱含馬爾可夫模型算法HMM是在80年代由IBM的Baker和Jrlinek引入入語音識別的研究,目前它是最靈活最成功的語音識別方法之一。HMM一方面用隱含的狀態(tài)對應于聲學層各相對穩(wěn)定的發(fā)音單位,并通過狀態(tài)轉移和狀態(tài)駐留來描述發(fā)音中音的變化和停留甚至音變。另一方面它引入了概率統(tǒng)計模型,不再用動態(tài)時間對齊的方法求匹配距離,而是通過搜索最佳狀態(tài)序列并計算最大后驗概率找到識別結果,HMM模型較好地描述了語音信號在時間和聲學特性兩個方面的統(tǒng)計變化。通常HMM對應了具有一定語音學含義的單元,通常是音素。音素之間通過HMM模型之間的連接(轉移)可以構造出字模型(馬爾可夫鏈),字模型進一步可以組成詞模型,再到句子,所以通過不同層面上的模型(狀態(tài))之間的轉移(連接),就實現(xiàn)了音素、字、詞的統(tǒng)計表示,形成了一個自下而上的統(tǒng)計識別框架。與知識表示的層次結構很好地吻合,這是HMM在處理時間變化上最成功的方面。這也成就YHMM的霸主地位。HMM的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論