畢業(yè)論文《語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》_第1頁
畢業(yè)論文《語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》_第2頁
畢業(yè)論文《語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》_第3頁
畢業(yè)論文《語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》_第4頁
畢業(yè)論文《語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要II I I第一章緒論 1 1 1 41.4論文主要研究?jī)?nèi)容及結(jié)構(gòu)安排 5第二章語音識(shí)別系統(tǒng) 62.1語音識(shí)別系統(tǒng)簡(jiǎn)介 62.1.1語音識(shí)別系統(tǒng)的結(jié)構(gòu) 62.1.2語音識(shí)別的系統(tǒng)類型 72.1.3語音識(shí)別的基元選擇 92.2語音識(shí)別系統(tǒng)的應(yīng)用 92.2.1語音識(shí)別系統(tǒng)的應(yīng)用分類 92.2.2語音識(shí)別系統(tǒng)應(yīng)用的特點(diǎn) 2.2.3語音識(shí)別系統(tǒng)的應(yīng)用所面臨的問題 2.3語音識(shí)別的算法簡(jiǎn)介 2.3.1基于語音學(xué)和聲學(xué)的方法 2.3.2模板匹配的方法 第三章語音識(shí)別系統(tǒng)的理論基礎(chǔ) 3.1語音識(shí)別系統(tǒng)的基本組成 3.2語音預(yù)處理 3.2.4語音特征參數(shù)提取 3.2.5語音訓(xùn)練和識(shí)別 第四章特定人孤立詞語音識(shí)別系統(tǒng)的設(shè)計(jì)方案 264.1基于VQ語音識(shí)別系統(tǒng)的模型設(shè)計(jì) 264.2語音識(shí)別系統(tǒng)特征參數(shù)提取提取 274.2.1特征參數(shù)提取過程 27 4.3.1用矢量量化生成碼本 4.4設(shè)計(jì)結(jié)果分析 總結(jié)與體會(huì) VQ在孤立詞語音識(shí)別系統(tǒng)中得到很好的應(yīng)用,特別是有限狀態(tài)矢量量化技術(shù),語音識(shí)別技術(shù)已經(jīng)在聲控電話交換、語音撥號(hào)系語音識(shí)別的目的,就是讓機(jī)器聽懂人類口述和人工智能等研究領(lǐng)域。例如:近年來,人工神別聽寫器、聲控?fù)芴?hào)、銀行信用卡查詢等。這是用到掌上電腦等手持終端設(shè)備實(shí)現(xiàn)電話號(hào)碼查Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型C程序化測(cè)試模式測(cè)試模式相似度比較幀特征矢量序列逐征進(jìn)行特征提取調(diào)試圖1.1早期的特定人、小詞匯表、孤立詞識(shí)別系統(tǒng)原理框圖模式模板庫(kù)型)的提出,使得非特定人、大詞匯表、連續(xù)后處理概率后處理HMM圖1.2基于HMM的孤立詞識(shí)別系統(tǒng)原理框圖音識(shí)別的研究進(jìn)度。以此為契機(jī),SRI,MIT,CMU,BBN等展開激烈競(jìng)爭(zhēng),并且取得得了重要的成果。在我國(guó)的“八五”計(jì)劃和“863”計(jì)劃中,漢語語音識(shí)別的研究得工智能、數(shù)字信號(hào)處理、信息論、模式識(shí)別理論、最聲控電話交換、語音撥號(hào)系統(tǒng)、信息網(wǎng)絡(luò)查詢、家庭統(tǒng)、訂票系統(tǒng)聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、控制、工業(yè)控制、語音通信系統(tǒng)等等,幾乎涉及到同“語音時(shí)代”己經(jīng)來臨商家也都對(duì)此充滿了信心,希市場(chǎng)上較少有語音識(shí)別系統(tǒng)的成熟應(yīng)用。廠商并沒有人、連續(xù)語音、大詞匯量的語估問題、訓(xùn)練問題和解碼問題)進(jìn)行了詳細(xì)的介紹。同時(shí),詳細(xì)分析了系統(tǒng)的實(shí)現(xiàn)過第二章語音識(shí)別系統(tǒng)后處理預(yù)處理特征提取相似性度量后處理參考模式庫(kù)圖2.1語音識(shí)別基本結(jié)構(gòu)原理框圖(2)連接詞語音識(shí)別(connected-wordss(3)連續(xù)語音識(shí)別系統(tǒng)(continuespeechrecognitionsystem語音”是相對(duì)“朗讀式語音”而言的,朗讀式語通常是不流暢的,包含許多隨機(jī)事件,如語音重);詞句、音節(jié)、音素或更小的單位,具體選擇什么無調(diào)音節(jié)。因此,對(duì)于中、大詞匯量漢語語音識(shí)語語音識(shí)別系統(tǒng)也在越來越多地采用。原因在元的顆粒度大,基元聲學(xué)穩(wěn)定性高,但需要的數(shù)據(jù)量例如提高生產(chǎn)率,容易使用,更好的人機(jī)界一種有效地與人交流的方式,例如某種回退模%,%,%)靠。實(shí)際中,單詞錯(cuò)誤的發(fā)生是不相干的,因此在較標(biāo)準(zhǔn)的發(fā)音來進(jìn)行識(shí)別的。而實(shí)際上,人們說覺地思考,經(jīng)常會(huì)在打斷語言的連續(xù)性,而插入經(jīng)過四個(gè)步驟:特征提取、模板訓(xùn)練、模板基礎(chǔ)。所謂端點(diǎn)檢測(cè)就是在語音信號(hào)中的各種段落(如音素算法(DTW:DynamicTimeWarping)。算法的思想就是把詞匯量、連續(xù)語音的非特定人語音識(shí)別系統(tǒng)都是基于HMM模型的。HMM是對(duì)號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列,是由大腦根據(jù)語法知識(shí)和言解出產(chǎn)生輸出序列的最佳狀態(tài)轉(zhuǎn)移序列X。所謂最佳是以X的最大條件矢量與這些邊界進(jìn)行比較,并被量化為“距誤差、Itakura2Saito距離、似然比失真測(cè)經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個(gè)自適應(yīng)非線性具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)第三章語音識(shí)別系統(tǒng)的理論基礎(chǔ)不同的語音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本流程相似,包括預(yù)處理、特征提取、模型訓(xùn)練和識(shí)別幾個(gè)部分。一個(gè)典型語音識(shí)別系統(tǒng)的實(shí)現(xiàn)過程如圖3.1語音增強(qiáng)語音訓(xùn)練數(shù)據(jù)、噪聲數(shù)據(jù)等特征補(bǔ)償聲學(xué)模型后處理語音模型/詞典結(jié)果文本訓(xùn)練數(shù)據(jù)y(n)=x(n)+αx(n-1)α=0.98(3-1)wm=-∞(2)分別沿這一語音段向兩端搜索,大于某個(gè)閾值ML的部分還是語音段,這無聲段,確定一個(gè)過零率的閾值Z,從ML確定的語音段向前搜索不超過一幀的長(zhǎng)度,短時(shí)過零率突然低于Z三倍的點(diǎn)被認(rèn)為是語音的起始點(diǎn)。盡可能多的反映語義信息,盡量減少說話人的個(gè)人由全極點(diǎn)產(chǎn)生的,很好的逼近共振峰,提供譜估MFCC定義為語音信號(hào)經(jīng)過快速傅里葉變換后所得的加窗短時(shí)信號(hào)的實(shí)基于人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于Mel頻標(biāo)的非線性頻譜,然后轉(zhuǎn)換到倒譜n=0H1(k)H2(k)H3(k)H4(k)H5(k)H6(k)圖3.3通過Mel頻率濾波器組的到的Mel頻譜其中Mel頻率濾波器組為在語音的頻率范圍內(nèi)設(shè)置若干個(gè)帶通濾波器H(K),M(3-6)其中f、f為濾波器的頻率應(yīng)用范圍的最低頻率和最高頻率,N為步驟(2)中l(wèi)ks人具有不同的說話特征,可以用特定說話人語述,用VQ建立識(shí)別模型,可以大大減cii圖3.4矢量量化原理示意圖(1C代表整個(gè)特征空間3-9)ijiii矢量間“距離”的規(guī)則,“距離”的遠(yuǎn)近能客觀地反映失真度的大小。這種“距離”j算法,就可以得到十個(gè)碼本{C(i)},i=1,2,…,5LBG算法是矢量量化中進(jìn)行碼本設(shè)計(jì)的一種有效的方法,它是由Linde,BuRjjlj(3-11)rR(3-12)(3-13)R第i個(gè)說話人,它的碼本C(i)=Y(i);對(duì)無個(gè)說話人分別構(gòu)建其碼本,即可獲得R類別號(hào)圖3.5基于矢量量化的語音識(shí)別過程t式中,t(i)(i),且滿足t,yj(i))(3-15)jjD(C(k))=minD(C(i))(3-16)i第四章特定人孤立詞語音識(shí)別系統(tǒng)的設(shè)計(jì)方案預(yù)處理預(yù)加重加漢明窗特征參數(shù)預(yù)處理預(yù)加重加漢明窗特征參數(shù)輸入本VQ計(jì)算圖4.1語音識(shí)別系統(tǒng)結(jié)構(gòu)框圖統(tǒng)中通過functioncode=train(traindir,n)函數(shù)實(shí)現(xiàn)。而在識(shí)別階段,由待識(shí)別人說的語音中導(dǎo)出參量要與訓(xùn)練過程中的參考參量集或模板加以比較。我們用VQ濾波器組IFFT取其中式中x(n)為輸入的語音信號(hào),N表示傅立葉變換的點(diǎn)數(shù)。分幀后后將每幀信號(hào)用Hamming窗相乘,以減小幀起始和結(jié)m=-∞用的濾波器為三角濾波器,中心頻率為f(m),m=1,2,M,本系統(tǒng)取M=100。k=1其中H(k)為三角濾波器的頻率響應(yīng)。m(4-5)量,故在一般識(shí)別系統(tǒng)中,將C稱為能量系數(shù),并不作為倒譜系數(shù),本系統(tǒng)選取200Wav格式的語音文件讀取是用wavread。本設(shè)計(jì)中的語句m=melfb(20,n,fs);%通過一組Mel尺度的三角形濾波器組r=dct(log(z));(計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量,再經(jīng)過經(jīng)過離散余k第三步:根據(jù)得到的碼本把所有的訓(xùn)練序列(特征矢量)進(jìn)行分類,然后按照下面兩個(gè)公式計(jì)算訓(xùn)練矢量量化失真量的總和n=0,D[-1]=∞,B為當(dāng)前的碼書),若相對(duì)失真小于某一閾值ε,迭代結(jié)束,當(dāng)前的碼(4-8)第五步:重復(fù)第二步,第三步和第四步,直到形成有M個(gè)碼字的第i個(gè)碼書第m個(gè)碼字,共有N個(gè)碼書(即N個(gè)說話人),每一個(gè)碼書有M個(gè)碼字。則i對(duì)于說話人辨識(shí)用(4-7)式計(jì)算第i個(gè)說話人的平均量化失真D,然后用i法求出{D1,D2,...,DN},則最終的識(shí)別結(jié)果就是Di最小者所對(duì)應(yīng)的那個(gè)i,即是所辨識(shí)樣。在0.0m和0.1m時(shí),識(shí)別效果非常好,識(shí)別率為100%,拒識(shí)率為為s1,B同學(xué)語音文件命名為s2,C同學(xué)語音文件命名為s3同學(xué)的文件名為s5。在每個(gè)不同距離的子文件圖4.3原始語音波形圖4.4看到在第100幀,窗長(zhǎng)為256時(shí)它的能量譜和對(duì)數(shù)能圖4.4s1的能量譜和對(duì)數(shù)能量譜圖圖4.5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論