畢業(yè)設(shè)計(論文)-基于語音的疲勞度檢測算法研究.doc_第1頁
畢業(yè)設(shè)計(論文)-基于語音的疲勞度檢測算法研究.doc_第2頁
畢業(yè)設(shè)計(論文)-基于語音的疲勞度檢測算法研究.doc_第3頁
畢業(yè)設(shè)計(論文)-基于語音的疲勞度檢測算法研究.doc_第4頁
畢業(yè)設(shè)計(論文)-基于語音的疲勞度檢測算法研究.doc_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

蘇州大學(xué)本科生畢業(yè)設(shè)計(論文)目 錄摘要 (1)ABSTRACT (1)第1章 引言 (2)第1.1節(jié) 本課題研究背景 (2)第1.2節(jié) 方案簡介(2)第2章 語音信號識別的理論基礎(chǔ)(3)第2.1節(jié) 語音信號產(chǎn)生的聲學(xué)基礎(chǔ) (3)第2.2節(jié) 語音信號產(chǎn)生的數(shù)字模型 (4)第2.3節(jié) 語音信號的預(yù)處理 (5)第2.4節(jié) 語音信號的時域分析 (7)第3章 語音疲勞度的特征參數(shù)提取方案 (9)第3.1節(jié) LPCC特征參數(shù) (9)第3.2節(jié) MFCC特征參數(shù) (10)第4章 概率神經(jīng)網(wǎng)絡(luò) (11)第5章 實驗方案及討論結(jié)果(13)第5.1節(jié) 實驗語音信號的錄制 (13)第5.2節(jié) 實驗方案(13)第5.3節(jié) 實驗結(jié)果與討論(14)第6章 總結(jié)與展望(16)附錄(主要程序) (18)參考文獻(xiàn) (21)致謝 (22)基于語音的疲勞度檢測算法研究摘 要疲勞是一種自然現(xiàn)象,是人體的一種自我調(diào)節(jié)和保護(hù)功能。檢測疲勞狀態(tài)對于當(dāng)今社會從事各行各業(yè)都有積極意義。本課題提出了一種基于語音特征參數(shù)和概率神經(jīng)網(wǎng)絡(luò)的語音疲勞度識別模型。通過訓(xùn)練不同時段的語音樣本來構(gòu)成語音源庫,并建立綜合識別系統(tǒng)。實驗結(jié)果表明本方法能夠反應(yīng)其當(dāng)時的疲勞程度,MFCC參數(shù)融入了人耳的聽覺特性,故從測試結(jié)果來看,其優(yōu)于LPCC參數(shù)。關(guān)鍵詞:語音、疲勞度、線性預(yù)測倒譜系數(shù)、梅爾頻率倒譜系數(shù)、概率神經(jīng)網(wǎng)絡(luò)Research of Detecting Fatigue Arithmeticin SpeechABSTRACT Fatigue is a natural phenomenon which is the human body a kind of self-regulation and protection. Detection of fatigue states has positive significance in all occupation in todays society. This issue presents a feature-based parameters and the probabilistic neural network speech recognition model to detecting fatigue. Through training at different times of voice samples to form the voice source and to establish a comprehensive identification system. Experimental results show that this method can reflect its degree of fatigue at the time, MFCC parameters of the human ear into the auditory characteristics, and therefore the results from the test point of view, its better than the LPCC parameters.KEYWODRS: Speech、Fatique、LPCC、MFCC、PNN第一章 引言第1.1節(jié) 本課題研究背景疲勞是一種自然現(xiàn)象,是人體的一種自我調(diào)節(jié)和保護(hù)功能。有資料表明,高速公路發(fā)生的交通事故中,有一半以上由于長時間疲勞駕駛或所見目標(biāo)單調(diào)使司機注意力不集中、甚至打瞌睡等原因造成的。為減少這方面的事故,疲勞度測試就具有十分重要的意義。疲勞也往往成為腦與心臟疾病的誘因,如通過簡單的方法實時檢測自己的身體狀態(tài),對于預(yù)防疾病,減少人為的事故也具有積極的意義。疲勞度的檢測方法可以概括為客觀和主觀兩個方面。國內(nèi)主要采取主觀評測的方法,主要依據(jù)自我活動記錄表、睡眠情況記錄表、個人行為記錄表等來測評被試者的疲勞程度,雖然主觀評價方法使用簡單,但很難量化疲勞的等級和程度,又因各人的理解有明顯的差異,其結(jié)果往往不能令人滿意。國外則主要采取客觀測評的方法,有基于行為特征的檢測的視網(wǎng)膜檢測、頭部位置檢測、視線方向檢測等和基于生理參數(shù)的檢測的腦電圖信號檢測、心電圖信號檢測、脈搏跳動檢測、唾液檢測、其它生理信號檢測等。這些方法雖然說能從一定程度上了解人的疲勞狀態(tài),但是對每個人疲勞的心理、生理屬性還不是特別清楚,疲勞狀態(tài)下的變化規(guī)律很難總結(jié)歸納。目前大多數(shù)檢測算法因其檢測條件的限制和復(fù)雜環(huán)境的影響,檢測效果不能完全令人滿意。性價比是亟待解決的一個問題,如果成本太大則難以廣泛應(yīng)用。通過聲音判斷人的疲勞程度是一種更為簡便快捷的疲勞度檢測方式,能夠在不影響正常工作下面,讓被檢測者對著麥克風(fēng)說話,將其語音集入電腦,再通過聲波的變化進(jìn)行計算,得到測算值。第1.2節(jié) 方案簡介通過聲音檢測,可以很方便可以很方便地了解大腦的疲勞水平。這對于諸如駕駛員等長時間處于緊張狀態(tài)的人員來說,意義更加重大。本課題采用方法如下:1、通過語音采集得到原始數(shù)據(jù)參數(shù),通過錄音筆進(jìn)行錄制,組員每人每天分別在白天10點,晚上10點,白天4點,晚上4點,錄下語音,錄制的語音以wave格式保存。2、采用語音信號的基本參數(shù)來對疲勞語音特征進(jìn)行研究,主要包括LPCC、MFCC等,發(fā)現(xiàn)對疲勞度影響最大的特征。3、采用基于貝葉斯決策理論的概率神經(jīng)網(wǎng)絡(luò)來進(jìn)行模式識別,對特征進(jìn)行訓(xùn)練,隨后對未知語音信號進(jìn)行模式識別,得到所需概率參數(shù)。4、系統(tǒng)的各種算法由MATLAB編程實現(xiàn),完成了特征參數(shù)的提取和訓(xùn)練工作,建立疲勞度檢測系統(tǒng)。5、完成分析測試報告,提出進(jìn)一步改進(jìn)方案。第二章 語音信號識別的理論基礎(chǔ)第2.1節(jié) 語音信號產(chǎn)生的聲學(xué)基礎(chǔ)圖2.1是人類語音通信過程中幾個重要的環(huán)節(jié),從說話人的想法開始到聽話人的理解,需要經(jīng)過說話和聽話兩個人語義和語法的處理、音位的編碼和解碼過程,此外最重要的就是人類發(fā)聲器官和聽覺器官的機理。只有深入研究這兩個方面,才能建立反映真實情況的物理模型和數(shù)字模型。圖2.1 人類語音通信過程人發(fā)聲過程如圖2.2所示。人通過口、鼻吸氣,使自己的肺葉充滿空氣,肺是胸腔內(nèi)一團有彈性的海綿狀物質(zhì),可以存儲空氣。當(dāng)人發(fā)聲時,肺部的空氣被壓縮,經(jīng)氣管到喉部。聲帶是位于喉嚨中間的兩條白色韌帶,一般聲帶的長度為10mm-14mm。當(dāng)發(fā)聲時,氣流穿過兩條聲帶間的縫隙,聲帶自然閉合靠攏,成水平狀;當(dāng)氣流被阻斷時,聲帶間就產(chǎn)生縫隙,從而產(chǎn)生一股準(zhǔn)周期的脈沖,使聲帶產(chǎn)生振動。當(dāng)激勵源不是聲帶的脈沖,而由空氣湍流產(chǎn)生的情況下,發(fā)出的音就稱為“清音”,這時激勵源類似于白噪聲,最后通過聲道的氣流通過口唇或者鼻腔向外發(fā)出。 圖2.2 語音產(chǎn)生的物理模型第2.2節(jié) 語音信號產(chǎn)生的數(shù)字模型為了簡化問題,根據(jù)語音產(chǎn)生器官的組織結(jié)構(gòu),結(jié)合信號處理理論,提出了如圖2.3所示的語音信號產(chǎn)生的數(shù)字模型。 圖2.3 語音產(chǎn)生的數(shù)字模型如圖所示,語音信號的數(shù)字模型分為激勵模型、聲道模型、輻射模型三個部分。 1、激勵模型激勵模型表示發(fā)音器官中的聲門子系統(tǒng),包括負(fù)責(zé)產(chǎn)生氣流的肺和氣管以及產(chǎn)生振動的聲帶,分清音和濁音兩種情況。發(fā)濁音時,氣流沖擊聲帶產(chǎn)生振動,使聲門處形成準(zhǔn)周期性的脈沖串,并用它去激勵聲道。此時的脈沖波類似于斜三角形的脈沖,其聲門脈沖模型為: 其中和取值接近于1,模型極點靠近單位圓,相當(dāng)于一個低通濾波器。發(fā)清音時,聲帶松弛而不振動,空氣湍流通過聲門直接進(jìn)入聲道,這時激勵信號就可以簡化為隨機白噪聲,實際中可以用均值為0、均方差為1的白色分布序列來表示。2、聲道模型對于聲道的建模,經(jīng)典的語音信號處理技術(shù)主要有兩種觀點,一是把聲道看成是由多個不同截面積的管子串聯(lián)而成的系統(tǒng),導(dǎo)出“聲管模型”;二是把聲道視為一個諧振腔,導(dǎo)出“共振峰模型”?,F(xiàn)在應(yīng)用最廣泛的聲道模型是離散化的聲管模型, 把聲道看成是由多個不同截面積的管子串聯(lián)而成的系統(tǒng)。假設(shè)在一個“短時”期間聲道形狀無變化時,而且聲波在聲道內(nèi)是沿管軸無損傳播的平面波。則由P個短管組成的聲道模型的傳遞函數(shù)可以表示為一個P階的全極點函數(shù): 其中P為全極點濾波器的階數(shù),=1,為聲道模型參數(shù),它隨著調(diào)音運動在一定限制內(nèi)不斷變化。一般而言P的取值范圍為8-12,每一對極點對應(yīng)著一個共振峰,決定了聲道系統(tǒng)的頻率特性。一般而言在10ms-30ms范圍內(nèi)認(rèn)為這些聲道參數(shù)保持不變,這也是語音信號短時分析的理論依據(jù)之一。 3、輻射模型聲道的終端是口和唇,從聲道輸出的是速度波,而語音信號是聲壓波,兩者的倒比稱為輻射阻抗,可以用它來表示口唇的輻射效應(yīng)。研究證明,輻射模型可以簡化為: r取值約等于1, 類似一個一階的高通濾波器。語音信號的系統(tǒng)傳遞函數(shù)就可以用聲門激勵系統(tǒng)、聲道系統(tǒng)和輻射系統(tǒng)傳遞函數(shù)的乘積表示。 其中激勵函數(shù)分為發(fā)濁音和清音兩種情況。第2.3節(jié) 語音信號的預(yù)處理在對語音信號進(jìn)行各種后續(xù)處理之前,為了防止混疊失真和噪聲干擾,必須用一個低通濾波器進(jìn)行防混疊濾波,濾除高于1/2采樣率的信號成分。由于語音信號的平均功率譜受口鼻輻射的影響,需要對信號進(jìn)行高頻提升(6db/倍頻),便于進(jìn)行頻譜分析和聲道函數(shù)分析,因而需要將信號進(jìn)行預(yù)加重處理。預(yù)加重濾波器形式為:,取值范圍為0.93-0.97之間。預(yù)加重后的語音信號還能有效濾除低頻干擾,尤其是50Hz的工頻干擾,同時還能達(dá)到消除直流漂移、抑制隨機噪聲和提升清音部分能量的效果。當(dāng)語音信號在分析處理之后需要語音合成的時候,還需要進(jìn)行去加重處理以恢復(fù)原來的語音信號。預(yù)加重濾波器的幅頻響應(yīng)如圖2.4所示。圖2.4 預(yù)加重濾波器的幅頻響應(yīng)分幀的時候會采取0-50%重疊的方式,前一幀與后一幀之間交疊的部分稱為幀移,有了幀移的話,幀與幀之間就能夠平滑過渡,如圖2.5所示。圖2.5 分幀示意圖隨后對取出的一幀信號進(jìn)行加窗處理,即,在加窗的時候,不同的窗口和窗長的選擇將影響到語音信號分析結(jié)果,窗函數(shù)通常有矩形窗(Rectangle)和漢明窗(Hamming)兩種。矩形窗的表達(dá)式為: 漢明窗的表達(dá)式為: 漢明窗可以有效地克服頻譜泄露現(xiàn)象,所以在處理中一般都選擇漢明窗。第2.4節(jié) 語音信號的時域分析語音信號的時域特征參數(shù)直接從時域信號計算得到,反應(yīng)了語音信號時域波形的特征,如短時能量、短時平均幅值、短時過零率、短時自相關(guān)系數(shù)和短時平均幅度差等。1、語音信號的短時能量表達(dá)式為: 2、語音信號的短時平均幅值表達(dá)式為: 3、語音信號的短時平均過零率表達(dá)式為: 當(dāng)發(fā)濁音時,能量集中在低頻段,而當(dāng)發(fā)清音時能量多數(shù)集中在高頻段,短時平均過零率可以從一定程度上表示頻率的高低,因此在濁音段有較低的過零率,在清音段有較高的過零率,據(jù)此就可以初步判斷清濁音。圖2.6為某語音信號的時域波形圖、短時能量和短時過零率。圖2.6 語音9的波形圖、短時能量和過零率如圖所示,信號短時能量在信號濁音段比較突出,而過零率在清音段比較突出。在孤立詞識別過程中,必須對一連串語音進(jìn)行分割,以確定一個詞的語音信號,所以要找出一個詞的起點和終點。需要對語音進(jìn)行端點檢測。在實際應(yīng)用中正是利用信號的這兩種特點來進(jìn)行端點檢測,用的比較多的是一種雙門限的方法。圖2.7為圖2.6語音采用以上算法的端點檢測結(jié)果,可以看出上述算法能準(zhǔn)確找到語音的起始點和終點。圖2.7 語音9的波形圖及端點檢測第三章 語音疲勞度的特征參數(shù)提取方案第3.1節(jié) LPCC特征參數(shù)線性預(yù)測分析技術(shù)由維納在1947年首次提出,其基本思想是:語音的當(dāng)前樣點值都可以用若干過去的樣點值來線性表示。各加權(quán)系數(shù)值的確定原則是要保證誤差的最小均方值要最小。設(shè)預(yù)測值為,則其中P為預(yù)測階數(shù),為加權(quán)系數(shù),即LPCC系數(shù)。預(yù)測誤差用來表示真實值與預(yù)測值之間的差異。此時定義為預(yù)測誤差濾波器??梢园l(fā)現(xiàn),與互為逆濾波器。這正表明線性預(yù)測模型能夠用來表示聲道模型,而線性預(yù)測系數(shù)恰能夠反映出聲道特性,從而能夠用于語音識別。本課題中采用的是自相關(guān),從表中可以看出自相關(guān)雖然由于加窗而引入誤差,從而對精度有一定影響,但它的計算量最小且穩(wěn)定性能夠得到保證,是一種簡單高效的算法,具體算法(Levinson-Durbin算法)如下: 從以上推導(dǎo)可以看出LPCC系數(shù)能夠用于模擬全極點聲道模型,但同時存在一個問題,那就是在實際中從原始語音中獲取LPCC系數(shù)時,它既包含所需要的聲道信息,但同時無法避免混雜了語音信號產(chǎn)生過程中的激勵信息。而倒譜分析正好能夠解決這一問題,提高參數(shù)的穩(wěn)定性。所謂倒譜就是利用同態(tài)處理方法,對語音信號求離散傅里葉變換(DFT),然后取絕對值的對數(shù)進(jìn)行反變換(IDFT)得到的,如圖3.1所示。圖3.1 語音倒譜參數(shù)提取過程第3.2節(jié) MFCC特征參數(shù)LPCC模型是基于聲道模型而提出的,因此參數(shù)的穩(wěn)定性取決于語音的平穩(wěn)性和魯棒性。而MFCC參數(shù)是將人耳的聽覺特性和語音的產(chǎn)生機制相結(jié)合而產(chǎn)生的一組特征參數(shù)。人耳具有一些特殊的功能,正是這些特殊的功能能夠使人耳在嘈雜的環(huán)境中還能夠正常的分辨出各種語音,其中耳蝸起了關(guān)鍵的作用。耳蝸實質(zhì)上相當(dāng)于一個濾波器組,濾波的作用是在對數(shù)頻率上進(jìn)行的,在1KHz以下為線性尺度,而在1KHz以上則為對數(shù)尺度,這就意味著人耳對低頻信號更加敏感。而語音信息大多數(shù)都集中在低頻部分,高頻部分絕大多數(shù)都是外界噪聲的影響,總之突出了低頻信息有利于屏蔽噪聲的干擾,提取穩(wěn)定性很高的語音特征參數(shù)。根據(jù)這一原理,從心理學(xué)實驗得到了類似于耳蝸作用的一組濾波器,這就是Mel濾波器組。Mel頻率和線性頻率的轉(zhuǎn)換關(guān)系和圖示如下: 圖3.2 線性頻率和Mel頻率比較如圖所示,對頻率軸劃分不均勻是MFCC區(qū)別于LPCC的主要特點,將頻率變換到Mel域后,Mel帶通濾波器組的中心頻率是按照Mel頻率刻度均勻分布,如圖3.3所示,每個濾波器的三角形的兩個底點分別是相鄰兩個濾波器的中心頻率。設(shè)通帶內(nèi)共有M的濾波器組,則每個濾波器,的求解方法為: 圖3.3 Mel濾波器組(M=24)在實際應(yīng)用中,MFCC系數(shù)計算示意圖如圖3.4所示,具體計算過程如下:圖3.4 MFCC計算示意圖第四章 概率神經(jīng)網(wǎng)絡(luò)概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Network)是由D.F.Specht博士在1990年提出,是徑向基函數(shù)網(wǎng)絡(luò)的變形,適合用于解決分類問題。概率神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖4.1所示。第個結(jié)點的輸出為 :式中稱為徑向基函數(shù)或者特性函數(shù),一般為高斯函數(shù)。圖中的模塊表示競爭傳遞函數(shù),其功能是找出其輸入矢量中各元素的最大值,并且使與最大值對應(yīng)的神經(jīng)元輸出為1,其它類別的神經(jīng)元的輸出為0。這樣網(wǎng)絡(luò)得到的分類結(jié)果能夠達(dá)到最大的正確概率: 圖4.1 概率神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖概率神經(jīng)網(wǎng)絡(luò)的設(shè)計思想主要是基于貝葉斯決策理論。它采用貝葉斯規(guī)則來估計后驗類別概率,即未知向量屬于所有可能類別的概率。由貝葉斯規(guī)則可以知道,該概率與先驗概率和概率密度函數(shù)的乘積成正比。 先驗概率為未知向量屬于每個類別的比例,一般來說可用訓(xùn)練集中每個類別樣本出現(xiàn)頻率來估計:概率密度函數(shù)由下式表示:其中是屬于類別的第個訓(xùn)練樣本,是類別中訓(xùn)練樣本的數(shù)量,是平滑參數(shù),是各樣本的維數(shù)。PNN的訓(xùn)練就是完成以下工作:產(chǎn)生一個特征節(jié)點,把這個特征節(jié)點和目標(biāo)類的求和節(jié)點連接起來,并且把輸入向量賦值給權(quán)向量。可以推導(dǎo)出,在N個類別的問題中,要創(chuàng)建N個求和節(jié)點,每一個對應(yīng)一個目標(biāo)類。第五章 實驗方案及結(jié)果討論第5.1節(jié) 實驗語音信號的錄制語音信號通過一個麥克風(fēng),用錄音設(shè)備錄制獲得,語音采集通過Cooledit軟件完成,錄制的語音以wave格式保存。語音信號的特性是11025Hz,16bit,單聲道。以元音a:和o:作為實驗對象,每個數(shù)字語音分別在上午4:00、10:00和下午4:00、10:00四個時段各錄制40個,共320個數(shù)字語音作為實驗的數(shù)據(jù)源。第5.2節(jié) 實驗方案實驗流程圖由圖5.1所示。將預(yù)處理的語音信號分別提取 LPCC和MFCC參數(shù),先從每個語音的前10個樣本中提取參考模板,疲勞強度從低到高為1-5級,如圖5.2所示,然后放入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,隨后把320個語音樣本輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,得到實驗結(jié)果。圖5.1 實驗流程圖圖5.2 疲勞強度示意圖第5.3節(jié) 實驗結(jié)果與討論一、采用LPCC參數(shù)實驗結(jié)果采用LPCC參數(shù)和PNN結(jié)合方式的實驗結(jié)果如圖5.3、5.4所示,實驗參數(shù)如表5.1、5.2所示。 圖5.3 LPCC法測試元音a:結(jié)果圖 圖5.4 LPCC法測試元音o:結(jié)果圖 表5.1 LPCC法測試元音a:數(shù)據(jù)測試樣本預(yù)期結(jié)果實驗均值相對誤差方差凌晨四點53.6641-0.26720.4348上午十點11.381-0.53970.1219下午四點21.9902-0.00490.1785晚上十點42.4051-0.39870.3766表5.2 LPCC法測試元音o:數(shù)據(jù)測試樣本預(yù)期結(jié)果實驗均值相對誤差方差凌晨四點54.5269-0.09460.1525上午十點11.0198-0.66010.0124下午四點2200晚上十點44.00250.0006250.00025二、采用MFCC參數(shù)實驗結(jié)果 采用MFCC參數(shù)和PNN結(jié)合方式的實驗結(jié)果如圖5.5、5.6所示,實驗參數(shù)如表5.3、5.4所示。圖5.5 MFCC法測試元音a:結(jié)果圖圖5.6 MFCC法測試元音o:結(jié)果圖表5.3 MFCC法測試元音a:數(shù)據(jù)測試樣本預(yù)期結(jié)果實驗均值相對誤差方差凌晨四點54.7151-0.0570.1768上午十點11.23930.23930.2588下午四點21.9683-0.01580.1515晚上十點43.9014-0.02470.4467表5.4 MFCC法測試元音o:數(shù)據(jù)測試樣本預(yù)期結(jié)果實驗均值相對誤差方差凌晨四點54.8149-0.0370.094上午十點11.04350.04350.0076下午四點2200晚上十點44.01430.00360.0023三、討論從以上實驗結(jié)果中可以看出,通過概率神經(jīng)網(wǎng)絡(luò)的計算,四個時段錄制的同一個語音存在一定的區(qū)分度,能夠反應(yīng)其當(dāng)時的疲勞程度,MFCC參數(shù)融入了人耳的聽覺特性,故從測試結(jié)果來看,其結(jié)果優(yōu)于LPCC參數(shù),并且o:音的結(jié)果比a:更好。第六章 總結(jié)與展望本課題主要采用兩種典型的語音特征參數(shù)LPCC和MFCC和概率神經(jīng)網(wǎng)絡(luò)的方法對兩個基本元音a:和o:進(jìn)行測試,從測試結(jié)果來看,元音o:相對于a:識別結(jié)果更優(yōu),對于實際測試的準(zhǔn)確率保證更占優(yōu)勢,同時MFCC方法相對于LPCC方法,各項指標(biāo)更有利于提高識別準(zhǔn)確率。對于今后進(jìn)一步工作的思考,主要從以下幾個方面進(jìn)行思考:1、與頻譜圖結(jié)合,從圖像上尋找區(qū)分度;2、結(jié)合語音基音、共振峰等多種各種參數(shù)進(jìn)行綜合判別;3、進(jìn)行所有元音的測試,找到最利于判別的發(fā)音和詞組;4、優(yōu)化概率神經(jīng)網(wǎng)絡(luò),使之更為適應(yīng)疲勞度檢測;5、隱馬爾科夫模型HMM的介入。附錄(主要程序)clear alldisplay(開始計算參考模板.);pause(1);directoryname=speech/a/;fname1=AM4/;fname2=AM10/;fname3=PM4/;fname4=PM10/;for i=1:10 fname = sprintf(%d.wav,i); x = wavread(directoryname,fname1,fname); x = vad(x); m = mfcc(x); test(1,i).mfcc = m;enddisplay(提取凌晨4點MFCC參數(shù)成功,開始計算參考模板.);pause(1);for i=1:10 for j=1:10 a(i,j)=dtw(test(1,i).mfcc,test(1,j).mfcc); endendd j=min(sum(a,2);x=wavread(directoryname,fname1,num2str(j),.wav);wavwrite(x,speech/aref2/AM4/1.wav);display(經(jīng)計算,第 num2str(j) 個語音適合為參考模板,并寫入?yún)⒖寄0鍘?;pause(1);for i=1:10 fname = sprintf(%d.wav,i); x = wavread(directoryname,fname2,fname); x = vad(x); m = mfcc(x); test(2,i).mfcc = m;enddisplay(提取上午十點MFCC參數(shù)成功,開始計算參考模板.);pause(1);for i=1:10 for j=1:10 a(i,j)=dtw(test(2,i).mfcc,test(2,j).mfcc); endendd j=min(sum(a,2);x=wavread(directoryname,fname2,num2str(j),.wav);wavwrite(x,speech/aref2/AM10/1.wav);display(經(jīng)計算,第 num2str(j) 個語音適合為參考模板,并寫入?yún)⒖寄0鍘?;pause(1);for i=1:10 fname = sprintf(%d.wav,i); x = wavread(directoryname,fname3,fname); x = vad(x); m = mfcc(x); test(3,i).mfcc = m;enddisplay(提取下午四點MFCC參數(shù)成功,開始計算參考模板.);pause(1);for i=1:10 for j=1:10 a(i,j)=dtw(test(3,i).mfcc,test(3,j).mfcc); endendd j=min(sum(a,2);x=wavread(directoryname,fname3,num2str(j),.wav);wavwrite(x,speech/aref2/PM4/1.wav);display(經(jīng)計算,第 num2str(j) 個語音適合為參考模板,并寫入?yún)⒖寄0鍘?;pause(1);for i=1:10 fname = sprintf(%d.wav,i); x = wavread(directoryname,fname4,fname); x = vad(x); m = mfcc(x); test(4,i).mfcc = m;enddisplay(提取晚上十點MFCC參數(shù)成功,開始計算參考模板.);pause(1);for i=1:10 for j=1:10 a(i,j)=dtw(test(4,i).mfcc,test(4,j).mfcc); endendd j=min(sum(a,2);x=wavread(directoryname,fname4,num2str(j),.wav);wavwrite(x,speech/aref2/PM10/1.wav);display(經(jīng)計算,第 num2str(j) 個語音適合為參考模板,并寫入?yún)⒖寄0鍘?;pause(1);display(計算完畢);參考文獻(xiàn)1 Rabiner L R, Juang B H, Fundamental of Speech Recognition, Prentic Hall Internation,19932 G.M.Lloyd,M.L.Wang, T.L.Paez. Minimisation of decision errors in a probabilistic neural networks for change point detectio

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論