2023年聲音模型的識別與建立_第1頁
2023年聲音模型的識別與建立_第2頁
2023年聲音模型的識別與建立_第3頁
2023年聲音模型的識別與建立_第4頁
2023年聲音模型的識別與建立_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第聲音模型的識別與建立

聲音模型的識別與建立

202x長沙理工大學第二屆研究生數(shù)學建模競賽參賽

承諾書

我們仔細閱讀了長沙理工大學研究生數(shù)學建模競賽的競賽規(guī)則.

我們完全明白,在競賽開始后參賽隊員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與隊外的任何人(包括指導教師)研究、討論與賽題有關的問題。

我們知道,抄襲別人的成果是違反競賽規(guī)則的,如果引用別人的成果或其他公開的資料(包括網(wǎng)上查到的資料),必須按照規(guī)定的參考文獻的表述方式在正文引用處和參考文獻中明確列出。

我們鄭重承諾,嚴格遵守競賽規(guī)則,以保證競賽的公正、公平性。如有違反競賽規(guī)則的行為,我們將受到嚴肅處理。

我們授權長沙理工大學研究生數(shù)學建模競賽組委會,可將我們的論文以任何形式進行公開展示(包括進行網(wǎng)上公示,在書籍、期刊和其他媒體進行正式或非正式發(fā)表等)。

我們參賽選擇的題號是(從組委會提供的試題中選擇一項填寫):我們的參賽報名號為(如果組委會設置報名號的話):所屬學校(請?zhí)顚懲暾娜簠①愱爢T(打印并簽名):1.2.3.

指導教師或指導教師組負責人(打印并簽名):日期:年月日

評閱編號(由組委會評閱前進行編號):

聲音模型的識別與建立

202x長沙理工大學研究生數(shù)學建模競賽

編號專用頁

評閱編號(由組委會評閱前進行編號):

評閱記錄(可供評閱時使用):

聲音模型的識別與建立

聲音識別模型的建立與評價

摘要

本文通過使用MATLAB軟件對聲音的時域和頻域特征進行了提取,研究特征向量提取方法及SVM核函數(shù)和參數(shù)選取對識別結(jié)果的影響,分析特征提取算法的優(yōu)缺點,以及不同核函數(shù)以及懲罰參數(shù)對識別性能的影響。通過使用支持向量機法建模,基本達到了區(qū)分正常聲音與非正常聲音的目的。最后提出用低通濾波濾除白噪聲。

關鍵詞:特征向量,支持向量機,核函數(shù),低通濾波,白噪聲

聲音模型的識別與建立

從物理上講,聲音是由物體振動產(chǎn)生的一種波,并通過空氣作用于人的耳鼓,使人們能

夠感知。聲音的具有四種性質(zhì):1)音高:振動發(fā)出的聲波有不同的頻率,稱為“音高”;2)強弱:聲音的強弱是由振幅決定的,振幅是代表物體振動強度的特定單位,一般用分貝(dB)來表示。3)長短:一般把聲音的發(fā)展過程分為四個階段,分別是觸發(fā)、衰減、保持和消失。這四個階段稱為“包絡”,包絡的發(fā)生時間,也就是一個聲音的長短。4)音質(zhì):音質(zhì)好的聲音聽起來悅耳,相反則讓人不適。

問題一

利用matlab中的sound函數(shù),播放出聲音信號,試聽并比較正常和非正常開門聲音的差

別,利用plot函數(shù)繪制出具體的聲音波形圖,總結(jié)差別在哪些方面?

試聽:我們使用sound函數(shù)播放聲音樣本。在仔細聽了正常開門及非正常開門的聲音后,

發(fā)現(xiàn)了他們之間的差別:正常開門聲音很短促,即聲音的長短度短,且其強弱度相對較低。相反非正常開門聲音持續(xù)時間長,強弱度高。

畫圖:我們選取了三組正常開門及三組非正常開門的聲音,使用plot函數(shù)畫出聲音波形

圖,如下圖1所示:

由圖1可以看出正常開門的聲音波形比較疏松,所以音調(diào)就低。非正常開門的聲音波形

比較密集,所以聲調(diào)就高。我們還可以看出前者聲波比較集中,而后者則比較散,即跨度大。這一點很好理解,正常用鑰匙開門所需時間肯定比盜賊撬鎖所需時間短,所以就造成了這種現(xiàn)象。程序源代碼見附錄一。

聲音模型的識別與建立

圖1正常與非正常開門聲音波形圖

問題二

利用合適的時域或(和)頻域特征表達個聲音信號,建立特征向量,寫出提取特征向量

的具體方法和程序代碼。

首先,我們對兩種樣本求其均值。由于正常開門的第一組數(shù)據(jù)有人聲干擾,故舍去。然

后用plot函數(shù)畫出聲音波形圖,如下圖2所示:

根據(jù)所分析的參數(shù)類型,語音信號分析可以分成時域分析和變換域(頻域、倒譜域)分析。

其中時域分析方法是最簡單、最直觀的方法,因為它直接對語音信號的時域波形進行分析。接下來我們先進行時域分析。

聲音模型的識別與建立

圖2正常開門聲與非正常開門聲均值

短時平均能量:定義n時刻某語音信號的短時平均能量En為:

En

m

[x(m)(nm)]2

m(1)

nN

n

[x(m)(nm)]2(1)

式中,N為窗長,可見短時能量為一幀樣點值的平方和。

一般我們認為聲音在10-30ms之內(nèi)是穩(wěn)定的,取幀長也在10-30ms之內(nèi),而幀移通常取

5-15ms之間,所以取N=55、95、125、165。如下圖3、4為正常開門及非正常開門N取不同值時短時能量函數(shù)隨幀數(shù)的變化曲線,其中橫坐標為幀數(shù)。

由圖3、圖4可以看出,N=55,N=95時的曲線不夠平滑,而N=165的曲線又過于平滑,

故選取N=125時的曲線。

聲音模型的識別與建立

圖3正常開門聲音的短時能量曲線

圖4非正常開門聲音的短時能量曲線

聲音模型的識別與建立

通過觀察短時能量曲線,可以看出正常開門時的能量比較集中且數(shù)值小,非正常開門時

的能量比較分散且數(shù)值大。容易想到,這些現(xiàn)象與前面問題一的結(jié)論是相吻合的。

短時平均過零率:短時平均過零率是指每幀內(nèi)信號通過零值的次數(shù)。對有時間橫軸的連

續(xù)聲音信號,可以觀察到聲音的時域波形通過橫軸的情況。在離散時間聲音信號情況下,如果相鄰的采樣具有不同的代數(shù)符號就稱為發(fā)生了過零,因此可以計算過零的次數(shù)。

Zn

|sgn[x(m)]sgn[x(mm

1)]|(nm)

(2)

=|sgn[x(n)sgn[x(n1)]x(n)

上式為短時平均過零率的公式,其中,sgn[]為符號函數(shù),即

1,x(n)0sgn[x(n)]

(3)

1,x(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論