已閱讀5頁(yè),還剩64頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
(信號(hào)與信息處理專業(yè)論文)基于內(nèi)容的音頻檢索方法研究.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一章緒論 1 1 課題來源和研究任務(wù) 第一章緒論 本課題來源于綿陽(yáng)九洲橫向課題,課題要求利用紅外、可見光和聲音三種傳 感器的數(shù)據(jù)進(jìn)行融合來識(shí)別野外環(huán)境下的運(yùn)動(dòng)車輛。本論文作為該項(xiàng)目的一部分, 主要研究音頻信號(hào)的識(shí)別。 本課題涉及的關(guān)鍵技術(shù)與研究任務(wù)包括: 1 、可見光信號(hào)分割與特征提取 2 、紅外信號(hào)特征提取與目標(biāo)跟蹤 3 、音頻信號(hào)分割與識(shí)別 4 、二種信號(hào)信息融臺(tái)及識(shí)別 課題研究期間,我參加了以下工作:系統(tǒng)整體方案設(shè)計(jì)、紅外、可見光、音 頻數(shù)據(jù)采集,音頻信號(hào)分割與識(shí)別算法研究及p c 仿真,以及各階段音頻部分報(bào)告 總結(jié)等工作。 1 2 基干內(nèi)容的音頻檢索的背景及其意義 大量的網(wǎng)絡(luò)數(shù)據(jù)中包含多媒體數(shù)據(jù),如視頻、圖像和音頻,人們已經(jīng)不再滿 足于通過一般的屬- 眭( 如名字、年月、價(jià)格等) 進(jìn)行檢索,對(duì)圖像和視頻,可以采用 主色調(diào)、紋理等視覺特征米檢索;同樣,對(duì)于音頻,需要通過聽覺特征進(jìn)行檢索。 a o d 、v o d 、音頻解析等系統(tǒng)的實(shí)用與推廣,都需要高效的音頻信息檢索技術(shù)。 音頻信息檢索技術(shù)已經(jīng)成為信息榆索技術(shù)的研究重點(diǎn)之一。 自然界的聲音極其廣泛,如音樂聲、風(fēng)雨聲、動(dòng)物叫聲、機(jī)器轟鳴聲等等, 要從數(shù)以千萬(wàn)計(jì)的音頻數(shù)據(jù)中提取所需的信息,常規(guī)的基于文本檢索方法是行不 通的,這就需要新的技術(shù)。只有從廣泛的音頻數(shù)據(jù)中提取特鉦信息,才能對(duì)不同 音頻數(shù)據(jù)進(jìn)行分類和檢索,這就耍用到基于內(nèi)容檢索( c o n t c n t b a s e d r e t r i w a l ,c b r l 的方法。 在基于內(nèi)容的音頻檢索技術(shù)從2 0 世紀(jì)9 0 年代末興起以前,一種對(duì)語(yǔ)音文本 f s p e e c h d o c u m e m r e t r i e v a l ) 檢索的技術(shù)已經(jīng)存在。在這種方法中,先把i b 錄在磁帶、 ( s p e e c h d o c u m e m r e t r i e v a l ) 檢索的技術(shù)已經(jīng)存在。在這種方法中,先把記錄在磁帶、 第一耄緒論 l 音樂黼音頻對(duì)器語(yǔ)音刪煉事 l l感知特征:鬻調(diào)、裔離;凝律、葦奏 聲學(xué)特征:能量、過零率、m f c c 系數(shù) |聲學(xué)結(jié)構(gòu)化表示 i l采樣率、時(shí)間亥4 發(fā)、樣零、格式、編碼 語(yǔ)義級(jí) 聲學(xué)特征級(jí) 物理樣本級(jí) 圖1 1 音頻內(nèi)容分層描述模型 音頻的聽覺特性決定其查詢方式不間于掌虢的信息檢素系統(tǒng)。基于內(nèi)容於查 詢是一種相似查詢,它實(shí)際上是檢索出與用戶指定的要求非常相似的所有聲音。 焱詢中可以指定返回的聲音數(shù),或指定相似度的大小。另外可以強(qiáng)調(diào)或關(guān)閉( 忽略) 某些特征成分,甚至可以施加邏輯“非”( 或摸糊的l e s s 匹配關(guān)系) 來指定檢索條 牛, 檢索那魑不具有或少有某種特征成分( 例如指定沒有“尖銳”或少有“尖銳”1 的聲 音。另外還可以對(duì)繪定的一組聲音,按照聲學(xué)特塹進(jìn)行捧序( 鍘如這些聲音的嘻雜 程度怎樣? 1 。在查詢接口上,用戶可以采用以下形式提交查詢: 示側(cè)靂戶選擇一個(gè)聲音例子寢這其查詢的要求,查找蹬與該聲音在某些特征 方面相似的所有聲音。例如查詢與飛機(jī)的轟鳴聲相似的所有聲音。 直喻通過選擇一些聲學(xué)感知物理特性來描述查詢要求,例如亮度、裔調(diào)和音 璧等。這秭方式類似于可視查詢中的描繪查詢。 擬聲發(fā)出與要查找的聲音性質(zhì)相似的聲音來表達(dá)查詢的要求。例如,用戶可 阻發(fā)出嗡嗡聲來查找蜜蜂或電氣曦雜聲。 主觀特征用個(gè)人的描述語(yǔ)言來描述聲音。這需要訓(xùn)練系統(tǒng)理解這些描述術(shù)語(yǔ) 的含義。例如一個(gè)用戶可能要尋找“歡快”的聲音。 瀏覽一瀏覽是信息發(fā)現(xiàn)的一種熏要手段,尤其是對(duì)于音頻這種對(duì)基媒體。除了 在分類的基礎(chǔ)之上瀏覽目錄之外,重要的基于音頻的結(jié)構(gòu)進(jìn)行瀏覽。根據(jù)對(duì)音頻 電子科技大學(xué)碩士學(xué)位論文 媒體的劃分,可以知道語(yǔ)音、音樂和其它聲響具有顯著不同的特性,因而目前的 處理方法可以分為相應(yīng)的三種:處理包含語(yǔ)音的音頻和不包含語(yǔ)音的音頻,后者 又把音樂單獨(dú)劃分出來。換句話說,第一種是利用自動(dòng)語(yǔ)音識(shí)別技術(shù),后兩種是 利用更一般性的音頻分析,以適合更廣泛的音頻媒體,如音樂和聲音效果,當(dāng)然 也包含數(shù)字化語(yǔ)音信號(hào)。音頻信息檢索于是分為: 語(yǔ)音檢索以語(yǔ)音為中心的檢索,采用語(yǔ)音識(shí)別等處理技術(shù)。例如電臺(tái)節(jié)目、 電話交談、會(huì)議錄音等; 音樂檢索以音樂為中心的檢索,利用音樂的音符和旋律等音樂特性來檢索。 例如檢索樂器、聲樂作品等: 音頻檢索一以波形聲音為對(duì)象的檢索,這里的音頻可以是汽車發(fā)動(dòng)機(jī)聲、雨聲、 鳥叫聲,也可以是語(yǔ)音和音樂等,這些音頻都統(tǒng)一用聲學(xué)特征來檢索。 1 3 基于內(nèi)容的音頻檢索的現(xiàn)狀及發(fā)展概況 對(duì)于人的感官來說,有視覺、聽覺、觸覺和味覺等方面的感知。在視覺方面, 可以感知位置、運(yùn)動(dòng)、顏色、紋理、形狀、符號(hào)等;在聽覺方面,可以感知位置、 運(yùn)動(dòng)、音調(diào)、音量、旋律等;還有觸覺( 機(jī)械的、熱的、電的、肌肉運(yùn)動(dòng)方面的) 和嗅覺f 氣味、味道等) 。除了視覺,人們可以從聽覺中獲得許多的信息,例如我們 日常收聽的電臺(tái)節(jié)目中欣賞的音樂、聆聽的自然聲響等。 音頻是多媒體中的一種重要媒體。我們能夠聽見的音頻頻率范圍是6 0 k 到 2 0 k h z ,其中語(yǔ)音大約分布在3 0 0 h z 到4 0 0 0 h z 之內(nèi),而音樂和其它自然聲響是全 范圍分布。聲音經(jīng)過模擬設(shè)備記錄或再生,成為模擬音頻,它們經(jīng)數(shù)字化成為數(shù) 字音頻。數(shù)字化時(shí)的采樣率必須高于信號(hào)帶寬的二倍,才能正確恢復(fù)信號(hào)。樣本 可用8 位或1 6 位比特表示。 以前的許多研究工作涉及到語(yǔ)音信號(hào)的處理,例如語(yǔ)音識(shí)別機(jī)器容易自動(dòng)識(shí) 別孤立的字詞,例如用在專用的聽寫和電話應(yīng)用方面。連續(xù)的語(yǔ)音識(shí)別較困難, 錯(cuò)誤較多,但是目前在這方面已經(jīng)取得了突破性的進(jìn)展。還研究了說話人的辨別 技術(shù)。這些研究成果將為音頻信息的檢索提供很大的幫助。 常規(guī)的信息檢索偶、研究主要是基于文本,例如我們已經(jīng)非常熟悉諸如y a h o o 和a 1 t a v i s t a 這樣的搜索引擎。經(jīng)典的瓜問題是利用一組關(guān)鍵字組成的查詢來定位 需要的文本文檔。即定位文檔中的查詢關(guān)鍵字來發(fā)現(xiàn)匹配的文檔。如果一個(gè)文檔 包含較多的查詢項(xiàng),那么它就被認(rèn)為比其它包含較少查詢項(xiàng)的文檔更“相關(guān)”。于 4 第一章緒論 是文檔可以按照“相關(guān)”度來排序,并顯示給用戶以便進(jìn)一步搜索。雖然這種一 般的i r 過程是為文本設(shè)計(jì)的,但是顯然也適用于音頻或其它多媒體信息的檢索。 然而,如果我們把數(shù)字音頻當(dāng)成一種不透明的位流來管理,雖然可以賦予名字、 文件格式、采樣率等屬性,然而其中沒有可以確認(rèn)的詞,或可比較的實(shí)體,因此不 能向文本那樣搜索或檢索其內(nèi)部的內(nèi)容。對(duì)于音樂和非語(yǔ)音聲響也是這樣。 國(guó)外研究機(jī)構(gòu)對(duì)音頻檢索進(jìn)行了多方面的研究。m u s d ef i s h 【2 】是一個(gè)商業(yè)化的 基于音頻感知特征的音頻檢索引擎。c a m e 西em e l l o n 大學(xué)的i n f o i i i l e d i a 項(xiàng)目【3 i 結(jié)合 語(yǔ)音識(shí)別、視頻分析和文本檢索技術(shù)支持視頻廣播的檢索。c a m b r i d g e 大學(xué)的 v m r f 視頻郵件檢索1 小組【4 利用基于網(wǎng)格的詞組發(fā)現(xiàn)技術(shù)檢索視頻郵件中的消息。 m a r y l a n d 大學(xué)的v o i c e g m p h 【5 結(jié)合基于內(nèi)容和基于說話人的查詢,檢索已知的說話 人和詞語(yǔ),并設(shè)計(jì)了一種音頻圖示查詢接口。s p e e c h s h m m e d 6 】是一種音頻交互的 接口,它以層次結(jié)構(gòu)構(gòu)造出音頻文檔的“魚餌”視圖?!綺 7 j 的作者研究了音樂曲調(diào)和 旋律的檢索。另外,m i t 【8 】、c o m e l l 大學(xué)、南加州大學(xué)【9 】、澳大利亞w b l l o n 9 0 n g 大學(xué)、歐洲e u r o m e d n 和e u m c o m 的語(yǔ)音和音頻處理小組等研究機(jī)構(gòu)分別開展 了用子詞方法進(jìn)行語(yǔ)音檢索、通過哼唱查詢、音頻分類、結(jié)構(gòu)化音頻表示和基于 說話人的分割和索引等方面的研究。 1 4 論文安排 第一章:本章介紹課題來源,基于內(nèi)容的音頻檢索研究背景和發(fā)展概況。 第二章:本章討論了音頻信號(hào)去噪的常用方法,包括譜減法、中值濾波和預(yù) 加重濾波,研究了音頻信號(hào)分幀和加窗處理,進(jìn)行參數(shù)分折。 第三章:本章詳細(xì)介紹了音頻信號(hào)的時(shí)域特征,包括短時(shí)平均能量、短時(shí)過 零率;音頻信號(hào)頻域特征算法原理和應(yīng)用。對(duì)短時(shí)平均能量、短時(shí)過零率進(jìn)行研 究,可能根據(jù)這兩種特征對(duì)音頻信號(hào)進(jìn)行粗分類。著重研究了音頻信號(hào)的頻域特 征,提出了一種均值m f c c 系數(shù)算法,對(duì)單一音頻信號(hào)進(jìn)行分析時(shí),可以將均值m f c c 系數(shù)作為音頻信號(hào)的特征。 第四章:本章主要介紹了音頻分割和識(shí)別算法。研究了音頻分層分割,單一 音頻例子識(shí)別兩個(gè)方面。結(jié)合上一章音頻特征提取,對(duì)音頻信號(hào)進(jìn)行識(shí)別實(shí)驗(yàn), 驗(yàn)證了m e l 倒譜系數(shù)作為單一音頻信號(hào)特征進(jìn)行音頻識(shí)別的可行性。 第五章:介紹音頻檢索算法,以及音頻檢索的分類和音頻檢索的未來和挑戰(zhàn)。 電子科技大學(xué)碩士學(xué)位論文 第二章音頻信號(hào)預(yù)處理2 + 1 音頻處理技術(shù)介紹 由于音頻本質(zhì)是信息的載體,在音頻檢索研究中,一般對(duì)信號(hào)需要避行三方 面的研究,如圖f2一1):(1)研究音頻信號(hào)如何產(chǎn)生的,這方顢研究集中在為音頻 信號(hào)建立產(chǎn)生模型,通過產(chǎn)生模型提取音頻特征;(2)音頻如何傳播,也就是說, 毒頻信號(hào)如耩通過另外介質(zhì)傳播到人豹耳朵里,目前膏頻檢索中在這方囊的研究 較少;( 3 ) 音頻信號(hào)如何被再形成音頻場(chǎng)景。如果要使用計(jì)算機(jī)取代人,對(duì)音頻 信號(hào)大藏皮層中的惑知器官處理,兩后再形成音頻場(chǎng)豢。如柒要使用計(jì)算桃取代 人,對(duì)音頻信號(hào)進(jìn)行自動(dòng)理解,就必須研究人對(duì)音頻信號(hào)的感知機(jī)制,使計(jì)算機(jī) 能夠像人一樣對(duì)音頻信號(hào)自動(dòng)理解與分析,極大地方便了人們對(duì)數(shù)據(jù)的組織與管烈。 圖2 1 音頻是信息的載體 在音頻檢索中,需要經(jīng)過特征提取、音頻分割、膏頻識(shí)別分類和索引檢索這 幾個(gè)關(guān)鍵步驟i 1 0 1 ,如圖( 2 2 )隰2 2 基于聽覺內(nèi)容的音頻檢索 音頻是多媒體中的一搴中重要媒體。入耳能夠孵冤的音頻頻率范圍是 60hz20khz,其中語(yǔ)音大約分布在300hz4khz之內(nèi),而音樂和其他自然聲響可以 分布在6 0 h z 。2 0 k h z 任何區(qū)域。入耳聽到的音頻蔗連續(xù)模擬信號(hào),而計(jì)算桃只能處 理數(shù)字化的信惑,所以摸擬連續(xù)毫頻信號(hào)要經(jīng)過離教化即抽樣后變成計(jì)算機(jī)處理 第二章音頻信號(hào)預(yù)處理 2 3 音頻分幀處理 音頻信號(hào)處理時(shí),音頻信號(hào)特性在很短時(shí)間區(qū)間內(nèi)變化是很緩慢的,所以在 這個(gè)變化緩慢的時(shí)間內(nèi)所提取的音頻特征保持穩(wěn)定。這樣,對(duì)音頻信號(hào)進(jìn)行處理 時(shí),首先就是將離散音頻信號(hào)分成一定長(zhǎng)度單位進(jìn)行處理,即將離散音頻采樣點(diǎn) 分成一個(gè)個(gè)音頻幀( 窗口) 。這種方法就是信號(hào)短時(shí)7 處理方法,一般一個(gè)短 時(shí)音頻幀持續(xù)時(shí)間長(zhǎng)度約為幾個(gè)到幾十毫秒。 一段連續(xù)音頻信號(hào)流x 采樣后的離散音頻信號(hào)可以表示為 z = 0 ( 1 ) ,z ( n ) j 暉”,這意味著從此連續(xù)音頻信號(hào)中得到了k 個(gè)采樣數(shù)據(jù),其中 z m ) 是時(shí)刻n ( 1 s 以s t ) 得到的數(shù)據(jù)。在“短時(shí)”處理時(shí)候,假設(shè)將這k 個(gè)數(shù)據(jù)分成 組,每一組就是一幀,每一幀包含陋工】個(gè)采樣點(diǎn)( 當(dāng)然,一般相鄰幀間有迭加, 其迭加率為5 0 7 0 左右) 。從每一組幀的三】個(gè)采樣點(diǎn)可以提取n f e n f “r e 個(gè)特 征,最后得到工n 凡n m ,e 個(gè)特征就構(gòu)成了音頻數(shù)據(jù)x 的特征,這些特征被用來對(duì) 音頻數(shù)據(jù)流z 進(jìn)行分割、識(shí)別與檢索。 通過上面的分析可以知道,音頻信號(hào)“短時(shí)”特征處理方法是從采樣點(diǎn)集合 中提取特征,而不是像視頻處理時(shí),從每個(gè)“關(guān)鍵”采樣點(diǎn)( 即視頻關(guān)鍵幀) 中提取 的特征來表示視頻數(shù)據(jù)( 在視頻處理中,需要從每個(gè)視頻圖像幀中,提取特征進(jìn)行 鏡頭分割,然后用“關(guān)鍵幀”的特征去表征視頻數(shù)據(jù)1 。 本文對(duì)音頻信號(hào)進(jìn)行分幀處理,主要進(jìn)行了以下考慮:實(shí)驗(yàn)過程中,錄制音 頻信號(hào)采樣率為4 4 1 0 0 h z ,對(duì)音頻例子進(jìn)行分幀處理時(shí),考慮音頻信號(hào)采樣率為 4 4 1 0 0 h z ,取1 0 2 4 個(gè)采樣點(diǎn)做為一個(gè)“短時(shí)幀”,1 0 2 4 個(gè)采樣點(diǎn)約為2 5 毫秒,能 夠滿足音頻信號(hào)短時(shí)穩(wěn)定的特性。幀迭加5 1 2 個(gè)采樣點(diǎn),迭加率5 0 ,同時(shí)考慮 到音頻信號(hào)的連續(xù)性。音頻信號(hào)分幀實(shí)驗(yàn)結(jié)果如圖( 2 。5 ) 所示。 電子科技大學(xué)碩士學(xué)位論文 1 0 5 0 - 05 - 1 o 2 4 音頻加窗處理 6 08 01 0 01 2 01 4 0 圖2 - 5 音頻例子分幀處理 對(duì)于采樣得到的x ( ”) ( 1 s ns k ) 音頻信號(hào),考慮到信號(hào)在短時(shí)間內(nèi)的連貫性, 首先把音頻信號(hào)的k 個(gè)采樣點(diǎn)分割成前后迭加的幀( 每個(gè)音頻幀內(nèi)包含幾百個(gè)采樣 點(diǎn)、,相鄰幀問的迭加率一般為5 0 7 0 ,音頻處理中的“短時(shí)幀”均是這樣得到 的1 1 l 】。離散時(shí)間信號(hào)總是有限長(zhǎng)的,因此不可避免地要遇到數(shù)據(jù)截短問題。在信 號(hào)處理中,對(duì)離散信號(hào)序列的截短是通過離散信號(hào)序列與窗口函數(shù)相乘來實(shí)現(xiàn)的。 設(shè)z ( i :f + ) 是一個(gè)含個(gè)采樣點(diǎn)的短時(shí)幀,w o ) 是長(zhǎng)度為的窗函數(shù),用w ( f ) 截 短x “:f + ) ,得到點(diǎn)序列石“:f + ) ,即x ( f :f + ) = z ( f :f + ) w ( n ) ,通過這 樣的途徑,先前第個(gè)短時(shí)幀中的個(gè)采樣點(diǎn)z ( f :f 十) 被轉(zhuǎn)換成x ( f :f + 1 。由于 時(shí)域上信號(hào)做卷積計(jì)算,相當(dāng)于頻域上相乖,因此窗口函數(shù)計(jì)算也可以如下表示: 工,。p ) = 去于球妒沙1 d 日 ( 2 - 3 ) 1 0 第二章音頻信號(hào)預(yù)處理 其中,x 和分別表示頻譜。 由此可見,窗口函數(shù)w ) 不僅影響原信號(hào)在時(shí)域上的波形,而且也影響其頻 域的形狀。常用的窗口函數(shù)有矩形窗、巴特立特( b a r t l e t t ) 窗、三角窗、海明( h a m m i n 曲 窗、漢寧咂姍i n 曲窗、切比雪夫( c h e b y s h e v ) 窗、布萊克曼( b 1 a c k m 鋤) 窗、凱澤( k a i s e r ) 窟等【1 2 1 。 矩形窗: w ( 。) :o n ! 一1 ( 2 - 4 ) w ( ”) 2 孟n :e 腦e ( 2 - 4 ) 漢明窗: w 叫 砘肛q o s ”s 一1 ( 2 5 ) n = e b e 窗函數(shù)形狀和長(zhǎng)度的選擇,對(duì)于短時(shí)分析參數(shù)的特性影響很大,為此應(yīng)選擇 合適的窗口,使其短時(shí)參數(shù)更好的反映音頻信號(hào)的特性變化。矩形窗的譜平滑性 較好,但損失了高頻成分,使波形細(xì)節(jié)丟失,并且矩形窗會(huì)產(chǎn)生泄漏現(xiàn)象;而漢 明窗可以有效的克服泄漏現(xiàn)象,應(yīng)用范圍也最廣泛【1 3 】。窗口長(zhǎng)度n 如果很大,則 它等效于很窄的低通濾波器,音頻信號(hào)通過時(shí),反映波形細(xì)節(jié)的高頻部分被阻礙, 短時(shí)能量隨時(shí)問變化很小,不能真實(shí)的反映語(yǔ)音信號(hào)的幅度變化;反之,如果n 太小,濾波器的通帶變寬,短時(shí)能量隨時(shí)間有急劇的變化,不能得到平滑的能量 函數(shù),因此,窗口的長(zhǎng)度選擇應(yīng)該合適。 根據(jù)上面的分析,本文對(duì)漢明窗不同的a 取值進(jìn)行實(shí)驗(yàn),不同a 值時(shí),窗口函 數(shù)分析如圖( 2 6 ) 。 實(shí)驗(yàn)過程中,a = o 4 6 時(shí),對(duì)音頻信號(hào)進(jìn)行加窗處理,能夠很好的反映音頻信 號(hào)的特性變化。圖( 2 7 ) 為加窗后結(jié)果。 電子科技大學(xué)碩士學(xué)位論文 g e n e r a z e dh a m m i n gw i n d o w :( 1 ) n c o s ( :b 們( n - 1 ) ) ,0 s n s n 一1 0 2 0 0 1 0 0 o o r 舊i n a 1s i g n a i 圖( 2 6 ) 漢明窗變化圖 娜哪蚓。悟渺p 2 0 04 0 06 0 08 0 01 0 0 02 0 04 0 06 0 08 0 01 0 0 0 e n e r g ys p e c t r u m ( n e a rs ca l e )e n e r g ys p e c t r u m ( n e a rs c a i e ) h 1 0 0 5 0 o | 彩i 4 0f 干i _ - 干= = = 習(xí) 4 0f = = = = f = j 二= = = f _ 二= = j 委烊鎏鬻委醛塞竺| 圖( 2 - 7 ) 音頻信號(hào)加窗分析 第二章音頻信號(hào)預(yù)處理 2 5 本章小結(jié) 本章討論了音頻信號(hào)去噪的常用方法,包括譜減法、中值濾波和預(yù)加重濾波, 對(duì)于連續(xù)音頻信號(hào),譜減法能很好的減少環(huán)境噪聲。結(jié)合人耳特點(diǎn),預(yù)加重處理 能減少低頻噪聲。同時(shí),根據(jù)項(xiàng)目的要求,對(duì)音頻信號(hào)進(jìn)行分幀和加窗處理,進(jìn) 行參數(shù)分析,找到合適的處理參數(shù)。 電子科技大學(xué)碩士學(xué)位論文 3 1 引言 第三章音頻特征提取 連續(xù)音頻信號(hào)經(jīng)過采樣,變成離散信號(hào)后,按照對(duì)瞄工】個(gè)采樣點(diǎn)提取特征方 式不同,可以從音頻信號(hào)中提取三類基本特征:時(shí)域特征、頻域特征和時(shí)頻特征。 這三類特征空間從不同角度刻劃了音頻信號(hào)的實(shí)質(zhì),構(gòu)成了音頻信號(hào)的描述算子。 另外,按照特征提取單位長(zhǎng)短的不同,也可以從音頻信號(hào)x 中提取音頻幀特征 c a l l d i of r a m e ) 和音頻例子( a u d i oc l i p ) 特征兩種不同形式的特征。x 的音頻幀特征 就是從每個(gè)瞄三】個(gè)采樣點(diǎn)中分別提取特征,所有暇工】個(gè)點(diǎn)中提取的特征就構(gòu)成 了x 的特征向量。使用音頻幀長(zhǎng)度來提取特征的思想來自語(yǔ)音信號(hào)處理理論,其前 提假設(shè)是語(yǔ)音信號(hào)在短時(shí)刻內(nèi)( 如幾毫秒) 是穩(wěn)定的,因此在穩(wěn)定短時(shí)刻內(nèi)提取的特 征被發(fā)現(xiàn)十分適宜。 基于音頻例子長(zhǎng)度提取特征考慮的是任何音頻語(yǔ)義總是要持續(xù)一定長(zhǎng)的時(shí)刻 和,如爆炸和掌聲會(huì)持續(xù)幾秒。如果在音頻語(yǔ)義持續(xù)時(shí)間內(nèi)提取特征,會(huì)更好反 映音頻所蘊(yùn)涵語(yǔ)義,所以在這種方法中,直接對(duì)x 提取特征,也就是把工的所有采 樣點(diǎn)只看成一個(gè)“短時(shí)幀”,但是這樣處理的結(jié)果過于粗糙。實(shí)際中,對(duì)于x 的所 有采樣點(diǎn)z ) ( 1 s ns k ) ,為了既考慮音頻短時(shí)平穩(wěn)特性,又考慮音頻信號(hào)本質(zhì)非 平穩(wěn)特性,一般先提取每個(gè)含隧三 個(gè)采樣點(diǎn)的音頻幀特征,然后計(jì)算音頻幀的統(tǒng) 計(jì)特征f 如平均值和方差等1 ,作為x 的音頻例子特征。 3 2 音頻時(shí)域特征提取 連續(xù)音頻信號(hào)x 經(jīng)過采樣后,得到k 個(gè)采樣點(diǎn)工0 ) ( 1 s ns k ) 。在音頻時(shí)域特 征提取中,認(rèn)為每個(gè)采樣點(diǎn)z ) ( 1 ns k ) 包含了這一時(shí)刻音頻信號(hào)的所有信息, 所以直接由x ( n ) ( 1 s n s k ) 提取音頻特征,而不需要對(duì)x ( n ) ( 1 s ,ls k ) 做任何進(jìn)一步 處理。 采用這種處理方法,將x ) ( 1 s 聆s k ) 序列看成個(gè)二維數(shù)軸,橫坐標(biāo)表示時(shí)間 ( 其長(zhǎng)度為k ) ,縱坐標(biāo)表示x ) ( 1 s ”sk ) 的值。考察音頻信號(hào)在這個(gè)坐標(biāo)軸上的 能量幅度,對(duì)短時(shí)平均能量,過零率和線性預(yù)測(cè)系數(shù)等時(shí)域特征進(jìn)行驗(yàn)證。 1 4 電子科技大學(xué)碩士學(xué)位論文 3 2 2 短時(shí)過零率 “過零率( z e r o c r o s s i n gr a t e ) ”指在一個(gè)短時(shí)幀內(nèi),離散采樣信號(hào)值冀征歹鬧 酌薹罪釅型洲融氍乒氍:攔赫鱗到鷲量塞咎吞翻型晶摧里萋確副擘鞲副餐i 耋;。 躲在實(shí)際哩雛鞭磊劣等= 鈄! 攜時(shí)研罐緬之恒嗽; 塞,一萋鑫| 蓁夔顯幾;i 一! l 赫髫配耋;m 鍘強(qiáng); :i 。i ! o 引 群婪? 暈i s ;硼燃罐島溶萎所咀較時(shí),所提取的聽覺特征正、,和 往往是前面 介紹的音頻時(shí) 域、頻域、短時(shí)幀和音頻例子特征。 在音頻分割處理過程中,對(duì)不同的音頻特征( 或組合音頻特征) ,需要預(yù)先分 別確定不同特征之間變化的閾值,這樣,可以根據(jù)確定的閾值,去判斷音頻數(shù)據(jù) 流之間是否發(fā)生了變化。不同特征之間閾值的選取比較困難,特別是一個(gè)穩(wěn)定普 遍閩值的獲取基本是不可能的。當(dāng)一個(gè)分割閩值在某些應(yīng)用表現(xiàn)良好,如果使用 到另外些應(yīng)用中去時(shí),往往會(huì)產(chǎn)生不理想的結(jié)果,使這種基于閾值的音頻分割算 法不魯棒。 由于音頻是時(shí)序數(shù)據(jù),為了到達(dá)不使用閩值目的,可以訓(xùn)練一個(gè)模型去模擬 某類音頻動(dòng)態(tài)變化,然后根據(jù)這個(gè)模型的動(dòng)態(tài)變化,達(dá)到音頻數(shù)據(jù)流自動(dòng)分割的 目的,這是采用模板對(duì)音頻信號(hào)進(jìn)行分割的思路。 在基于模板的音頻信號(hào)流分割方法中,目前比較成功的是應(yīng)用訓(xùn)練好的隱馬 爾可夫鏈,通過v i t e r b i 算法求出最佳狀態(tài)序列,然后實(shí)現(xiàn)對(duì)不同話者的語(yǔ)音分 割。這種方法不需要任何閾值,自動(dòng)實(shí)現(xiàn)音頻信號(hào)流分割。但是,這種方法也有 本身的局限性,就是需要對(duì)分割模板進(jìn)行反復(fù)訓(xùn)練。 4 2 1 音頻分層分割 實(shí)現(xiàn)音頻信號(hào)流分層分割,關(guān)鍵是找到能夠明顯區(qū)分不同類別音頻信號(hào)的特 征或特征組合,然后通過比較特征之間的差異是否超過了一定閾值,將連續(xù)音頻 信號(hào)流分割出實(shí)現(xiàn)預(yù)定的例子。 【1 0 】從每個(gè)短時(shí)音頻幀中提取短時(shí)平均能量、過零率協(xié)方差、基本頻率能量比 和過零率周期率四個(gè)特征,然后比較前后相鄰若干個(gè)短時(shí)幀某個(gè)或某些特征是否 發(fā)生了明顯變換,將得到的特征變換值與給定闕值做比較,逐步對(duì)連續(xù)音頻信號(hào) 流進(jìn)行切分,分別得到靜音( s 訂e n c e ) 、對(duì)話( d i a l o g ) 、和諧背景音樂( h a r m o n i o u s m u s i c ) 和環(huán)境背景音( e n v i r o m e n t a ls o u n d ) 等音頻例子。 本文分別對(duì)靜音,語(yǔ)音,和諧音樂的短時(shí)能量,短時(shí)過零率和過零率協(xié)方差 電子科技大學(xué)碩士學(xué)位論文 波的疊加,這些諧波的頻率f 在o s ,c ,c 之間,諧波的周期t 在t fc + 。之間, j 。 l = 為極小周期,抽樣間隔不能超過極小周期t 的一半。 ,。 在離散信號(hào)z ) 的頻譜中,頻率去起著重要作用,稱為奈魁斯特( n y q u i s t ) 頻率。 3 3 2 連續(xù)信號(hào)的濾波和卷積 實(shí)際工程中的連續(xù)信號(hào)x o ) 含有效信號(hào)s ( f ) 和干擾信號(hào),z o ) 兩部分。對(duì)信號(hào)處 理的一個(gè)重要目的是增強(qiáng)有效信號(hào)s 0 ) ,削弱干擾信號(hào)n o ) 。在許多情況下,干擾 信號(hào)h o ) 的頻譜( ,) 與有效信號(hào)5 ( f ) 的頻譜s ( ,) 是不同的。 用一個(gè)頻率函數(shù)日( ,) 與信號(hào)z p ) 的頻譜x ( ,) 相乘得到y(tǒng) ( ,) = x ( ,) 日( ,) ,這 個(gè)過程叫做濾波。而頻率函數(shù)h ( ,) 的作用就起到削弱干擾信號(hào)n o ) 頻率的作用。 設(shè)原始信號(hào)z ( f ) 的頻譜為丑( ,) ,用來濾波的頻譜日( ,) 所對(duì)應(yīng)的時(shí)間函數(shù)為 矗0 ) ,濾波后的頻譜y ( ,) = x ( ,) 日( ,) 所對(duì)應(yīng)的時(shí)間函數(shù)為y o ) ?,F(xiàn)在推導(dǎo)濾波后 的信號(hào)y ( f ) 與原始信號(hào)x ( f ) 和用于濾波的時(shí)間函數(shù)1 z ( f ) 之間的關(guān)系。由傅立葉變換 知道: y p ) 2 廣( ,) e 膽“彤;j 蓋( ,) h ( ,) e 弘“珂 3 ,z ( ,) 【,矗( f 弘講“4 椰p “4 珂2 p o ) 【j x ( ,) e 脅。7 叫彤 以 ( 3 5 ) = m ( f ) z o z ) d z ) o ) 通過由x 0 ) 和矗o ) 通過上式形式的積分得到,把上式表示的y ( f ) 稱為x o ) 與 0 ) 的卷積,并記為:y o ) = z ( ) ( f ) 。這樣,原始信號(hào)函數(shù),濾波函數(shù)和濾波 后的酬耥佩子:鬟篇搿。 從數(shù)學(xué)角度看,上面兩個(gè)式子的意義是:兩個(gè)頻譜相乘,其時(shí)間函數(shù)就是相 應(yīng)的兩個(gè)時(shí)間函數(shù)進(jìn)行卷積;反之,兩個(gè)時(shí)間函數(shù)卷積,其頻譜就是相應(yīng)的兩個(gè) 頻譜相乘。 從濾波的角度看,上面兩個(gè)式子的意義是:濾波可以通過兩種方式實(shí)現(xiàn)。 是在頻率域?qū)崿F(xiàn),將頻譜圩( ,) 與x ( ,) 相乘得到1 ,( ,) ,再由y ( ,) 做反傅立葉變換 第三章音頻特征提取 離散序列并。的頻譜為z ( ,) ,z 變換為雪( z ) 。( 3 一兒) 和( 3 1 2 ) 分別叫做x 。的 頻譜展開式和z 變換展開式,這兩個(gè)展殲式存在惟一性。設(shè)離散序列x 。的頻譜為 并( ,) ,z 交換為譬僖) ,若x ( ,) 一。e ?!绑?,雪( z ) = 芝c 。z “,到離散痔列 x = c 。 如果已經(jīng)知道信號(hào)矗的z 變換,去求一信信號(hào)序列疊。的過程叫z 反變換 ( i n v e r s ez t r a n s f 。r 園。信號(hào)互。豹z 反交換數(shù)學(xué)表達(dá)式為: 譬。一i p ( z 江”1 出 ( 3 一1 3 ) 腳e j 。 式中f 表示在半徑為r ,以原點(diǎn)為中心的封閉霉上潞逆時(shí)鐘方囪黲繞一閩的積 分。r 可以是使譬( z ) 收斂的任何值。對(duì)于信號(hào),如果它的z 變換為萱( z ) ,雪( z ) 褶應(yīng)的蠢然對(duì)數(shù)為三n 暖0 ) 】a 尉z 的復(fù)倒譜( c o p l e xc e p s t r u m ) c ,0 ) 是譬( z ) 自 然對(duì)數(shù)n 暖0 ) 】的z 反變換。若加暖( z ) 】收斂,則復(fù)倒譜存在,其定義為: c 。0 ) = z 弘n 暖( z ) 礦。1 如 ( 3 一1 4 ) 6 “j ( 3 1 4 ) 中的f 的積分域?yàn)槭构 唪( z ) 】收斂的任意圓周。應(yīng)該指出的是,在這 羼取z 變換譬( z ) 自然對(duì)數(shù)來求解復(fù)倒譜。實(shí)際中可以根據(jù)需要取對(duì)數(shù)的底。 與復(fù)倒譜對(duì)應(yīng),信號(hào)z 。的實(shí)徊灌( r e dc e p s t m m ,有時(shí)也叫導(dǎo)諶) 0 ) 定義為 其傅立葉變換幅值對(duì)數(shù)的傅立葉反變換: + o ) 2 去產(chǎn)n 弦( e 舢) k 加咖 ( 3 啪) 由于實(shí)倒譜與相位無(wú)關(guān),所以比復(fù)倒譜計(jì)算起來更加容易。但是,實(shí)倒譜只 依賴于傅立葉變換幅值,所數(shù)它怒不可遴的,迄就是說政不能用0 ) 去恢復(fù)。兩 復(fù)倒譜更為通用。 3 3 6l p c 侄6 譜豐日m e i 系數(shù) 上面主要介紹了信號(hào)處理的數(shù)學(xué)基礎(chǔ),并鼠介紹了幾個(gè)音頻頻域特征。在一 般音頻識(shí)別中,最常用的還是l p c 邪m e l 倒譜系數(shù)。 在進(jìn)一步介紹之前,先看看頻域特征和時(shí)域特征的區(qū)別和聯(lián)系:( 1 ) 時(shí)域特征 和頻域特征幫是從短對(duì)音頻梭提取煞。( 2 ) 時(shí)域特征是直接在原始穗號(hào)基礎(chǔ)瑟攝 取的特征,而頻域是把原始信號(hào)先進(jìn)行傅立葉變換,將原始信號(hào)轉(zhuǎn)換到頻域,然 第三章音頻特征提取 如果音頻信號(hào)的采樣率為2 5 k h z ,那么由采樣定理知,音頻幀的最大頻率為 1 2 5 k h z 。也就是說,短時(shí)音頻幀在o 到1 2 5 烈z 頻率帶上其有能爨,毪萃擺受搏 蕊嬲彩氧嘛渤灞崔滿瀟m 消雀像紜型。蚋叼鯉姜啡9 日蠡蹦。強(qiáng)螢;善i 霎;蚶i 聊蛩拜慰鄴t 姜業(yè)頃劌型螻:媸蒯醬必夠墜爭(zhēng)烈鬟甄些馴描壘i 浦潷孳鬲鬟津 瑙嶄i 高舉喜嫡衙與蘭彩設(shè) 從每個(gè)短時(shí) 幀中提取”凡n 柵r s 個(gè)特征。由于每個(gè)音頻例子持續(xù)時(shí)間長(zhǎng)短不一,如果口“西d c 幼, 和口“勘c 幼,分別包含n 砌塒e ,和h mm p i 個(gè)短時(shí)幀,下面主要研究如何判斷 n ,口卅e , 凡口m r p 與h m m g n n 礎(chǔ)z r 8 是否相似,就完成了音頻例子n “講d c 幼; 和“撕o a 加;之間相似性比較。 通過音頻例子相似性比較,就將每個(gè)音頻例子歸類到了不同音頻類別,也就 完成了音頻例子的識(shí)別。 對(duì)于分割出來的音頻例子,總是想識(shí)別它。如,對(duì)于環(huán)境背景音,想識(shí)別它 為烏聲還是鐘聲;而對(duì)于音樂,想判斷其是哪種樂器了出的音樂;對(duì)于對(duì)話,想 分別出是男的聲音,還是女的聲音,或者是某個(gè)人的語(yǔ)音。從這個(gè)角度看,識(shí)別 就變成了分類,就是將未知數(shù)據(jù)歸屬到某一類,使同屬于某一類的數(shù)據(jù)之間存在 “相似”之處。 電子科技大學(xué)碩士學(xué)位論文 圖( 3 4 ) 給出音頻短時(shí)幀m f c c 系數(shù)提取示意圖:在圖中,假設(shè)這個(gè)音頻短時(shí) 幀經(jīng)過傅立葉交換后,其頻譜寬度為f r e q ( 也就建這個(gè)音頻短時(shí)幀最大頻率。在前 委知道,這個(gè)傻是音頻采樣頻率的一半) 。把這個(gè)短時(shí)幀頻譜均勻線性劃分為5 個(gè) 頻率子帶,每個(gè)頻率予帶寬度為f r e q 5 ,每個(gè)頻率子帶上所帶能量的總和就構(gòu)成 了這個(gè)顛率子帶的m f e c 系數(shù),所有5 個(gè)頻率子帶銹量想移就是從這個(gè)短時(shí)音頻幀 提取的m f c c 系數(shù)。 在攝取m e l 系數(shù)辯要注意以下幾點(diǎn):( 1 ) 所謂將頻率帶非線性分為若干頻率予 帶,是捃每個(gè)予帶上的頻率寬度是不一樣的;( 2 ) 生理學(xué)研究表明,入耳就是一個(gè) 濾波器。人耳這個(gè)濾波器對(duì)某些頻率子帶的能量敏感,對(duì)某媲頻率子帶的能量不 敏感。在求鰱e l 系數(shù)時(shí),如饞仿照入耳機(jī)豢4 對(duì)頻率帶進(jìn)幸亍 s 線性劃分,是目蓑提 取音頻感知特鍶:研究的熱點(diǎn)。 由予l p c 、m f c c 搬d e l t a 飼譜特 歪是從每個(gè)短時(shí)音頻幀中提取蠢來的,它們 主要反映的是音頻在很短時(shí)刻內(nèi)的靜態(tài)特征,音頻信號(hào)的動(dòng)態(tài)特征可以用這些靜 態(tài)特征的差分來描述,如從前后相鄰幀提鞭的m f c c 特征相減,就是可以反映這個(gè) 音頻m f c e 特征的動(dòng)態(tài)特性。 把這些動(dòng)態(tài)特征和靜態(tài)特征一起組成音頻的特征向量空問,能夠相互互補(bǔ), 很大程度可以提高改善系統(tǒng)豹識(shí)別牲鏈。 3 3 7 其他頻域特征 除了上面介紹的頻域特征外,還可以提取其他頻域特征,如熵( e n t r o p y ) 特征 和子帶綴合特經(jīng)。熵足用來衡量信怠復(fù)雜度的一個(gè)重要指標(biāo),其定義如下: 蘭 e 掙= 一 :p 囊) l g 尸o ) ; “1 ( 3 1 6 ) 尸( f ) 一阻研妻阻餅 其中m 是指將音頻幀的頻率帶劃分為3 2 個(gè)頻率子帶后,第i 個(gè)頻率子帶上 的能量。 在諼醬分析中發(fā)現(xiàn),人講話的音頻傣號(hào)總是集中在某些頻率帶上,麗音樂和 自然聲音可以分布在所有子帶上,所以可以將某些子帶上的能量組合起來,判斷 意頻信譬是否跫語(yǔ)音或音樂,這就構(gòu)成了予帶綴合特征。 作為音頻信號(hào)特征的一種補(bǔ)充,小波系數(shù)在音頻( 音樂) 檢索中日有應(yīng)用,如 使用音頻小波系數(shù)特 芷進(jìn)行音樂和音頻例子檢索。實(shí)際中,小波系數(shù)都是在短時(shí) 音頻幀中的采櫛信號(hào)經(jīng)過小波變換后撂到的。 第三章音頻特征提取 音頻信號(hào)中的語(yǔ)音信號(hào)頻率范圍在8 0 0 0 h z 以內(nèi),匯集了大部分能量;音樂信 號(hào)在1 6 0 0 0 h z 頻率范圍以內(nèi),能量分布比較平均;而對(duì)于爆炸和鐘聲等環(huán)境背景 音信號(hào),其能量集中在高頻部分,而在低頻部分能量很低。 小波變換的等效的頻域表示是: ( n ,6 ) = ,。一 ”妨e f ( 曲v 0 w ) e “咖 如果v ( w 1 是幅頻特性比較集中的帶通函數(shù),則小波變換便具有表征待分析信 號(hào),( w ) 頻域上局部性質(zhì)的能力。從頻域上看,用不同的尺度做小波變換相當(dāng)于用 一組帶通濾波器對(duì)信號(hào)進(jìn)行處理。使用幅頻特性比較集中的帶通函數(shù)設(shè)計(jì)低通和 高通濾波器,得到音樂、語(yǔ)音和環(huán)境背景音在這些頻率子帶上的能量,由于音樂、 語(yǔ)音和環(huán)境背景音在不同頻率帶上集中的能量多少很不相同,就可以使用這些不 同頻率帶上的能量來粗分出它們。 如果對(duì)未加噪聲音頻做不同尺度下的小波變換,可以發(fā)現(xiàn)在小尺度下,小波 變換的波形相減較大,這種較大的差別說明了噪聲主要反映了小尺度下的小波變 換上。環(huán)境背景音樂本身含的噪聲頻帶較寬,其高頻成分較多,而從小波變換原 理的角度來分析,小尺度變換也就是說小波函數(shù)的窗口尺度較小,能很好地反映 信號(hào)的高頻信息,所以經(jīng)過小波變換后,噪聲的主要能量分布在小尺度下的小波 變換上。相反,大尺度變換能很好地反映信號(hào)的低頻分量,在這里主要是指未加 噪聲下的機(jī)電信號(hào)分量。由于加噪聲的機(jī)電信號(hào)和不加噪聲的機(jī)電信號(hào),其主要 區(qū)別在于高頻噪聲分量,所以環(huán)境背景音樂小波變換后的波開和語(yǔ)音、音樂變換 后的波形在小尺度小波變換表現(xiàn)出來明顯差別。 小波系數(shù)除了具有通過頻率子帶含有的能量把語(yǔ)音、音樂和一些環(huán)境背景音 區(qū)分開來的特性外,小波系數(shù)提取還可以基于壓縮域直接完成,從而加快音頻處 理,提高效率。 3 4 音頻例子特征提取 通過對(duì)音頻時(shí)域,頻域特征的分析,發(fā)現(xiàn)提取音頻特征時(shí),都是將很長(zhǎng)的音 頻信號(hào)先處理成( 迭加) 短時(shí)音頻幀,然后在短時(shí)音頻幀上提取時(shí)域、頻域和時(shí)頻 等特征。這是因?yàn)榘凑照Z(yǔ)音處理理論,音頻信號(hào)是短時(shí)平穩(wěn)的,而長(zhǎng)時(shí)間上是劇 烈變化的,所以在很短時(shí)間的音頻幀上提取特征( 短時(shí)音頻幀一般為4 微秒左右, 相鄰幀之間的迭加為2 3 微秒) ,能夠使提取出來的音頻特征保持穩(wěn)定。 但是,也可以從長(zhǎng)時(shí)間音頻信號(hào)中提取特征,如從音頻例子中提取特征( 音 電子科技大學(xué)碩士學(xué)位論文 0 5 0 o 0 1 o 0 0 5 0 t r i a n g u i a r 自j t e rb a n k 一 00 204o 6 0811 21 41 61 82 f n e q u e n c y x1 0 4 t r i a n g u l a r 自n e rb a n k oo 2o ,40 60 811 21 41 61 82 f r e q u e n c y x1 0 4 圖( 3 6 ) 三角子帶化分圖示 音頻信號(hào) x 1 0 4 圖( 3 7 ) m f c c 系數(shù)分析 3 0 第三章音頻特征提取 由于短時(shí)幀的分割數(shù)量是巨大的,每個(gè)短時(shí)幀提取2 4 個(gè)m e l 系數(shù),其運(yùn)算量 巨大,如果聲音種類較多,音頻庫(kù)數(shù)據(jù)太大,識(shí)別時(shí)間難以滿足實(shí)際的應(yīng)用要求。 因此簡(jiǎn)單地進(jìn)行m f c c 提取不適于音頻識(shí)別算法。為減少特征數(shù)量,采用對(duì)所有的 短時(shí)幀m e l 系數(shù)進(jìn)行均值處理的方法。每個(gè)音頻信號(hào)得到2 4 個(gè)均值系數(shù),將均值 系數(shù)作為識(shí)別特征,每種聲音有2 4 個(gè)特征點(diǎn),極大地減少了運(yùn)算量,運(yùn)算速度提 高顯著,經(jīng)過實(shí)驗(yàn)識(shí)別,同樣能夠達(dá)到1 0 0 識(shí)別單一的聲音。圖( 3 8 ) 是對(duì)兩種 聲音均值系數(shù)比較。 3 6 本章小結(jié) 圖( 3 - 8 ) 均值m f c c 系數(shù)分析 本章首先介紹了音頻信號(hào)的特征參數(shù),然后詳細(xì)介紹了音頻信號(hào)的時(shí)域特征, 包括短時(shí)平均能量、短時(shí)過零率;音頻信號(hào)頻域特征算法原理和應(yīng)用。對(duì)短時(shí)平 均能量、短時(shí)過零率進(jìn)行研究,可能根據(jù)這兩種特征對(duì)音頻信號(hào)進(jìn)行粗分類。著 重研究了音頻信號(hào)的頻域特征,提出了一種均值m f c c 系數(shù)算法,對(duì)單一音頻信號(hào) 進(jìn)行分析時(shí),可以將均值m f c c 系數(shù)作為音頻信號(hào)的特征。 3 1 電子科技大學(xué)碩士學(xué)位論文 4 1 引言 第四章音頻分割與識(shí)別 音頻是連續(xù)的時(shí)間序列信號(hào),猶如不可能對(duì)幾十分鐘或幾十個(gè)小時(shí)視頻一起 處理一樣,也不可能對(duì)持續(xù)時(shí)間很長(zhǎng)的音頻處理,所以需要對(duì)連續(xù)的音頻流首先 進(jìn)行分割。將連續(xù)音頻信號(hào)流分割成長(zhǎng)短不一的音頻單元后,需要對(duì)每個(gè)音頻單 元進(jìn)行識(shí)別,將它們歸屬為不同的音頻類別,如語(yǔ)音、音樂和環(huán)境背景音等。 在視頻流中,為了將視頻流分成不同的鏡頭單元,需要尋找紋理、顏色和運(yùn) 動(dòng)等視覺特征突變的地方,視覺特征突變就是鏡頭發(fā)生了轉(zhuǎn)換( s h o td e t e c t i o n ) , 意味著視頻內(nèi)容從一組鏡頭轉(zhuǎn)換到另外一組鏡頭,而特征發(fā)生突變的地方就叫做 鏡頭邊界( s h o tb o u n d a r y ) 。得到鏡頭邊界后,可以將每組鏡頭的第一個(gè)圖片幀或 最后一個(gè)圖片幀,作為這組鏡頭的關(guān)鍵幀,用來表示這組鏡頭,然后繼續(xù)對(duì)視頻 進(jìn)行處理。 音頻與視頻一樣,當(dāng)從一種類型的音頻信號(hào)轉(zhuǎn)換到另外一種類型的音頻信號(hào) 時(shí),某些聽覺特征會(huì)發(fā)生變換,前后差別較大( 如從語(yǔ)音部分轉(zhuǎn)換到音樂部分,音 頻的m f c c 特征會(huì)發(fā)生明顯變化) ,所以,也需要在音頻特征發(fā)生突變的地方對(duì)連 續(xù)的音頻流進(jìn)行切分,把連續(xù)的音頻流變成不同時(shí)間長(zhǎng)短的音頻例子( a u d i o c l i p ) ,然后對(duì)這些得到的音頻例子進(jìn)行識(shí)別,把相似的例子歸屬到同一類別。 在視頻中,是比較相鄰兩個(gè)或幾個(gè)圖片幀之間的特征差異,來判斷是否發(fā)生 了鏡頭轉(zhuǎn)換( 把一秒鐘所處理的圖像幀總數(shù)稱為視頻采樣率) 。在音頻中,也有“幀” 這個(gè)處理單元概念,只不過是前面介紹的“短時(shí)音頻幀”。在音頻分割中,每次是 比較相信兩個(gè)或幾個(gè)短時(shí)音頻幀特征,尋找特征發(fā)生突變的地方,然后在特征突 變地方對(duì)連續(xù)音頻進(jìn)行切分( 一段音頻要提取多少短時(shí)音頻幀與音頻采樣率有 關(guān)) 。 下面主要介紹兩種音頻信號(hào)流的分割算法:( 1 ) 音頻分層分割。當(dāng)一種音頻轉(zhuǎn) 換成另外一種音頻時(shí),主要幾個(gè)特征會(huì)發(fā)生變換,每次選取一個(gè)發(fā)生變換最大的 音頻特征,從粗到細(xì),逐步將音頻分割成不同的音頻例子,這就是音頻分層分割 算法。( 2 ) 音頻模板分割算法。前一種音頻分割算法是基于一個(gè)給定的閾值的,也 就是說,通過判斷相信音頻短時(shí)幀或連續(xù)幾個(gè)短時(shí)幀特征之間的差是否超過了實(shí) 第四章音頻分割與識(shí)別 其他音頻信號(hào) 圖4 - 2 音頻數(shù)據(jù)流分層分割 3 7 環(huán)境背景音 電子科技大學(xué)碩士學(xué)位論文 對(duì)于連續(xù)的槍聲,鐘聲和瀑布聲等環(huán)境背景音樂,由于其具有周期性很強(qiáng)的 特性。如在3 秒連續(xù)的槍聲中,每隔1 0 微秒會(huì)有次槍擊聲,然后是2 微秒的停頓, 其過零率表現(xiàn)出周期性規(guī)律。過零率周期計(jì)算如下: 如果過零率特征存在周期性,z c r q c = 1 ;否則z c r c y c = o 。 4 2 2 實(shí)驗(yàn)結(jié)果與分析 根據(jù)上節(jié)的研究分析,提取如上音頻特征,就可以按照分層原則分割識(shí)別出 音頻信號(hào),具體步驟如圖( 4 2 ) 所示。其中,e n e r g y 、c o v l 、c o v 2 、r a t i o 為實(shí)驗(yàn) 中得到的判斷閾值。 為了測(cè)試上面分層分割算法效果,在m a t l a b 下實(shí)現(xiàn)了基于層次的音頻模塊, 這個(gè)模塊完成音頻粗分歸類( 模塊每次比較相鄰1 0 個(gè)音頻短時(shí)幀之間的特征) ,表 4 一l 給出了分層次粗分的結(jié)果,實(shí)驗(yàn)中靜音與和諧音樂數(shù)據(jù)都不存在其他雜音,識(shí) 別效果理想。但是,對(duì)話和環(huán)境背景音中存在其他雜質(zhì)音,所以識(shí)別正確率稍微 低。 表4 1 基于分層的音頻數(shù)據(jù)識(shí)別結(jié)果 粗分類靜音諧音對(duì)話環(huán)境音其他 靜音 3 諧音 8 對(duì)話 1 22 環(huán)境音 2 523 其他 7 應(yīng)該指出,上面音頻分層分割算法只是完成了對(duì)音頻的粗分,但是這種算法 不能對(duì)音頻進(jìn)行進(jìn)一步細(xì)分。比如,在粗分過程中只能夠把槍聲、鐘聲、鳥叫聲 等籠統(tǒng)歸結(jié)為環(huán)境背景音,不能識(shí)別出到底是哪一種環(huán)境背景音;還有,雖然這 種方法可以把語(yǔ)音和音樂分割開來,但是到底是誰(shuí)在說話是識(shí)別不出來的。 4 2 3 基于模板的音頻分割 在分層音頻分割中,為了將連續(xù)音頻流分割開,需要使用一個(gè)事先得到的閾 值去判斷相鄰若干音頻短時(shí)幀之間的特征是否發(fā)生了突變。 對(duì)于不同的音頻數(shù)據(jù)流,判斷閩值不相同,所以每個(gè)音頻樣本,需要帶我選 定不同的分割閾值,對(duì)音頻分割造成了極大不方便。因此,人們很自然想到是否 存在一種自動(dòng)音頻分割模型,使音頻分割避免使用閾值。 電子科技大學(xué)碩士學(xué)位論文 的數(shù)據(jù):如果訓(xùn)練一個(gè)識(shí)別人臉的分類器,那么人臉圖像是這個(gè)分類器的正樣本, 而“樹”、“汽車”等圖像就是這個(gè)分類器的負(fù)樣本:如果樣本選取不好,導(dǎo)致樣 本不具有普遍代表性,那么訓(xùn)練得到的分類器的識(shí)別效果就不會(huì)很好。 二是對(duì)樣本需要提取什么特征。由于特征是用來數(shù)據(jù)的,在分類器訓(xùn)練與識(shí) 別過程中,不是使用原始樣本數(shù)據(jù),而是使用所得到的特征向量,所以良好的特 征對(duì)識(shí)別正確率的提高起到了很重要作用。在這里,假定已經(jīng)獲取了足夠好的音 頻特征,主要關(guān)注如何根據(jù)這些特征去訓(xùn)練一個(gè)良好的分類學(xué)習(xí)機(jī)。 三是選擇怎樣的學(xué)習(xí)過程。這主要是如何選擇一個(gè)良好的學(xué)習(xí)分類模型,使 這個(gè)模型不公對(duì)訓(xùn)練樣本能夠取得良好的分類能力,在實(shí)際中,對(duì)未知數(shù)據(jù)也能 夠取得良好識(shí)別正確率。 現(xiàn)在考慮,基于訓(xùn)練好的模型,如何實(shí)現(xiàn)兩類音頻數(shù)據(jù)識(shí)別:假設(shè)c 和c ,表 示兩個(gè)通過訓(xùn)練音頻數(shù)據(jù)樣本得到的模板,代表兩類不同的音頻例子?,F(xiàn)在要使 用c ,和c ,對(duì)分割出來的未知音頻例子進(jìn)行識(shí)別分類,將所有屬于c 。的音頻例子歸 屬為一類,屬于c ,的音頻例子歸屬為另外一類。令丑代表從任一未知音頻例子中 所提取的音頻特征向量( 因此z 可以用來表征這個(gè)未知音頻數(shù)據(jù)) ,由貝葉斯理論 知道,判斷x 屬于c ,還是屬于c ,的過程,就是判斷蓋對(duì)應(yīng)于哪個(gè)模板類別的后 驗(yàn)概率最大,即計(jì)算a r g m a x p ( c x ) 。 f 對(duì)于模板c ,( 1 f 2 ) ,其后驗(yàn)概率p ( c ;l 蓋) 如下計(jì)算: p ( c ,i x ) ;叢逆業(yè)立( 4 5 ) 一。 p ( 蓋) 在計(jì)算( 4 5 ) 中的后驗(yàn)概率時(shí),一般假定不同類別c 。出現(xiàn)的概率p ( c ,) 相等, 而對(duì)于每個(gè)類別而言,p 伍) 總是相等的。所以,后驗(yàn)概率p ( c i i x ) 就約等于 p i c ) ,這樣,對(duì)后驗(yàn)概率p ( c f l 丑) 的計(jì)算就直接轉(zhuǎn)換成先驗(yàn)概率p ( x ic j ) 的 計(jì)算。也就是去計(jì)算,對(duì)于每個(gè)訓(xùn)練得到的分類器c ,蓋屬于它的概率p 伍i c ;) 是 多少。 于是,對(duì)分割出來的音頻例子進(jìn)行識(shí)別分類時(shí),先訓(xùn)練一些模板c i 去模擬和 代表某類音頻( 如爆炸、鼓掌聲和音樂等) ,然后對(duì)于未知數(shù)據(jù)x ,計(jì)算哪個(gè)c ,所 對(duì)應(yīng)的p ( xle ) 最大,最后把未知數(shù)據(jù)x 判定屬于p ( xiq ) 值最大時(shí)所對(duì)應(yīng)的類 別c 。 訓(xùn)練類別模板c ;和計(jì)算p ( z lc f ) 的方法可以通過不同機(jī)制完成。如隱馬爾可 夫鏈模型( h i d d e nm a r k o vm o d e l ,h m m ) ,支持向量機(jī)模型( s u p p o r tv e c t o rm a c h i n c , s v m l 等。應(yīng)該指出,這些分類器的理論基礎(chǔ)都來自數(shù)據(jù)統(tǒng)計(jì)理論,而且這些分類 電子科技大學(xué)碩士學(xué)位論文 測(cè)試樣本 x 10 4 訓(xùn)練樣本 x 1 0 4 圖( 4 7 ) 單一音頻識(shí)別結(jié)果顯示 第四章音頻分割與識(shí)別 4 4 本章小結(jié) 本章主要介紹了音頻分割和識(shí)別算法。研究了音頻分層分割,單一音頻例子 識(shí)別兩個(gè)方面。結(jié)合上一章音頻特征提取,對(duì)音頻信號(hào)進(jìn)行識(shí)別實(shí)驗(yàn),驗(yàn)證了m e l 倒譜系數(shù)作為單一音頻信號(hào)特征進(jìn)行音頻識(shí)別的可行性。 4 9 第五章基于內(nèi)容的音頻檢索技術(shù) 了這個(gè)音頻例子的特征【2 2 1 。 下面將分別對(duì)模糊聚類質(zhì)心形成、聚類質(zhì)心快速匹配和音頻例子相減反饋進(jìn) 行分析。 5 2 2 2 音頻例子
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中物理知識(shí)導(dǎo)學(xué)案匯編
- 工程項(xiàng)目經(jīng)理工程質(zhì)量責(zé)任承諾書范本
- 行政執(zhí)行力培訓(xùn)
- 貸款催款技巧培訓(xùn)
- 行政人力資源培訓(xùn)
- 高效課堂金黃色稻束教學(xué)設(shè)計(jì)范例
- 初中班主任學(xué)期教學(xué)工作計(jì)劃
- 建筑施工質(zhì)量驗(yàn)收標(biāo)準(zhǔn)與常見問題
- 員工離職流程及文檔管理規(guī)范
- 快遞行業(yè)安全運(yùn)輸操作規(guī)范
- 急救培訓(xùn)自查、整改與提升措施
- 免還款協(xié)議5篇
- 2024年江蘇省無(wú)錫市中考數(shù)學(xué)試卷(副卷)
- 新版GCP培訓(xùn)課件
- 單鳳儒《管理學(xué)基礎(chǔ)》教案
- 客戶開發(fā)流程圖
- 畜牧學(xué)概論完整
- DL∕T 516-2017 電力調(diào)度自動(dòng)化運(yùn)行管理規(guī)程
- 鋼琴樂理知識(shí)考試題庫(kù)200題(含答案)
- 高一年級(jí)英語(yǔ)上冊(cè)閱讀理解專項(xiàng)訓(xùn)練附答案
- 教師的“四大能力”能力結(jié)構(gòu)、評(píng)價(jià)標(biāo)準(zhǔn)和評(píng)價(jià)方案
評(píng)論
0/150
提交評(píng)論