(通信與信息系統(tǒng)專(zhuān)業(yè)論文)變換域音頻指紋算法研究.pdf_第1頁(yè)
(通信與信息系統(tǒng)專(zhuān)業(yè)論文)變換域音頻指紋算法研究.pdf_第2頁(yè)
(通信與信息系統(tǒng)專(zhuān)業(yè)論文)變換域音頻指紋算法研究.pdf_第3頁(yè)
(通信與信息系統(tǒng)專(zhuān)業(yè)論文)變換域音頻指紋算法研究.pdf_第4頁(yè)
(通信與信息系統(tǒng)專(zhuān)業(yè)論文)變換域音頻指紋算法研究.pdf_第5頁(yè)
已閱讀5頁(yè),還剩59頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

(通信與信息系統(tǒng)專(zhuān)業(yè)論文)變換域音頻指紋算法研究.pdf.pdf 免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要 變換域音頻指紋算法研究 專(zhuān)業(yè):通信與信息系統(tǒng) 碩士生:張廷賢 指導(dǎo)教師:陸哲明教授 摘要 隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)與多媒體技術(shù)的高速發(fā)展,尤其是數(shù)字音頻壓縮技術(shù)的 成熟,使得數(shù)字音頻的傳播更加容易與廣泛,從而引起了版權(quán)保護(hù)等一系列安全 問(wèn)題。音頻水印技術(shù)的發(fā)展提供了解決這一問(wèn)題的新思路,而鑒于音頻水印技術(shù) 自身的局限性,人們提出了音頻指紋技術(shù)。音頻指紋( a u d i of i n g e r p r i n t i n g ) 是 基于內(nèi)容的緊湊的簽名,概括了音頻片斷固有的本質(zhì)特征。由于音頻指紋技術(shù)可 以在獨(dú)立于音頻格式且無(wú)需元數(shù)據(jù)或者水印嵌入等額外信息的條件下進(jìn)行音頻 識(shí)別,其已經(jīng)引起了研究者的廣泛關(guān)注。 本文通過(guò)對(duì)國(guó)內(nèi)外音頻指紋算法的分析,提出了兩種魯棒的變換域音頻指紋 算法,并將其應(yīng)用于音頻檢索中。首先,闡述了選題背景及研究意義,并對(duì)現(xiàn)有 音頻指紋算法進(jìn)行總結(jié)綜述。其次,介紹本論文中所涉及的基礎(chǔ)理論知識(shí)。接著 提出以下兩種魯棒的變換域音頻指紋算法:一、改進(jìn)了基于短時(shí)傅里葉變換的頻 率域音頻指紋算法。該算法引入了每幀音頻信號(hào)的能量,利用頻譜帶能量( s b e , s p e a r a lb a n de n e r g y ) 替換頻率子帶能量進(jìn)行指紋提??;二、提出了一種基于 d a u b e c h i e s 小波變換的時(shí)頻域音頻指紋算法,通過(guò)對(duì)音頻信號(hào)進(jìn)行8 層小波分解 得到1 個(gè)逼近分量和8 個(gè)細(xì)節(jié)分量,根據(jù)每個(gè)分量小波系數(shù)的方差之問(wèn)的關(guān)系提 取音頻指紋。最后,闡述了兩種算法在音頻檢索中的應(yīng)用。 實(shí)驗(yàn)結(jié)果表明,本文所提出的兩種音頻指紋算法對(duì)常見(jiàn)的保留信號(hào)內(nèi)容的攻 擊處理及加性高斯白噪聲具有很好的魯棒性,降低了指紋存儲(chǔ)空間、減少了指紋 提取運(yùn)算時(shí)間。此外,基于d a u b e c h i e s 小波變換的時(shí)頻域音頻指紋算法對(duì)線性 速度變化攻擊也具有良好的魯棒性,其指紋存儲(chǔ)空間較改進(jìn)的頻率域音頻指紋算 法大大減少。 關(guān)鍵詞:音頻指紋,變換域,音頻檢索 a b s t r a c t a u d i of i n g e r p r i n t i n ga i g o r i t h m s;e do ningerpn t i n rr o r i t h m sb a s e o n t r a n s f o r md o m a i n s m a j o r n a m e :c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m s :t i n g x i a nz h a n g s u p e r v i s o r :p r o f z h e m i n gl u a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rn e t w o r ka n dm u l t i m e d i at e c h n o l o g i e s , e s p e c i a l l yt h ea u d i oc o m p r e s s i o nt e c h n o l o g y , d i g i t a la u d i oc a nb et r a n s m i t t e dm o r e c o n v e n i e n t l ya n dw i d e l y a sar e s u l t ,t h ec o p y r i g h tp r o t e c t i o na n ds e c u r i t yp r o b l e m s b e a g m em o r ea n dm o r eu r g e n t d i g i t a la u d i ow a t e r m a r k i n gt e c h n o l o g yp r o v i d e sa n o v e lw a yt os o l v et h i sp r o b l e m n e v e r t h e l e s s ,a u d i of i n g e r p r i n t i n gi sp r o p o s e dd u et o t h es e l f - l i m i t a t i o no fa u d i o w a t e r m a r k i n g a u d i of i n g e r p r i n t i sa c o m p a c t c o n t e n t - b a s e ds i g n a t u r et h a ts u m m a r i z e st h ee s s e n c eo fa na u d i oc l i p i th a sb e e np a i d m u c ha t t e n t i o ns i n c ei tc a ni m p l e m e n ta u d i oi d e n t i f i c a t i o nr e g a r d l e s so fa u d i od a t a f o r m a ta n dw i t h o u tm e t a d a t ao rw a t e r m a r ke m b e d d i n g i nt h i sp a p e r , t w or o b u s ta u d i of i n g e r p r i n t i n ga l g o r i t h m si nt r a n s f o r md o m a i n s a r ep r o p o s e da f t e ra n a l y z i n gt h ee x i s t e n ta u d i of i n g e r p r i n t i n ga l g o r i t h m sa th o m ea n d a b r o a d t h e i rp e r f o r m a n c ei na u d i or e t r i e v a li sa l s oe x p l o r e d f i r s t l y , t h eb a c k g r o u n d a n ds i g n i f i c a n c eo ft h i st o p i ca r ei n t r o d u c e d ,f o l l o w e db ya l lo v e r v i e wo ft h el a t e s t a u d i of i n g e r p r i n t i n ga l g o r i t h m s s e c o n d l y , r e l a t e db a s i ct h e o r i e sa x es u m m a r i z e d b r i e f l y t h e n ,t w or o b u s ta u d i of i n g e r p r i n t i n ga l g o r i t h m si nt r a n s f o r md o m a i n sa r e p r o p o s e d o n ee x t r a c t sf r e q u e n c y - d o m a i nf e a t u r e sb yu s i n gt h es h o r t t i m ef o u r i e r t r a n s f o r m e n e r g yo fe v e r ya u d i of r a m ei si n t r o d u c e da n dt h es p e c t r a lb a n de n e r g yi s u s e di na u d i of i n g e r p r i n te x t r a c t i o ni n s t e a do ft h es u b b a n de n e r g y t h eo t h e ra p p l i e s t h ed a u b e c h i e sw a v e l e tt r a n s f o r mt oe x t r a c tr o b u s tt i m e f r e q u e n c yf e a t u r e s w e p e r f o r mt h ed a u b e c h i e sw a v e l e tt r a n s f o r m0 1 1e a c ha u d i of r a m ed i r e c t l yu s i n g8 d e c o m p o s i t i o nl e v e l st og e to n ea p p r o x i m a t ec o m p o n e n ta n de i g h td e t a i lc o m p o n e n t s n 中山大學(xué)碩士學(xué)位論文 t h e nt h ea u d i of i n g e r p r i n ti se x t r a c t e da c c o r d i n gt ot h er e l a t i o n s h i pa m o n gt h e v a r i a n c eo fe a c hs u b - b a n d sc o e f f i c i e n t si nd i f f e r e n tf r a m e s 。f i n a l l y , t h ep e r f o r m a n c e o f b o t ha l g o r i t h m si sv e r i f i e di na u d i or e t r i e v a la p p l i c a t i o n e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e da l g o r i t h m sd on o to n l yh a v eg o o d r o b u s t n e s st oc o n t e n t p r e s e r v i n go p e r a t i o n sa n da d d i t i v ew h i t eo a u s s i a nn o i s eb u t a l s or e d u c es t o r a g es p a c ea n dc o m p u t a t i o nc o s t s i na d d i t i o n ,t h es c h e m eb a s e do nt h e d a u b e c h i e sw a v e l e tt r a n s f o r ms h o w sh i g h l yr o b u s tt ol i n e a rs p e e dc h a n g ea t t a c ka n d t h ef i n g e r p r i n ts t o r a g es p a c ei sg r e a t l yr e d u c e d k e y w o r d s :a u d i of i n g e r p r i n t i n g , t r a n s f o r md o m a i n ,a u d i or e t r i e v a l 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究 工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他個(gè)人 或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的作品成果。對(duì)本文的研究作出重要貢獻(xiàn)的個(gè)人和集 體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。 學(xué)位論文作者簽名: 日期:砌7 年r 月 y 日 學(xué)位論文使用授權(quán)聲明 本人完全了解中山大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留 學(xué)位論文并向國(guó)家主管部門(mén)或其指定機(jī)構(gòu)送交論文的電子版和紙質(zhì)版,有權(quán)將學(xué) 位論文用于非贏利目的的少量復(fù)制并允許論文進(jìn)入學(xué)校圖書(shū)館、院系資料室被查 閱,有權(quán)將學(xué)位論文的內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用復(fù)印、縮印或其 他方法保存學(xué)位論文。 學(xué)位論文作者簽名:荔歆鏨姨 日期:砷年j 月工珀 導(dǎo)師簽名盈嗚咽導(dǎo)師簽名:心口移q 日期:洳忙5 月d 文日 第一章緒論 第一章緒論 1 1 選題背景及研究意義 隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)與多媒體技術(shù)的高速發(fā)展,使得圖像、視頻和音頻等多 媒體信息的傳播越來(lái)越方便快捷,尤其是數(shù)字音頻壓縮技術(shù)的成熟使得數(shù)字音頻 的傳播更加容易與廣泛,從而引起了版權(quán)保護(hù)等一系列安全問(wèn)題。在這種背景下, 數(shù)字水印( d i g i t a lw a t e r m a r k i n g ) 技術(shù)應(yīng)運(yùn)而生,得到了快速的發(fā)展。音頻水印 技術(shù)就是在不影響原始音頻質(zhì)量的條件下向其中嵌入具有特定意義且易于提取 的信息的過(guò)程。其應(yīng)用主要包括版權(quán)保護(hù)、盜版跟蹤以及認(rèn)證三個(gè)方面。雖然音 頻水印技術(shù)已取得諸多進(jìn)展,但仍有許多挑戰(zhàn)性的研究難題等待解決【1 】。因此, 人們提出了音頻指紋技術(shù)。與音頻水印技術(shù)相比,它具有以下特點(diǎn):首先,音頻 指紋是對(duì)音頻內(nèi)容特征的概括,對(duì)攻擊和失真具有魯棒性;其次,音頻指紋不需 要對(duì)音頻內(nèi)容進(jìn)行嵌入,而是提取音頻內(nèi)容的特征;同時(shí),音頻指紋依賴于音頻 的具體內(nèi)容【2 】。 音頻指紋作為音頻內(nèi)容的一個(gè)標(biāo)識(shí),概括了音頻聽(tīng)覺(jué)上的相關(guān)信息。音頻指 紋技術(shù)可應(yīng)用在音頻識(shí)別、完整性認(rèn)證、水印支持及基于內(nèi)容的音頻檢索等多個(gè) 領(lǐng)域【2 】。近年來(lái),它已成為國(guó)內(nèi)外研究的熱點(diǎn)問(wèn)題之一,引起了研究者的廣泛 關(guān)注,例如我們所熟悉的p h i l i p s 、g o o g l e 以及i n t e l 等公司,此外也出現(xiàn)了許多 利用音頻指紋實(shí)現(xiàn)基于內(nèi)容的音頻檢索系統(tǒng)【3 ,4 】。 音頻指紋技術(shù)有著廣泛的應(yīng)用前景【2 】:( 1 ) 可根據(jù)實(shí)際的需要在發(fā)布端、 傳輸信道上或者消費(fèi)端任一階段實(shí)現(xiàn)對(duì)音頻內(nèi)容的監(jiān)督與跟蹤,防止未授權(quán)者對(duì) 受保護(hù)的多媒體信息的使用或者合法使用者對(duì)其的錯(cuò)誤使用,起到版權(quán)保護(hù)的作 用;( 2 ) 可應(yīng)用于增值服務(wù)中,開(kāi)發(fā)基于內(nèi)容的音頻檢索系統(tǒng);( 3 ) 可用于完整 性認(rèn)證系統(tǒng)中,實(shí)現(xiàn)音頻內(nèi)容的篡改檢測(cè),保護(hù)授權(quán)者的合法利益;( 4 ) 可實(shí)現(xiàn) 音頻的分類(lèi)與統(tǒng)計(jì)。因此,本課題提出的變換域音頻指紋算法的研究具有重要的 意義,應(yīng)用前景廣闊。 中山大學(xué)碩士學(xué)位論文 1 2 音頻指紋技術(shù)綜述 1 2 1 音頻指紋技術(shù)及特點(diǎn) 一、音頻指紋的定義 音頻指紋( a u d i of i n g e r p r i n t i n g ) 是基于內(nèi)容的緊湊的簽名,概括了音頻片 斷固有的本質(zhì)特征【2 】。音頻指紋技術(shù)可以在獨(dú)立于音頻格式且無(wú)需元數(shù)據(jù)或者 水印嵌入等額外信息的條件下進(jìn)行音頻識(shí)別,引起了研究者的廣泛關(guān)注。 二、音頻指紋的特點(diǎn)【2 】 ( 1 ) 音頻指紋是對(duì)音頻內(nèi)容感知的概括,最大程度上保留了聽(tīng)覺(jué)上相關(guān)的信息, 具有區(qū)別不同音頻的辨別能力。 ( 2 ) 音頻指紋具有對(duì)內(nèi)容保留的音頻信號(hào)處理的不變性,如壓縮、重采樣、量 化以及濾波等,這就是音頻指紋的魯棒性。這與在內(nèi)容完整性認(rèn)證應(yīng)用中所要 求的脆弱性是相反的,完整性認(rèn)證能夠檢測(cè)音頻內(nèi)容是否被惡意的篡改。 ( 3 ) 音頻指紋具備緊湊性。簡(jiǎn)短的音頻指紋,能夠節(jié)約存儲(chǔ)空間、降低匹配的 計(jì)算復(fù)雜度。同時(shí)會(huì)對(duì)正確性、可靠性和魯棒性造成一定影響。 ( 4 ) 音頻指紋需具備低的計(jì)算復(fù)雜度,從而降低指紋提取與匹配時(shí)系統(tǒng)的時(shí)間 開(kāi)銷(xiāo)。 1 2 2 音頻指紋技術(shù)的應(yīng)用及難點(diǎn) 一、音頻指紋技術(shù)的應(yīng)用【2 】 ( 1 ) 音頻識(shí)別 音頻識(shí)別的框架如圖1 - 1 所示,主要包括數(shù)據(jù)庫(kù)生成和識(shí)別兩部分。通過(guò)收 集音頻文件,采用特定的提取算法提取音頻的指紋,根據(jù)一定的邏輯結(jié)構(gòu)把音頻 指紋存儲(chǔ)起來(lái),構(gòu)成音頻指紋數(shù)據(jù)庫(kù)。在識(shí)別時(shí),首先采用相同的算法提取待查 詢音頻片段的音頻指紋,再與數(shù)據(jù)庫(kù)中的指紋進(jìn)行匹配,返回相應(yīng)的識(shí)別結(jié)果。 2 第一章緒論 的標(biāo)識(shí) 圖1 - 1基于內(nèi)容的音頻識(shí)別框圖 ( 2 ) 完整性認(rèn)證 完整性認(rèn)證是為了實(shí)現(xiàn)音頻內(nèi)容的篡改檢測(cè),其總體框圖如圖1 2 所示。首 先,提取原始音頻的指紋并保存。在認(rèn)證階段,將待檢測(cè)的音頻信號(hào)的指紋與原 始指紋相比較得到認(rèn)證結(jié)果。完整性認(rèn)證不僅能夠?qū)崿F(xiàn)音頻內(nèi)容的篡改檢測(cè),還 能檢測(cè)出篡改的類(lèi)型以及位置。 檢測(cè)音頻原始音頻指紋 證結(jié)果 圖1 - 2完整性認(rèn)證框圖 ( 3 ) 水印支持 音頻指紋能夠用于生成基于內(nèi)容的密鑰( 也稱為音頻哈希) 作為水印,再將 其嵌入到對(duì)應(yīng)的音頻內(nèi)容中。文獻(xiàn)【5 】將音頻指紋作為水印嵌入到音頻信號(hào)中, 通過(guò)將重建的原始指紋與觀察信號(hào)所提取的音頻指紋作比較得到匹配結(jié)果,這也 屬于完整性認(rèn)證的范疇。 ( 4 ) 基于內(nèi)容的音頻檢索 從復(fù)雜的多媒體信息中提取緊湊的簽名信息是多媒體信息檢索的關(guān)鍵步驟, 而音頻指紋能夠提取音頻信號(hào)從低級(jí)的描繪算子到高級(jí)的描繪算子不同層次的 3 中山大學(xué)碩士學(xué)位論文 音頻特征。因此,通過(guò)音頻指紋的相似度匹配計(jì)算,能夠?qū)崿F(xiàn)基于內(nèi)容的音頻檢 索。 二、音頻指紋技術(shù)的難點(diǎn) ( 1 ) 音頻的數(shù)據(jù)量大; ( 2 ) 在音頻指紋提取時(shí),如何保證感知上相同的音頻數(shù)據(jù)應(yīng)該具有相同或者相 似( 即低于判決門(mén)限值) 的音頻指紋; ( 3 ) 如何根據(jù)提取的指紋設(shè)計(jì)相應(yīng)的檢索算法,從根本上降低計(jì)算復(fù)雜度,實(shí) 現(xiàn)實(shí)時(shí)監(jiān)督或檢索; ( 4 ) 檢索匹配門(mén)限值t 的確定。 1 2 3 國(guó)內(nèi)外研究現(xiàn)狀及分析 目前,對(duì)于音頻指紋的分類(lèi)還沒(méi)有形成統(tǒng)一的共識(shí)。文獻(xiàn)【6 】根據(jù)所提取的 指紋特征與頻率帶的關(guān)系分為單頻率帶音頻指紋、多頻率帶音頻指紋和最優(yōu)頻率 帶與幀結(jié)合的音頻指紋三類(lèi),而文獻(xiàn)【7 】將音頻指紋分為語(yǔ)義特征和非語(yǔ)義特征 兩類(lèi)。本文根據(jù)音頻指紋所提取的特征屬性將音頻指紋分為時(shí)間域音頻指紋算 法、變換域音頻指紋算法和壓縮域音頻指紋算法三類(lèi),以下從這三個(gè)方面對(duì)國(guó)內(nèi) 外的研究現(xiàn)狀進(jìn)行分析。 一、基于時(shí)間域的音頻指紋 音頻信號(hào)典型的時(shí)域特征包括短時(shí)能量、短時(shí)過(guò)零率、短時(shí)自相關(guān)系數(shù)和短 時(shí)平均幅度差等。 文獻(xiàn)【8 】采用短時(shí)能量、短時(shí)過(guò)零率及短時(shí)基頻( s h o r t t i m ef u n d a m e n t a l f r e q u e n c y ) 對(duì)音頻進(jìn)行分割與分類(lèi)。文獻(xiàn)【9 】采用短時(shí)能量和短時(shí)過(guò)零率對(duì)語(yǔ)音、 靜音和諧音等進(jìn)行分類(lèi)。而文獻(xiàn) 1 0 n 采用改進(jìn)的增強(qiáng)過(guò)零率( h i g hz e r o - c r o s s i n gr a t er a t i o ) 、短時(shí)低能量比率( l o ws h o r t - t i m ee n e r g yr a t i o ) 分別取代 短時(shí)過(guò)零率、短時(shí)能量實(shí)現(xiàn)對(duì)語(yǔ)音和非語(yǔ)音的分類(lèi)。文獻(xiàn) h i 提出了一種基于信 息熵生成的直方圖作為音頻指紋的算法,其具備抵抗有損壓縮和低通濾波的能 力。 4 第一章緒論 二、基于變換域的音頻指紋 ( 1 ) 基于頻域的特征提取 人類(lèi)對(duì)音頻信號(hào)的感知過(guò)程與人類(lèi)聽(tīng)覺(jué)系統(tǒng)( h a s ,h u m a na u d i t o r ys y s t e m ) 具有頻譜分析功能是緊密相關(guān)的。因此,對(duì)音頻信號(hào)進(jìn)行頻譜分析,是認(rèn)識(shí)音頻 信號(hào)和處理音頻信號(hào)的重要方法,常用的有離散傅立葉變換( d f r , d i s c r e t e f o u r i e rt r a n s f o r m ) 和離散余弦變換( d 阢d i s c r e t ec o s i n et r a n s f o r m ) 等。 文獻(xiàn)【1 2 】提出了一種以頻譜極值點(diǎn)參數(shù)為特征的指紋提取及相應(yīng)的匹配算 法,其指紋提取的主要思想如下:( 1 ) 把整個(gè)頻帶劃分為5 7 個(gè)子帶;( 2 ) 取一 幀點(diǎn)的樣本( 采樣率為4 4 1 l ( 1 z ) ,作d f l 變換,計(jì)算其絕對(duì)值,去除不重要 的極值點(diǎn)再乘以延伸和移位系數(shù)五,得到s + 1 列的值;( 3 ) 對(duì)應(yīng)于不同的正, 將極值點(diǎn)賦予每個(gè)子帶,若所在子帶無(wú)極值點(diǎn),則賦o ;( 4 ) 取具有最大值的l ( 取值范圍為1 7 至1 j 2 5 ) 個(gè)極值點(diǎn)所在子帶序號(hào),構(gòu)成代表向量;( 5 ) 重復(fù)2 4 , 生成第m 幀代表向量;( 6 ) 利用相應(yīng)的算法壓縮存儲(chǔ)指紋。此外,文中還提出 了一種遞歸自適應(yīng)的d f t 算法,大大提高了運(yùn)算速度。 h a i t s m a 在文獻(xiàn) 1 3 ,1 4 】中提出了一種高魯棒的音頻指紋系統(tǒng)模型。音頻指紋 的提取過(guò)程如下:( 1 ) 預(yù)處理,將輸入的長(zhǎng)度為3 s 的音頻信號(hào)下采樣為5 k h z 的單聲道信號(hào);( 2 ) 分幀與交疊,采用0 3 7 s 的漢寧窗,交疊因子為3 1 3 2 ;( 3 ) 對(duì)每一幀采用d f r 變換,得到其頻譜值;( 4 ) 將與人類(lèi)聽(tīng)覺(jué)系統(tǒng)h a s 緊密相關(guān) 的頻譜范圍3 0 0 h z 。2 0 0 0 h z 等分為3 3 個(gè)對(duì)數(shù)子帶,即b a r k 域;( 5 ) 根據(jù)下式提 取音頻指紋f 伽,卅) , f o ,脅,= 苫主竺:;二主譬:二箸譬二2 :;二:二主:客二: c 1 - 1 , 式中e ( n ,m ) 為第n 幀子帶m 的能量,f ( n ,脅) 為第n 幀的音頻指紋的第m 比特位。 因此,每3 3 s 的音頻信號(hào)經(jīng)過(guò)處理后提取2 5 6 x 3 2b i t s 的音頻指紋塊。實(shí)驗(yàn)表明, 所提取的音頻指紋能夠抵抗m p 3 編解碼、濾波、壓縮、重采樣、量化以及時(shí)間尺 度拉伸等多種失真。文獻(xiàn)【1 5 】則把3 0 0 h z 一2 0 0 0 h z 等分為5 1 2 個(gè)對(duì)數(shù)子帶,結(jié)合自 相關(guān)平移不變性進(jìn)行指紋提取。實(shí)驗(yàn)表明,改進(jìn)的算法能抵抗高達(dá)6 的線性 5 中山大學(xué)碩士學(xué)位論文 速度變換攻擊。而文獻(xiàn) 1 6 1 8 1 對(duì)h a i t s m a 所提出的算法進(jìn)行了系統(tǒng)建模以及理論 分析。文獻(xiàn) 1 9 1 對(duì)文獻(xiàn)【1 4 】中所提出的檢索算法作了改進(jìn),通過(guò)計(jì)算音頻指紋之 間的互相關(guān)系數(shù),取其前s 個(gè)極值點(diǎn)作為候選同步點(diǎn),再計(jì)算其與待查詢音頻指 紋的歸一化漢明距,得到相應(yīng)的匹配結(jié)果。實(shí)驗(yàn)表明,在加性高斯白噪聲下,當(dāng) s - 1 0 ,b 1 6 ,t 0 3 5 時(shí)能取到很好的匹配效果。文獻(xiàn) 2 0 1 在文獻(xiàn) 1 4 1 和【1 9 】的基 礎(chǔ)上,對(duì)基音平移( p i t c h s h i f t e d ) 進(jìn)行分析,通過(guò)對(duì)提取的音頻指紋進(jìn)行濾波 處理并設(shè)計(jì)相應(yīng)的檢索算法,能抵抗8 的基音平移。 文獻(xiàn)【2 1 】結(jié)合神經(jīng)網(wǎng)絡(luò),提出了一種采用o p c a ( o r i e n t e dp r i n c i p a l c o m p o n e n t sa n a l y s i s ) 進(jìn)行降維的失真判別分析( d d a , d i s t o r t i o nd i s c d m i n a n t a n a l y s i s ) 方法。文獻(xiàn)【2 2 】中采用短時(shí)傅立葉變換( s 吧s h o r t t u n ef o u r i e r t r a n s f o r m ) 提取音頻的頻域特征參數(shù),構(gòu)成特征矩陣,再用高斯混合模型( g m m , g a u s s i a nm i x t u r em o d e l i n g ) 進(jìn)行建模,進(jìn)而分析各特征參數(shù)在音頻識(shí)別中的性 能。文獻(xiàn)1 2 3 提出了一種基于正弦曲線模型的指紋提取算法,與經(jīng)典的提取子邊 帶參數(shù)模型相比,具有更強(qiáng)的抗加性噪聲能力( 尤其是偽隨機(jī)加性噪聲) 以及檢 測(cè)更短的音頻片段( 1 s ) 。 文獻(xiàn)1 2 4 】提出了一種基于歸一化頻譜子頻帶質(zhì)心( s s c ,s p e c t r a ls u b b a n d c e n t r o i d s ) 的指紋提取算法,文獻(xiàn) 2 5 1 在此基礎(chǔ)上增加了歸一化頻譜子帶二階距 的分析與實(shí)驗(yàn)結(jié)果。作為對(duì) 2 4 ,2 5 的改進(jìn),文獻(xiàn)【2 6 】在s s c 基礎(chǔ)上提出了基于 b o o s t i n g 學(xué)習(xí)算法的二值音頻指紋,而文獻(xiàn) 2 7 弓i a , ts s c 瞬時(shí)的動(dòng)態(tài)特性,增 強(qiáng)了音頻指紋的魯棒性。 ( 2 ) 基于時(shí)頻域的特征提取 針對(duì)頻譜隨時(shí)間變化的確定信號(hào)和非平穩(wěn)隨機(jī)信號(hào),近年來(lái)出現(xiàn)了信號(hào)的時(shí) 頻域表示方法。其目的是將一維的時(shí)間信號(hào)或頻域信號(hào)映射成時(shí)間頻率平面上的 二維信號(hào),常用的有g(shù) a b o r 變換和小波變換。 文獻(xiàn)【2 8 】采用一維連續(xù)小波變換提取音頻特征,構(gòu)建了分別用于認(rèn)證和識(shí)別 的音頻指紋。文獻(xiàn)【2 9 】提出了基于平衡多小波( b m w ,b a l a n c e dm u l t i w a v e l e t s ) 的音頻哈希算法。文獻(xiàn) 3 0 1 結(jié)合計(jì)算機(jī)視覺(jué),將音頻信號(hào)的頻譜圖當(dāng)作二維的圖 像進(jìn)行處理。文獻(xiàn) 3 1 ,3 2 將計(jì)算機(jī)視覺(jué)技術(shù)應(yīng)用于數(shù)據(jù)流處理中,運(yùn)用h a a r 小 6 第一章緒論 波對(duì)音頻數(shù)據(jù)流的頻譜圖進(jìn)行分解,提取小波系數(shù),再利用m i nh a s h 技術(shù)建模 得到音頻指紋,最后采用位置敏感哈希( l s h ,l o c a l i t ys e n s i t i v eh a s h i n g ) 技術(shù) 實(shí)現(xiàn)音頻指紋檢索。此外,分析了算法計(jì)算復(fù)雜度、音頻指紋存儲(chǔ)空間和識(shí)別率 之間的關(guān)系。文獻(xiàn) 3 3 1 在此基礎(chǔ)上對(duì)系統(tǒng)的參數(shù)選擇進(jìn)行分析與驗(yàn)證,并將實(shí)驗(yàn) 結(jié)果與文獻(xiàn) 2 9 1 進(jìn)行比較。 三、基于壓縮域的音頻指紋 文獻(xiàn)【3 4 】提出了一種基于心理聲學(xué)模型提取壓縮域參數(shù)作為音頻指紋的算 法,利用壓縮域的m d c t ( m o d i f i e dd i s c r e t ec o s i n et r a n s f o r m ) 系數(shù)計(jì)算子頻帶 能量再經(jīng)過(guò)建模提取音頻指紋。文獻(xiàn) 3 5 1 將音頻指紋技術(shù)應(yīng)用于電視視頻檢索。 根據(jù)對(duì)數(shù)子頻帶m d c t 系數(shù)之和求得每一幀相應(yīng)對(duì)數(shù)子頻帶調(diào)制譜的幅度再經(jīng) 過(guò)濾波、平滑和量化處理,生成音頻指紋塊,通過(guò)音頻指紋塊檢索相應(yīng)的視頻。 音頻指紋技術(shù),目前還處于探索研究過(guò)程中,很多技術(shù)還不夠成熟,各種算 法都有各自的優(yōu)缺點(diǎn)。而基于變換域的音頻指紋算法,具有如下優(yōu)點(diǎn):通常具有 更好的魯棒性,對(duì)音頻信號(hào)處理操作( 如重采樣、量化和編碼等) 和背景噪聲都 具有一定的抵抗力;不同的變換域,能保留音頻信號(hào)不同的聽(tīng)覺(jué)信息特征,能抵 抗特定的攻擊,如文獻(xiàn) 3 1 3 3 1 利用h a a r 小波變換提取時(shí)頻譜特征作為音頻指紋 對(duì)時(shí)間尺度拉伸( t s m ,t u n es c a l em o d i f i c a t i o n ) 攻擊有很好的效果。同時(shí),存 在部分指紋算法計(jì)算復(fù)雜度高,以及不能很好的滿足基于內(nèi)容的音頻檢索系統(tǒng)進(jìn) 行實(shí)時(shí)的檢索。 1 3 本論文研究的主要內(nèi)容及結(jié)構(gòu)安排 本論文通過(guò)對(duì)國(guó)內(nèi)外音頻指紋算法的分析,提出了基于s t f t 變換的頻率域 音頻指紋算法以及基于d a u b e c h i e s 小波變換的時(shí)頻域音頻指紋算法,并將兩種 算法應(yīng)用于音頻檢索中。論文結(jié)構(gòu)如下: 第一章為緒論,簡(jiǎn)要闡述了選題背景及研究意義,并對(duì)現(xiàn)有音頻指紋算法進(jìn) 行總結(jié)綜述。 第二章介紹了論文中所涉及的基礎(chǔ)理論知識(shí)。首先,概述音頻信號(hào)的相關(guān)特 7 中山大學(xué)碩士學(xué)位論文 征。其次,簡(jiǎn)要介紹了s ,n 丌變換及其應(yīng)用。最后,對(duì)小波變換進(jìn)行了簡(jiǎn)要介紹。 第三章給出了一種基于s 1 r i 叮變換的頻率域音頻指紋改進(jìn)算法。該算法引入 了每幀音頻信號(hào)的能量,利用頻率帶能量( s b e ) 替換頻率子帶能量,對(duì)每3 3 s 的音頻信號(hào)提取1 2 8 x 1 6 b i t s 的音頻指紋塊。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的頻率域音頻指 紋算法對(duì)常見(jiàn)的保留信號(hào)內(nèi)容的攻擊處理及加性高斯白噪聲具有很好的魯棒性, 此外降低了指紋存儲(chǔ)空間、減少了指紋提取運(yùn)算時(shí)間。 第四章提出了一種基于d a u b e c h i e s 小波變換的時(shí)頻域音頻指紋算法,通過(guò) 對(duì)音頻信號(hào)進(jìn)行8 層小波分解得到1 個(gè)逼近分量和8 個(gè)細(xì)節(jié)分量,根據(jù)每個(gè)分量 小波系數(shù)的方差之間的關(guān)系對(duì)每3 3 s 的音頻信號(hào)提取6 4 x 7b i t s 或6 4 x 8b i t s 的 音頻指紋塊。實(shí)驗(yàn)結(jié)果表明,該算法不僅對(duì)常見(jiàn)的保留信號(hào)內(nèi)容的攻擊處理及加 性高斯白噪聲具有很好的魯棒性,對(duì)線性速度變化攻擊也具有良好的魯棒性,其 指紋存儲(chǔ)空間較頻率域音頻指紋大大減少。 第五章闡述了兩種算法在音頻檢索中的應(yīng)用。首先闡述音頻檢索中的匹配算 法。最后通過(guò)實(shí)驗(yàn)結(jié)果對(duì)兩種音頻指紋算法在音頻檢索中的性能進(jìn)行對(duì)比總結(jié)。 第六章對(duì)全文進(jìn)行了總結(jié)并對(duì)音頻指紋技術(shù)今后的發(fā)展進(jìn)行了展望。 8 第二章基礎(chǔ)理論知識(shí) 第二章基礎(chǔ)理論知識(shí) 2 1 音頻基礎(chǔ)知識(shí) 2 1 1 音頻及其短時(shí)處理技術(shù) 音頻是指人耳所能聽(tīng)到的所有聲音,其頻率范圍是2 0 h z 2 0 k h z ,其中語(yǔ)音 的頻率范圍為3 0 0 h z 3 4 k h z ,而音樂(lè)和其它自然聲響則是分布于整個(gè)頻率范圍。 在日常生活中,人耳所聽(tīng)到的音頻信號(hào)都是時(shí)間和幅度連續(xù)變化的模擬信號(hào),為 了便于利用計(jì)算機(jī)進(jìn)行處理,必須把模擬的信號(hào)進(jìn)行數(shù)字化處理,轉(zhuǎn)換為時(shí)間和 幅度都是離散的數(shù)字音頻信號(hào)。數(shù)字化處理主要包括采樣、量化和編碼三個(gè)部分。 本論文中所采用的音頻格式為w a y 格式,采樣率為4 4 1 0 0 h z ,采用1 6 b i tp c m 編 碼。 經(jīng)過(guò)數(shù)字化處理的音頻信號(hào)實(shí)際上是一個(gè)非平穩(wěn)的時(shí)變信號(hào),而傳統(tǒng)的信號(hào) 分析方法主要適用于平穩(wěn)信號(hào)的分析。因此,對(duì)音頻信號(hào)進(jìn)行處理時(shí),需要通過(guò) 加窗操作得到短時(shí)的音頻信號(hào),即對(duì)音頻信號(hào)進(jìn)行分幀,而在幾十毫秒的短時(shí)間 內(nèi),可以將緩慢變化的音頻信號(hào)當(dāng)作平穩(wěn)信號(hào)來(lái)處理。分幀可以連續(xù),也可以采 用交疊分幀的方法。常用的窗函數(shù)有矩形窗、漢明窗( h a m m i n g ) 和漢寧窗 ( h a r m i n g ) 等,窗1 3 大小一般為幾毫秒到幾十毫秒。 矩形窗函數(shù)如公式( 2 1 ) 所示。其單位沖激響應(yīng)如公式( 2 2 ) 所示。 州= 忙眶篙。 協(xié)d 日0 加r ) ;n 了- 1 e - w s r 。s i n ( w a r t 2 ) e - 一r ( 心) ,2 ( 2 2 ) 、 7 翩s i n ( w t 2 ) 式中為窗長(zhǎng)。矩形窗具有線性相位頻率特性,其頻率響應(yīng)的第一個(gè)零值所對(duì) 應(yīng)的頻率為: 9 中山大學(xué)碩士學(xué)位論文 厶- 寺一壺 ( 2 3 ) 式中為采樣率,t - 1 l 為采樣周期。 漢寧窗( h a n n i n g ) 的窗函數(shù)如公式( 2 - 4 ) 所示。 吣,- n 5 。0 5 螂害廳州q l 眶裂。1 ( 2 4 , 漢明窗( h a m m i n g ) 的窗函數(shù)如公式( 2 5 ) 所示。 吣,一 0 5 4 。0 舶鼉加州q l 臟裂4 c 2 射 圖2 - 1 為窗長(zhǎng)- 6 4 的矩形窗和漢寧窗( h a r m i n g ) 的幅頻響應(yīng)。從圖中可 知漢寧窗的帶甯約為钷形窗帶甯的兩倍同時(shí)存誦帶外漢中窗袁凇糖快。 圖2 1 窗函數(shù)幅頻響應(yīng) 窗函數(shù)及窗長(zhǎng)的選擇將影響到音頻信號(hào)短時(shí)分析的結(jié)果。矩形窗的譜比較平 滑,但是波形細(xì)節(jié)丟失,并且會(huì)產(chǎn)生高頻干擾和頻譜泄漏;而漢寧窗可以有效的 克服泄漏現(xiàn)象,應(yīng)用范圍廣泛。如果窗長(zhǎng)很大,則等效于很窄的低通濾波器, 音頻信號(hào)的高頻成分將受到嚴(yán)重衰減,導(dǎo)致信號(hào)短時(shí)能量變化緩慢,不能充分反 映信號(hào)的變化:反之,如果窗長(zhǎng)n 很小,則使低通濾波器通帶變寬,信號(hào)短時(shí) 能量變化劇烈,不能得到平滑的短時(shí)能量信號(hào),因此,必須選擇合適的窗長(zhǎng) 【3 6 1 。 1 0 第二章基礎(chǔ)理論知識(shí) 2 1 2 音頻信號(hào)的時(shí)域分析 時(shí)域分析是以時(shí)間為變量對(duì)信號(hào)直接進(jìn)行分析,音頻信號(hào)典型的時(shí)域特征包 括短時(shí)能量、短時(shí)平均過(guò)零率、短時(shí)自相關(guān)系數(shù)和短時(shí)平均幅度差等【3 6 】。音頻 信號(hào)的短時(shí)平均能量和短時(shí)平均過(guò)零率及其改進(jìn)特征可用于對(duì)音頻信號(hào)進(jìn)行分 類(lèi)【8 1 0 】。 一、短時(shí)能量 對(duì)于音頻信號(hào)x 0 ) ,加窗分幀處理后得到第n 幀音頻信號(hào)為毛) ,其短時(shí) 能量的定義如下: e 2 磊沏) ( 2 6 ) 式中,為窗長(zhǎng)。 短時(shí)能量能夠反映信號(hào)幅度大小的變化,然而由于其引入了信號(hào)幅度的平方 運(yùn)算,因此它對(duì)高電平非常敏感。為了克服這一缺陷,引入了短時(shí)平均幅值,其 定義如下: m a 。薈l 伽) i ( 2 短時(shí)平均幅值鴨用信號(hào)幅度的絕對(duì)值取代其平方和,簡(jiǎn)化了運(yùn)算,同時(shí)解 決了對(duì)急劇變化的信號(hào)的幅值進(jìn)行平方運(yùn)算所引入的較大差異。 短時(shí)能量和短時(shí)平均幅值的主要用途有:( 1 ) 可以區(qū)分濁音段與清音段,因 為濁音時(shí)e 比清音時(shí)大得多。( 2 ) 可以用來(lái)區(qū)分聲母和韻母、無(wú)聲與有聲以及 連字的分界等。( 3 ) 作為音頻特征,用于語(yǔ)音識(shí)別1 3 7 。 二、短時(shí)平均過(guò)零率 短時(shí)平均過(guò)零率是指每幀信號(hào)內(nèi)波形通過(guò)零值( 或設(shè)定閾值t ) 的次數(shù)。其 定義如下: 乙壺薈l s g i l 【矗伽) 卜s 印k 沏一1 ) 1 1 2 8 式中,s g n x ) 】為符號(hào)函數(shù),定義如下: 中山大學(xué)碩士學(xué)位論文 s 印k 伽2 三乏:;:呂 c 2 - 9 ) 可以將短時(shí)平均過(guò)零率和短時(shí)能量結(jié)合進(jìn)行端點(diǎn)檢測(cè),在背景噪聲較大時(shí), 采用短時(shí)平均過(guò)零率比較準(zhǔn)確;反之則采用短時(shí)能量 3 6 1 。 三、短時(shí)自相關(guān)系數(shù)和短時(shí)平均幅度差 短時(shí)自相關(guān)函數(shù)主要用于研究信號(hào)毛伽) 本身的同步性和周期性,其定義如 下: r ( 七) - 伽) 伽+ 七) ( 2 1 0 ) 篇 式中,k 為延遲點(diǎn)數(shù)。 短時(shí)自相關(guān)函數(shù)具有以下性質(zhì):( 1 ) 若毛伽) 為周期信號(hào),則其自相關(guān)函數(shù) 同樣為周期信號(hào),且具有相同的周期t ;( 2 ) 自相關(guān)函數(shù)是偶函數(shù),即 吃悠) 一足( - k ) ;( 3 ) 當(dāng)七一o 時(shí),自相關(guān)函數(shù)具有最大值,此時(shí)墨( o ) 為音頻信 號(hào)伽) 的能量【3 6 】。 由于乘法運(yùn)算計(jì)算量較大,短時(shí)自相關(guān)函數(shù)計(jì)算時(shí)間較長(zhǎng),因此,常常采用 具有類(lèi)似作用的短時(shí)平均幅度差函數(shù)替換短時(shí)自相關(guān)函數(shù)。其定義如下: ,:l ) 。薈k 伽) 一毛伽+ 七) i 2 。1 1 ) 若矗伽) 為周期信號(hào),則_ ,:l 似) 同樣為周期信號(hào)。與民 ) 相反的是,在周期 整數(shù)倍點(diǎn)上,:l ) 為谷值,并非峰值。由此可見(jiàn),短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅 度差函數(shù)均能用于基音周期檢測(cè),且短時(shí)平均幅度差函數(shù)計(jì)算更加簡(jiǎn)單。 2 2 傅里葉變換 音頻信號(hào)的頻域包含了音頻信號(hào)最重要的感知特征,而人類(lèi)聽(tīng)覺(jué)系統(tǒng)h a s 具有頻譜分析功能。因此,對(duì)音頻信號(hào)進(jìn)行頻譜分析,是認(rèn)識(shí)音頻信號(hào)和處理音 頻信號(hào)的重要方法,常用的有離散傅立葉變換和離散余弦變換等 3 8 1 。 第二章基礎(chǔ)理論知識(shí) 2 2 1 連續(xù)傅里葉變換 對(duì)于連續(xù)時(shí)間信號(hào)z o ) ,其連續(xù)傅里葉變換( c f r , c o n t i n u o u sf o u r i e r t r a n s f o r m ) 為: x ( 們= f 2 工。弘一朋d t ( 2 1 2 ) 式中,w 為模擬角頻率,即w ;勱,。其逆變換( i c f t , i n v e r s ec f r ) 定義如下: 一扛x ( 咖加加 ( 2 - 1 3 ) 通常,將x o ) 和x ( 叻稱為一個(gè)變換對(duì),記為:x ( t ) 仲x ( w ) 。 2 2 2 離散傅里葉變換 對(duì)于離散時(shí)間信號(hào)x ( o ,其離散傅里葉變換d 兀 為: 彳。歸) = z o 弘一闞 式中,q 為數(shù)字角頻率,即q w t , = 紉,互。 ( 2 1 4 ) 從公式( 2 1 4 ) 可知,信號(hào)x ( r ) 為無(wú)限長(zhǎng)序列,而在現(xiàn)實(shí)中,所處理的信號(hào) 往往有限長(zhǎng)序列,對(duì)于序列長(zhǎng)度為的有限長(zhǎng)序列x ( n ) ,其離散傅里葉變換定 義如下: x 皿) 。薈z o 弦鶘鐋 式中,q 一等七,o s 七 ,將q 代入公式( 2 1 5 ) 中,得到 x ) 。薈x o 弦。圳, 嘁 0 ,b 為位移因子。其對(duì)應(yīng)的頻域表示如下: 妒o ) ( 們一;p 。抄紗( 口川 ( 2 - 2 4 ) 通過(guò)選擇合適的參數(shù)對(duì)( 口,6 ) ,實(shí)現(xiàn)對(duì)函數(shù)和信號(hào)進(jìn)行任意點(diǎn)處任意精度的 分析,這也決定了小波分析在對(duì)非平穩(wěn)信號(hào)進(jìn)行時(shí)頻分析時(shí)具有時(shí)頻同時(shí)局部化 的能力。 2 3 1 常用小波函數(shù) 常用的小波函數(shù)有h a a r 小波、d a u b e c h i e s 小波、m e x i c oh a t 小波和m o r l e t 小波。下面簡(jiǎn)要介紹一下h a a r 小波和d a u b e c h i e s 小波。 h a a r 小波是在小波分析中最簡(jiǎn)單、最緊支撐的小波函數(shù),其定義為 f1 ,0 z s0 5 1 沙日一 1 o 5 墨x 1 ( 2 - 2 5 ) l0 其他 d a u b e c h i e s 小波的數(shù)學(xué)表達(dá)式為 妒d o ) 一掣山礦 ( 2 - 2 6 ) 崗 式中,c f 塒為二項(xiàng)式系數(shù),那么 1 6 第二章基礎(chǔ)理論知識(shí) 瞰酬2 一洶s 2 詈) 妒( s i n 2 爭(zhēng) 式中,脅。( w ) 一忑1 2 磊n - 1 以p 一脅。 ( 2 2 7 ) d a u b e c h i e s 小波族具有緊支撐性,簡(jiǎn)寫(xiě)為d b n ,其中表示階數(shù),h a a r 小 波實(shí)際為d b l ,即階數(shù)n 一1 的d a u b e c h i e s 小波。 2 3 2 連續(xù)小波變換 對(duì)于連續(xù)時(shí)間信號(hào)z ( f ) ,給定一個(gè)基本小波函數(shù),則其連續(xù)小波變換( c w t , c o n t i n u o u sw a v e l e tt r a n s f o r m ) 為 c w t x ( a ,爐p 嘶叫( f ) = 扣學(xué)渺 ( 2 - 2 8 ) 連續(xù)小波變換具有疊加性、平移不變性和尺度不變性。若妒( 們滿足以下條件 c pi 時(shí),才能通過(guò)c w t ( a ,6 ) 重構(gòu)得到原來(lái)信號(hào)z o ) ,即 圳???。笨c w t ,( a 帆。o 渺 ( 2 2 9 ) ??邸 口2 j a :- w t x ( a 腳枷( 2 - 3 0 ) 2 3 3 離散小波變換 將連續(xù)小波的尺度因子a 和位移因子b 按照冪級(jí)數(shù)進(jìn)行離散化,得到離散的 基本小波函數(shù),即 。赤妒。學(xué),m a o 一1 圳 協(xié)3 1 , 1 7 中山大學(xué)碩士學(xué)位論文 通常情況下,取口0 - 2 ,此時(shí)離散小波變換( d w t , d i s c r e t ew a v e l e tt r a n s f o r m ) 為 。暇( 舭) 。p o 砂 o 渺,2 。爭(zhēng)。渺( 川。( 2 - i t _ 腸。渺 ( 2 3 2 ) 2 3 4 多分辨率分析及小波分解 在小波分析過(guò)程中,常常通過(guò)改變尺度因子a 的大小對(duì)信號(hào)的局部特性進(jìn)行 分析。當(dāng)a 取較大值時(shí),相當(dāng)于頻率分辨率較低,能夠概述信號(hào)的變化趨勢(shì);當(dāng) a 取較小值時(shí),相當(dāng)于頻率分辨率較高,便于分析信號(hào)的高頻分量,觀察信號(hào)的 細(xì)節(jié)變化。但是,在不同a 值下分析的品質(zhì)因數(shù)卻保持不變。這種由粗略到精細(xì), 對(duì)信號(hào)進(jìn)行多角度觀察的分析方法被稱為多分辨率分析1 4 0 1 。 離散小波變換主要用在信號(hào)處理中,一般采用m a l l a t 算法實(shí)現(xiàn),也稱為快速 小波變換算法( f w t , f a s tw a v e l e tt r a n s f o r m ) ,首先對(duì)較大尺度的信號(hào)進(jìn)行小波 分解,得到細(xì)節(jié)分量( 即高頻分量) 和逼近分量( 即低頻分量) ,接著對(duì)逼近分 量再進(jìn)行小波分解,從而實(shí)現(xiàn)多分辨率分析。2 層小波分解原理如圖2 3 所示。 c d 2 細(xì)節(jié)分量 c a 2 逼近分量 圖2 - 3 2 層小波分解原理圖 圖2 - 3 中,風(fēng)( 叻、i - , ( 計(jì)分別為高通濾波器函數(shù)和低通濾波器函數(shù)。2 層 小波分解得到兩個(gè)細(xì)節(jié)分量( c d l 、c d 2 ) 和一個(gè)逼近分量( c a 2 ) ,其對(duì)應(yīng)的歸一 化頻率分別為至2 。萬(wàn)、三4 一三和o 。三。采用小波基d b 6 對(duì)音頻信號(hào)x o ) 進(jìn)行2 層小波分解,其結(jié)果如圖2 4 所示。 第二章基礎(chǔ)理論知識(shí) c a 2 圖2 4 音頻信號(hào)x 0 ) 的2 層小波分解示意圖 2 4 小結(jié) 本章簡(jiǎn)要介紹了音頻相關(guān)的基礎(chǔ)理論知識(shí)及傅里葉變換、小波變換的原理, 分析了傅里葉變換和小波變換在音頻信號(hào)處理中的應(yīng)用,為本論文的進(jìn)一步研究 奠定了基礎(chǔ)。 1 9 中山大學(xué)碩士學(xué)位論文 第三章基于s t f t 變換的頻率域音頻指紋算法 3 1 引言 h a i t s m a 等人提出了一種高魯棒的音頻指紋系統(tǒng)模型,對(duì)分幀( 0 3 7 s ) 、加 窗( h a r m i n g 窗) 與交疊( 3 1 3 2 ) 的音頻信號(hào)進(jìn)行d f t 變換,將頻譜范圍 3 0 0 h z 2 0 0 0 h z 的頻率段均勻劃分為3 3 個(gè)對(duì)數(shù)頻帶,通過(guò)相鄰幀3 3 個(gè)對(duì)數(shù)頻帶 能量之間的關(guān)系提取3 2b i t s 的子指紋( s u b f i n g e r p r i n t ) 。由于單個(gè)子指紋未能 攜帶足夠的用于音頻識(shí)別的信息,因此,對(duì)3 3 s 的音頻片段提取2 5 6 x 3 2 b i t s 的 音頻塊( f i n g e r p r i n t - b l o c k ) 【1 4 。而b e l l e t t i n i 對(duì)此算法進(jìn)行了改進(jìn),將頻譜范圍 3 0 0 h z 2 0 0 0 h z 的頻率段均勻劃分為1 7 個(gè)對(duì)數(shù)頻帶提取1 6b i t s 的子指紋;在檢 索時(shí),通過(guò)計(jì)算待查詢音頻指紋與源音頻指紋之間的互相關(guān)系數(shù),取其前s 個(gè)極 值點(diǎn)作為候選同步點(diǎn),再計(jì)算其與源音頻指紋的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論