(通信與信息系統(tǒng)專業(yè)論文)基于互信息理論的說話人識別研究.pdf_第1頁
(通信與信息系統(tǒng)專業(yè)論文)基于互信息理論的說話人識別研究.pdf_第2頁
(通信與信息系統(tǒng)專業(yè)論文)基于互信息理論的說話人識別研究.pdf_第3頁
(通信與信息系統(tǒng)專業(yè)論文)基于互信息理論的說話人識別研究.pdf_第4頁
(通信與信息系統(tǒng)專業(yè)論文)基于互信息理論的說話人識別研究.pdf_第5頁
已閱讀5頁,還剩98頁未讀, 繼續(xù)免費(fèi)閱讀

(通信與信息系統(tǒng)專業(yè)論文)基于互信息理論的說話人識別研究.pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

摘要 基于生物特征的身份識別技術(shù)是當(dāng)前國際上的重點(diǎn)研究內(nèi)容,自動說話人識別通過語音 識別說話人的身份,在系統(tǒng)安全認(rèn)證、司法鑒定、金融服務(wù)以及電子偵聽等領(lǐng)域有著廣泛的 應(yīng)用價值。本文在對現(xiàn)有說話人識別技術(shù)分析的基礎(chǔ)上,運(yùn)用互信息理論進(jìn)行說話人識別的 研究,提出了可實(shí)際應(yīng)用的語音信號互信息計算方法,并針對基于文本和文本無關(guān)的說話人 識別分別提出了相應(yīng)的說話人語音模型和互信息匹配算法,實(shí)驗(yàn)證明了本文提出的語音信號 互信息計算方法的有效性。 本文的主要研究內(nèi)容如下: 一、對自動說話人識別原理咀及相關(guān)的語音產(chǎn)生機(jī)理和語音信號處理方法作了全面的描述與 分析。特別在特征參數(shù)選擇與提取、說話入語音模型建立、模式匹配以及語音的聲學(xué)特 性方面進(jìn)行了詳細(xì)的分析。 二、從信息量的角度考察分析語音信號之間的特征相關(guān)性,提出隨機(jī)干擾信號的概念來解釋 和描述語音信號之間的失真,并從隨機(jī)信號的特征以及隨機(jī)信號分析理論推導(dǎo)出這一信 號的統(tǒng)計分布特性,晟終,語音信號之間互信息的計算歸結(jié)到隨機(jī)干擾信號的熵并得到 解決。 三、研究了語音信號互信息計算的具體算法,提出了基于模式的線性映射匹配算法l p m 和非 線性搜索匹配算法n l m 。 四、對互信息測度的聚類特性迸行分析通過類內(nèi)凝聚度、類間耦合度和類間重疊三大指標(biāo) 對互信息測度的分類特性進(jìn)行了詳細(xì)分析,并與其它常用測度e u c l i d e a n 、i t a k u r a s a i t o 和 m a h a l a n o b i s 進(jìn)行比較,結(jié)果顯示出互信息測度的模式分類有效性和優(yōu)越性。 五、針對不同識別要求研究適合互信息測度應(yīng)用的說話入模型,提出應(yīng)用于基于文本的說話 人識別的多模板模型m t m 和應(yīng)用于文本無關(guān)說話人識別的全特征矢量集模型c f c ,實(shí)驗(yàn) 證明這些模型能夠充分表達(dá)說話人的語音特征。 六、對于文本無關(guān)的說話人識別,綜合考慮距離空間和信息空間的特性,提出多級最小最大 搜索匹配算法m m s 計算全特征矢量集模型c f c i i n 音信號的互信息,實(shí)驗(yàn)證明該算法有 效。 本文提出的基于互信息理論的說話人識別方法綜合運(yùn)用了語音信號的時變分布與統(tǒng)計分 布特征,在基于文本和文本無關(guān)的說話人識別實(shí)驗(yàn)中顯示出比基于g m m 模型的識別方法優(yōu) 越的識別性能。本文的研究工作有助于自動說話人識別技術(shù)的完善、發(fā)展和提高,有利于基 于生物特征的身份識別技術(shù)的實(shí)際應(yīng)用。 關(guān)鍵詞:說話人識別,互信息,匹配,語義特征,個性特征 a b s t r a c t s p e a k e rr e c o g n i t i o n a so n eo fb i o m e t r i ci d e n t i f i c a t i o nr e s e a r c ha i m st oi d e n t i f y l i v i n gp e r s o n sf r o mt h e i rv o i c e i ti s u s e f u li n p e r s o na u t h e n t i c a t i o n ,f o r e n s i c s a n d s p e a k e rt r a c k i n g ,e t c m a n ys c i e n t i s t sa n de n g i n e e r sh a v e c o n t r i b u t e dt h e i rw i s d o ma n d e n t h u s i a s mi nt h i sc h a l l e n g er e s e a r c h ,b u ts t i l lt h e r ea r em a n yp r o b l e m ss u c ha ss p e a k e r m o d e l o p t i m i z a t i o na n da d a p t a t i o n ,f e a t u r es e l e c t i o n a n dd e t e c t i o n ,p a t t e r nm e a s u r ea n d m a t c h i n gl e f tf o rf u r t h e rs t u d y t h i st h e s i sp r o p o s e san e wa p p r o a c hb a s e d o nm u t u a l i n f o r m a t i o nt h e o r yt oi n v e s t i g a t et h es p e a k e rr e c o g n i t i o np r o b l e m t h em o s ta t t e n t i o n f o c u so nm u t u a li n f o r m a t i o ne s t i m a t i o no fs p e e c hs i g n a l s ,s p e a k e rm o d e la n dp a t t e m m a t c h i n gs c h e m e ,p e r f o r m a n c ee v a l u a t i o na n da n a l y s i sw i t hc o m p a r i s o nt o g a u s s i a n b a s e dm e t h o d t h em a i nr e s e a r c hw o r ka n da c h i e v e m e n t sa r ea sf o l l o w i n g t h e p r e v i o u sw o r k a n dr e s u l t si ns p e a k e r r e c o g n i t i o nr e s e a r c ha n di t sf u n d a m e n t a l p r i n c i p l ea r e i n t r o d u c e dw i t hd i s c u s s i o na n da n a l y s i s b a s e do nm u t u a li n f o r m a t i o n t h e o r ya n da n a l y s i so f s t a t i s t i c a ld i s t r i b u t i o na n ds t o c h a s t i cp r o p e r t yo f s p e e c hs i g n a l , t h em u t u a le s t i m a t i o nm e t h o dw a sd e r i v e db yd e f i n i n gar a n d o mi n t e r f e r e n c es i g n a lt o d e s c r i b et h ed i s t o r t i o nb e t w e e ns p e e c hs i g n a l s t w op r a c t i c a lc a l c u l a t i o na l g o r i t h m s w e r ep r o p o s e da sl i n e a rp r o j e c t i o nm a t c h i n g 俾l m ) a l g o r i t h ma n dn o n - l i n e a rs e a r c h m a t c h i n g ( n l m ) a l g o r i t h m b o t ht i m e v a r y i n ga n ds t a t i s t i c a ld i s t r i b u t i o nf e a t u r e sc a n b ew e l lp r o c e s s e db yt h e s ea l g o r i t h m s ,a n di tm a k ep r o p o s e dm e t h o dm o r em e t i c u l o u s a n dr o b u s tt h a nt r a d i t i o n a lv qa n dg m mm e t h o d sw h i c hd i dn o tt a k ep r o c e s so f n e i t h e r o n eo f t h et w of e a t u r e s s p e a k e rm o d e l sn a m e da sm u l t i - t e m p l a t em o d e l ( m t m ) a n dc o m p l e t e f e a t u r e c o r p u sm o d e l ( c f c ) w e r ep r o p o s e dr e s p e c t i v e l yf o rt e x t d e p e n d e n ts p e a k e rr e c o g n i t i o n a n dt e x t i n d e p e n d e n t s p e a k e rr e c o g n i t i o n m t mr e p r e s e n t s c e n t r a l t e m p l a t e s o fa s p e a k e r st e x t d e p e n d e n tv o i c ei nt h ep a t t e r ns p a c e ,c f ci sd e s i g n e da sa na d e q u a t e d e s c r i p t i o no fs p e a k e r sp h o n e t i ca n dp r o n u n c i a t i o np r o p e r t i e sa n dp r a c t i c a l l yt r a i n e d b yac l u s t e r i n ga l g o r i t h mi nf e a t u r ev e c t o rs p a c ew i t hs u f f i c i e n ts a m p l e s , t e x t - i n d e p e n d e n ts p e a k e rr e c o g n i t i o n s c h e m ei sa n i n t e g r a t i o n o fc f ca n da m a t c h i n ga l g o r i t h ma sm u l t i s t e pm i n i m a xs e a r c ha l g o r i t h m ( m m s ) m m sa l g o r i t h m m a k e st h ei n p u ts p e e c ha n dc f cs p e a k e rm o d e ls e q u e n t i a l l ym a t c hi nd i s t a n c es p a c e a n di n f o r m a t i o n s p a c e w i t hm i n i m u md i s t a n c ea n dm a x i m u mm u t u a li n f o r m a t i o n c r i t e r i ar e s p e c t i v e l y e x p e r i m e n t s o n c l u s t e r i n g a n dc l a s s i f i c a t i o n p r o p e r t ya n a l y s i s s h o wt h a tt h e p r o p o s e dm u m a li n f o r m a t i o nm e a s u r eh a sl a r g e ri n t r a - c l a s sc o m p a c t n e s sa n ds m a l l e r i n t e r c l a s si n t e r s e c t i o nt h a nt r a d i t i o n a l e u c l i d e a n ,m a h a l a n o b i sa n di t a k u r a s a i t o m e a s u r e s t h i sr e s u l ti sa l s od e m o n s t r a t e d b yt h es p e e c hd i g i t sr e c o g n i t i o ne x p e r i m e n t s p e a k e ri d e n t i f i c a t i o ne x p e r i m e n t sb a s e do n p r o p o s e dm u t u a li n f o r m a t i o nm e t h o d a r ee x a m i n e da n da n a l y z e d t h er e s u l t sb o t ho ft e x t d e p e n d e n ta n dt e x t i n d e p e n d e n t s p e a k e ri d e n t i f i c a t i o ne x p e r i m e n t sw e r ec o m p a r e dw i t ht h em e t h o db a s e do ng a u s s i a n m i x t u r em o d e l a sc a ns e ef r o mc h a p t e r6a n d7 ,t h ep r o p o s e dm u t u a li n f o r m a i o n m e t h o di se f f e c t i v ea n dh a sb e r e rp e r f o r m a n c et h a ng m m f r o mo u re x p e r i m e n t s , m e l f r e q u e n c yc e p s t r u mc o e 街c i e n t sa r em o r ee f f e c t i v et h a nl i n e a rp r e d i c t i o nc e p s t r u m c o e f f i c j e n t s i n s u m m a r y , i n v e s t i g a t i n gs p e a k e rr e c o g n i t i o n f r o m v i e w p o i n t o f m u t u a l i n f o r m a t i o nt h e o r yi ss u c c e s s f u l t h ep r o p o s e ds p e a k e rm o d e l sw i t h c o r r e s p o n d i n g m a t c h i n ga l g o r i t h m sp r o v i d ean e ww a y t om a k et h es p e a k e rr e c o g n i t i o ns y s t e mm o r e c o b s u m m a t e k e y w o r d s :s p e a k e rr e c o g n i t i o n ,m u t u a li n f o r m a t i o n ,m a t c h i n g ,l i n g u i s t i cp r o p e r t y i n d i v i d u a lp r o p e r t y 上海大學(xué) 本論文經(jīng)答辯委員會全體委員審查,確 認(rèn)符合上海大學(xué)博士學(xué)位論文質(zhì)量要求 答辯委員會簽名: 主任:,拇縣 委員:了乙時嘶 新:鉚” 答辯日期:z 仰叫矛寧同,;i 習(xí) a、,憊刪, 原創(chuàng)性聲明 本人聲明:所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工 作。除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他 人已發(fā)表或撰寫過的研究成果。參與同一工作的其他同志對本研 究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。 簽名名二墊眺苧q 上 本論文使用授權(quán)說明 本人完全了解上海大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即 學(xué)校有權(quán)保留論文及送交論文復(fù)印件,允許論文被查閱和借閱; 學(xué)校可以公布論文的全部或部分內(nèi)容。 ( 保密的論文在解密后應(yīng)遵守此規(guī)定) 簽名鋤導(dǎo)師簽名:敬 口甘口z 細(xì)尹仔 日期: 說話人識別的應(yīng)用 說話人識別的特點(diǎn)與難點(diǎn) 本文研究工作的意義、主要內(nèi)容與指導(dǎo)思想 語音是人類最自然的通信方式,說話人識別研究的目的是使機(jī)器能夠通過語音來判斷說 話人的身份。在我們的日常生活中,人們經(jīng)常通過電話等各種方式交流信息,當(dāng)一方在線路 的一端對著話筒說話時,另一方能夠很快判斷出對方是否是熟悉的人,如果熟悉的話還能夠 很快知道是哪一位。這是一個日常生活中典型的說話人識別事件,通過話筒傳來的語音進(jìn)行 說話人身份的識別。 在當(dāng)今世界進(jìn)入信息化時代的過程中,關(guān)于身份鑒定與識別的需求越來越多,一般可以 通過以下三種方式進(jìn)行:( 1 ) 鑰匙或信用卡;( 2 ) p i n 碼或密碼;( 3 ) 簽字、指紋、聲 音或人臉。其中,前兩種方法是已經(jīng)使用了幾個世紀(jì)的傳統(tǒng)方法,這些方法的缺點(diǎn)是容易丟 失和遺忘,甚至被錯誤使用。第( 3 ) 種方法是一種基于生物特征的身份鑒定識別方法【l ,2 ,3 , 簽字、指紋、聲音或人臉這些生物特征都反映了個體的生理、心理特性以及長期的文化與生 活習(xí)性,是自然唯一的、具有隨身攜帶和不會丟失遺忘的特點(diǎn)。 在過去的10 年里,隨著計算機(jī)運(yùn)算速度的提高以及超大規(guī)模集成電路體積越來越小, 研究開發(fā)基于生物特征的身份識別系統(tǒng)越來越受到重視。本文探討通過語音信號特征分析進(jìn) 行說話人識別的方法,研究如何運(yùn)用互信息理論分析語音特征,建立說話人語音模型以及匹 配識別的具體途徑。 1 1 說話人識別基本概念 說話人識別根據(jù)具體的任務(wù)可以分為說話人辨認(rèn)和說話人確認(rèn)兩大類 4 ,5 】。在說話人辨認(rèn) 中,一個未知說話人的語音特征與n 個已知說話人的語音特征進(jìn)行比較進(jìn)行l(wèi) n 匹配,獲得 4 上海大學(xué)博士學(xué)位論文 基于互信息理論的說話人識別研究 最佳匹配的說話人作為識別結(jié)果。在說話人確認(rèn)中,需要將未知說話人的語音特征與其所聲 稱的說話人的語音特征進(jìn)行比較,實(shí)行1 ;1 匹配,判斷兩者是否為同一個人,如果語音特征 之間的距離小于預(yù)設(shè)閩值或似然度大于預(yù)設(shè)閾值,則接受,反之則拒絕。 一般認(rèn)為說話人辨認(rèn)是一個比說話人確認(rèn)更困難的任務(wù)。這一推論的直觀性在于,隨著 登記的說話人人數(shù)增加,錯誤判決的概率會上升【1 ,6 ,7 。而對于說話人確認(rèn)來說,理論上并不 會因?yàn)槿藬?shù)的增加導(dǎo)致性能下降,因?yàn)楸容^匹配的只是兩個人。 1 1 1 面向閉集和開集的說話人辨認(rèn) 說話人辨認(rèn)可以進(jìn)一步分為面向開集( o p e n - s e t ) 的說話人辨認(rèn)和面向閉集( c l o s e d - s e t ) 的說話人辨認(rèn)兩種情況。如果所需識別的說話人都在預(yù)先登記的說話人集臺巾,則稱為面向 閉集的說話人辨認(rèn),但如果所需辨認(rèn)的說話人有可能不屬于預(yù)先登記的說話人集合,則稱為 面向開集的說話人辨認(rèn)。一般來說,面向開集的說話人辨認(rèn)問題難度更大些。對于面向閉集 的說話人辨認(rèn)而言,通過輸入語音與各說話人語音模型之間的一一匹配,依據(jù)最佳匹配準(zhǔn)則 來決策,辨認(rèn)結(jié)果是具有最佳匹配值的語音模型所對應(yīng)的說話人,而不管這個所謂的最佳匹 配值具體多少。然而,在面向開集的說話人辨認(rèn)中,必須預(yù)先設(shè)置一個閩值,如果最佳匹配 值超過這一閩值,則進(jìn)行決策辨認(rèn),反之,則認(rèn)為說話人為未登記的未知說話人而加以拒絕。 因此,說話人確認(rèn)實(shí)際二是面向開集的說話人辨認(rèn)的一個特例,只是預(yù)先登記的說話人集合 中只有一個說話人。 1 1 2 基于文本和文本無關(guān)的說話人識別 說話人識別根據(jù)對輸入語音的要求可以分為基于文本( t e x t d e p e n d e n t ) 的說話人識別和文 本無關(guān)( t e x t i n d e p e n d e n t ) 的說話人識別兩大類。對于基于文本的說話人識別來說,識別時輸 入語音所對應(yīng)的文本預(yù)先是知道的。而對于文本無關(guān)的說話人識別而言,輸入語音文本可以 是任意的。顯然,后一種情況的難度要大些,說話人模型必須能夠反映說話人的聲道和發(fā)音 特征,而不僅僅是發(fā)某個特定語音的特征。 一般,基于文本的說話人識別性能較高,因?yàn)樵谡Z音匹配時不僅可以利用語音特征,還 可以利用語義特征。因此,語音識別機(jī)制可以被用來判別說話人所說的語音與所提示的是否 一致,實(shí)現(xiàn)語音確認(rèn),并可以與說話人確認(rèn)綜合運(yùn)用【8 。對于說話人確認(rèn)系統(tǒng)來說,輸入語 音可以是固定的,也可以是變化的,系統(tǒng)可以在不同的時候采用不同的文本,并提示用戶按 e 上海大學(xué)博士學(xué)位論文基于互信息理論的說話人識男0 研究 新的文本輸入語音。例如系統(tǒng)可以隨機(jī)地從一個設(shè)計好的文本數(shù)據(jù)庫中選擇一個文本作提 示。文本數(shù)據(jù)庫可以選擇由一些單詞或語句段構(gòu)成也可以采用更靈活的方式,即在識別時 根據(jù)一些基本單元( 如單字) 隨機(jī)組合一個單詞或語句段。這樣的方式稱作文本提示 ( t e x t p r o m p t e d ) 說話人確認(rèn),其好處是任何人無法在事先知道系統(tǒng)所提示的文本,也無法通 過回放事先錄音的方式來仿冒真正的說話人,并且,由于系統(tǒng)要求用戶在提示后很短的時間 內(nèi)輸入語音,仿冒者也無法通過軟件合成語音等手段進(jìn)行詐騙。 1 1 3 說話人識別的其它方式 上面的內(nèi)容是從自動說話人識別的觀點(diǎn)而言的。從一個更廣義的角度來看說話人識別 的方式還有基于聽覺的說話人識別( a u d i t o r y ) 和介于聽覺與自動識別之間的半自動說話人識 別( s e m i a u t o m a t i c ) 。 ( 1 )基于聽覺的說話人識別 在我們的日常生活中每天都在運(yùn)用聽覺進(jìn)行說話人識別。當(dāng)我們聽到熟悉的人的聲音時, 能夠很容易地識別他們的聲音。另外,即便沒有事先足夠的“語音訓(xùn)練”,我們?nèi)匀荒軌驈?聲音上大體估計出說話人的一些特征,如年齡、性別等。 在司法鑒定中,如果有人在犯罪嫌疑人作案期間聽到過他( 她) 的聲音那么,說話人 識別將非常有用。但是,由于各人的聽覺特性有差別,因此,不同的人進(jìn)行說話人識別的能 力是很不一樣的【4 ,9 】。另外,隨著先后兩次聽音時間間隔的增加,人類的識別能力將下降 1 0 。 有若干種方法可以對人類和機(jī)器的說話人識別性能進(jìn)行比較分析 9 ,11 ,1 2 。c r y s t a l 和 s c h m i d t n i e l s e n 曾經(jīng)做過一個大數(shù)據(jù)量的比較,對6 5 個聽眾組進(jìn)行了共5 0 0 0 0 次聽覺測試,每 一個聽眾組包含8 個人,實(shí)驗(yàn)的結(jié)果與一個計算機(jī)識別系統(tǒng)的識別結(jié)果進(jìn)行了比較。實(shí)驗(yàn)發(fā)現(xiàn), 不同人的說話人識別能力是有很大區(qū)別的,并且,不同的人所使用的判決閩值是不一樣的, 也就是說錯誤接受率( f a :f a l s ea c c e p t a n c e ) 和錯誤拒絕率( f r :f a l s er e j e c t i o n ) 完全是因人 而異的。關(guān)于識別能力的比較方面,s c h m i d t - n i e l s e n 和c r y s t a l 發(fā)現(xiàn)在純凈環(huán)境下,人類和 機(jī)器的說話人識別能力是相差無幾的,但在有背景噪聲、線路擾動和多人說話等噪聲環(huán)境下, 人類的識別能力要好些。 s c h m i d t n i e l s e n 和c r y s t a l 兩人的研究結(jié)果發(fā)表在n i s t 的1 9 9 8 年說話人識別系統(tǒng)評估 報告中 1 3 。但是,由于近年來機(jī)器說話人識別技術(shù)的迅速發(fā)展,他們的結(jié)論也許已經(jīng)過時了, 一些新的、更加有效的技術(shù)的出現(xiàn)使得很多研究人員對自動說話人識別投入了大量的熱情 6 上海大學(xué)博士學(xué)位論文 基于互信息理論的說話人識別研究 1 4 ,1 5 ,1 6 ,1 7 。最新的說話人識別系統(tǒng)已經(jīng)同時使用低級和高級的說話人特征信息 1 6 ,1 7 ,運(yùn) 用了韻律統(tǒng)計特性、n - g r a m s 、發(fā)音模型、多分辨率分析等進(jìn)行識別處理,因此,與以前的說 話人識別系統(tǒng)相比,識別性能有了很大的提高。 說話人模型與訓(xùn)練:碼本模型c b m ,高斯混合模型g m m 模式匹配算法:矢量量化v q ,最大似然算法 判決準(zhǔn)則:說話人辨認(rèn)與確認(rèn)的不同判決方法,歸一化的重要性 典型的自動說話人識別系統(tǒng)結(jié)構(gòu)如圖2 1 所示。不管是辨認(rèn)系統(tǒng)還是確認(rèn)系統(tǒng),其工作狀 態(tài)都是兩種,即訓(xùn)練狀態(tài)和識別狀態(tài)。在訓(xùn)練狀態(tài)下,已知說話人的語音信號經(jīng)過預(yù)處理后 提取特征,并登記到說話人數(shù)據(jù)庫。而在識別狀態(tài)下,一個未知身份的說話人輸入語音到系 統(tǒng),并有系統(tǒng)判別說話人的身份。 輸入語音 一 身份聲 ( 確認(rèn) 識別結(jié)果 圖2 1 說話人識別系統(tǒng)結(jié)構(gòu)框圖 系統(tǒng)的訓(xùn)練和識別狀態(tài)都包括語音信號特征參數(shù)提取等處理,通常叫做系統(tǒng)前端預(yù)處理。 特征提取將原始語音信號變換為特征矢量序列。特征矢量與原始語音信號相比,在表達(dá)語音 特征上更加穩(wěn)定、魯棒性強(qiáng)、描述更緊湊。在說話人識別中,特征提取可以被看作是一種數(shù) 據(jù)壓縮處理過程,原始數(shù)據(jù)被壓縮成一些反映信號基本特征的數(shù)據(jù)。 訓(xùn)練的目的是根據(jù)特征提取部分得到的特征矢量建立說話人模型 6 7 。說話人模型在總體 上海大學(xué)博士學(xué)位論文 基于互信息理論的說話人識別研究 上描述了說話人的語音特征,雖然這樣的描述僅僅是通過訓(xùn)練數(shù)據(jù)得到的,但一般認(rèn)為一個 未知的說話人語音能夠通過與這個模型的匹配被正確分類。在識別狀態(tài)下,未知說話人的輸 入語音信號經(jīng)過特征提取被送到模式匹配模塊,該模塊采用一個或多個算法計算輸入特征矢 量序列與每個說話人模型之間的匹配值。識別模式的最后一個模塊是決策模塊,該模塊的輸 入是模式匹配值,輸出則是說話人的身份,甚至還可能有一個置信度值 6 8 ,6 9 1 。決策的方式取 決于具體的識別任務(wù)。說話人確認(rèn)的決策是一個二值決策,或者接受,或者拒絕。另一方面, 說話人辨認(rèn)則有兩種可能性。對于面向閉集的辨認(rèn),決筻的結(jié)果是具有最佳匹配值的說話人 模型所對應(yīng)的說話人。對于面向開集的辨認(rèn),還需要一個附加的決策,即判斷說話人是否為 數(shù)據(jù)庫中已登記的說話人。 2 1 特征提取 特征提取是種將高階矢量變換為低階矢量的處理,即是一種映射f :r “一 r 。,這里, d n 。特征提取的意義主要有兩個方面。第一,能夠根據(jù)較少的訓(xùn)練樣本數(shù)據(jù)量建立可靠 并具有魯棒性的說話人模型。模型訓(xùn)練數(shù)據(jù)量一般以指數(shù)級正比于特征矢量的維數(shù),如果數(shù) 據(jù)量太大會引起所謂的維數(shù)災(zāi)難問題 7 0 ,7 1 。第二個原因就是減少了運(yùn)算復(fù)雜度。 對說話人識別來說,好的特征參數(shù)必須具有以下特點(diǎn):( 1 ) 類間耦合度?。? 2 ) 類內(nèi) 凝聚度大;( 3 ) 容易計算i( 4 ) 對賽4 意掩飾和假冒具有魯棒性;( 5 ) 對失真與噪聲具有魯 棒性;( 6 ) 與其它特征非相關(guān)。前面兩個特點(diǎn)要求特征具有最大的可分性,圖2 2 是一個二維 特征集的例子。顯然,第二組特征集比第一組的可分性要強(qiáng)很多。即便在第組特征中,依 據(jù)特征2 也可以很好地將說話人3 和其他說話人加以區(qū)分。 特 征 n 特征1 圖2 2 兩個特征矢量集 1 6 特征1 囂遂器盟 上海大學(xué)l ! 士學(xué)位論文基于互信息理論的說話人識別研究 特征參數(shù)必須是便于提取和測量的,這包括兩層含義:( 1 ) 特征應(yīng)該是普遍和自然地存 在于語音信號中,這樣就可以利用較短的信號樣本提取特征參數(shù):( 2 ) 特征提取的方法本身 應(yīng)該簡單可行。 一個好的特征應(yīng)該對刻意的發(fā)音掩飾、失真和噪聲有抵御能力。另外,從語音信號提取 的不同特征參數(shù)之間應(yīng)該具有很強(qiáng)的獨(dú)立性。如果將兩個相關(guān)的特征組合起來構(gòu)成新的特征 矢量,那么,不僅沒有好處。反而會降低識別性能。 但是,迄今為止還沒有一種參數(shù)能夠滿足以上所有要求,并且也缺乏一種很好的客觀評 價方法。相對而言,由于m f c c 考慮了人類的聽覺感知特性,實(shí)驗(yàn)結(jié)果顯示具有較好的分類性 能和魯棒性【3 3 ,7 2 。 在自動說話人識別中或語音處理中經(jīng)常被采用的特征參數(shù),如線性預(yù)測系數(shù)l p c ( l i n e a r p r e d i c t i o nc o e f f i c i e n t s ) 、線性預(yù)測倒譜系數(shù)l p c c ( l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t s ) 、 m e i 頻率尺度倒譜系數(shù)m f c c ( m e l - f r e q u e n c yc e p s t r u mc o e f f i c i e n t ) 、線譜對參數(shù)l s p ( l i n e a r s p e c t r u mp a i r ) 各分量之間具有很強(qiáng)的非相關(guān)性。有一些特征變換方法可以將原始特征變換到 一個新的特征空間,在這個新的子空間中,特征參數(shù)之間的相關(guān)性變小,可分性更強(qiáng)。例如。 線性判別分析l d a ( l i n e a r d i s c r i m i n a n t a n a n l y s i s ) 7 3 ,7 4 ,k l t ( k a r h u n e n - l o e v e ) 變換【7 3 】 獨(dú)立成分分析i c a ( i n d e p e n d e n t c o m p o n e n t a n a l y s i s ) 【7 5 。 特征提取和特征選擇是兩個不同的概念。在特征提取中,新的特征是所有原有特征的函 數(shù)。相反,對于特征選擇來說,是從既有特征集合中選擇一個子集這個子集具有較好的模 式分類特性1 7 6 。 2 1 1 線性預(yù)測系數(shù)l p c 語音信號線性預(yù)測編碼l p c ( l i n e a rp r e d i c t i o nc o d i n g ) 分析方法運(yùn)用全極點(diǎn)自回歸a r ( a u t o r e g r e s s i v e ) 模型對語音短時幀進(jìn)行擬合,并在最小頻譜均方誤差l s e ( l e a s ts q u a r e e r r o r ) 準(zhǔn)則下進(jìn)行最優(yōu)化。全極點(diǎn)自回歸a r 模型如下: ( z ) : ( 2 1 ) l 一吼z “ 模型系數(shù)口i = 1 p 稱為線性預(yù)測系數(shù)。如果語音信號的頻譜為s ( e ”) ,聲源信號的頻 譜為e ( e ”) ,則有關(guān)系如下 1 7 上海大學(xué)博士學(xué)位論文 基于互信息理論的說話人識別研究 s ( e ”) = h ( e ”) e ( e ”)( 2 2 ) l t ( e 9 ) 反映語音頻譜的包絡(luò),也是語音發(fā)音時的聲道頻譜特性,而e ( e “) 反映頻譜的細(xì)節(jié)。 最優(yōu)化預(yù)測系數(shù)可以通過d u r b m 疊代算法計算,具體步驟如下: e o = ,( 0 ) 。= ,( i ) 一 ,t _ l r ( f 一,j ) e 1 ,1 i s p a k 。( 2 3 ) 口j = 口;一一t 。a 曷,= 1 i - 1 e = ( 1 一t ? ) 三。 以上各步計算進(jìn)行i = 1 p 疊代處理,并在疊代結(jié)束后得到如下最優(yōu)預(yù)測系數(shù)阻及其它相關(guān)參 數(shù): 線性預(yù)測系數(shù): 口,= 口:,1 m p p a r c o r 系數(shù): 壺。,1 卅p ( 2 4 ) 對數(shù)面積比系數(shù): g 。- l 。g ( 鼉寥l m p 2 1 2 線性預(yù)測倒譜系數(shù)l p c c 所謂倒譜是語音信號幅度譜對數(shù)的f o u r i e r 變換,其特點(diǎn)是可以從語音信號頻譜中較好地提 取譜包絡(luò),即可以更好地提取語音信號發(fā)音時的聲道特性。其定義如下: 1 0 9 | s 和”) l o g l h ( e 9 ) i + l o g i e ( e ”) i ( 2 5 ) c ( j 扣去愀礦幽 ( 2 6 ) f = l = | 于h ( e 一。) 反映譜包絡(luò),而e ( e 一) 反映譜的細(xì)節(jié),因此,上式的低次系數(shù)對應(yīng)譜包絡(luò)。n j 以 利用l p c 系數(shù)直接推算l p c c 系數(shù),具體公式如下: c ( 0 ) = l o g g 口。+ 篁( 主) c ( i ) 。1 如p = l ,i 乞1 ( 一k ) f ( 女知“n ,p b 1h ( 2 7 1 許多語音識別和說話人識別實(shí)驗(yàn)表明,采用l p c c 作為特征參數(shù) l l p c 系數(shù)更加有效,訌l 別性能有很火的提高。 上海大學(xué)博士學(xué)位論文 基于互信息理論的說話人識別研究 2 1 3m e l 頻率尺度倒譜系數(shù)m f c c 從人的聽覺感知特性來看,線性頻率尺度與實(shí)際的聽覺感知靈敏特性并不一致,比較合 理的是m e l 頻率尺度,其與線性頻率的關(guān)系式如下: , m e l ( ,) = 2 5 9 5 1 0 9 l 。( 1 + 南 ( 2 8 ) 顯然,人類的聽覺具有很強(qiáng)的語音分辨能力,并且對噪聲的魯棒性極強(qiáng)。因此,計算基于聽 覺特性的m e l 倒譜系數(shù)m f c c 具有很重要的意義。 通過m e l 頻率與線性頻率的比較,可以得出m e l 倒譜系數(shù)m f c c ,其計算步驟如下: ( 1 ) 在m e l 頻率分布范圍【o ,m e t ( f 。2 ) 等間隔地選取l 個中心頻率正( f ) i = 1 ,并以這 些中心頻率構(gòu)成一個三角濾波器組,如圖2 22 所示。 0 i 一1 ) f ; m f :似i ) 潤 f , i r i i j r i t t i i f m f i ,“+ i i + i 圖2 2m e l 頻率域的等間隔分布三角濾波器組 其中,正是采樣頻率,工( f ) 表示第i 個濾波器的中心頻率t 兀( f ) 表示第i 個濾波器的低頻邊界 巾) 表示第i 個濾波器的高頻邊界。相鄰濾波器的中心頻率與邊界之間存在如下關(guān)系: 腫,= 等半, 工( f ) = f , o ( f + 1 ) = 厶( i 1 )( 2 9 ) f , o ( 1 ) = o ( l ) = m e l ( f ,2 ) ( 2 )求語音信號的離散傅立葉變換5 ( t )k = 0 一n 2 1 ,并將其映射至n j m e l 頻率域,得到 一個如下所示的m e l 頻率的d f t 序列: f ( ) = f ( m e l ( f 等) ) = s ( t ) = 1 2 1 ( 2 1 0 ) ( 3 ) 計算m e l 頻率域各濾波器的輸出值,計算公式如下: 1 9 上海大學(xué)博士學(xué)位論文 基于互信息理論的說話人識別研究 m ( i ) = w ( k ,i ) ls ( ) i i = 1 上 w ( k ,f ) = 一凡( f ) t 一九( i ) ,( i ) 一 ,( i ) 一工( i ) fr o ( i ) s ! 正( i ) 正( i ) s ! ( i ) ( 2 1 1 ) 即第i 個濾波器的輸出是其通帶內(nèi)所有d f t 的和。 ( 4 )對m ( f ) 進(jìn)一步求離散余弦變換d c t ( d i s c r e t ec o s i n et r a n s f o r m ) 得蓼j m f c c 系數(shù)。計 算公式如下: c 帆( 加括砉1 0 9 州) c o s 【( f _ _ ) 1t n t - ( 2 1 2 ) c 帆( ”) 2 j 專著1 。g “( f ) c 。8 陋i t ( 2 1 2 ) 通過將m e l 頻率域的三角濾波器組映射到線性頻率域同樣也可以求m f c c 。顯然,n 的值可 以大于l ,但在實(shí)際應(yīng)用中一般取小于l 的值,這是因?yàn)榈皖l部分表示聲道頻譜包絡(luò),而倒譜 計算的目的就是要求聲道的頻譜包絡(luò)。 2 2 說話人模型與匹配 說話人模型主要有參數(shù)( 統(tǒng)計) 型模型和非參數(shù)( 模扳) 模型兩大類 4 】。在參數(shù)模型中, 通過訓(xùn)練數(shù)據(jù)得到相應(yīng)的統(tǒng)計分布,而該統(tǒng)計分布的參數(shù)是基于某種最大化準(zhǔn)則估計計算得 到,如高斯混合模型g m m ( g a u s s i a nm i x t u r em o d e l ) 5 9 。非參數(shù)模型則是基于最小化準(zhǔn)則 獲得,如基于矢量量化v q ( v e c t o rq u a n t i z a t i o n ) 的碼本模型c b m ( c o d e b o o km o d e l ) 7 7 。 模式匹配部分的功能是計算未知說話人的輸入語音特征矢量和每個模型之間距離或似然 度。參數(shù)模型一般通過計算后驗(yàn)概率表示似然度,而非參數(shù)模型則往往直接計算距離。圖2 3 描述了對同一組數(shù)據(jù)以兩種不同的模型尺寸參數(shù)訓(xùn)練得到的c b m f a g m m 說話人模型。 2 2 1 基于v q 的碼本模型c b m 在c b m 碼本模型設(shè)計方法中,首先采n l b g 等聚類算法 7 8 1 對原始訓(xùn)練樣本的特征矢量進(jìn) 行聚類,形成k 個互不相干的集群。每個集群由一個中心特征矢量表示,該中心特征矢量是對 應(yīng)集群所有特征矢量的平均值,稱為碼字,所有的碼字集合 c 。,c :,c 。 構(gòu)成說話人碼本 模型。與訓(xùn)練樣本集中特征矢量數(shù)目相比,碼本的大小( 碼字?jǐn)?shù)日) 要小得多。顯然,碼字 的統(tǒng)計分布與原始訓(xùn)練樣本特征矢量的分布是一樣的 7 9 】。因此,在保持原有分布基本信息、的 基礎(chǔ)上,碼本大大減少了所需要處理的數(shù)據(jù)量。 2 0 上魁大學(xué)蹲士學(xué)位論文基于互信息理論的說話人識別研究 特 征 時 特 征 n c b m 模型訓(xùn)練 m s e = o 0 0 3 i 孔: 警j 潞罐 港:0 j 漕。 i 舞蠹;赫參 ( 1 s 個碼字)特征1 特 征 n 特 征 陽 g m m 模型訓(xùn)練 ( 5 個混合分離)特征1 圖2 3 說話人識別的c b m 與g m m 模型詡練示例 碼本模型設(shè)計涉及兩個基本問題:( 1 ) 生成碼本的方法:( 2 ) 碼本的大小。關(guān)于碼本 大小的問題,一般認(rèn)為增加碼本尺寸可以減少誤識率 6 0 ,7 7 ,8 0 1 。但是,如果碼本尺寸太大, m 會產(chǎn)生過學(xué)習(xí)問題,即碼本過多地依懶于訓(xùn)練樣本數(shù)據(jù),而不能反映數(shù)據(jù)的一般統(tǒng)計分布, 并且,碼字之間的相關(guān)性增強(qiáng)。 碼本生成方法有兩大類。即無監(jiān)督學(xué)習(xí)算法與監(jiān)督學(xué)習(xí)算法。在無監(jiān)督學(xué)習(xí)算法中,每 一個說話人模型的訓(xùn)練是相互獨(dú)立的,而在有監(jiān)督學(xué)習(xí)訓(xùn)練算法中,考慮了碼本之間的相關(guān) 性,并使這種相關(guān)性最小化。通常會采用無監(jiān)督學(xué)習(xí)i l 練模型因?yàn)樾枰藶楦深A(yù)的內(nèi)容較 少。h e l i u 【8 0 提出了一種監(jiān)督學(xué)習(xí)算法群矢量量化的方法g v q ( g r o u p v e c t o r q u a n t i z a t i o n ) 。這一算法的思路是首先獨(dú)立地訓(xùn)練每一個模型,隨后對它們進(jìn)行優(yōu)化,使相 互之間的差異增強(qiáng)。無監(jiān)督學(xué)習(xí)訓(xùn)練算法中最流行的是l b g ( l i n d e b u z o - g r a y ) 算法【7 8 。 該算法需要預(yù)先設(shè)置碼本的大d , k ,然后從原始訓(xùn)練樣本數(shù)據(jù)中選擇k 個矢量作為初始值,不 斷地疊代優(yōu)化直到碼本中各碼字保持不變。 k i n n u n e n ,等對矢量量化的碼本設(shè)計方法進(jìn)行了分析【8 l 】,發(fā)現(xiàn)不同的算法對識別性能的影 響并不大。一個解釋是,從相互交叉的語音信號幀中提取的特征矢量也許并不存在聚類結(jié)構(gòu), 2 l 上海大學(xué)博士學(xué)位論文 基于互信息理論的說話人識別研究 但存在一個連續(xù)的統(tǒng)計分布【8 2 。所以,碼本的訓(xùn)練更象是從原始樣本數(shù)據(jù)中進(jìn)行的取樣,而 不是去找到一個聚類結(jié)構(gòu)。所以,具體的聚類算法的選擇不是至關(guān)重要的。 基于v q 碼本模型c b m 的說話人識別中,模式匹配的一個典型描述是兩個矢量集合 x = x ,x :,j , ,c = g ,c :,“ 之間的量化失真。說話人語音的一個特征矢量x 與碼本c = c ,c 2 ,c 。 之間的量化失真o ( x 。;c ) 定義如下: d ( x i ;c ) 2 啦o ( x f ;c ,) ( 2 1 3 ) 這里,d ( x ,;c j ) 表示輸入語音信號的特征矢量x 。與碼字c ,之間的失真度,量化失真 d ( x ,;c ) 取其所有d ( x i ;c j ) , v j 中的最小值。通常采用e c u l i d e m 距離表示,不僅因?yàn)槠?距離空間的直觀性,而且對于倒譜系數(shù)l p c c 作為特征參數(shù)的情況,e c u l i d e a n 距離反映了語音 信號短時功率譜的差,能夠很好地表達(dá)頻譜失真度。其它的失真測度,例如,i t a k u m 和 m a h a l a n o b i s 距離測度 7 4 1 作者提出的互信息測度 8 3 1 等也是可以應(yīng)用的失真測度。 輸入語音信號特征矢量序列與c b m 模型之間的總體失真由平均量化失真測度表示,其定 義如下: d ( x ;c ) :占圭d ( 墨;c ) ( 2 1 4 ) 顯然如果x c ,則d ( x ;c ) = 0 。兩者匹配得越好,相應(yīng)的平均量化失真度越小。平均量 化失真的計算如圖2 4 所示,可以看出這一測度不是對稱的即d ( x ;c ) d ( c :x ) 。另外, 以上測度計算中有關(guān)t 的除法可以忽略,因?yàn)樵诰唧w判決中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論