已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀
【畢業(yè)學位論文】說話人辨認及其魯棒性問題的研究-計算機科學與技術系.pdf 免費下載
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
說話人辨認及其魯棒性問題的研究鮑煥軍摘要 摘 要 為了提高開集文本無關的說話人辨認系統的識別性能,本論文主要完成了如下幾方面的工作: 1采用支持向量機( 成說話人辨認任務。傳統的高斯混合模型采用對幀向量進行模式匹 配計算似然分,容易受噪音和信道影響。而采用高斯超向量(作為輸入特征的 時,高斯超向量是從高斯混合模型- 通用背景模型中的說話人模型構建產生,因此基于高斯超向量的 當于一個二次識別的過程。話人辨認系統在高斯混合模型- 通用背景模型的基礎上,等錯誤率相對降低了 2將冗余屬性投影(引入到 話人辨認系統中,進一步提高說話人辨認系統在跨信道識別任務中的魯棒性。冗余屬性投影通過估計并消除說話人特征中的信道信息,增加說話人特征在各信道上的代表性,擴大說話人特征之間的距離,從而提高說話人辨認系統的性能。本文對投影矩陣的維數、能量與算法性能的關系進行研究并總結出初步規(guī)律。在 統中加入冗余屬性投影算法之后系統等錯誤率從 降到 相對下降 分數域上的線性融合系統在 統和 統的基礎上,等錯誤率分別相對降低 達到 3提出情感屬性投影(用于提高說話人辨認系統在情感語音上的魯棒性。不同的情感狀態(tài),會造成不同程度的聲道變化,同時也會影響說話人的語速、節(jié)奏、音調等,這些因素是造成說話人辨認系統性能下降的重要因素之一。通過借鑒冗余屬性投影的思想,提出了情感屬性投影算法,估計并消除帶情感語音的特征中的情感因素,從而達到減輕情感因素對說話人辨認系統性能影響的效果。加入情感屬性投影算法之后,帶情感語音的說話人辨認系統的等錯誤率從 降到 相對降低了 關鍵詞:說話人辨認 支持向量機 融合 冗余屬性投影 情感屬性投影 I on of in 1 is in of to in is by VM as is be as a is VM an 2 is to in in in s of s of of be an is on of of of AP AP ER be a a is on of ER be a ER 3is pr to of on as as of so AP is to so as to of ER be a AP is to on 錄 目錄 第 1 章 引言 .話人識別及其魯棒性問題概述 . 說話人識別概述 . 魯棒性問題綜述 .話人識別的性能評價 .有研究方法綜述 . 說話人識別中的特征 . 說話人識別中的模型 . 說話人識別中的魯棒性算法 .文的組織結構 . 2 章 基于支持向量機(說話人辨認 .基于高斯混合模型- 通用背景模型(的說話人辨認 . . 支持向量機的基本原理 . 高斯混合模型超向量 . 線性.說話人辨認中的性能比較 . . 實驗設計 . 系統描述 . 實驗數據 . 實驗結果及分析 .說話人辨認系統的融合研究 . 實驗設計 . 系統描述和實驗數據 . 實驗結果及分析 . 目錄 第 3 章 特征級與模型級的信道魯棒性算法 .已有信道魯棒性算法綜述 . 倒譜均值減 . 倒譜方差歸一 . 特征彎折 . 相對譜 . 說話人模型合成 . 特征映射 . 其他信道魯棒算法 .冗余屬性投影(簡介 . . .的比較 .投影維數與能量對能影響的研究 . 實驗設計 . 系統描述 . 實驗數據 . 實驗結果及分析 . 4 章 情感語音的說話人辨認 .語音中的情感對說話人辨認性能影響的分析 .用于消除情感因子的情感屬性投影(. . . .帶情感語音的說話人辨認實驗 . 實驗設計 . 系統描述 . 實驗數據 . 結果及分析 . 分析及結論 .I 目錄 第 5 章 總結和展望 .考文獻 .謝與聲明 .人簡歷、在學期間發(fā)表的學術論文與研究成果 .錄 1 章 引言 第 1 章 引言 說話人識別(是計算機利用語音波形中所包含的反映特定說話人生理和行為特征的語音特征參數來自動識別說話人身份的技術。其基本原理是:根據人的發(fā)聲和聽覺特性建立數學模型,并為每個說話人根據訓練語音學習一組模型參數;對于每個輸入的測試語音,由計算機將它和已訓練的模型進行精確匹配,根據匹配結果辨認出說話人是誰。說話人識別技術屬于生物識別技術的一種,它利用語音信號中的說話人信息,強調說話人的個性,利用個性構造模型。說話人識別技術已經經歷了很長一段發(fā)展時期,而且在當今社會中日趨凸顯它的重要性。 話人識別及其魯棒性問題概述 在當今高速發(fā)展的信息社會中,人類的物理和虛擬活動空間在不斷擴大。隨之帶來的社會信息安全問題也在不斷增多,其中的一個迫切問題就在于如何準確鑒定一個人的身份。由于目前廣為使用的身份證、密碼等傳統身份認證方法存在著易丟失、易受攻擊和失密等問題,生物特征識別已經逐漸成為身份認證識別的熱點研究問題。 生物特征識別技術,就是通過計算機與各種傳感器和生物統計學原理等高科技手段密切結合,利用人體固有的生理特性和行為特征,來進行個人身份的鑒定。目前主要采用的生物特征包括:指紋、虹膜、人臉、手形、聲紋(說話人識別)等。由于生物特征具有唯一性、穩(wěn)定性以及與生俱來、隨身攜帶和終生不變的特點,因此具有廣闊的應用領域。 與其它生物特征相比,說話人識別還具有如下特點: z 用戶接受程度高。與其它生物特征相比,涉及隱私的程度相對較低。 z 方便、經濟,需要使用的設備成本低??梢越⒃诂F有的電話線路基礎上。 z 適合遠程身份確認。 z 算法復雜度低、易擴展??梢约尤胝Z音識別的技術,進一步提高準確率。 因此,說話人識別有廣闊的應用前景??梢詫⒄f話人識別技術廣泛應用于國防、公安和軍隊的偵聽和刑事偵察,金融、債券和網絡的登陸和認證,以及1 第 1 章 引言 民用的特性化服務等。例如,由 研制出的智慧卡(,已經應用于自動提款機上。歐洲電信聯盟的 劃和 劃,在電信網上完成了說話人識別。其他一些商用系統還包括:司的 司的 司的 。此外,國內許多高科技公司也正在進行說話人識別方面的應用產品的開發(fā)。 說話人識別技術具有其獨特的優(yōu)勢,應用范圍遍及軍隊與國防、公安與司法、銀行與金融以及特性化服務等領域,因此,說話人識別技術的研究,具有重要的實際意義。 說話人識別概述 說話人識別技術是利用語音段中包含的說話人的特定生理和行為的特征參數來自動識別說話人的技術。與傳統的語音識別一樣,說話人識別技術通過抽取語音中的特征參數,根據特征參數建立相對應的數學模型,然后根據模型來區(qū)分目標說話人和假冒者。說話人識別和語音識別的區(qū)別在于,說話人識別關注不是語音段中的語義內容,而是語音段中隱含的說話人生理特征。說話人識別尋找說話人的個性特征,強調不同說話人之間的差異,而語音識別尋找的是語音中的共性特征,強調不同說話人說同一句話的共通點。 按不同的角度,說話人識別有多種不同的分類方法。 (1)說話人辨認和說話人確認。 按照可決策數量的不同,說話人識別(可以分為說話人確認(和說話人辨認(兩種。前者是對待識別語音判斷為若干個參考說話人中哪一個所說的,是一個“多選一”的問題,可作出的決策數量等同于待評價的參考說話人數量;后者是對待識別語音,判斷是否是給定說話人所說的,是一個“二選一”的問題,可作出的決策只有“是”或“否”兩種。 (2)多說話人和單說話人。 按照語音段中含有的說話人的個數,可以分為單說話人識別(多說話人識別(。單說話人識別指的是訓練語音和測試語音中均只包含一個說話人,而多說話人識別任務中,訓練2 第 1 章 引言 語音或測試語音含有多個說話人。多說話人識別任務經過語音段的分割和聚類,可以轉化為單說話人識別。多說話人識別在說話人檢測和跟蹤中有很大的應用。 (3)文本相關和文本無關。 按照訓練語音和測試語音的文本相關程度,可以分為文本相關(說話人識別和文本無關(的說話人識別?!拔谋鞠嚓P”的說話人識別要求說話人按照規(guī)定的內容發(fā)音, “文本無關”的說話人識別則不需要知道先前的說話內容。前者可以利用說話內容的音節(jié)和因素,結合語音識別的技術可以提高識別性能,但是在很多實際應用中無法使用特定的文本。因此文本無關的說話人識別是當今研究的主流方向。 (4)開集和閉集。 從系統的角度來看,說話人識別還可以劃分為開集(和閉集(說話人識別。閉集系統指目標說話人先驗地包含在待評價的說話人集合中,而開集系統僅表示目標說話人存在于待評價的說話人集合中的可能性。相對于閉集系統,開集系統需要作出目標說話人是否屬于待評價的說話人結合中的判斷。因此,開集系統的難度要大于閉集系統,而在實際應用中,往往不知道目標說話人是否存在于待評價說話人集合中,所以開集說話人識別是實際應用中必須解決的問題。 在本論文中,主要研究文本無關的開集單說話人辨認技術。 魯棒性問題綜述 說話人辨認系統在實際應用中需要解決的一個關鍵問題是模型訓練和應用環(huán)境的不匹配。在目前的使用環(huán)境下,造成這種不匹配主要有三種因素:背景噪音、傳輸信道和說話人的情感。 (1) 背景噪音。 背景噪音通過疊加在說話人語音信號上,使得特征矢量序列產生偏移,從而造成識別結果產生偏差。通常在實驗中遇到的背景噪音大致可以分為四類:音、音、音,音。這些噪音通過對語音的影響可以映射到信號、特征、模型三個空間。目前在信號特征級的噪音魯棒算法是通過估計并消除語音中的噪音,或靠加強動態(tài)成分的變化量來增強語音信息;在模型級的噪音魯棒算法主要利用對語音和噪音的統計知識,對語音模型進行補償,來提高系統的識別性能。 3 第 1 章 引言 (2) 傳輸信道。 采集和傳輸的設備差異,對說話人語音會產生加性、卷積或者其他更為復雜的影響,從而影響說話人語音的頻帶、采樣、編碼。這種差異造成的影響就稱為信道影響。訓練語音和測試語音之間、訓練語音之間、測試語音之間信道的不匹配,是造成說話人辨認性能下降的重要因素之一。解決說話人識別領域的信道影響,是當前比較迫切的一個研究任務。一般來說,信道差異主要體現在以下幾個方面: z 麥克信道:克、會議麥克; z 移動電話信道:小靈通; z 固定電話信道:普通座機( 、無繩電話; z 其他各種錄音設備:錄音筆、錄音機等; 這些差異對說話人的語音造成不同的影響,這種影響可能是加性和卷積影響,也可能是更為復雜的其他作用,因此,只能近似地從物理上對信道影響進行數學建模。一方面近似的數學模擬不能很好的表達信道帶來的影響,另一方面由于實際應用中對信道魯棒的需要,因此信道魯棒是說話人辨認任務中經久不衰的研究課題。目前,主要從特征域、模型域和分數域三個方面提出了一些算法來減輕信道作用造成的識別系統性能的降低。 (3)說話人的情感。 在實際應用場景中,說話人的語音常常夾雜著高興、憤怒、悲傷、害怕等情感因素,而這些情感又會造成不同程度的聲道變化,并且在四種不同的情感狀態(tài)下,說話人的語速、音調、節(jié)奏也會發(fā)生明顯變化。說話人生理因素的這些變化,會對說話人語音造成卷積或者更為復雜的影線。目前情感方面的研究,特別是情感識別,已經逐步引起多家研究機構的重視, 但帶情感語音的說話人識別目前仍處于起步階段。 在本文中,主要針對傳輸信道和情感因素對說話人辨認系統造成的影響進行研究,并提出相應的算法來減輕這兩種因素造成的性能降低。 說話人識別的性能評價 說話人辨認系統的性能評價主要看兩個參數,一個是錯誤接受率( 也被稱為 ,表述將非目標說話人識別4 第 1 章 引言 成目標說話人造成的錯誤率,錯誤接受率越低,非目標說話人誤識成目標說話人的概率越低,系統性能越好;另一個是錯誤拒絕率( 被稱為 ,表述將目標說話人誤識成非目標說話人造成的錯誤率,錯誤拒絕率越低,說明將目標說話人識別成非目標說話人造成的損失越小,性能越好。兩者的定義如下: 目標說話人識別為非目標說話人的判決個數于目標說話人的判決總個數(1非目標說話人識別為目標說話人的判決個數于非目標說話人的判決總個數(1根據匹配得分和系統域值判決當前測試語音和模型的說話人是否匹配,因此錯誤拒絕率和錯誤接受率都受到域值的影響,而且存在著此消彼長的關系。域值越低,目標說話人被識別為非目標說話人的概率越小,錯誤拒絕率越小,非目標說話人識別為目標說話人的概率越大,錯誤接受率越高;域值越高,目標說話人被識別為非目標說話人的概率越大,錯誤拒絕率越高,非目標說話人識別為目標說話人的概率越低,錯誤接受率越小。因此, 是判決閾值的函數,這兩個函數在值域相交 的點稱為等錯誤率點(。一般采用檢測錯誤權衡曲線( 1來反映這兩個錯誤率之間的關系,曲線越接近原點,系統的識別性能越好。 在美國國家標準技術研究所( 24的評測中,還定義了 檢測代價函數( 作為系統性能的評價指標。在實際的應用中,不同的應用背景,錯誤接受和錯誤拒絕帶來的代價是不一樣的,因此,針對不同的應用背景,對 價) ,并用最小表示系統能夠取得的最優(yōu)性能。定義如下: ( )D C P=+ (1其中,5 第 1 章 引言 有研究方法綜述 最早根據說話人的聲音來破案可以追溯到 1660 年查理一世的案件審判,然而,作為聽覺以外的手段確定說話人身份的機器識別方法直到 1944 人提出。 1962 年, 驗室的 人提出了聲紋圖 (,論證了應用“聲紋”識別說話人身份的可能性。隨后最早的說話人識別系統在驗室誕生。 驗室的 同年年底采用模式匹配原則把三維語圖(時間- 頻率- 能量)應用于說話人識別研究,并在 1664 年和 出著名的 F 比值公式。在 人的努力下,說話人識別任務明確劃分為說話人確認和說話人辨認兩大任務。在隨后的四十年的研究進程中,逐漸提出線性預測倒譜系數(5、感知線性預測系數( 6、 率倒譜系數( 7,8等說話人識別特征參數和動態(tài)時間規(guī)整法( 9、矢量量化法(Q)10,11 、隱馬爾可夫模型(1214、高斯混合模型(15,16、人工神經網絡( 17,18、 支持向量機 (19等識別方法。近年由 國際中文語言資源聯盟(of 20舉行的評測為各個國家的研究機構提供的更大的學習和交流機會。 國內在說話人識別方面的研究有清華大學、北京大學、中科院聲學所和自動化所等數家研究機構,并且取得了不錯的進展。在 2006 年舉行的 話人識別評測中,國內就有四家研究機構報名參加。2006 舉辦的 話人識別評測中,單信道和跨信道的說話人識別分別達到了 1和 6以下的等錯誤率。 說話人識別中的特征 特征的選取和前端、后端處理,是說話人識別中的很重要的一環(huán)。理想情況下,特征的選擇應該能夠抑制 因素而突出 差異。因此,在理想情況下,說話人識別中提取的特征應該具有如下特點: z 能夠有效地區(qū)分不同的說話人,但又能在同一說話人的話音變化時保持相對穩(wěn)定。 6 第 1 章 引言 z 對同一說話人,對健康狀況、情緒和系統的傳輸特性不敏感。 z 易于從語音信號中提取。 z 不易被模仿。 同時滿足上述要求的特征通常不容易找到,因此說話人識別系統不得不退而求其次,利用物理上可以測量的參數來表征說話人,力求抑制 因素而突出 一段語音中包含很多層次的說話人相關信息,這些信息包括底層的生理決定的特征(聲道構造的個體差異) ,如基音和低頻共振峰;較高層的韻律、語速和語調等,以及更高層的發(fā)音方式、發(fā)音習慣等。目前常用的特征參數有根據語音信號的全極點模型得到的 據人耳對不同頻率的語音信號的敏感程度提取的 等。 據 研究表明21 ,在說話人識別任務中, 有更優(yōu)越的識別性能。 說話人識別中的模型 為了解決說話人識別任務,已經提出了多種識別方法。按照模型的表示和匹配的方法不同,大致可以分為非參數模型方法、參數模型方法、人工神經網絡方法和支持向量機等幾類。 (1)非參數模型方法。 非參數模型方法,又稱為模板匹配法22,23 。其基本原理是從訓練語音的特征參數中提取能夠代表說話人個性特征的特征參數作為模板。對于每一個測試語音,通過同樣的方法提取測試模板。通過匹配測試模板和特征模板之間的相似度,得出識別結果。 常用的非參數模型方法包括:動態(tài)時間規(guī)整法、最小近鄰法(24、矢量量化法。這些方法的一個缺點是對信號和背景噪音的變化特別敏感,而這兩種影響可以改變說話人的特征,導致模板的漂移。 (2)參數模型方法。 參數模型法,又稱概率模型法。與模板匹配法不同,參數模型方法通過對訓練語音訓練模型參數(轉移概率或者分布系數等) ,當訓練結束時保留這些參數。在測試階段,比較測試語音與模型參數之間的相似程度從而得出識別結果。這些特性保證了參數模型方法比非參數模型方法具有更大的靈活性和魯棒性。 概率模型方法主要有分段的高斯模型(25、高斯混合模型和隱馬爾可夫模型。在近幾年的說話人識別研究中,高斯混7 第 1 章 引言 合模型- 通用背景模型(說話人識別領域占據著統治地位26,27 。 (3)人工神經網絡方法。 人工神經網絡通過逐級判決的方法,試圖模仿人腦的信息處理機制,將大量結構非常簡單的計算單元相互連接起來,實現高度并行和分布的信息處理。由于現在對說話人識別中的特征信息提取沒有形成公認的準則,所以人工神經網絡具有一定的優(yōu)越性。目前用于說話人識別的人工神經網絡有:時延神經網絡( 28等。 (4)支持向量機。 早在上世紀六七十年代, 人就已經提出 思想,但直到九十年代中后期才發(fā)展成為一種比較成熟的模式識別算法。 2002 年由 驗室的 人將其引入到說話人識別領域并且取得了不錯的效果29,30 。支持向量機已初步表現出很多優(yōu)于以往方法的性能,在解決有限樣本、非線性及高維模式識別問題中表現出許多特有的性能。特別時近年來將高斯超向量( 31作為 特征輸入更是取得了不錯的效果,在跨信道方面的研究也取得很大的進展。 說話人識別中的魯棒性算法 為了提高識別性能,特征、模型、分數域的各種魯棒性算法也應運而生。 在特征級上,前端可以通過窗函數來減少由截斷處理導致的 應,同時利用高頻預加重來提升高頻信息 ;后端可以通過倒譜的差分( 自回歸(32 在靜態(tài)的倒譜中加入動態(tài)信息來強化相鄰幀的特征參數之間存在相關性。倒譜均值減(33和倒譜方差歸一化( 34通過減去整段語音信號的倒譜均值消除卷性信道影響;特征彎折( 35和特征高斯化( 36在特征中加入短時特征,來提高特征參數的魯棒性;相對譜( 37,38也被用來消除信道扭曲和加性噪音從而對特征的各維在統計特征上做歸一化處理。 在模型級上基于 行模型合成 ( 39,即將一個信道下的說話人模型變換為另一個信道下的說話人模型并進行測試語音的識別,從而減輕信道作用對模型的影響;特征映射(8 第 1 章 引言 40通過將不同信道下的特征映射到一個信道無關的特征空間來降低信道影響對特征的作用。 在分數級上利用 1、 2、 1、 0等對模型在各語音幀的打分做統計上的歸一化。目前也有采用底層特征,如 高層特征,諸如韻律統計( 43,相結合來減輕信道作用對識別結果的影響。 文的組織結構 近年來通過將 統引入到說話人辨認任務中,在很大程度上提高了機器自動識別的性能,也在多說話人、噪音魯棒、信道魯棒等方面提出了很多改進,但是在 2006 年的 測中發(fā)現,與國際上的頂尖研究機構還有很大差距。因此,本論文針對文本無關的信道魯棒的大規(guī)模開集單說話人辨認進行研究。 本論文針對 說話人識別系統中的應用、信道魯棒以及情感語音上的說話人辨認三個方面進行研究,以期提高說話 人辨認的性能。首先在 基礎上,采用 為特征輸入,引入 為新的說話人辨認系統。并將 傳統的 話人辨認系統進行比較并進行融合研究。第二,在 話人辨認系統中,引入信道魯棒的冗余屬性投影( 29,30來解決信道魯棒問題,并與信道子空間投影(也稱 44進行對比實驗,同時研究消去的特征維數和能量對 后,將 展為情感屬性投影(,引入到帶情感語音的說話人辨認中。 本論文的其它部分安排如下: 第 2 章中考慮到 統的局限性,將 模和識別方法引入到說話人辨認系統中來,提高在開集文本無關的單說話人辨認系統中的性能;將基于 析兩個系統的不同建模方式對識別性能的影響,從而提出在分數域進行融合的思想,提高系統的性能。 第 3 章在 話人辨認系統的基礎上,引入 法在特征級進行處9 第 1 章 引言
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年昆玉職業(yè)技術學院馬克思主義基本原理概論期末考試筆試真題匯編
- 2025年江蘇師范大學馬克思主義基本原理概論期末考試真題匯編
- 2024年曹妃甸職業(yè)技術學院馬克思主義基本原理概論期末考試真題匯編
- 小額貸款公司信貸合作協議
- 農業(yè)技術推廣服務合作方案
- 主題公園運營方案
- 應急藥品使用培訓課件
- 2026年網絡購物用戶協議
- 2026年短視頻營銷推廣合同協議
- 軟件開發(fā)需求變更合同協議2026年
- 展館人流方案模板
- 128個護理診斷及措施
- 冬季高速公路安全培訓
- 感應加熱器安全操作規(guī)程
- 音樂與樂器的聲學原理
- 《網絡與信息安全管理員》三級考試題庫(含答案)-20230926094641
- 內鏡室醫(yī)生護士職責
- 2023年新高考I卷英語試題講評課件-2024屆高考英語一輪復習
- 提高鋁模板施工質量合格率
- MT/T 106-1996順槽用刮板轉載機通用技術條件
- GB/T 6672-2001塑料薄膜和薄片厚度測定機械測量法
評論
0/150
提交評論