版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
10.1概述10.2說話人識別方法和系統(tǒng)結(jié)構(gòu)10.3應(yīng)用DTW的說話人確認系統(tǒng)10.4應(yīng)用VQ的說話人識別系統(tǒng)10.5應(yīng)用HMM的說話人識別系統(tǒng)10.6應(yīng)用GMM的說話人識別系統(tǒng)10.7說話人識別尚需探索的問題及應(yīng)用10.8語種辨別的原理和應(yīng)用第十章說話人識別與語種辨別10.1概述自動說話人識別(AutomaticSpeakerRecognition簡稱ASR),又稱為話者識別或聲紋識別,是一種自動識別說話人的過程。說話人識別和語音識別的區(qū)別在于,它不注重包含在語音信號內(nèi)的文字符號以及語意內(nèi)容信息,而是著眼于包含在語音信號中的個人特征,提取說話人的這些個人信息特征,以達到識別說別說話人的目的。按其最終完成的任務(wù)可以分為兩類:*自動說話人確認(AutomaticSpeakerVerification,簡稱ASV):確認一個人的身份,只涉及一個特定的參考模型和待識別模式之間的比較,只做“是”和“不是”的判決。*自動說話人辨認(AutomaticSpeakerIdentification,簡稱ASI):必須辨認出待識別的語音是來自待考察人中的哪一個,有時還要對這個人以外的語音做出拒絕的判決。
10.2說話人識別方法和系統(tǒng)結(jié)構(gòu)說話人識別就是從說話人的一段語音中提取出說話人的個性特征,通過對這些個人特征的分析和識別,從而達到對說話人進行辨認或者確認的目的。圖10-1是說話人識別系統(tǒng)的結(jié)構(gòu)框圖,它由預(yù)處理、特征提取、模式匹配和判決等幾大部分組成。10.2.1預(yù)處理包括對輸入計算機的語音數(shù)據(jù)進行端點檢測、預(yù)加重、加窗、分針等。10.2.2說話人識別特征的選取
在說話人識別系統(tǒng)中特征提取是最重要的一環(huán),特征提取就是從說話人的語音信號中提取出表示說話人個性的基本特征。
在理想情況下,選取的特征應(yīng)當滿足下述準則:能夠有效地區(qū)分不同的說話人,但又能在同一說話人的語音發(fā)生變化時相對保持穩(wěn)定。易于從語音信號中提取不易被模仿盡量不隨時間和空間變化如果把說話人識別中常用的參數(shù)加以簡要歸類,可劃分為以下幾類:線性預(yù)測參數(shù)及其派生參數(shù)語音頻譜直接導(dǎo)出的參數(shù)混合參數(shù)其他魯棒性參數(shù)上表是日本人Matui和Furui在1990年針對倒譜特征和基音特征所作的比較實驗結(jié)果所用特征誤識率/(%)倒譜差值倒譜基音差值基音倒譜與差值倒譜倒譜、差值倒譜與基音、差值基音9.4311.8174.4285.887.932.8910.2.3特征參量評估方法
F比:在給定一種識別方法后,識別的效果主要取決于特征參數(shù)的選取。對于某一維單個的參數(shù)而言,可以用F來表征它在說話人識別中的有效性。F越大表示越有效,即不同說話人的特征量的均值分布的離散程度分布得越散越好;而同一個人的越集中越好。10.2.3特征參量評估方法
D比:把F比的概念推廣到多維,用以衡量多維特征矢量在說話人識別系統(tǒng)中的有效性。F比沒有考慮到特征矢量中各維參數(shù)之間的相關(guān)性。定義兩個協(xié)方差矩陣,即說話人間的協(xié)方差矩陣B和說話人內(nèi)協(xié)方差矩陣W,
定義對多維特征矢量的可分性測度——散度,即D比為:
10.2.4模式匹配方法概率統(tǒng)計方法通過對穩(wěn)態(tài)特征(基音、聲門增益、低階反射系數(shù)等)的統(tǒng)計分析,利用均值、方差等統(tǒng)計量和概率密度函數(shù)進行分類判決。優(yōu)點:不用對特征參量在時域上進行規(guī)整,適合與文本無關(guān)的說話人識別。動態(tài)時間規(guī)整方法(DTW)將識別模板與參考模板進行時間對比,按照某種距離測度得出兩個模板之間的相似程度。常用的分法:基于最近鄰原則的動態(tài)時間規(guī)整。矢量量化方法(VQ)將每個人的特定文本訓(xùn)練成碼本,識別時將測試文本按此碼本進行編碼,以量化產(chǎn)生的失真度作為判決標準。優(yōu)點:速度快,識別精度不低。10.2.4模式匹配方法隱馬爾科夫模型方法(HMM)為每個說話人建立發(fā)聲模型,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號輸出矩陣;識別時計算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大概率,根據(jù)最大概率對應(yīng)的模型進行判決。優(yōu)點:無需時間規(guī)整,精度高;缺點:訓(xùn)練耗時較大。人工神經(jīng)網(wǎng)絡(luò)方法(ANN)人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強的復(fù)雜分類邊界區(qū)分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。缺點:訓(xùn)練時間長、動態(tài)規(guī)整能力弱、網(wǎng)絡(luò)隨說話人數(shù)碼的增加時可能大到難以訓(xùn)練的程度。10.2.5說話人識別中判別方法和閾值的選擇加快系統(tǒng)響應(yīng)的判別分法:多門限判決、預(yù)分類技術(shù)。說話人確認系統(tǒng)的閾值選擇:確認錯誤由誤拒率(FalseRejection,FR)和誤受率(FalseAcceptance,FA)表示。判決門限一般由FR和FA的相等點附件來確定。10.2.6說話人識別系統(tǒng)的評價
一個說話人識別系統(tǒng)的好壞是由許多因素決定的。其中主要有正確識別率(或出錯率)、訓(xùn)練時間的長短、識別時間、對參考參量存儲量的要求、使用者適用的方便程度等,實用中還有價格因素。圖10.3表示了說話人辨別與說話人確認系統(tǒng)性能與用戶數(shù)的關(guān)系。10.3應(yīng)用DTW的說話人確認系統(tǒng)一個應(yīng)用DTW說話人識別系統(tǒng)如圖10-4所示。它采用的識別特征是BPFG(附聽覺特征處理),匹配時采用DTW技術(shù)。10.4應(yīng)用VQ的說話人識別系統(tǒng)目前自動說話人識別的方法主要是基于參數(shù)模型的HMM的方法和基于非參數(shù)模型的VQ的方法。應(yīng)用VQ的說話人識別系統(tǒng)如圖10-5所示。應(yīng)用VQ的說話人識別過程的步驟如下:訓(xùn)練過程從訓(xùn)練語音提取特征矢量,得到特征矢量集;通過LBG算法生成碼本;重復(fù)訓(xùn)練修正優(yōu)化碼本;存儲碼本識別過程從測試語音提取特征矢量序列由每個模板依次對特征矢量序列進行矢量量化,計算各自的平均量化誤差:
式中是第i個碼本中第l個碼本矢量,而是待測矢量和碼矢量之間的距離選擇平均量化誤差最小的碼本所對應(yīng)的說話人作為系統(tǒng)識別結(jié)果。10.5應(yīng)用HMM的說話人識別系統(tǒng)10.5.1基于HMM的與文本有關(guān)的說話人識別基于HMM的與文本有關(guān)的說話人識別系統(tǒng)的結(jié)構(gòu)如圖10-6所示。10.5.2基于HMM的與文本無關(guān)的說話人識別10.5.3基于HMM的指定文本型說話人識別指定文本型說話人識別系統(tǒng)的基本構(gòu)造如圖10-7所示。文本內(nèi)容不確定,一般采用各態(tài)歷經(jīng)HMM建立說話人模型。10.5.4說話人識別HMM的學(xué)習(xí)方法10.5.5魯棒的HMM說話人識別技術(shù)利用少量的登錄說話人學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)方法;利用非特定人語音HMM和登錄說話人學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)方法。對于由信號傳輸信道、濾波器等引起的識別率下降,通過倒譜均值正規(guī)化法可以得到改善;由聲道特征、發(fā)音方式的時間變動等引起的識別率下降,可以通過似然度正規(guī)化法加以改善。10.6應(yīng)用GMM的說話人識別系統(tǒng)混合高斯分布模型是只有一個狀態(tài)的模型,在這個狀態(tài)里具有多個高斯分布函數(shù)10.6.1GMM模型的基本概念
高斯混合模型(GMM)可以看做一種狀態(tài)數(shù)為1的連續(xù)分布隱馬爾科夫模型CDHMM。一個M階混合高斯模型的概率密度函數(shù)是由M個高斯概率密度函數(shù)加權(quán)求和得到,所示如下:其中是一個D維隨即向量,是子分布,,是混合權(quán)重。每個子分布是D維的聯(lián)合高斯概率分布,可表示為:
其中是均值向量,是協(xié)方差矩陣,混合權(quán)重值滿足以下條件:
完整的混合高斯模型由參數(shù)均值向量、協(xié)方差矩陣和混合權(quán)重組成,表示為:
對于給定的時間序列,利用GMM模型求得的對數(shù)似然度可定義如下:10.6.2GMM模型的參數(shù)估計GMM模型的訓(xùn)練就是給定一組訓(xùn)練數(shù)據(jù),依據(jù)某種準則確定模型參數(shù)。最常用的參數(shù)估計方法是最大似然估計(ML)估計。對于一組長度為T的訓(xùn)練矢量序列
,GMM的似然度可以表示為:
由于上式是參數(shù)的非線性函數(shù),很難直接求出上式的最大值。因此,常常采用EM算法估計參數(shù)。EM算法的計算是從參數(shù)的一個初值開始,采用EM算法估計出一個新的參數(shù),使得新的模型參數(shù)下的似然度
新的模型參數(shù)再作為當前參數(shù)進行訓(xùn)練,這樣迭代運算直到模型收斂。每一次迭代運算,下面的重估公式保證了模型似然度的單調(diào)遞增?;旌蠙?quán)值的重估公式:均值的重估公式:方差的重估公式:其中,分量i的后驗概率為:10.6.3訓(xùn)練數(shù)據(jù)不充分的問題由于訓(xùn)練數(shù)據(jù)的不充分,GMM模型的協(xié)方差矩陣的一些分量可能會很小,這些很小的值對模型參數(shù)的似然度函數(shù)影響很大,嚴重影響系統(tǒng)的性能。為了避免小的值對系統(tǒng)性能的影響,一種方法是在EM算法的迭代計算中,對協(xié)方差的值設(shè)置一個門限值,在訓(xùn)練過程中領(lǐng)協(xié)方差的值不小于這個設(shè)定的門限值,否則用這個門限值代替。10.6.4GMM模型的識別問題
給定一個語音樣本,說話人辨認的目的是要確定這個語音屬于N個說話人中的哪一個?;贕MM的說話人辨認系統(tǒng)結(jié)構(gòu)框圖如圖10-8所示。
根據(jù)Bayes理論,最大后驗概率可表示為:
在這里:
其對數(shù)形式為:因為的先驗概率未知,我們假定該語音信號出自封閉集里的每一個人的可能性相等,也就是說:
對于一個確定的觀察值矢量X,P(X)是一個確定的常數(shù)值,對所有說話人都相等。因此,求取后驗概率的最大值可以通過求取獲得,這樣,辨認該語音屬于語音庫中的哪一種說話人可以表示為:
其中即為識別出的說話人。10.7說話人識別尚需探索的問題及應(yīng)用基礎(chǔ)性的課題關(guān)于語音中語意內(nèi)容和說話人的分離,系統(tǒng)全面地進行研究的人還是很少的。究竟什么特征參數(shù)對說話人識別最有效?如何有效的利用非聲道特征?說話人特征的變化和樣本選擇問題。用聽覺和視覺的說話人識別研究是用計算機進行說話人識別的基礎(chǔ)。實用性的問題說話人識別系統(tǒng)設(shè)計的合理化及優(yōu)化問題。如何處理長時和短時說話人的語音波動?如何區(qū)別有意模仿的聲音?說話人識別系統(tǒng)的性能評價問題??煽啃院徒?jīng)濟性。目前說話人識別的主要研究主要集中在如下幾個方面:語音特征參數(shù)的提取和混合HMM模型與其他模型混合,改善說話人識別系統(tǒng)的性能。說話人識別技術(shù)的應(yīng)用電話信道罪犯緝拿、法庭中電話錄音信息的身份確認、電話語音跟蹤,為用戶提供防盜門開啟功能等。通信領(lǐng)域,說話人識別技術(shù)可以應(yīng)用于諸如電話銀行、電話購物、數(shù)據(jù)庫訪問、信息服務(wù)、安全控制、計算機遠程登陸等領(lǐng)域。呼叫中心應(yīng)用上,說話人識別技術(shù)同樣可以提供更加個性化的人機交互界面。
10.8語種辨別的原理和應(yīng)用
語種辨別(LanguageIdentification,LID)與語音識別和說話人識別有所不同,它是通過分析處理一個語言片段以判別其所屬語言的語種,本質(zhì)上也是語音識別的一方面。10.8.1語種辨別的基本原理和基本方法
世界上的不同語種間有多種區(qū)別,比如音素集合、音位序列、音節(jié)結(jié)構(gòu)、韻律特征、詞匯分類、語法及語意網(wǎng)絡(luò)等,所以在自動語種辨識中有多種可利用的特征。就一個語種辨識系統(tǒng)的結(jié)構(gòu)而言,則和語音識別及說話人識別有相似之處,其基本框架結(jié)構(gòu)如圖10-9所示。
從信源的建模來看,語音信號是一種典型的連續(xù)信源。所以語音信號可以用幾種模型來建模:無記憶模型有記憶模型離散模型連續(xù)模型
這些模型可分為四類,如表10-2所示。類型記憶性模型離散無記憶VQ有記憶離散
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年及未來5年市場數(shù)據(jù)中國腐殖酸系列廢料行業(yè)市場調(diào)查研究及投資前景預(yù)測報告
- 老年慢性病患者的社交需求與生活質(zhì)量決策
- 2026年及未來5年市場數(shù)據(jù)中國塑料包裝袋行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略咨詢報告
- 老年慢性病家庭醫(yī)生簽約綜合干預(yù)方案
- 2026年及未來5年市場數(shù)據(jù)中國道路運輸行業(yè)市場發(fā)展數(shù)據(jù)監(jiān)測及投資戰(zhàn)略規(guī)劃報告
- 進爵童子介紹
- 上海入團考試題及答案
- 合規(guī)培訓(xùn)教學(xué)課件
- 2026年國際經(jīng)濟合作與跨國企業(yè)管理試題
- 2026年旅游管理專業(yè)知識要點自測題含答案
- 2025-2030半導(dǎo)體缺陷檢測設(shè)備行業(yè)運營模式與供需趨勢預(yù)測研究報告
- GB/T 46755-2025智能紡織產(chǎn)品通用技術(shù)要求
- 2026年湖南國防工業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫附答案
- 2026年殘疾人聯(lián)合會就業(yè)服務(wù)崗招聘筆試適配題含答案
- 2025年手術(shù)室護理實踐指南知識考核試題及答案
- 醫(yī)療器械ISO13485風(fēng)險評估報告
- 彩禮分期合同范本
- 顧客特殊要求培訓(xùn)
- 全民健身園項目運營管理方案
- 2025年松脂市場調(diào)查報告
- 2025年英語培訓(xùn)機構(gòu)學(xué)員合同示范條款協(xié)議
評論
0/150
提交評論