付費(fèi)下載
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、聲紋識別,或者叫說話人識別(SpeakerRecognition),主要有兩類:1.說話人辨認(rèn)(SpeakerIdentification),判斷這段聲音是哪個(gè)人說的;2說話人確認(rèn)(SpeakerVerification),判斷這段聲音是不是這個(gè)人說的。這兩類問題的解決方法很相似,都需要使用“模型”。所謂模型,可以認(rèn)為是描述說話人特點(diǎn)的一組數(shù)據(jù)。模型的獲取(也叫做“訓(xùn)練”),通常是對每一個(gè)說話人都事先錄音,然后進(jìn)行統(tǒng)計(jì)(當(dāng)然有很多復(fù)雜的流程,但可以簡單地認(rèn)為是統(tǒng)計(jì)),就得到了這個(gè)說話人的模型。有了模型后,對任何一段語音和任何一個(gè)說話人的模型,都可以計(jì)算一個(gè)“相似度”,相似度越大,這個(gè)語音就越可
2、能屬于這個(gè)說話人。對于說話人辨認(rèn)任務(wù),把語音和每個(gè)說話人的模型比較一下,哪個(gè)相似度最大,就認(rèn)為這個(gè)語音是哪個(gè)說話人的;對于說話人確認(rèn)任務(wù),把語音和這個(gè)說話人的模型比較一下,計(jì)算的相似度只有足夠大,才認(rèn)為這個(gè)語音是這說話人的。15.1概述聲紋識別(VoiceprintRecognition,VPR是生物識別技術(shù)(biometrics)的一個(gè)分支,也稱為說話人識別(SpeakerRecognition)有兩類即說話人辨認(rèn)(SpeakerIdentification)和說話人確認(rèn)(SpeakerVerification)。說話人識別用以判斷某段語音是若干人中的哪一個(gè)所說的,是“多選一”問題;說話人辨
3、認(rèn)用以確認(rèn)某段語音是否是指定的某個(gè)人所說的,是“一對一判別”問題。不同的任務(wù)和應(yīng)用會使用不同的聲紋識別技術(shù)。MA對比是哪個(gè)人說話人編號匹酉己分?jǐn)?shù)/櫃率是XX的聲音嗎?A>0接受A<e拒識說話人1說話人E辨認(rèn)(Tdentifjcat1on)專斛孕端處理宣稱說話人模型k前端處廷冒名璟替者樓型確認(rèn)(Verification)說話人k圖24聲紋識別流程聲紋識別有文本相關(guān)的(Text-Dependent和文本無關(guān)的(Text-Independent兩種。與文本有關(guān)的聲紋識別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識別
4、效果,但系統(tǒng)需要用戶配合,如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合,則無法正確識別該用戶。而與文本無關(guān)的識別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對困難,但用戶使用方便,可應(yīng)用范圍較寬。根據(jù)特定的任務(wù)和應(yīng)用,兩種是有不同的應(yīng)用范圍。15.2技術(shù)原理簡介無論是辨認(rèn)還是確認(rèn),其基本流程中,都需要先對說話人的聲紋進(jìn)行建模,稱為“訓(xùn)練”。訓(xùn)練得到的模型用于識別判斷。圖25模型訓(xùn)練流程聲紋識別的經(jīng)典方法是GMM-UBM方法。高斯混合模型(GMM)將空間分布的概率密度用多個(gè)高斯概率密度函數(shù)的加權(quán)和來擬合,可以平滑地逼近任意形狀的概率密度函數(shù),并且是一個(gè)易于處理的參數(shù)模型。在具體表示上,這個(gè)模型實(shí)際上就是把高斯混
5、合模型的每個(gè)高斯分量的均值向量排列在一起組成一個(gè)超向量作為某一個(gè)說話人的模型,稱為均值超矢量。在訓(xùn)練說話人模型的時(shí)候,由于注冊時(shí)說話人的數(shù)據(jù)稀疏,通常利用一個(gè)通用背景模型(UniversalBackgroundMode,UBM)和少量的說話人數(shù)據(jù),通過自適應(yīng)算法得到目標(biāo)說話人模型。用測試數(shù)據(jù)分別與目標(biāo)說話人模型和UBM進(jìn)行似然度比較,然后將這兩個(gè)似然相除再取對數(shù),用得到的值作為打分來評價(jià)一條測試數(shù)據(jù)是否和模型匹配。象模型說話人1說話人2'說話人,訓(xùn)媒潔音I說話人1說話人2_說話人,目標(biāo)說話圖26GMM-UBM系統(tǒng)GMM-UBM系統(tǒng)不能夠很好解決說話人識別領(lǐng)域中信道魯棒問題,因此通常使用聯(lián)合因子分析方法來解決信道魯棒問題。在GMM-UBM系統(tǒng)中的高斯模型均值超矢量,可以分為跟說話人本身有關(guān)的矢量特征和跟信道以及其他變化有關(guān)的矢量特征的線性疊加,即將說話人GMM均值超矢量所在的空間劃分為本征空間,信道空間和殘差空間。聯(lián)合因子分析方法抽取出跟說話人本身相關(guān)的特征而去掉和信道相關(guān)的特征,這樣能夠更好地克服信道影響進(jìn)行識別了。聯(lián)合因子分析法比GMM-UBM的性能明顯提高。iVector方法是的聯(lián)合因子分析建模的改進(jìn),也目前的主流商用方法。iVector方法采用一個(gè)空間,全
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026陜西中醫(yī)藥大學(xué)附屬醫(yī)院博士研究生招聘18人備考題庫及答案詳解1套
- 2026首都師范大學(xué)金澤小學(xué)招聘教師備考題庫有答案詳解
- 海信集團(tuán)華東大區(qū)2026屆校園招聘備考題庫及1套參考答案詳解
- 計(jì)算機(jī)行業(yè)點(diǎn)評:空天一體臨點(diǎn)已至
- 職業(yè)健康監(jiān)護(hù)中的應(yīng)急預(yù)案制定與演練
- 職業(yè)健康檔案在員工職業(yè)發(fā)展決策中的數(shù)據(jù)支撐
- 職業(yè)健康促進(jìn)的投資回報(bào)分析
- 職業(yè)健康促進(jìn)與職業(yè)健康科技賦能
- 金華浙江金華永康市林場招聘編外人員筆試歷年參考題庫附帶答案詳解
- 遂寧2025年四川遂寧射洪市城區(qū)學(xué)??颊{(diào)在編在職教師15人筆試歷年參考題庫附帶答案詳解
- 云南省2026年普通高中學(xué)業(yè)水平選擇性考試調(diào)研測試歷史試題(含答案詳解)
- 廣東省花都亞熱帶型巖溶地區(qū)地基處理與樁基礎(chǔ)施工技術(shù):難題破解與方案優(yōu)化
- 家里辦公制度規(guī)范
- 基于知識圖譜的高校學(xué)生崗位智能匹配平臺設(shè)計(jì)研究
- GB 4053.3-2025固定式金屬梯及平臺安全要求第3部分:工業(yè)防護(hù)欄桿及平臺
- 環(huán)氧拋砂防滑坡道施工組織設(shè)計(jì)
- 2025年下屬輔導(dǎo)技巧課件2025年
- 企業(yè)法治建設(shè)培訓(xùn)課件
- 2026中央廣播電視總臺招聘124人參考筆試題庫及答案解析
- 眼科護(hù)理與疼痛管理
- 2026年中國聚苯乙烯行業(yè)市場深度分析及發(fā)展前景預(yù)測報(bào)告
評論
0/150
提交評論