下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
11-PAGE說話人識(shí)別算法研究的文獻(xiàn)綜述在20世紀(jì)40年代,貝爾實(shí)驗(yàn)室的L.G.Kersta[2]等研究人員發(fā)現(xiàn),不同人的發(fā)出的聲音能夠通過觀察語譜圖而發(fā)現(xiàn)其中的差異性,“聲紋”的概念由此被提出,之后人們開始研究是否能將聲音的特征應(yīng)用在說話人識(shí)別中,并且進(jìn)行了聽音辨認(rèn)和人耳聽音識(shí)別的實(shí)驗(yàn)。20世紀(jì)40年代至70年代初,在這期間,說話人識(shí)別技術(shù)仍然在不斷地發(fā)展,并且有了許多新的發(fā)現(xiàn)和進(jìn)展,首先說話人識(shí)別從人耳聽音識(shí)別演變到利用機(jī)器進(jìn)行自動(dòng)識(shí)別技術(shù),之后貝爾實(shí)驗(yàn)室的研究員們提出了基于統(tǒng)計(jì)模板匹配的識(shí)別方法[3]。這一階段的研究主要體現(xiàn)在選擇一個(gè)合適的能夠包含盡量多的聲音特點(diǎn)的特征參數(shù),如線性預(yù)測系數(shù)(LinearPredictionCoefficient,LPC)、線譜對系數(shù)(LinearSpectrumPair,LSP)、部分相關(guān)系數(shù)等。20世紀(jì)70年代末至80年代末,在這一階段,說話人識(shí)別技術(shù)的研究重點(diǎn)是聲學(xué)特征參數(shù)的選擇,對特征參數(shù)的非線性或線性處理技術(shù)的升級以及研究新的模式匹配技術(shù)。這一階段提出了梅爾倒譜系數(shù)(MelFrequenceCepstrumCoefficient,MFCC),該系數(shù)非常符合人耳聽力的特點(diǎn),在與說話人識(shí)別有關(guān)的實(shí)驗(yàn)中,,識(shí)別結(jié)果的準(zhǔn)確率大大提升[3]。20世紀(jì)90年代以后,GMM技術(shù)以其簡單靈活和魯棒性得到了廣泛應(yīng)用,通過為每一條語音數(shù)據(jù)建立一個(gè)生成模型,采用概率計(jì)算的方式來對模型之間的相似性進(jìn)行比較,成為文本無關(guān)說話人識(shí)別系統(tǒng)前沿方法[4]。如今,表達(dá)聲音的語音特征朝多樣化、多量化發(fā)展,深度學(xué)習(xí)的出現(xiàn)使得提取更抽象的語音特征成為可能,將深度學(xué)習(xí)與多特征組合起來[6],不僅使模型的識(shí)別率得到提高,系統(tǒng)的識(shí)別速度也在一定程度上得到提升。2009年,D.Mohamed[10]及其研究團(tuán)隊(duì)人員利用深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)對開源數(shù)據(jù)集TIMIT進(jìn)行語音建模,與傳統(tǒng)的說話人識(shí)別技術(shù)——GMM相比較,其在開源數(shù)據(jù)集上的準(zhǔn)確率提高了3.8%。2014年,谷歌的研究人員提出了利用監(jiān)督機(jī)制來訓(xùn)練模型[11],通過對語音進(jìn)行預(yù)處理獲得一條條語音幀,將每一條語音幀均作為DNN模型的輸入,通過層層網(wǎng)絡(luò)的訓(xùn)練,結(jié)果累計(jì)輸出到最后一層,根據(jù)最后一層所有神經(jīng)元的輸出的平均值即可判斷出該語音對應(yīng)的說話人身份。2018年,谷歌在訓(xùn)練說話人識(shí)別模型中應(yīng)用了一種新的損失函數(shù)——GE2E(Generalizedend-to-end)loss[12],該損失函數(shù)的目標(biāo)是盡量增大屬于同一說話者語音信息特征值的余弦值,盡量減小屬于不同說話者語音信息特征值的余弦值,并且對每一條語音信息進(jìn)行訓(xùn)練獲得的特征值與所有人的特征值都取余弦值,可以加快計(jì)算速度,提高訓(xùn)練效率。2019年,張鵬遠(yuǎn)團(tuán)隊(duì)[13]提出了一種雙路神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)能夠從多個(gè)時(shí)間尺度來對說話人信息進(jìn)行訓(xùn)練,不同時(shí)間尺度的特征可以進(jìn)行互補(bǔ),因此可以通過融合不同時(shí)間尺度的特征來完善模型的構(gòu)建,在語音數(shù)據(jù)較短的情況下,系統(tǒng)性能依然可以得到顯著提升;洪青陽等設(shè)計(jì)對抗多任務(wù)網(wǎng)絡(luò)提取具有高噪聲魯棒性的說話人特征,在訓(xùn)練過程中,將編碼器和說話人分類器聯(lián)合使用,增大個(gè)體間語音識(shí)別的區(qū)分性,利用余弦值來衡量說話人的相似度,訓(xùn)練模型的目的在于使得相同說話人的不同語音數(shù)據(jù)對應(yīng)的語音特征之間的相似度盡可能的高一些,而不同說話人的語音數(shù)據(jù)的所對應(yīng)的語音特征的相似度盡可能的低一些,判別器和編碼器進(jìn)行對抗訓(xùn)練使得編碼器映射得到的里包含更少的噪聲信息[3]。這樣訓(xùn)練得到的系統(tǒng)能夠?qū)υ肼曈休^強(qiáng)的魯棒性,獲得較好的性能提升。主要參考文獻(xiàn)陳晨,韓紀(jì)慶.說話人識(shí)別方法綜述[J].智能計(jì)算機(jī)與應(yīng)用,2015,5(05):92-94+97.郭慧陽.基于深度學(xué)習(xí)的說話人識(shí)別技術(shù)研究[D].廈門大學(xué).2018:1-6.黃猛,唐琳,王雅芬.說話人識(shí)別技術(shù)綜述[A].中國高科技產(chǎn)業(yè)化研究會(huì)智能信息處理產(chǎn)業(yè)化分會(huì).第十三屆全國信號和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議論文集[C].2019:239-243.李秀.基于DTW和GMM的多維特征說話人識(shí)別[D].南京郵電大學(xué).2019:16-18.沈陽麗,趙啟升.GMM-UBM聲紋識(shí)別技術(shù)研究與應(yīng)用[J].電腦編程技巧與維護(hù),2017(16):84-86.解焱陸.基于特征變換和分類的文本無關(guān)電話語音說話人識(shí)別研究[D].中國科學(xué)技術(shù)大學(xué).2007:30-40.徐紅梅.與文本無關(guān)的閉集聲紋識(shí)別系統(tǒng)研究[D].哈爾濱理工大學(xué).2013:48-58.楊楠.基于深度學(xué)習(xí)的說話人識(shí)別研究與實(shí)現(xiàn)[D].鄭州大學(xué).2019:6-9.楊延龍.與文本無關(guān)的說話人識(shí)別的關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué).2010:13-27.周玥媛,孔欽.基于GMM-UBM的聲紋識(shí)別技術(shù)的特征參數(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2020,30(05):76-83.林玲惠,張永富,張馨月,張昃瑋,夏銘謙.基于聲紋識(shí)別的安全保障系統(tǒng)設(shè)計(jì)[J].信息通信,2020(06):112-114.郭萬鵬.基于深度學(xué)習(xí)的說話人識(shí)別技術(shù)研究[D].蘭州理工大學(xué).2019:27-34.張燕.說話人識(shí)別中的特征參數(shù)提取和識(shí)別算法研究[D].南京理工大學(xué),2017.宋文豪.基于深度學(xué)習(xí)的說話人識(shí)別技術(shù)應(yīng)用[D].電子科技大學(xué),2020.郭茗涵.基于深度學(xué)習(xí)的聲紋識(shí)別算法研究[D].吉林大學(xué),2020.劉建.基于深度學(xué)習(xí)的小樣本聲紋識(shí)別[D].長江大學(xué),2020.梁冰.基于深度學(xué)習(xí)的聲紋識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D].遼寧大學(xué),2020.張冰.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年珠海市育德學(xué)校公開招聘教師備考題庫及一套參考答案詳解
- 3D生物打印在組織修復(fù)中的精準(zhǔn)應(yīng)用
- 3D打印技術(shù)在職業(yè)性眼外傷修復(fù)中的應(yīng)用
- 2025年浙江大學(xué)杭州國際科創(chuàng)中心吳新科教授課題組招聘備考題庫完整答案詳解
- 2025年湖南衡陽衡探公司電氣工程師助理崗位招聘信息備考題庫及1套完整答案詳解
- 初中化學(xué)探究:水系重金屬污染的生物監(jiān)測與生物指示物種選擇研究教學(xué)研究課題報(bào)告
- 國家藥品監(jiān)督管理局新聞宣傳中心2026年度編制外人員公開招聘備考題庫參考答案詳解
- 母嬰電商售后服務(wù)五年升級與2025年技術(shù)創(chuàng)新報(bào)告
- 2型糖尿病的腸道菌群:工具變量篩選策略
- 2025年重慶機(jī)床(集團(tuán))有限責(zé)任公司招聘備考題庫參考答案詳解
- DB63∕T 1917-2021 森林防火隔離帶建設(shè)技術(shù)規(guī)程
- 浙江省強(qiáng)基聯(lián)盟2025-2026學(xué)年高三上學(xué)期12月考試物理試卷
- 2025年秋冀教版(新教材)小學(xué)信息科技三年級上冊期末綜合測試卷及答案
- 2025年度選人用人工作專題報(bào)告
- 2025全國醫(yī)療應(yīng)急能力培訓(xùn)系列課程參考答案
- 監(jiān)理單位安全生產(chǎn)管理體系
- 2025年新版新手父母考試題目及答案
- 2025數(shù)據(jù)基礎(chǔ)設(shè)施數(shù)據(jù)目錄描述要求
- 農(nóng)村扶貧建房申請書
- 《常見抗凝劑分類》課件
- 2025運(yùn)輸與配送期末考試題庫及答案
評論
0/150
提交評論