已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀
【畢業(yè)學(xué)位論文】高區(qū)分性語音選取方法研究-計(jì)算機(jī)科學(xué)與技術(shù).pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
說話人識(shí)別中高區(qū)分性語音選取方法研究 龔 宬 摘 要 I 摘 要 選取具有高區(qū)分性的語音是說話人識(shí)別系統(tǒng)的重要組成部分,其目的是在語音進(jìn)行特征提取等操作前,對(duì)語料進(jìn)行適當(dāng)處理,從中選取能更好地突出說話人個(gè)性信息的語音段落。高區(qū)分性語音選取的方法對(duì)后續(xù)識(shí)別性能起著至關(guān)重要的作用。 本文首先介紹和比較了目前說話人識(shí)別系統(tǒng)在高區(qū)分性語音選取環(huán)節(jié)常用的端點(diǎn)檢測(cè)算法,然后重點(diǎn)針對(duì)說話人識(shí)別技術(shù)的特點(diǎn)和要求,研究了不同發(fā)音方式、語音信噪比這兩個(gè)因素對(duì)語音區(qū)分性所產(chǎn)生的貢獻(xiàn)度,以及對(duì)識(shí)別性能的影響?;谝陨戏治鼋Y(jié)論進(jìn)一步改善說話人識(shí)別系統(tǒng)中的高區(qū)分性語音選取算法。通過研究得到了以下結(jié)論: 1)元音是最能夠反映說話人個(gè)性特征的發(fā)音方式,當(dāng)只提取元音時(shí),等錯(cuò)誤率(比提取整段說話人語音下降不少。為此,本文實(shí)現(xiàn)了基于頻域能量分布與時(shí)域短時(shí)能量、平均過零率相結(jié)合的元音提取算法,能夠準(zhǔn)確快速地挑出語音中的元音段。 2)語音的信噪比同樣會(huì)對(duì)識(shí)別系統(tǒng)的性能產(chǎn)生重要影響,隨著信噪比的下降,系統(tǒng)將語音中信噪比較低的部分去除,可以明顯改善系統(tǒng)的識(shí)別性能。針對(duì)這一結(jié)論,本文在融合多種噪聲估計(jì)算法的基礎(chǔ)上,實(shí)現(xiàn)了改進(jìn)的噪聲估計(jì)算法,可以實(shí)現(xiàn)對(duì)平穩(wěn)噪聲、緩變?cè)肼暪β首V的可靠估計(jì)。在此基礎(chǔ)上,通過計(jì)算語音信號(hào)的短時(shí)信噪比,去除低于 5此外,還在改進(jìn)的高區(qū)分性語音選取環(huán)節(jié)加入語音質(zhì)量控制模塊,目的是檢測(cè)出存在音量過小、(偽)截頂、非自然語音比例過大等質(zhì)量問題的語音,阻止這部分語音進(jìn)入系統(tǒng),以提高錄入系統(tǒng)的語音質(zhì)量。 關(guān)鍵詞:說話人識(shí)別;高區(qū)分性語音;元音提取;噪聲估計(jì);語音質(zhì)量控制 I is a of is to of by an in of AD to of of on on 1) s of is an to on in as 2) of a on of ER NRs If NR a by a on On by NR of NR In a is to at is is 錄 錄 第1章 緒論 . 1 說話人識(shí)別簡(jiǎn)介 . 1 說話人識(shí)別技術(shù)背景 . 1 說話人識(shí)別技術(shù)概述 . 1 說話人識(shí)別的分類 . 2 說話人識(shí)別的性能評(píng)價(jià)指標(biāo). 2 說話人識(shí)別系統(tǒng)的構(gòu)建 . 3 說話人識(shí)別技術(shù)的難點(diǎn) . 4 選題背景和意義 . 4 高區(qū)分性語音選取 . 4 目前采用的高區(qū)分性語音選取方法 . 5 現(xiàn)有高區(qū)分性語音選取方法的不足 . 5 本文研究?jī)?nèi)容 . 6 論文結(jié)構(gòu)安排 . 6 第2章 常用的語音端點(diǎn)檢測(cè)算法 . 8 引言 . 8 基于短時(shí)能量和過零率的語音端點(diǎn)檢測(cè) . 8 短時(shí)平均能量 . 9 短時(shí)平均過零率 . 11 基于短時(shí)能量和過零率的雙門限端點(diǎn)檢測(cè)算法 . 13 短時(shí)自相關(guān)函數(shù)法. 14 其他語音端點(diǎn)檢測(cè)算法 . 14 總結(jié)與思考 . 14 第3章 發(fā)音方式對(duì)語音區(qū)分性的影響研究 . 16 語音的產(chǎn)生機(jī)理 . 16 漢語音節(jié)分類 . 16 發(fā)音方式對(duì)說話人識(shí)別影響的初探 . 17 實(shí)驗(yàn)環(huán)境與配置 . 18 實(shí)驗(yàn)結(jié)果與分析 . 18 目 錄 元音提取算法的實(shí)現(xiàn) . 19 頻域能量分析方法 . 20 基于時(shí)域能量和過零率的元音提取 . 20 閾值自適應(yīng)方法 . 21 算法具體步驟 . 21 算法性能分析 . 22 第4章 信噪比對(duì)語音區(qū)分性的影響研究 . 23 噪聲分類 . 23 加性噪聲與卷積噪聲 . 23 平穩(wěn)噪聲、緩變?cè)肼暫蜎_激噪聲 . 23 噪聲對(duì)說話人識(shí)別的影響 . 24 帶噪語音中噪聲功率譜估計(jì)算法 . 27 最小量統(tǒng)計(jì)算法 . 27 連續(xù)譜最小量追蹤算法 . 28 最小控制遞歸算法 . 28 其他算法 . 29 改進(jìn)的噪聲估計(jì)算法 . 29 算法性能分析 . 30 第5章 改善高區(qū)分性語音選取模塊的說話人確認(rèn)系統(tǒng) . 32 系統(tǒng)框架 . 32 語音質(zhì)量控制與高區(qū)分性語音選取模塊 . 33 預(yù)加重 . 34 去直流分量 . 35 語音質(zhì)量控制 . 35 高區(qū)分性語音段落選取模塊. 38 系統(tǒng)特征參數(shù) . 38 系統(tǒng)模型 . 40 實(shí)驗(yàn)語料庫的選擇. 41 實(shí)驗(yàn)結(jié)果與分析 . 41 第6章 總結(jié)與展望 . 43 研究工作總結(jié) . 43 對(duì)未來工作的展望. 44 目 錄 V 參考文獻(xiàn) . 45 致 謝 . 47 聲 明 . 48 個(gè)人簡(jiǎn)歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果. 49 第1章 緒論 1 第1章 緒論 說話人識(shí)別簡(jiǎn)介 說話人識(shí)別技術(shù)背景 說話人識(shí)別技術(shù)(也稱聲紋識(shí)別技術(shù)),是生物特征識(shí)別認(rèn)證技術(shù)的一種,是利用計(jì)算機(jī)對(duì)說話人的聲紋信息進(jìn)行采集并以此為依據(jù)判斷說話人身份的技術(shù)。由于人的發(fā)音/傳聲器官在生理上存在一定的先天個(gè)體差異,加上在后天的行為訓(xùn)練中逐漸形成的個(gè)人說話行為差別,使不同人的語音在聽感上存在較為明顯的差異,這也使通過分析語音信號(hào)來辨別說話人身份成為一種可能。 除了說話人識(shí)別技術(shù)外,還有臉像識(shí)別、指紋識(shí)別、虹膜識(shí)別、簽名識(shí)別、步態(tài)識(shí)別等多種生物特征被用于特征識(shí)別研究和應(yīng)用。與這些生物特征相比,說話人的聲紋特征除了具有一般生物特征的唯一性特征外,還有其獨(dú)特的特質(zhì),在某些方面具有不可替代性。比如: 具有更好的穩(wěn)定性,不易丟失; 采集成本相對(duì)較低,便于推廣; 能夠比較地容易實(shí)現(xiàn)遠(yuǎn)程識(shí)別操作。 正是基于以上一些特點(diǎn),說話人識(shí)別技術(shù)正在被廣泛地研究,并有著相當(dāng)廣闊的應(yīng)用前景。在公安司法系統(tǒng)中可以用于協(xié)助取證;在軍事領(lǐng)域可以用于電子偵聽;在銀行、證券等金融領(lǐng)域可以作為用戶身份驗(yàn)證等安全檢查甚至直接用于遠(yuǎn)程交易;在其他方面,可以作為各類電子產(chǎn)品的個(gè)性化應(yīng)用,如聲紋鎖等。 說話人識(shí)別研究最早開始于20世紀(jì)30年代,最初只是在人耳聽辨的可能性方面進(jìn)行過探索。后隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,在60年代出現(xiàn)了對(duì)聲紋特征提取方法的研究。近幾十年來,說話人識(shí)別技術(shù)不斷發(fā)展,不僅在特征提取方法上不斷完善和創(chuàng)新,還將多種模式識(shí)別的方法用于說話人識(shí)別。研究目標(biāo)也從單純的理論研究轉(zhuǎn)向?qū)嶋H應(yīng)用,并將實(shí)際中可能遇到的噪聲環(huán)境、跨語音信道環(huán)境、短語音狀況、語音隨時(shí)間變化性等復(fù)雜情況納入研究范圍中。目前,已有一些較為成熟的說話人識(shí)別應(yīng)用產(chǎn)品問世。 說話人識(shí)別技術(shù)概述 說話人識(shí)別技術(shù)是利用說話人語音中能夠反映其生理及行為特征的參數(shù)來對(duì)第1章 緒論 2 說話人身份進(jìn)行判斷的一種技術(shù)。說話人識(shí)別技術(shù)與語音識(shí)別技術(shù)有一定的相似之處,都是通過提取說話人語音特征、通過建模等手段得到有用信息的過程,但二者顯著的不同之處在于:語音識(shí)別的目的獲得說話人語音的內(nèi)容,而說話人識(shí)別則是為了分辨說話人的身份,不需要分析語料內(nèi)容。正因?yàn)槟康牟煌咚扇〉姆椒ㄒ泊嬖谝欢ǖ牟町悺?說話人識(shí)別的分類 根據(jù)識(shí)別任務(wù)的不同,說話人識(shí)別可分為說話人辨認(rèn)(說話人確認(rèn)(其中,說話人辨認(rèn)的任務(wù)是:對(duì)于一段測(cè)試語音,需要在說話人確認(rèn)則是在給定測(cè)試語音和一位目標(biāo)說話人的情況下判斷該語音是否來自該目標(biāo)說話人。在說話人辨認(rèn)中,一般不涉及集外說話人,即測(cè)試語料只來自于說話人確認(rèn)則無此約束。從實(shí)際應(yīng)用的角度來看,說話人確認(rèn)技術(shù)在安全驗(yàn)證相關(guān)的領(lǐng)域有著廣泛應(yīng)用,而說話人辨認(rèn)的應(yīng)用往往局限于偵聽鑒別等領(lǐng)域。 根據(jù)語音文本內(nèi)容的不同,說話人識(shí)別可分為以下三類:文本相關(guān)(文本無關(guān)(文本指定(文本無關(guān)是指識(shí)別過程不要求限定語音的文本內(nèi)容;而文本相關(guān)則規(guī)定了識(shí)別測(cè)試時(shí)需要錄入的語音文本內(nèi)容;文本指定是指在進(jìn)行識(shí)別時(shí)系統(tǒng)向說話人提供一段文本,要求說話人按照文本內(nèi)容進(jìn)行錄入,只有當(dāng)內(nèi)容匹配且說話人確認(rèn)結(jié)果正確時(shí)才能通過系統(tǒng)驗(yàn)證。 說話人識(shí)別的性能評(píng)價(jià)指標(biāo) 目前的說話人識(shí)別研究中有比較通用的性能評(píng)價(jià)指標(biāo): 在說話人辨認(rèn)系統(tǒng)中,通常將識(shí)別率作為系統(tǒng)識(shí)別性能的重要評(píng)測(cè)指標(biāo),其計(jì)算式為: 100%正確識(shí)別語音個(gè)數(shù)識(shí)別率識(shí)別語音總數(shù)(1而說話人確認(rèn)系統(tǒng)通常采用錯(cuò)誤拒絕率(錯(cuò)誤接受率(1這兩個(gè)重要的參數(shù)衡量系統(tǒng)性能。其中,錯(cuò)誤拒絕率是指系統(tǒng)拒絕目標(biāo)說話人的概率,該值越高,目標(biāo)說話人越不容易通過驗(yàn)證;錯(cuò)誤接受率表征了系統(tǒng)對(duì)誤闖說話人的接受概率,該值越高,非目標(biāo)說第1章 緒論 3 話人通過系統(tǒng)驗(yàn)證的概率越大,系統(tǒng)的安全性越低。二者的計(jì)算公式可表示為: 100%被接受的誤闖說話人語音個(gè)數(shù)錯(cuò)誤接受率誤闖說話人語音個(gè)數(shù)(1100%被拒絕的目標(biāo)說話人語音個(gè)數(shù)錯(cuò)誤拒絕率目標(biāo)說話人語音總數(shù)(1這兩項(xiàng)指標(biāo)在實(shí)際操作中是相互矛盾的,通常,說話人確認(rèn)系統(tǒng)的接受閾值設(shè)定越高,相應(yīng)的以根據(jù)得到的制出檢測(cè)錯(cuò)誤權(quán)衡曲線(在該曲線中,可以找到一個(gè)點(diǎn)被定義為等錯(cuò)誤率(。在說話人確認(rèn)系統(tǒng)中,常,統(tǒng)性能越好。 說話人識(shí)別系統(tǒng)的構(gòu)建 說話人識(shí)別技術(shù)經(jīng)過幾十年的發(fā)展,已經(jīng)逐漸形成一套較為成熟且固定的框架,即:特征提取與模式匹配方法相結(jié)合的思路。具體來說,目前研究和應(yīng)用中采用的說話人識(shí)別系統(tǒng)通常包含以下幾個(gè)部分:預(yù)處理、特征提取、模式匹配和判決。其結(jié)構(gòu)框圖如下所示: 說話人識(shí)別系統(tǒng)框架圖 該系統(tǒng)按照時(shí)序邏輯可分為訓(xùn)練和識(shí)別兩個(gè)階段。訓(xùn)練過程是指身份明確的目標(biāo)說話人根據(jù)系統(tǒng)要求輸入一定數(shù)量的語料,通過一系列的后續(xù)處理得到目標(biāo)說話人的語音模型,該模型與目標(biāo)說話人程一一對(duì)應(yīng)關(guān)系。識(shí)別過程是指對(duì)于一段測(cè)試語音,系統(tǒng)將提取出的特征與模型庫中指定說話人進(jìn)行比較,通過閾值打分手段給出是否匹配的判決。 第1章 緒論 4 說話人識(shí)別技術(shù)的難點(diǎn) 目前,雖然說話人識(shí)別技術(shù)已有一些實(shí)際應(yīng)用,但由于復(fù)雜的應(yīng)用環(huán)境和應(yīng)用需求,說話人識(shí)別還存在諸多問題需要解決。下面列舉了一些當(dāng)前說話人識(shí)別研究中面臨的主要難點(diǎn): 1. 背景噪聲對(duì)識(shí)別性能的干擾。在現(xiàn)實(shí)應(yīng)用中,語音不可能做到絕對(duì)純凈,各種背景噪聲的混入降低了語音質(zhì)量,改變了語音信號(hào)原有的聲學(xué)特征,使不同人的語音區(qū)分度降低;在一些過強(qiáng)噪聲環(huán)境中,說話人的發(fā)聲方式也會(huì)隨之發(fā)生一些變化;同時(shí),噪聲又具有多樣性,使得在處理帶噪語音時(shí)很難采取固定的方法或特征來應(yīng)對(duì)多種多樣的噪聲。 2. 語音時(shí)變性的影響。人的發(fā)音方式會(huì)隨著生理狀況和心理狀況的變化而變化。比如:語音特征會(huì)隨著年齡的變化而變化;人在患有感冒等疾病時(shí)發(fā)音也會(huì)發(fā)生很大變化。這些時(shí)變因素的存在同樣會(huì)影響說話人識(shí)別的性能。 3. 難以找到簡(jiǎn)單且能反映說話人語音特性的語音特征參數(shù)2。目前在說話人識(shí)別系統(tǒng)中采用的明這些特征除了能反映一定的說話人個(gè)性特征外還能夠反映大量語義信息,因此可能會(huì)對(duì)說話人識(shí)別性能造成干擾。目前還沒有較好的特征能夠?qū)€(gè)性信息和語義信息相剝離。 4. 聲音具有一定的模仿偽造性3。利用語音合成技術(shù)偽造與目標(biāo)說話人相似的語音,或者利用高保真錄音設(shè)備錄制目標(biāo)說話人語音,都可能闖入說話人識(shí)別系統(tǒng),使系統(tǒng)的安全性降低。 除此以外,還有一些其他的難點(diǎn)需要解決,如:超短語音、大規(guī)模說話人的識(shí)別等。 選題背景和意義 高區(qū)分性語音選取 說話人識(shí)別中,輸入語料往往夾雜著各種各樣的信息,這其中包括:反映說話人個(gè)性特征的信息、反映話音內(nèi)容的語義信息,還包括了信道信息、環(huán)境噪聲信息等等。在語音的不同段落,這些信息所占的比重不盡相同。比如:語音的靜音段(不含目標(biāo)說話人聲音的語音段落)通常反映了更多的噪聲信息和信道信息,如果將這部分語音段落輸入說話人識(shí)別系統(tǒng)進(jìn)行特征提取和模型訓(xùn)練識(shí)別,將對(duì)識(shí)別結(jié)果造成很大干擾。因此在進(jìn)行特征提取之前,對(duì)語料進(jìn)行說話人信息區(qū)分性大小的檢測(cè),并選取有效語音部分就變得非常必要。 第1章 緒論 5 說話人識(shí)別中的高區(qū)分性語音選取是指:在說話人識(shí)別系統(tǒng)的前端,對(duì)錄入的語料進(jìn)行初步處理,依據(jù)特定規(guī)則從中挑選最能區(qū)分說話人個(gè)性特征和其他無關(guān)信息特征的語音段落,使得這部分語音與未經(jīng)處理的語音相比能夠提高說話人特征模型分布的類間離散度,減少語音中無關(guān)信息對(duì)說話人識(shí)別性能的干擾。 目前采用的高區(qū)分性語音選取方法 目前在說話人識(shí)別中廣泛采取的高區(qū)分性語音選取方法,主要是使用各種端點(diǎn)檢測(cè)算法。其目的是從一段包含語音的信號(hào)中定位語音的起止點(diǎn),以區(qū)分語音和非語音信號(hào)4。通過語音端點(diǎn)檢測(cè),可以排除靜音段或噪聲段的干擾,還可以以此降低數(shù)據(jù)采集量5。 現(xiàn)有高區(qū)分性語音選取方法的不足 總體上看,目前應(yīng)用于說話人識(shí)別系統(tǒng)的高區(qū)分性語音選取模塊在功能上還相對(duì)比較簡(jiǎn)單,還存在一些明顯的不足: 1)目前的端點(diǎn)檢測(cè)算法最初主要應(yīng)用于語音識(shí)別研究領(lǐng)域,目前研究提出的各種端點(diǎn)檢測(cè)算法都是為了盡可能準(zhǔn)確地找到語音的端點(diǎn),以保證語音內(nèi)容的完整性不會(huì)被端點(diǎn)檢測(cè)所破壞。然而對(duì)于說話人識(shí)別來說,語音內(nèi)容的完整并不表示語音就一定最能代表說話人的聲紋特點(diǎn)。 以人類的聽覺處理機(jī)制為例,人類的聽覺系統(tǒng)對(duì)聲音所包含信息的處理分析能力非常奇特而強(qiáng)大,能夠在非常復(fù)雜的條件和環(huán)境下,提取并跟蹤其感興趣的語音成分6,7。 比如,人類可以在不同的語種環(huán)境下準(zhǔn)確識(shí)別說話人的身份,即使被試者聽不懂目標(biāo)說話人的語言,或者目標(biāo)說話人所說的語音根本不具有語義內(nèi)容,只要目標(biāo)說話人的聲音是被試者所熟悉的,被試者就很有可能判斷出目標(biāo)說話人的真實(shí)身份。大量的研究表明,人對(duì)說話人身份的判別很少需要依賴說話人所說內(nèi)容的語義信息,雖然在某些情況下,語義信息可以起到一定的輔助作用,但其并不是決定性因素。 又比如,當(dāng)人聽到很短的一段語音(可能只是一個(gè)詞)時(shí),往往就能準(zhǔn)確判斷說話人的身份,這通常與語音的內(nèi)容并不相關(guān)。有研究8表明,人耳接收的聲音信號(hào)具有非常顯著的統(tǒng)計(jì)特征,根據(jù)不同音素的出現(xiàn)概率,人類會(huì)采用特定的音素編碼機(jī)制,通過對(duì)部分音素采用更精細(xì)的編碼刻畫來讓說話人的特征更加突出。 再比如,當(dāng)背景噪聲很大或存在其他多個(gè)說話人時(shí),與機(jī)器相比,人類依然第1章 緒論 6 能夠較為有效地分辨目標(biāo)說話人的聲音并對(duì)其進(jìn)行追蹤。一些心理物理學(xué)的研究9表明,人在這類復(fù)雜環(huán)境中通常會(huì)采用一種信息掩蔽的策略,即:人耳會(huì)按照一定的感知規(guī)則對(duì)聲音信號(hào)在時(shí)域上進(jìn)行感知分離,利用先驗(yàn)知識(shí)將背景掩蔽音剝離,然后再將剩下的目標(biāo)音進(jìn)行感知整合。 因此,基于對(duì)人類聽覺處理機(jī)制的分析可以發(fā)現(xiàn),一段語音在語義信息層面的完整性并不是區(qū)分不同說話人個(gè)性特征分布的要素。這一點(diǎn)對(duì)于現(xiàn)有說話人識(shí)別研究中的高區(qū)分性語音選取具有很大的指導(dǎo)意義。一段語音中哪些要素是最能體現(xiàn)說話人個(gè)性,如何根據(jù)這些要素原則改進(jìn)高區(qū)分性語音選取方法,這是本論文重點(diǎn)考慮的問題。 2)現(xiàn)有的高區(qū)分性語音選取方法中缺少對(duì)語音質(zhì)量的控制和判斷。雖然在實(shí)驗(yàn)室研究環(huán)境下錄制的語音都比較規(guī)范,但如果將說話人識(shí)別技術(shù)應(yīng)用于實(shí)際,那么不同人群在不同環(huán)境條件下錄入的語音可能存在各種各樣的問題,比如:音量過小、音量過大、語料中沒有出現(xiàn)說話人的聲音、語料中混入他人的說話聲等等。如果在高區(qū)分性語音選取部分不能對(duì)這部分存在明顯質(zhì)量問題的語音進(jìn)行排查,可能會(huì)導(dǎo)致系統(tǒng)識(shí)別性能的大幅度下降。 本文研究?jī)?nèi)容 因此,本文主要針對(duì)現(xiàn)有高區(qū)分性語音選取過程的不足進(jìn)行研究,重點(diǎn)探究了發(fā)音方式與信噪比這兩個(gè)因素對(duì)說話人識(shí)別的影響,并將現(xiàn)有基于語音端點(diǎn)檢測(cè)的處理方法改進(jìn)為基于元音和高信噪比部分提取的高區(qū)分性語音選取方法,希望以此提高后續(xù)特征提取結(jié)果對(duì)說話人個(gè)性特征的表征度。另外,在改進(jìn)的高區(qū)分性語音選取步驟前端中加入語音質(zhì)量控制模塊,希望通過加強(qiáng)對(duì)語音質(zhì)量的檢測(cè)與控制,發(fā)現(xiàn)并阻止質(zhì)量不合格語音對(duì)系統(tǒng)的影響。 論文結(jié)構(gòu)安排 本論文共分為五章,現(xiàn)將每章的主要表述內(nèi)容陳述如下: 第一章是緒論部分,介紹論文研究工作的選題背景、意義及相關(guān)的研究現(xiàn)狀。 第二章主要介紹目前語音端點(diǎn)檢測(cè)廣泛采取的各種算法,并對(duì)這些算法性能的優(yōu)劣進(jìn)行分析。 第三章將重點(diǎn)探討發(fā)音方式對(duì)語音區(qū)分性的影響,及其帶來的對(duì)說話人識(shí)別性能的影響,提出基于發(fā)音方式的高區(qū)分性語音選取算法。 第四章詳細(xì)探討了信噪比對(duì)語音區(qū)分性的影響,重點(diǎn)研究了語音的噪聲估計(jì)算法,基于改進(jìn)后的噪聲估計(jì)算法完善高區(qū)分性語音選取環(huán)節(jié)。 第1章 緒論 7 第五章主要綜合前幾章的研究成果,實(shí)現(xiàn)一個(gè)較為結(jié)構(gòu)完整的高區(qū)分性語音選取模塊,實(shí)現(xiàn)對(duì)語音質(zhì)量的有效檢測(cè)和控制,并從質(zhì)量合格的語音中選取高區(qū)分性語音段落,在基于最后是對(duì)論文的總結(jié)和對(duì)未來工作的展望。 第2章 常用的語音端點(diǎn)檢測(cè)算法 8 第2章 常用的語音端點(diǎn)檢測(cè)算法 引言 語音端點(diǎn)檢測(cè)(是指通過信號(hào)域的分析,從一段語音中尋找確定目標(biāo)說話人有效語音信號(hào)的起止點(diǎn),同時(shí)將靜音、純?cè)肼暤炔糠峙懦谕?。在語音信號(hào)處理的許多領(lǐng)域,比如語音增強(qiáng)、語音識(shí)別、說話人識(shí)別等,語音端點(diǎn)檢測(cè)都扮演著重要角色,直接影響著后續(xù)識(shí)別工作的性能。 語音端點(diǎn)檢測(cè)最初被應(yīng)用于電話傳輸與轉(zhuǎn)換系統(tǒng)中,通過端點(diǎn)檢測(cè)可以實(shí)現(xiàn)在空閑信道中加入其他人的語音信息,從而提高信道的時(shí)間分配效率。隨后,各式各樣的語音端點(diǎn)檢測(cè)算法被提出,這些算法在精度、復(fù)雜度等方面都具有很大差別。一般來說,一個(gè)理想的端點(diǎn)檢測(cè)算法應(yīng)具有以下幾個(gè)特點(diǎn):(1)能夠精確地劃分語音段和非語音段;(2)對(duì)于不同的語音、錄音環(huán)境和信道具有魯棒性和適應(yīng)性;(3)實(shí)現(xiàn)盡量簡(jiǎn)單,避免過高的計(jì)算復(fù)雜度;(4)能夠?qū)崟r(shí)處理輸入的語音信號(hào)。通常,現(xiàn)有的算法都不能很好地兼顧以上幾個(gè)要求,往往需要根據(jù)系統(tǒng)的需求選擇較為合適的端點(diǎn)檢測(cè)算法或幾種算法的融合。 一般來說,語音端點(diǎn)檢測(cè)由兩個(gè)部分組成,即:“聲學(xué)特征提取”和“語音/非語音判決”。前者通過提取語音信號(hào)中的聲學(xué)特征來計(jì)算目標(biāo)語音信號(hào)存在的可能性。后者則以此為依據(jù)最終給出目標(biāo)語音信號(hào)是否存在的判決,比如采用門限閾值判決、似然率測(cè)試、隱馬爾可夫模型(方式。 在語音識(shí)別和說話人識(shí)別領(lǐng)域,語音端點(diǎn)檢測(cè)通常位于系統(tǒng)的前端。語音進(jìn)入系統(tǒng)后,首先進(jìn)行去直流分量、預(yù)加重等處理后,進(jìn)入語音端點(diǎn)檢測(cè)模塊,選出目標(biāo)語音部分后再進(jìn)行特征提取和建模識(shí)別等操作。 本章將介紹幾種目前在說話人識(shí)別領(lǐng)域常用的語音端點(diǎn)檢測(cè)算法,并對(duì)它們性能的優(yōu)劣進(jìn)行比較探討。 基于短時(shí)能量和過零率的語音端點(diǎn)檢測(cè) 在系統(tǒng)輸入信噪比較高時(shí),目標(biāo)語音的能量要大于其他部分。即使有噪聲干擾,其語音段的能量也是噪聲能量與語音能量的疊加。在這種情況下,通過計(jì)算信號(hào)的短時(shí)平均能量(幅度)就能夠取得比較理想的語音段劃分結(jié)果。 第2章 常用的語音端點(diǎn)檢測(cè)算法 9 短時(shí)平均能量 假設(shè)一段語音的時(shí)域信號(hào)為 x l ,經(jīng)過加窗分幀后得到的第nx m ,則 nx m 滿足下式: 0 1nx m w m x n m m N (2 1 0 10m Nw mm (2其中, 0,1 ,2 ,. T ,為幀移。第 nx m 的短時(shí)能量 120Nn x m(2有時(shí)候,也可以采用短時(shí)平均幅度替代短時(shí)平均能量的計(jì)算: 10Nn x m(2是反映語音信號(hào)強(qiáng)度的重要指標(biāo)10,與短時(shí)平均能量相比,短時(shí)平均幅度對(duì)高電平相對(duì)不敏感,在一些情況下有一定的好處。 第2章 常用的語音端點(diǎn)檢測(cè)算法 10 語音“1應(yīng)的波形、短時(shí)平均能量、短時(shí)平均幅度 對(duì)應(yīng)的波形和短時(shí)平均能量/幅度??梢钥闯?,短時(shí)平均能量/幅度能夠較好地檢測(cè)出語音中的濁音部分,但對(duì)于語音段開始和結(jié)尾處存在弱擦音、爆破音、鼻音的情況,往不能準(zhǔn)確地劃分,特別是當(dāng)有噪聲存在的情況下。因?yàn)檫@些部分的能量或幅度相對(duì)較小,有噪聲存在的情況下,容易對(duì)閾值判斷造成干擾,比如上圖中的聲母“s”位置,當(dāng)背景噪聲較大時(shí),可能會(huì)被噪聲能量所“淹沒”。 第2章 常用的語音端點(diǎn)檢測(cè)算法 11 短時(shí)平均過零率 對(duì)于連續(xù)語音信號(hào),過零表示時(shí)域波形穿過橫軸(零電平)一次;而對(duì)于離散采樣信號(hào),如果相鄰點(diǎn)取值的代數(shù)符號(hào)發(fā)生了改變,則表征著信號(hào)發(fā)生了一次過零11。信號(hào)的過零率是其頻率的一種簡(jiǎn)單直觀的反映。 短時(shí)過零率示為一幀語音信號(hào)波形發(fā)生過零的次數(shù): 1012Nn n x m x m (2其中, 1 0 (2在實(shí)際應(yīng)用時(shí),短時(shí)過零率可能會(huì)受直流偏移、50了減少這些干擾對(duì)過零率計(jì)算的影響,可以通過設(shè)置一個(gè)門限T,將過零率定義為越過正負(fù)門限。 門限寬度設(shè)置對(duì)過零率的影響 這時(shí),門限過零率的計(jì)算公式為: 101 Nn x m T x m Tx m T x m T (2這樣,如果語音信號(hào)中存在一些能量較小(不致于跨過門限)的噪聲干擾,也不會(huì)對(duì)過零率產(chǎn)生影響。 第2章 常用的語音端點(diǎn)檢測(cè)算法 12 語音“1應(yīng)的波形、短時(shí)過零率、短時(shí)門限過零率 與短時(shí)平均能量/幅度相比,短時(shí)過零率能夠彌補(bǔ)對(duì)清音判斷的不足,因?yàn)榍逡舻念l率相對(duì)較高,也就意味著有較高的過零率。同時(shí),短時(shí)過零率還能去除一些波形中的非自然語音部分。 在實(shí)際應(yīng)用中,人們往往將短時(shí)平均能量和短時(shí)過零率結(jié)合使用,對(duì)語音端點(diǎn)的檢測(cè)具有更高的準(zhǔn)確度。 第2章 常用的語音端點(diǎn)檢測(cè)算法 13 基于短時(shí)能量和過零率的雙門限端點(diǎn)檢測(cè)算法 該 法同時(shí)考慮信號(hào)的短時(shí)能量和過零率,設(shè)定雙門限來檢測(cè)語音端點(diǎn),將兩個(gè)參數(shù)結(jié)合使用,可以發(fā)揮各自的優(yōu)勢(shì),利用短時(shí)能量檢測(cè)濁音,用過零率檢測(cè)清音。這兩個(gè)門限值將整個(gè)端點(diǎn)檢測(cè)劃分為四個(gè)狀態(tài):靜音段、過渡段、語音段和結(jié)束段。最初,信號(hào)處于靜音段;當(dāng)短時(shí)能量和過零率二者之一超過低門限時(shí),進(jìn)入過渡段,同時(shí)標(biāo)記起始點(diǎn);在過渡段內(nèi),一旦兩個(gè)參數(shù)都降至低門限以下,則退回到靜音段;當(dāng)高門限被短時(shí)能量或過零率其中之一超過時(shí),判定為進(jìn)入語音段;信號(hào)處在語音段時(shí),當(dāng)兩個(gè)參數(shù)都降至低門限以下,如果同時(shí)滿足計(jì)時(shí)區(qū)間長(zhǎng)度小于設(shè)定的最小時(shí)間長(zhǎng)度,則判定該區(qū)間內(nèi)是噪音干擾,否則標(biāo)記為語音終止點(diǎn)12。 第2章 常用的語音端點(diǎn)檢測(cè)算法 14 采用雙門限法對(duì)語音“1端點(diǎn)劃分結(jié)果 基于短時(shí)能量和過零率的雙門限端點(diǎn)檢測(cè)算法與單獨(dú)使用短時(shí)能量或過零率相比,雖然能更準(zhǔn)確地劃分有聲段,但仍不能完美地解決噪聲環(huán)境下語音開頭和結(jié)尾處是弱擦音或鼻音的檢測(cè)問題。 短時(shí)自相關(guān)函數(shù)法 基音頻率(周期)是語音信號(hào)的一個(gè)重要參數(shù),人的基音頻率一般在80500過計(jì)算語音信號(hào)的短時(shí)自相關(guān)函數(shù),可以估計(jì)出基音頻率,然后根據(jù)基音頻率的分布區(qū)間給出語音段的起始位置。 對(duì)信號(hào)進(jìn)行短時(shí)自相關(guān)分析,定義某一幀信號(hào)的自相關(guān)函數(shù)為: 0N kn n k x m x m k (2通常,自相關(guān)函數(shù)會(huì)在基音周期整數(shù)倍位置出現(xiàn)波峰,因此可以通過檢測(cè)峰值間的距離可以來估計(jì)基音周期。 為保證正確提取基音,在分幀時(shí),設(shè)定的窗長(zhǎng)要大于2個(gè)基音周期,如果窗長(zhǎng)不夠,會(huì)給基音周期計(jì)算帶來困難。同時(shí)需要采用中值平滑法去除基音提取過程中造成的“野點(diǎn)”。所謂的中值平滑法就是構(gòu)造一個(gè)滑動(dòng)窗口,對(duì)窗口內(nèi)超出均值范圍的點(diǎn)進(jìn)行剔除操作。 其他語音端點(diǎn)檢測(cè)算法 除了上面介紹的幾種端點(diǎn)檢測(cè)算法外,還有基于倒譜特征13、信息熵14等的端點(diǎn)檢測(cè)算法。與前面提到的各種算法相比,這些算法在計(jì)算復(fù)雜度上更高,但同時(shí)對(duì)平穩(wěn)噪聲的魯棒性也相對(duì)更好。 總結(jié)與思考 從上面的介紹分析中可以看出,不同算法在精確度、復(fù)雜度等方面確實(shí)存在較大差異。 以上介紹的這些算法,最終目標(biāo)都是從語音找到盡可能完整的目標(biāo)語音段落,盡可能保證語義信息的完整性,這一要求在語音識(shí)別中尤為重要。然而在說話人識(shí)別研究中,說話人的語義信息并不是研究者所關(guān)注的,如何獲得最能反映說話第2章 常用的語音端點(diǎn)檢測(cè)算法 15 人個(gè)性特征的語音段落才是最關(guān)鍵的。從這個(gè)意義上看,因此以上介紹的各種算法或許并不能得到目標(biāo)最優(yōu)解。 此外,這些算法通常對(duì)于較純凈語音或噪聲相對(duì)穩(wěn)定的語音具有較好的檢測(cè)性能,當(dāng)語音信噪比較小或噪聲隨時(shí)間變化較大時(shí),往往會(huì)出現(xiàn)端點(diǎn)劃分不準(zhǔn)確的情況,即對(duì)噪聲不具有良好的魯棒性。 基于以上這些思考,本文接下來幾章將針對(duì)說話人識(shí)別研究的目標(biāo),對(duì)現(xiàn)有說話人識(shí)別系統(tǒng)的高區(qū)分性語音選取部分進(jìn)行改進(jìn),實(shí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年貴州城市職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性考試模擬試題帶答案解析
- 2026年衡陽幼兒師范高等??茖W(xué)校單招綜合素質(zhì)筆試備考試題帶答案解析
- 腫瘤精準(zhǔn)醫(yī)療發(fā)展現(xiàn)狀
- 2026年河南地礦職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試備考試題帶答案解析
- 2026年湖北三峽職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試模擬試題帶答案解析
- 2026年安陽職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試備考試題帶答案解析
- 醫(yī)院臨床病理學(xué)操作規(guī)范
- 醫(yī)療醫(yī)院管理與患者滿意度
- 護(hù)理職業(yè)素養(yǎng)與溝通能力
- 醫(yī)療人工智能在心理健康診斷中的應(yīng)用
- 酒店經(jīng)理客房服務(wù)質(zhì)量與管理效率績(jī)效評(píng)定表
- 普通高中化學(xué)課程標(biāo)準(zhǔn)(2025年修訂版)與2020年版對(duì)比
- 低空智能-從感知推理邁向群體具身
- 福建國有資產(chǎn)管理公司招聘面試題及答案
- 四川省2025年高職單招職業(yè)技能綜合測(cè)試(中職類)電子信息類試卷
- 2025年熔化焊接與熱切割作業(yè)考試題庫及答案
- 質(zhì)量互變課件
- 幼兒園重大事項(xiàng)社會(huì)穩(wěn)定風(fēng)險(xiǎn)評(píng)估制度(含實(shí)操模板)
- 2026年包頭輕工職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫附答案
- 2025至2030中國應(yīng)急行業(yè)市場(chǎng)深度分析及發(fā)展趨勢(shì)與行業(yè)項(xiàng)目調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- 2025年中厚鋼板行業(yè)分析報(bào)告及未來發(fā)展趨勢(shì)預(yù)測(cè)
評(píng)論
0/150
提交評(píng)論