已閱讀5頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)語(yǔ)音情感識(shí)別的研究與實(shí)現(xiàn).pdf.pdf 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
摘要 摘要 隨著計(jì)算機(jī)網(wǎng)絡(luò)通信技術(shù)和多媒體技術(shù)的飛速發(fā)展,新型的人機(jī)交互技術(shù) 已成為當(dāng)前計(jì)算機(jī)科學(xué)領(lǐng)域一個(gè)十分活躍的研究課題。語(yǔ)音信號(hào)和面部表情一 樣,傳遞著情感信息。語(yǔ)音情感識(shí)別的研究對(duì)于增強(qiáng)計(jì)算機(jī)的智能化和人性化, 開(kāi)發(fā)新型人機(jī)環(huán)境,以及推動(dòng)心理學(xué)等學(xué)科的發(fā)展,有著重要的現(xiàn)實(shí)意義。 本文首先介紹了語(yǔ)音情感識(shí)別的研究背景及關(guān)鍵技術(shù),著重介紹了有關(guān)語(yǔ) 音處理、語(yǔ)音情感特征分析與提取、識(shí)別方法和目前國(guó)內(nèi)外該領(lǐng)域的研究現(xiàn)狀 及發(fā)展方向。 然后,對(duì)語(yǔ)音情感識(shí)別的分析過(guò)程和設(shè)計(jì)思想進(jìn)行了深入詳細(xì)的探討。論 文完成了情感語(yǔ)音庫(kù)的建立、語(yǔ)音信號(hào)預(yù)處理、哈明窗與小波變換相結(jié)合提取 情感特征參數(shù)、采用加權(quán)歐式距離模板匹配方法實(shí)現(xiàn)情感識(shí)別等工作。通過(guò)實(shí) 驗(yàn)分析總結(jié)了所提取的多種情感特征參數(shù)對(duì)不同情感狀態(tài)有著不同的貢獻(xiàn)程 度,提出了采用貢獻(xiàn)分析法對(duì)提取的語(yǔ)音情感特征進(jìn)行加權(quán)處理并建立模板, 實(shí)現(xiàn)了系統(tǒng)對(duì)實(shí)時(shí)性的要求。采用面向?qū)ο蟮脑O(shè)計(jì)方法設(shè)計(jì)了語(yǔ)音情感識(shí)別的 原型系統(tǒng),并驗(yàn)證了上述方法的有效性。 最后,總結(jié)性分析了該領(lǐng)域存在的一些問(wèn)題和今后需要進(jìn)一步研究的課題。 關(guān)鍵詞:小波變換,語(yǔ)音情感識(shí)別,貢獻(xiàn)分析法,模板匹配 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rn e t w o r km u l t i m e d i at e c h n o l o g y , t h e t e c h n o l o g yo fn e wh u m a nm a c h i n ec o m m u n i c a t i o na n di n t e r a c t i o n ( h c i ) h a s b e c o m eav e r ya c t i v es t u d ys u b je c ti nt h ec o m p u t e rs c i e n c ef i e l da tp r e s e n t s p e e c h i sp a rw i t hf a c i a lo n eo ft h ef u n d a m e n t a lm e t h o d so fc o n v e y i n ge m o t i o n ,o na e x p r e s s i o n t h es t u d yo nt h es p e e c he m o t i o nr e c o g n i t i o nh a sf o u n di m p o r t a n t r e a l i s t i cv a l u e si ns u c ha s p e c t sa se n h a n c i n gt h ei n t e l l i g e n c ea n dh u m a n i t yo f c o m p u t e r , d e v e l o p i n gn e wh u m a n m a c h i n ee n v i r o n m e n t s ,p r o m o t i n gt h es t u d yo f p s y c h o l o g y i nt h i sp a p e r , w ef i r s t l yi n t r o d u c et h es t u d yb a c k g r o u n da n do t h e rr e l a t e dk e y t e c h n o l o g i e s o f s p e e c h e m o t i o n r e c o g n i t i o n b a s e do na u d i oi n f o r m a t i o n , e m p h a s i z i n go nt h ek n o w l e d g eo fd e a l i n gw i t hs p e e c h ,a n a l y z i n ga n de x t r a c t i n g s p e e c he m o t i o nf e a t u r e s ,r e c o g n i t i o nm e t h o d s t h es t u d ya c t u a l i t ya n di t st r e n di n t h i sf i e l di nt h ew o r l da tp r e s e n ta r ea l s oe m p h a s i z e d s e c o n d l yw ed i s c u s si nd e t a i l st h ep r o c e s so fa n a l y s e sa n dm a i nd e s i g ni d e a so f t h es p e e c he m o t i o nr e c o g n i t i o n w eh a v ef i n i s h e dt h ec o n s t r u c t i o no fe m o t i o n s p e e c ht e m p l a t e sd a t a b a s e ,t h ep r e p r o c e s so fs p e e c hs i g n a l s ,s p e e c he m o t i o nf e a t u r e s e x t r a c t i o nb a s e do nh a m m i n gf i l t e ra n dw a v e l e tt r a n s f o r m a t i o n ,s p e e c he m o t i o n r e c o g n i t i o nb a s e do nt e m p l a t e sm a t c h i n g ,c o m b i n i n gw e i g h t e de u c l i d e a nd i s t a n c e d u r i n gr e c o g n i t i o no fs p e e c he m o t i o nb a s eo na u d i of r e q u e n c y , w ea n a l y z ea n d s u m m a r i z ea c c o r d i n gt oe x a m i n a t i o n st h a tt h ed i f f e r e n te x t r a c t e ds p e e c he m o t i o n f e a t u r e sh a v ed i f f e r e n tc o n t r i b u t ei n d e g r e et oe v e r ys p e e c he m o t i o n s t a t u s t h e r e f o r e ,w ep r e s e n tt h ec o n t r i b u t e sa n a l y z i n ga l g o r i t h mt og i v ed i f f e r e n tw e i g h t s t od i f f e r e n te x t r a c t e ds p e e c he m o t i o nf e a t u r e sa n dt h e nc o n s t r u c tt h et e m p l a t e s t h e n i i a b s t r a c t w ec a nu s et h et e m p l a t e sm a t c h i n gm e t h o d sb a s e do nw e i g h t e de u c l i d e a nd i s t a n c et o a c h i e v es p e e c he m o t i o nr e c o g n i t i o n ,e n s u r i n gt h er e a l t i m ec o m m a n do ft h es y s t e m w ea d o p tt h eo b j e c to r i e n t e dd e s i g nm e t h o d st od e s i g nt h es y s t e mo fs p e e c he m o t i o n r e c o g n i t i o na n dt h ev a l i d i t yo fa b o v em e t h o d si sp r o v e d i nt h ee n do ft h i sp a p e r , w es u m m a r i z es o m ep r o b l e m st h a th a v en o tb e e ns o l v e d a n dt h ef u t u r ew o r k si nt h i sf i e l dw i l lb ed i s c u s s e d k e y w o r d s :w a v e l e tt r a n s f o r m a t i o n ,s p e e c he m o t i o nr e c o g n i t i o n ,c o n t r i b u t e s a n a l y z i n ga l g o r i t h m ,t e m p l a t e sm a t c h i n g i i i 獨(dú)創(chuàng)性! 聲明 本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡 我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò) 的研究成果,也不包含為獲得鑫注! 重整盤(pán)堂或其它教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的 材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示 了謝意。 學(xué)位論文版權(quán)使用授權(quán)書(shū) 期: 本人完全了解天津師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)將學(xué)位論 文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,并采用影印、縮印或掃描等復(fù)制手段保存、 匯編以供查閱和借閱。同意學(xué)校向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤(pán)。 ( 保密的論文在解密后應(yīng)遵守此規(guī)定) 簽名: 么金至塹 導(dǎo)師簽名: 日期: 第1 章緒論 第1 章緒論 1 1研究背景 隨著信息技術(shù)的高速發(fā)展和人類對(duì)計(jì)算機(jī)技術(shù)的依賴性的不斷增強(qiáng),人機(jī)的 交互能力越來(lái)越受到研究者的重視。為了使人類與計(jì)算機(jī)間能夠更加智能更加自 然地交互,新型的人機(jī)交互( h u m a nm a c h i n ei n t e r a c t i o n ,h c i ) 技術(shù)正逐漸成為 研究熱點(diǎn)。如何實(shí)現(xiàn)計(jì)算機(jī)的擬人化,使其能感知周圍的環(huán)境和氣氛以及對(duì)象的 態(tài)度、情感等內(nèi)容,自適應(yīng)地為對(duì)話對(duì)象提供最舒適的對(duì)話環(huán)境,盡量消除操作 者和機(jī)器之間的障礙,已經(jīng)成為下一代計(jì)算機(jī)發(fā)展的目標(biāo)。研究表明,在人機(jī)交 互中需要解決的問(wèn)題實(shí)際與人和人交流中的重要因素是一致的,最關(guān)鍵的都是 虬隋感智能”的能力。計(jì)算機(jī)要能夠更加主動(dòng)地適應(yīng)操作者的需要,首先必須能 夠識(shí)別操作者的情感,而后再根據(jù)情感的判斷來(lái)調(diào)整交互對(duì)話的方式。對(duì)于情感 信息的處理技術(shù)的研究包括多個(gè)方面,主要有情感特征分析、情感識(shí)別( 如肢體 情感識(shí)別、面部情感識(shí)別和語(yǔ)音情感識(shí)別等) 、情感模擬( 如情感語(yǔ)音的合成等) 。 目前,關(guān)于情感信息處理的研究正處在不斷深入之中,其中語(yǔ)音信號(hào)中的情感信 息處理的研究也越來(lái)越受到人們的重視。 通過(guò)語(yǔ)音相互傳遞信息是人類最重要的基本功能之一。聲音是人類常用的工 具,是相互傳遞信息的最重要的手段。情感在人們生活和交流中起著重要的角色。 包含在語(yǔ)音中的情感信息是一種很重要的信息資源,它是人們感知事物的必不可 少的信息。例如同樣的一句話,由于說(shuō)話人表現(xiàn)的情感不同,意思就會(huì)完全不同, 在聽(tīng)者的感知上就可能會(huì)有較大的差別。所謂“聽(tīng)話聽(tīng)音 就是這個(gè)道理。然而, 傳統(tǒng)的語(yǔ)音信號(hào)處理技術(shù)把這部分信息作為噪聲給去掉了。實(shí)際上,語(yǔ)音信號(hào)中 不僅包含文字信息,還包含了語(yǔ)調(diào)及情感信息。人們同時(shí)接受各種信息,怎樣有 效地利用各種形式的信息達(dá)到最佳的信息傳遞和交流效果,是今后信息處理研究 的發(fā)展方向。所以分析和研究語(yǔ)音中的情感特征、判斷說(shuō)話人的喜怒哀樂(lè)是一個(gè) 意義重大的研究課題。 第1 章緒論 1 2 語(yǔ)音情感識(shí)別的研究領(lǐng)域 語(yǔ)音的情感識(shí)別是目前信號(hào)處理及模式識(shí)別領(lǐng)域的一個(gè)新的研究熱點(diǎn),在許 多領(lǐng)域有著重要的意義,涉及領(lǐng)域有:信號(hào)處理、心理學(xué)研究、虛擬現(xiàn)實(shí)技術(shù)、 新型人機(jī)交互技術(shù)、模式識(shí)別、信息論、發(fā)聲機(jī)理、聽(tīng)覺(jué)機(jī)理、人工智能等。 語(yǔ)音情感識(shí)別,就是通過(guò)分析人類語(yǔ)音對(duì)應(yīng)于情感的變化規(guī)律,利用計(jì)算機(jī) 從語(yǔ)音中準(zhǔn)確提取情感特征,并根據(jù)這些特征確定被測(cè)對(duì)象的情感狀態(tài)。相對(duì)于 有幾十年研究歷史的語(yǔ)音信號(hào)處理,語(yǔ)音情感識(shí)別著眼點(diǎn)不是語(yǔ)音信號(hào)處理中語(yǔ) 音詞匯表達(dá)的準(zhǔn)確性,而是從前研究中完全忽略的包含在語(yǔ)音信號(hào)中的情感和情 緒信息。而這部分恰恰是人們感知說(shuō)話人所要表達(dá)情感的必不可少的信息。因此 對(duì)語(yǔ)音情感信息的處理在一定程度上可以說(shuō)是對(duì)這部分被去掉信息的“復(fù)權(quán)”研 究。特別需要指出的是,語(yǔ)音情感識(shí)別和人的情緒識(shí)別是兩個(gè)不同概念。情緒一 般能夠完全體現(xiàn)人的意圖,但由于情感語(yǔ)音與所處的情緒狀態(tài)并不是一一對(duì)應(yīng) 的,因此某些情緒并不通過(guò)可視的情感語(yǔ)音表現(xiàn)出來(lái)。另一方面,情感語(yǔ)音又和 內(nèi)在情緒有著密切的聯(lián)系,大多數(shù)情感語(yǔ)音都由特定的情緒所支配。由此可見(jiàn), 情感語(yǔ)音在人們交流過(guò)程中起著重要的作用,使用計(jì)算機(jī)進(jìn)行語(yǔ)音情感識(shí)別進(jìn)而 確定人的內(nèi)心情緒的研究是完全可行的。 近幾年,研究者對(duì)語(yǔ)音中的情感信息表現(xiàn)出日益濃厚的興趣。他們從生理、 心理學(xué)角度的情感建模到語(yǔ)音情感的聲學(xué)關(guān)聯(lián)特征,以及各種針對(duì)語(yǔ)音情感識(shí)別 和合成的算法、理論展開(kāi)了深入的研究,還從工程學(xué)的角度將情感作為信息信號(hào) 工學(xué)的研究對(duì)象。1 9 8 1 年,w i l l i a m s 和s t e v e n s 1 】通過(guò)對(duì)語(yǔ)音產(chǎn)生機(jī)理的分析, 總結(jié)出不同情感狀態(tài)下,生理上起主導(dǎo)作用的神經(jīng)系統(tǒng)及相應(yīng)的生理反應(yīng)。1 9 9 6 年d e l l a e r t 2 】提出以基音頻率相關(guān)信息為主要特征的分類方法。他從基頻輪廓 ( p i t c hc o n t o u r ) 曲線提取特征參數(shù),通過(guò)研究指出,語(yǔ)音情感識(shí)別中最顯著的 特征包括:基音頻率的最大值、最小值和中值,并識(shí)別了悲傷、憤怒、高興和害 怕。近年來(lái),隨著h m m 、小波變換等新方法的應(yīng)用【5 】,以及高性能的計(jì)算資源 的使用,都極大地推動(dòng)了語(yǔ)音情感識(shí)別技術(shù)的研究與發(fā)展,并使其成為科研熱點(diǎn)。 語(yǔ)音信號(hào)的情感識(shí)別也可以看成一個(gè)模式識(shí)別的問(wèn)題,在眾多領(lǐng)域有著極大 的應(yīng)用價(jià)值。如果一說(shuō)話人的情感狀態(tài)可準(zhǔn)確識(shí)別,那么在人機(jī)交互中機(jī)器將能 更有效地對(duì)使用者的要求做出回應(yīng)。為進(jìn)一步提高對(duì)語(yǔ)音識(shí)別的準(zhǔn)確率,通過(guò)提 2 第1 章緒論 取說(shuō)話人的情感狀態(tài),將提高對(duì)語(yǔ)言的理解,也能加強(qiáng)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確 率。 1 3 語(yǔ)音情感識(shí)別技術(shù)概述 語(yǔ)音情感識(shí)別是建立在對(duì)語(yǔ)音信號(hào)的產(chǎn)生機(jī)制深入分析的基礎(chǔ)上,對(duì)語(yǔ)音中 反映個(gè)人情感信息的一些特征參數(shù)進(jìn)行提取,并利用這些參數(shù)采用相應(yīng)模式識(shí)別 方法確定語(yǔ)音情感狀態(tài)的技術(shù)。 隨著新型的人機(jī)交互技術(shù)的快速發(fā)展,語(yǔ)音處理領(lǐng)域產(chǎn)生了許多熱門的研究 方向,如個(gè)人機(jī)器人、語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音的轉(zhuǎn)換、語(yǔ)言翻譯、個(gè)人隱私 保護(hù)等,其中,語(yǔ)音情感識(shí)別技術(shù)的研究是伴隨著這些主要的研究方向的興起而 發(fā)展。語(yǔ)音情感識(shí)別還可以應(yīng)用在教學(xué)輔導(dǎo)及娛樂(lè)等方面。隨著i n t e m e t 的普及 以及計(jì)算機(jī)性能的大幅提高,語(yǔ)音情感識(shí)別技術(shù)將被廣泛應(yīng)用在更多的領(lǐng)域,會(huì) 有非常好的經(jīng)濟(jì)效益和社會(huì)價(jià)值。 1 3 1語(yǔ)音信號(hào)中情感特征分析 對(duì)語(yǔ)音中的情感特征進(jìn)行分析,首先要對(duì)研究對(duì)象語(yǔ)音情感加以界定。 情感狀態(tài)有長(zhǎng)期和短期之分。長(zhǎng)期情感狀態(tài)反應(yīng)了潛在的長(zhǎng)期情感。而短期情感 狀態(tài)則是指受到短時(shí)刺激后的情緒以及由此激發(fā)起人的及時(shí)行為。在本文中,我 們研究的對(duì)象僅僅是短期情感對(duì)于語(yǔ)音信號(hào)的影響。 在現(xiàn)實(shí)生活中,每個(gè)人的語(yǔ)音都具有自身的特點(diǎn)。通過(guò)一些研究人員在說(shuō)話 人識(shí)別的研究中發(fā)現(xiàn),包含在語(yǔ)音信號(hào)中的個(gè)人信息是一系列各種因素的綜合 體,一個(gè)說(shuō)話人區(qū)別于另一個(gè)說(shuō)話人語(yǔ)音個(gè)人特征包括很多方面。在這些因素中, 主要的可以分成三類特征: l 、基于音段的特征:指語(yǔ)音的音色和聽(tīng)覺(jué)方面的特征。 2 、基于超音段的特征:又稱語(yǔ)音的韻律特征,主要指說(shuō)話人的種類特征、 說(shuō)話人風(fēng)格、說(shuō)話的語(yǔ)調(diào)、音高、情緒等方面的特征。 3 、基于語(yǔ)言的特征:主要指由于地理區(qū)域的不同導(dǎo)致使用的語(yǔ)種和方言的 不同而表現(xiàn)出的特征。 基于音段的特征的表示參數(shù),廣泛運(yùn)用于各種語(yǔ)音處理相關(guān)的研究中,主要 3 第1 章緒論 有:共振峰中心頻率、帶寬、l p c 系數(shù)、聲道面積比、倒譜系數(shù)等。不同類別( 性 別,年齡等) 的人在超音段特征( 韻律特征) 上有著明顯的差別,例如基音頻率 軌跡的差別,童聲和女聲的音高明顯高于成人和男聲。我們知道聲調(diào)對(duì)語(yǔ)言表達(dá) 具有特殊的意義和功能,而聲調(diào)主要和音高有關(guān),即基音頻率軌跡。基于語(yǔ)言的 特征,超出本文的研究范圍,不展開(kāi)敘述。 通過(guò)對(duì)語(yǔ)音中個(gè)人特征的分析,我們可以明確,對(duì)于情感語(yǔ)音的識(shí)別將著重 于音段和超音段的特征這兩大類上。在后面相關(guān)章節(jié)中,將具體介紹語(yǔ)音情感特 征參數(shù)的提取。 1 3 2 語(yǔ)音情感識(shí)別的研究方法 九十年代中期之后,語(yǔ)音情感信息處理受到了越來(lái)越多的關(guān)注,這方面的研 究也在不斷深入,并取得了一定的進(jìn)展。對(duì)于語(yǔ)音情感識(shí)別的研究涉及多方面內(nèi) 容,主要包括三部分:語(yǔ)音信號(hào)的預(yù)處理、語(yǔ)音情感特征參數(shù)的提取和情感語(yǔ)音 的識(shí)別。下面將就這三方面內(nèi)容,對(duì)相關(guān)研究方法加以介紹。 一、語(yǔ)音信號(hào)的預(yù)處理 在對(duì)語(yǔ)音信號(hào)進(jìn)行分析和處理前,必須對(duì)其進(jìn)行預(yù)處理,目的是改善語(yǔ)音信 號(hào)質(zhì)量,統(tǒng)一語(yǔ)音信號(hào)格式,并為后繼的語(yǔ)音特征提取和情感識(shí)別打好基礎(chǔ)。語(yǔ) 音信號(hào)預(yù)處理包括反混疊失真濾波、模數(shù)變換、偏差校正、預(yù)加重、去噪處理 以及語(yǔ)音信號(hào)的平滑處理等許多方法【1 2 】。 1 、分幀 語(yǔ)音信號(hào)從整體來(lái)看其特性及表征其本質(zhì)特征的參數(shù)均是隨時(shí)間而變化的。 但是,由于不同的語(yǔ)音是由人的口腔肌肉運(yùn)動(dòng)構(gòu)成聲道某種形狀而產(chǎn)生的響應(yīng), 而這種口腔肌肉運(yùn)動(dòng)相對(duì)于語(yǔ)音頻率來(lái)說(shuō)是非常緩慢的,所以在一個(gè)短時(shí)間范圍 內(nèi)( 一般認(rèn)為在1 0 2 0 m s 的短時(shí)間內(nèi)) ,語(yǔ)音信號(hào)的特性基本保持不變,即語(yǔ) 音信號(hào)具有短時(shí)平穩(wěn)性。將語(yǔ)音信號(hào)分為一段一段來(lái)分析其特征參數(shù),其中每一 段稱為“一幀”,幀長(zhǎng)一般取為l o 2 0 m s 。各幀之間常有一些疊接,對(duì)每幀的處 理結(jié)果是一個(gè)數(shù)或一組數(shù)。這樣,對(duì)于整體的語(yǔ)音信號(hào)來(lái)講,分析出的是由每一 幀特征參數(shù)組成的特征參數(shù)時(shí)問(wèn)序列,用于描述語(yǔ)音信號(hào)的特征。 2 、加窗 4 第1 章緒論 通過(guò)分幀處理,我們可以將其理解為,將原始語(yǔ)音信號(hào)序列x ( 朋) 分成一些 短段,等效于乘以幅度為1 的移動(dòng)窗w ( n m ) 。當(dāng)移動(dòng)幅度不是1 而是按一定的 函數(shù)取值時(shí),所分成的短段語(yǔ)音的各個(gè)取樣值將受到一定程度的加權(quán)。對(duì)于語(yǔ)音 信號(hào)的各段進(jìn)行處理,就是對(duì)各段進(jìn)行某種變換或施以某種運(yùn)算,其式為: o 。= 研x ( 刪) w ( n - m ) ( 1 1 ) 其中t 【】表示某種運(yùn)算,它可以是線性的也可以是非線性的,z 徹) 為輸入語(yǔ) 音信號(hào)的序列。q 是所有各段經(jīng)過(guò)處理后得到的一個(gè)時(shí)間序列,可以理解為離 散的語(yǔ)音信號(hào)丌】經(jīng)過(guò)一個(gè)單位沖激為x ( 瓏) 的f i r 低通濾波器產(chǎn)生的輸出。這 里的帶寬和頻率響應(yīng)取決于窗函數(shù)的選擇。在語(yǔ)音信號(hào)中采用最多的窗函數(shù)是直 角窗和哈明窗。 二、語(yǔ)音情感特征參數(shù)的提取技術(shù) 語(yǔ)音情感識(shí)別研究中,語(yǔ)音特征參數(shù)的提取對(duì)于識(shí)別效果起了決定性的作 用。在研究中常用的幾種典型方法是:線性預(yù)測(cè)分析( l i n e a r p r e d i c t i v ea n a l y s i s , l p ) 、m e l 倒譜系數(shù)( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t ,m f c c ) 和感覺(jué)加權(quán) 線性預(yù)測(cè)分析( p e r c e p t u a ll i n e a rp r e d i c t i v ea n a l y s i s ,p l p ) 。 l 、線性預(yù)測(cè)分析( l p ) 1 9 6 7 年,i t a k u r a 等人最先將線性預(yù)測(cè)技術(shù)直接應(yīng)用到語(yǔ)音分析和合成中。 在各種語(yǔ)音分析技術(shù)中,線性預(yù)測(cè)分析是第一個(gè)得到實(shí)際應(yīng)用的技術(shù),并且至今 仍是語(yǔ)音信號(hào)處理中的核心技術(shù)。常用的求解方法有基于自相關(guān)法的d u r b i n 遞 推算法和自協(xié)方差法【8 1 等。 在隨機(jī)信號(hào)譜分析下,常把一個(gè)時(shí)間序列模型化為白噪聲序列通過(guò)一個(gè)數(shù)字 濾波器日( z ) 的輸出【4 1 1 。在一般情況下,日( z ) 可寫(xiě)成有理分式的形式: h ( z ) = g 1 + l = 1 爭(zhēng)z 一 l 一口f z 一 ( 1 2 ) 式中,系數(shù)a ,b i 以及增益因子g 就是模型參數(shù),因而信號(hào)可以用有限數(shù)目的參 5 第1 章緒論 數(shù)構(gòu)成的信號(hào)模型來(lái)表示,如圖1 1 所示。 圖1 1 信號(hào)s ( ,z ) 的模型化 2 、m e l 倒譜系數(shù)( m f c c ) 人耳對(duì)不同頻率的聲音信號(hào)的響應(yīng)是非線性的。不同頻率聲音形成的波,在 沿著耳蝸基底膜傳播的過(guò)程中,峰值出現(xiàn)在耳蝸基底膜的的不同位置,且與聲音 頻率呈對(duì)數(shù)關(guān)系。為模擬人耳的這種非線性特點(diǎn),提出了各種頻率彎折方法,如 b a r k 度、等效矩形帶寬度和m e l 度。其中基于m e l 度的頻率彎折如下式所示。 f m e u ) = 2 5 9 5 l g ( 1 + 去) 1 由于充分考慮了人的聽(tīng)覺(jué)特性,而且沒(méi)有任何前提假設(shè),;m f c c 參數(shù)具有良 好的識(shí)別性能和抗噪聲能力,但計(jì)算量和計(jì)算精度要求高。m f c c 計(jì)算過(guò)程,如 圖1 2 所示。 擷處理后 語(yǔ)音輸入。 哈明窗楨選 f f t譫波器組離散余弦 能量輸出變換 圖1 2m f c c 計(jì)算過(guò)程示意圖 3 、感覺(jué)加權(quán)線性預(yù)測(cè)分析( p l p ) 如前所述,線性預(yù)測(cè)分析最大的缺點(diǎn)是對(duì)各頻段的功率譜采用了相同算法, 忽略了人耳的非線性特性。事實(shí)上,人耳對(duì)于1 0 0 0 h z 左右的聲音比較敏感,在 8 0 0 h z 以上的高頻段,人耳的頻率分辨率隨著頻率的升高而降低。h e r m a n s k y 通 過(guò)實(shí)驗(yàn)證明l p 分析確實(shí)與人類聽(tīng)覺(jué)感知習(xí)慣有不吻合之處,并對(duì)應(yīng)提出了感覺(jué) 加權(quán)線性預(yù)測(cè)分析( p l p ) 彌補(bǔ)了l p 的缺點(diǎn)【9 】,該特征參數(shù)是全極點(diǎn)模型預(yù)測(cè) 多項(xiàng)式的一組系數(shù),等效于一種l p c ( 線性預(yù)測(cè)系數(shù)) 特征。它們的不同是用輸 入的語(yǔ)音信號(hào)經(jīng)聽(tīng)覺(jué)模型處理后所得到的信號(hào)替代傳統(tǒng)的l p c 分析所用的時(shí)域 信號(hào)。研究實(shí)驗(yàn)表明基于p l p 提取的特征抗噪性能優(yōu)于基于l p 的方法。 三、情感語(yǔ)音的識(shí)別技術(shù) 6 第1 章緒論 目前,語(yǔ)音情感識(shí)別大多采用隱馬爾可夫模型、人工神經(jīng)網(wǎng)絡(luò)和多變量解析 主元素分析等技術(shù)。 1 、隱馬爾可夫模型 隱馬爾可夫模型( h m m ) 是一個(gè)離散時(shí)域有限自動(dòng)機(jī)系統(tǒng),該模型首先在 語(yǔ)音識(shí)別領(lǐng)域得到廣泛的應(yīng)用1 3 】,而語(yǔ)音情感識(shí)別作為語(yǔ)音識(shí)別中的一個(gè)大類, 也將h m m 引入到研究中5 】【1 4 】。文獻(xiàn)【1 5 1 詳細(xì)論述了h m m 理論。h m m 由一組隱 藏的狀態(tài)來(lái)定義,隱藏狀態(tài)的輸出是一系列的觀察符號(hào)。 h m m 是利用馬爾可夫鏈的信號(hào)模型技術(shù),以抽象的概率模型作為參考模板 來(lái)反映信號(hào)的統(tǒng)計(jì)特性,從而對(duì)隨機(jī)過(guò)程建模。作為首先應(yīng)用于語(yǔ)音識(shí)別的技術(shù), 將h m m 應(yīng)用于語(yǔ)音情感識(shí)別也是比較廣泛的。如在2 0 0 1 年,n o g u e i r a s 等人【l 6 】 就運(yùn)用h m m 來(lái)識(shí)別利用m p e g 4 編碼的情感語(yǔ)音,且得到了與采用聽(tīng)取試驗(yàn) 時(shí)人們判斷相近的結(jié)果。文獻(xiàn)【5 1 中也用離散隱馬爾可夫模型作為識(shí)別方法,在他 們的研究中,通過(guò)對(duì)提取出的語(yǔ)音情感特征的分析識(shí)別,最終達(dá)到了較高的識(shí)別 正確率。但h m m 的建立、訓(xùn)練都要較多的時(shí)間,且計(jì)算的時(shí)間復(fù)雜度也較高, 無(wú)法滿足我們對(duì)語(yǔ)音情感最終達(dá)到實(shí)時(shí)識(shí)別的目標(biāo)要求。 2 、人工神經(jīng)網(wǎng)絡(luò)技術(shù) 人工智能應(yīng)用到語(yǔ)音情感識(shí)別領(lǐng)域最基本的思想就是匯集和結(jié)合多種知識(shí) 源中的所有知識(shí),并集中于所面對(duì)的問(wèn)題上。人工智能的方法需要建立許多不同 的知識(shí)源,其中還涉及到兩個(gè)概念:學(xué)習(xí)和自適應(yīng)。對(duì)于如何建立知識(shí)源這個(gè)問(wèn) 題,研究最多也是應(yīng)用最廣的就是神經(jīng)網(wǎng)絡(luò)方法。 神經(jīng)網(wǎng)絡(luò)之所以引起人們的興趣,主要在于其并行分布處理的能力,這是與 傳統(tǒng)方法截然不同的,同時(shí)也因?yàn)樗哂幸韵聨讉€(gè)方面的優(yōu)點(diǎn): 1 ) 高度的非線性和極強(qiáng)的分類能力。 2 ) 自組織和自學(xué)習(xí)的能力,能夠在學(xué)習(xí)的過(guò)程中發(fā)現(xiàn)并總結(jié)信號(hào)的特征。 3 ) 具有很強(qiáng)的魯棒性和容錯(cuò)能力。 正是因?yàn)樯窠?jīng)網(wǎng)絡(luò)具有通過(guò)自組織和學(xué)習(xí)能夠具有較強(qiáng)的分類能力,也有一 些研究者將它應(yīng)用到了語(yǔ)音情感的識(shí)別研究方面。如在2 0 0 3 年,k h k i m 1 7 1 等 人就采用了自適應(yīng)神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音情感狀態(tài)進(jìn)行了研究:在他們的研究中,除了 采用傳統(tǒng)的語(yǔ)音特征外,還結(jié)合了發(fā)音時(shí)的一些生理特征參數(shù)( 如心跳、心電圖 7 第1 章緒論 等) 進(jìn)行訓(xùn)練和識(shí)別,也達(dá)到了7 0 左右的識(shí)別率。 3 、多變量解析主元素分析 這是模式識(shí)別的一種方法。通過(guò)對(duì)提取出特征參數(shù)的分析,根據(jù)類別分別訓(xùn) 練建立模板,通過(guò)待識(shí)別語(yǔ)句與模板距離來(lái)確定所屬類別。 針對(duì)個(gè)十維原始特征矢量的訓(xùn)練語(yǔ)句矢量集,首先求出相關(guān)矩陣,然后求 出相關(guān)矩陣的特征值和特征向量,由特征向量組成變換陣。對(duì)于語(yǔ)句的十維原始 特征矢量利用變換矩陣轉(zhuǎn)變?yōu)樵靥卣魇噶?。變換矩陣中和一個(gè)主元素相對(duì)應(yīng)的 向量叫做該主元素的基向量。一般選擇前,1 個(gè)主元素作為有效主元素使用。對(duì)于 給定的樣本x ,可以根據(jù)各基向量求出有效主元素。有效主元素組成的矢量被 用作情感訓(xùn)練和識(shí)別用特征矢量。 關(guān)于距離法,描述如下。由主元素分析,把每一個(gè)訓(xùn)練用d 維矢量 置= 扛n ,t :,工緲) 變換成有效主元素組成的矢量】,= 抄n ,y ,y 護(hù) ,p d 。然 后,分別對(duì)各情感類別求出有效主元素特征矢量的矢量集的重心“。和相應(yīng)方差。 對(duì)于某一語(yǔ)音情感主元素特征矢量】,由下式求出它與各類別的距離,距離最近 的情感類別即為識(shí)別結(jié)果。 。= ( 多一二t ) 。( 多一疋) 1 4 論文的研究?jī)?nèi)容及工作 ( 1 4 ) 本文在廣泛閱讀國(guó)內(nèi)外現(xiàn)有的關(guān)于語(yǔ)音信號(hào)處理和語(yǔ)音情感識(shí)別技術(shù)的文 獻(xiàn)后,比較和借鑒現(xiàn)有成功的語(yǔ)音情感識(shí)別方法,對(duì)相應(yīng)的情感特征參數(shù)提取及 識(shí)別的關(guān)鍵技術(shù)進(jìn)行改進(jìn)和完善,目的就是分析現(xiàn)有的語(yǔ)音情感識(shí)別系統(tǒng),并設(shè) 計(jì)和實(shí)現(xiàn)漢語(yǔ)語(yǔ)音的情感識(shí)別。主要研究?jī)?nèi)容和工作包括以下幾個(gè)方面: 一、漢語(yǔ)情感語(yǔ)音庫(kù)的建立 由于漢語(yǔ)語(yǔ)音情感識(shí)別研究時(shí)間較短,還沒(méi)有標(biāo)準(zhǔn)語(yǔ)音庫(kù)可以使用。情感語(yǔ) 音庫(kù)的建立是研究的前提和基礎(chǔ)。通過(guò)構(gòu)建包含四種基本情感狀態(tài)及自然狀態(tài)的 語(yǔ)音庫(kù),就可以分析其中各個(gè)狀態(tài)問(wèn)的差別并找出有效的情感特征用于識(shí)別。 二、語(yǔ)音信號(hào)的預(yù)處理 8 第1 章緒論 由于條件的限制,所錄制的語(yǔ)音樣本中含有影響情感識(shí)別的因素。通過(guò)預(yù)處 理的研究,可以改善語(yǔ)音信號(hào)質(zhì)量,統(tǒng)一語(yǔ)音信號(hào)格式,并為后繼的語(yǔ)音特征提 取和情感識(shí)別打好基礎(chǔ)。 三、韻律特征參數(shù)的提取 為了提取能夠反應(yīng)情感信息的特征參數(shù),從情感語(yǔ)音信號(hào)中提取了基頻、能 量以及語(yǔ)速等韻律特征參數(shù),并在此基礎(chǔ)上進(jìn)行細(xì)化,選出八個(gè)特征參數(shù)。還進(jìn) 一步分析了這些特征參數(shù)與人類四大情感( 憤怒、高興、悲傷和害怕) 的關(guān)系。 四、語(yǔ)音情感識(shí)別研究 基于特征參數(shù)提取的基礎(chǔ)上,結(jié)合提取出的八個(gè)特征參數(shù),綜合分析目前情 感分類方法的優(yōu)缺點(diǎn),研究探索更方便實(shí)驗(yàn)和更適合于實(shí)時(shí)環(huán)境下語(yǔ)音情感的分 類與識(shí)別方法。 五、語(yǔ)音情感識(shí)別系統(tǒng)的實(shí)現(xiàn) 開(kāi)發(fā)了集語(yǔ)音信號(hào)提取、情感分類識(shí)別于一體的語(yǔ)音情感識(shí)別系統(tǒng),為進(jìn)一 步研究實(shí)時(shí)環(huán)境下的語(yǔ)音情感識(shí)別打下基礎(chǔ)。 1 5 論文的結(jié)構(gòu) 論文共分五章,主要內(nèi)容如下: 第1 章介紹課題的研究背景和研究意義,概述了語(yǔ)音情感識(shí)別所涉及的研究 領(lǐng)域。綜述語(yǔ)音情感識(shí)別的研究現(xiàn)狀,重點(diǎn)介紹線性預(yù)測(cè)分析、m e l 倒譜系數(shù)、 感覺(jué)線性預(yù)測(cè)分析、隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)等情感特征提取和識(shí)別算 法,并對(duì)這些算法的優(yōu)缺點(diǎn)從理論上給出比較。同時(shí)分析和提出本文的主要研究 工作和結(jié)構(gòu)。 第2 章介紹語(yǔ)音庫(kù)語(yǔ)句的選擇和采集,對(duì)采集到的語(yǔ)音樣本進(jìn)行聽(tīng)取檢定確 保其中包含情感的有效性。 第3 章介紹針對(duì)語(yǔ)音信號(hào)所采用的預(yù)處理算法,主要包括語(yǔ)音信號(hào)的偏差校 正、利用小波變換去除寬帶噪聲,達(dá)到了改善語(yǔ)音質(zhì)量、統(tǒng)一語(yǔ)音信號(hào)格式的目 標(biāo)。同時(shí)通過(guò)對(duì)語(yǔ)音信號(hào)中情感特征構(gòu)造的分析,提出哈明窗和小波變換相結(jié)合 提取情感特征參數(shù)的方法。 第4 章重點(diǎn)介紹加權(quán)歐式距離模板匹配的情感識(shí)別算法,實(shí)現(xiàn)語(yǔ)音情感快速 9 第1 章緒論 準(zhǔn)確的分類識(shí)別,并采用面向?qū)ο蟮脑O(shè)計(jì)思想,開(kāi)發(fā)了語(yǔ)音情感識(shí)別系統(tǒng),以直 觀的形式介紹設(shè)計(jì)方法與過(guò)程。 第5 章總結(jié)全文,并提出進(jìn)一步需要開(kāi)展的工作。 1 6 本章小結(jié) 本章主要研究了課題項(xiàng)目的研究背景,語(yǔ)音情感識(shí)別的研究領(lǐng)域。圍繞語(yǔ)音 情感識(shí)別技術(shù),對(duì)語(yǔ)音信號(hào)中的特征進(jìn)行了概要式分析,重點(diǎn)在語(yǔ)音情感識(shí)別的 研究方法。按照語(yǔ)音信號(hào)的預(yù)處理、語(yǔ)音情感特征參數(shù)的提取和情感語(yǔ)音識(shí)別的 研究步驟,介紹了分幀力日窗的預(yù)處理方法、l p m f c c p l p 的特征參數(shù)提取方法、 h m m 人工神經(jīng)網(wǎng)絡(luò)多變量解析主元素分析的語(yǔ)音情感識(shí)別技術(shù),并通過(guò)對(duì)比, 分析了各自的優(yōu)缺點(diǎn),為下面自行分析、設(shè)計(jì)與實(shí)現(xiàn)語(yǔ)音情感識(shí)別的研究工作提 供了參考依據(jù)。 本章還介紹了論文的研究?jī)?nèi)容和結(jié)構(gòu),起到統(tǒng)領(lǐng)全文的作用,為后文內(nèi)容的 闡述定準(zhǔn)脈絡(luò)。 1 0 第2 章漢語(yǔ)情感語(yǔ)音庫(kù) 2 1 1 情感的定義 第2 章漢語(yǔ)情感語(yǔ)音庫(kù) 2 1情感的定義與分類 究竟什么是情感? 已經(jīng)有許多西方學(xué)者就情感的準(zhǔn)確定義展開(kāi)了討論。 o a t l a y 和j e n k i n s 認(rèn)為情感是人與人之間相互交流的信息,由思想和外部事件引 起的行為、生理變化和主觀體驗(yàn)組成。在文獻(xiàn)【1 9 】【2 0 】中總結(jié)了1 0 0 多位學(xué)者對(duì)于 情感的定義。這些定義通常是復(fù)雜的、難以理解的,這也從一個(gè)側(cè)面反應(yīng)給出情 感準(zhǔn)確定義的難度。 人們對(duì)于情感的定義僅有有限的一致,很難給出情感的準(zhǔn)確定義。因此,我 們重點(diǎn)研究情感的分類。 2 1 2 情感的分類 近年來(lái)隨著計(jì)算機(jī)多媒體信息、處理技術(shù)等領(lǐng)域的發(fā)展,情感信息處理技術(shù) 也被越來(lái)越多的研究者所重視,對(duì)情感狀態(tài)類型的劃分也是情感分析研究的一個(gè) 重要部分。在過(guò)去的大多數(shù)研究方法中,研究者都用日常語(yǔ)言標(biāo)簽來(lái)標(biāo)識(shí)和分類 情感,比如:害怕、憤怒和高興等。根據(jù)情感的純度和原始度,情感可分為兩大 類【2 9 】:主要情感( 原始情感) 和次要情感( 派生情感) 。 主要情感是所有社會(huì)化的哺乳動(dòng)物( 人類、猴子、鯨等) 共有的,有特 殊的表現(xiàn)形式( 面部表隋、行為趨勢(shì)、生理模式等) 。但對(duì)于主要情感的種類, 研究者始終沒(méi)有達(dá)成共識(shí),如表2 1 所示。 表2 1 主要情感列表( o r t o n y t u r m e ri n l 9 9 0 ) 研究者主要情感 a r n o l d a n g e r c o u r a g e ,d e j e c t i o n ,d e s i r e ,d e s p a i r , f e a r , h a t e ,h o p e ,l o v e ,s a d n e s s e k m na n ,e t a 1 a n g e r ,d i s g u s t ,f e 甌j o y , s a d n e s s ,s u r p r i s e f r i d j ad e s i r e ,h a p p i n e s s ,i n t e r e s t ,s u r p r i s e ,w o n d e r ,s 0 1 t o w 第2 章漢語(yǔ)情感語(yǔ)音庫(kù) 表2 1 主要情感列表( o r t o n y t u r m e ri n l 9 9 0 ) 續(xù)表 研究者 主要情感 g r a yr a g ea n dt e r r o r , a n x i e t y , j o y i z a r d a n g e r , c o m t e m p t ,d i s g u s t ,d i s t r e s s ,f e a r , g u i l t ,i n t e r e s t , j o y , s h a m e ,s u r p r i s e j a m e s f e a r ,g r i e f , l o v e ,r a g e m c d o u g a l la n g e r , d i s g u s t ,e l a t i o n ,f e a r , s u b j e c t i o n ,t e n d e r - e m o t i o n ,w o n d e r m o w e r p a i n ,p l e a s u r e o a t l e y , e t a 1 a n g e r , d i s g u s t ,a n x i e t y , h a p p i n e s s ,s a d n e s s p a n k s e p pe x p e c t a n c y , f e a r , r a g e ,p a n i c p l u t c h i k a c c e p t a n c e ,a n g e r , a n t i c i p a t i o n ,d i s g u s t ,j o y , f e 鴆s a d n e s s ,s u r p r i s e t o m k i n s a n g e r , i n t e r e s t ,c o n t e m p t ,d i s g u s t ,d i s t r e s s ,f e a r , j o y , s h a m e ,s u r p r i s e 廝i t s o n f e a r ,l o v e ,r a g e w e i n e r , e t a 1 h a p p i n e s s ,s a d n e s s ; 從表2 1 可以看出大部分學(xué)者認(rèn)為主要情感包括:害怕( f e a r ) 、憤怒( a n g e r ) 、 高興( j o y ) 、悲傷( s a d n e s s ) 和厭惡( d i s g u s t ) 。 次要情感由主要情感變化或混合得到,就像三元色混合原理一樣。這類 情感的生成理論也叫情感的“調(diào)色板理論【3 0 】 。次要情感包括自豪( 高興的一種 變化形式) ,感激( 高興的一種派生形式) 、悲痛、驚奇等。 通過(guò)對(duì)國(guó)內(nèi)外研究狀況的了解,并結(jié)合自己對(duì)語(yǔ)音情感狀態(tài)的理解和分析, 在研究中,將情感類型分為高興、憤怒、害怕和悲傷這4 種,并盡可能地將所有 情感納入這4 種情感狀態(tài)。 2 2 漢語(yǔ)情感語(yǔ)音庫(kù)的建立 情感語(yǔ)音是情感建模、語(yǔ)音情感合成和語(yǔ)音情感識(shí)別的基礎(chǔ),只有建立大規(guī) 模、高真實(shí)感【3 5 】的情感語(yǔ)音庫(kù)才有可能從事上述各項(xiàng)研究。情感語(yǔ)音庫(kù)為情感 語(yǔ)音分析和建模提供大量的分析數(shù)據(jù);為情感語(yǔ)音合成提供建?;A(chǔ)和合成語(yǔ) 料;為語(yǔ)音情感識(shí)別提供訓(xùn)練及測(cè)試用語(yǔ)音。 但是,到目前為止,從國(guó)內(nèi)外的研究現(xiàn)狀來(lái)看沒(méi)有一個(gè)收集情感分析用語(yǔ)音 資料的標(biāo)準(zhǔn),因此在進(jìn)行下面的研究之前,以選擇錄制的方式設(shè)計(jì)了一個(gè)用于獨(dú) 1 2 第2 章漢語(yǔ)情感語(yǔ)音庫(kù) 立文本情感語(yǔ)音識(shí)別的漢語(yǔ)情感語(yǔ)音庫(kù)。 由于設(shè)備的限制,本次錄音實(shí)驗(yàn)是在以p c 機(jī)和聲卡、麥克風(fēng)為硬件而實(shí)施 的,錄音的內(nèi)容是具有真實(shí)感情表達(dá)的語(yǔ)音。我們要解決的問(wèn)題主要體現(xiàn)在以下 幾個(gè)方面:錄音腳本的選擇;如何讓錄音者盡可能地在錄音時(shí)表達(dá)出真實(shí)的情感; 用非專業(yè)錄音環(huán)境獲取相對(duì)高質(zhì)量的語(yǔ)音的方法;錄制的語(yǔ)音必須符合研究情感 語(yǔ)音的聲學(xué)特征的要求。 2 2 1 情感語(yǔ)音錄音腳本的采集 情感語(yǔ)音錄音腳本必須符合以下幾點(diǎn)要求: 1 、每句錄音腳本能夠較容易加入說(shuō)話人的不同情感。 2 、錄音腳本不能有明確的情感傾向性。 3 、錄音腳本男性和女性均適用。 4 、錄音腳本集合能基本覆蓋漢語(yǔ)語(yǔ)音的主要元音和輔音,盡可能避開(kāi)無(wú)聲 輔音。 5 、錄音腳本長(zhǎng)度控制在5 秒以內(nèi)。 表2 2 給出了所采集的錄音腳本,共1 l 句。 表2 2 錄音腳本 序號(hào)錄音腳本序號(hào)錄音腳本 1明天是周末6快點(diǎn)干 2 我做了一個(gè)夢(mèng) 7 這下全完了 3快要下雨了 8 你叫什么名字 4 過(guò)來(lái) 9 太棒了 5 他就快來(lái)了 1 0 你真?zhèn)ゴ?2 2 2 語(yǔ)音情感激發(fā)方法 語(yǔ)音情感的真實(shí)度可以分為自然、半自然和模仿三個(gè)等級(jí)。為了使收集到的 情感語(yǔ)音更真實(shí),對(duì)后面的研究工作更有價(jià)值,我們給出類似的情感語(yǔ)音真實(shí)感 激發(fā)方法: 1 、自然:給定錄音腳本和情感類別,錄音者隨意聯(lián)想后錄音。 2 、半自然:將錄音腳本嵌入情感上下文腳本中,讓錄音者按照相應(yīng)情感朗 讀錄音。 1 3 第2 章漢語(yǔ)情感語(yǔ)音庫(kù) 3 、模仿:給出錄音腳本情感表達(dá)的范例,錄音者模仿發(fā)音朗讀。 這三種方法至上而下情感的真實(shí)度遞減,因此我們?cè)阡浺糁袑牡谝粋€(gè)方法 開(kāi)始激發(fā)錄音者,如果能錄制符合要求的情感語(yǔ)音,就結(jié)束此人的錄音。如果不 能則用第二種方法,以此類推。通過(guò)這種方法我們能獲取每個(gè)錄音者盡可能真實(shí) 的情感語(yǔ)音表達(dá)。 2 2 3 錄音過(guò)程 一、錄音前的準(zhǔn)備工作 1 、設(shè)備、軟件及相關(guān)參數(shù) 錄音設(shè)備采用聯(lián)想臺(tái)式機(jī),r e a l t e ka c 9 7a u d i o 聲卡,耳戴式麥克風(fēng)。 w i n d o w s 自帶的錄音機(jī)錄制語(yǔ)音文件,錄音電平監(jiān)視采用s o u n df o r g e 7 0 。 2 、錄音人員 錄音人員選定為大學(xué)4 年級(jí)學(xué)生,年齡2 0 歲左右。男女各2 人。普通話標(biāo) 準(zhǔn),口齒清楚,具有較高的情感表達(dá)能力。 3 、語(yǔ)音數(shù)據(jù)存儲(chǔ)方式 我們用文件夾和文件名方式組織和管理錄制的語(yǔ)音。以錄音者姓名為文件夾 名稱,將該錄音者的所有語(yǔ)音放在該文件夾中。語(yǔ)音文件文件名格式為:s e - n c w a y ,s 表示腳本序號(hào);e 表示情感類別( 憤怒a ,高興h ,悲傷s ,害怕f ,自 然n ) ;n 表示錄音次數(shù)( 1 n 4 ) ;c 表示情感激發(fā)方案( 1 c 3 ) 。 二、錄音步驟 1 、由研究人員配合,按上述激發(fā)方法激發(fā)錄音者的情感表達(dá)。 2 、首先試錄憤怒情感語(yǔ)音,調(diào)節(jié)錄音增益電平至最佳值。 3 、按照錄音腳本逐個(gè)錄制,每個(gè)腳本4 類情感( 高興,憤怒,悲傷, 害怕) 。 4 、同一個(gè)錄音腳本,每人每類情感錄制3 次,共計(jì)每人1 2 0 句。為進(jìn) 行有效性測(cè)定,每人用中性情感狀態(tài)錄制語(yǔ)音樣本3 次,共計(jì)每人3 0 句。完成 采集后,實(shí)驗(yàn)用情感語(yǔ)音庫(kù)共由6 0 0 旬語(yǔ)音樣本構(gòu)成。 1 4 第2 章漢語(yǔ)情感語(yǔ)音庫(kù) 2 2 4 聽(tīng)取實(shí)驗(yàn) 為了檢驗(yàn)所收集情感語(yǔ)音的有效性,本文還做了聽(tīng)取實(shí)驗(yàn),如圖2 1 所示。 檢定前檢定后 既定播放情感語(yǔ)句:二 識(shí)別錯(cuò)誤盼睹感語(yǔ)句 。 識(shí)別正確的情感語(yǔ)句 圖2 1 聽(tīng)取實(shí)驗(yàn)流程示意圖 邀請(qǐng)以上4 位情感語(yǔ)音獲取者之外的5 名實(shí)驗(yàn)者隨機(jī)聽(tīng)取這些包含情感的語(yǔ) 音,要求5 位實(shí)驗(yàn)者通過(guò)主觀評(píng)判說(shuō)出所播放語(yǔ)音的情感類別。4 類情感語(yǔ)音的 聽(tīng)取實(shí)驗(yàn)結(jié)果,如表2 3 所示。 表2 3 語(yǔ)音庫(kù)聽(tīng)取實(shí)驗(yàn)匯總表 j 一= 憤怒高興悲傷害怕識(shí)別率( ) 實(shí)際情感 憤怒1 1 6 3o19 6 7 高興 49 002 67 5 0 悲傷 oo1 1 829 8 3 害怕 52 039 57 9 2 通過(guò)對(duì)聽(tīng)取實(shí)驗(yàn)結(jié)果的匯總,可以觀察到:對(duì)于憤怒和悲傷情感狀態(tài)的識(shí)別 率相當(dāng)高,而對(duì)于高興和害t f l 貝j j 較易發(fā)生混淆。這也是由于憤怒和悲傷的情感語(yǔ) 句具有相當(dāng)鮮明的情感特征,且易于識(shí)別;反之,則區(qū)別不明顯,易混淆。 2 3 本章小結(jié) 本章從情感的定義入手,從中引出了情感的分類,結(jié)合對(duì)語(yǔ)音情感狀態(tài)的理 解和分析,在研究中,將情感類型分為高興、憤怒、害怕和悲傷這4 種。本章重 點(diǎn)給出了語(yǔ)音情感處理中最重要的基礎(chǔ)環(huán)節(jié)情感語(yǔ)音庫(kù)的建立,包括語(yǔ)音腳 本的采集、情感激發(fā)方法和錄音步驟。為了檢驗(yàn)所收集情感語(yǔ)音的有效性,本文 還做了聽(tīng)取實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果為后面進(jìn)行預(yù)處理、特征提取和識(shí)別工作做好了鋪墊 和準(zhǔn)備。 1 5 第3 章語(yǔ)音信號(hào)處理與情感特征參數(shù)提取 第3 章語(yǔ)音信號(hào)處理與情感特征參數(shù)提取 3 1語(yǔ)音信號(hào)的數(shù)字化和預(yù)處理 3 1 1 采樣和量化 為了將原始的模擬語(yǔ)音信號(hào)變?yōu)閿?shù)字信號(hào),必須經(jīng)過(guò)采樣和量化兩個(gè)步驟, 從而得到時(shí)間和幅度上均為離散的數(shù)字語(yǔ)音信號(hào)。根據(jù)采樣定理,當(dāng)采樣頻率大 于語(yǔ)音信號(hào)的兩倍帶寬時(shí),采樣過(guò)程中不會(huì)丟失信息。利用理想濾波器可以從采 樣信號(hào)中不失真地重構(gòu)原始信號(hào)波形。圖3 1 是語(yǔ)音信號(hào)數(shù)字化過(guò)程示意圖。 圖3 1 語(yǔ)音信號(hào)的數(shù)字化 語(yǔ)音是隨時(shí)間而變的一維信號(hào),它所占據(jù)的頻率范圍可達(dá)1 0 k h z 以上,但 是對(duì)語(yǔ)音清晰度和可懂度有明顯影響的成份的最高頻率約為5 7 k i - i z 。為了實(shí)現(xiàn) 得到更高識(shí)別率的語(yǔ)音識(shí)別系統(tǒng),某些現(xiàn)代語(yǔ)音處理系統(tǒng)語(yǔ)音頻率高端擴(kuò)展到 7 9 k h z ,相應(yīng)的采樣率也提高到1 5 一- 2 0 k h z 。這里將采樣率提高到11 k h z , 以利用更多的語(yǔ)音信息。在信號(hào)的帶寬不明確時(shí),在采樣前應(yīng)接入反混疊濾波器 ( 低通濾波器) ,濾除高于1 2 采樣頻率的信號(hào)成分或噪聲,使其帶寬限制在某 個(gè)范圍內(nèi)。市面上購(gòu)買到的普通聲卡在這方面做的都比較好,語(yǔ)音聲波通過(guò)話筒 輸入到聲卡后直接獲得的是經(jīng)過(guò)防混疊濾波、模數(shù)轉(zhuǎn)換、量化處理后的離散數(shù) 字信號(hào)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)數(shù)據(jù)合規(guī)專員職位攻略與面試題集
- 游戲測(cè)試員崗位面試技巧與常見(jiàn)問(wèn)題
- 汽車制造企業(yè)研發(fā)部高級(jí)面試問(wèn)題集
- 客戶經(jīng)理服務(wù)技巧考試題含答案
- 2025江蘇無(wú)錫市梁溪科技城園區(qū)發(fā)展集團(tuán)有限公司下屬子企業(yè)招聘19人備考考試題庫(kù)及答案解析
- 2025湖南湘潭高新集團(tuán)有限公司招聘(第二批)2人參考筆試題庫(kù)及答案解析
- 2025重慶市高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū)消防救援支隊(duì)政府專職消防隊(duì)員招錄87人備考筆試試題及答案解析
- 2025湖南長(zhǎng)沙市直事業(yè)單位第二批招聘工作人員89人備考考試試題及答案解析
- 武漢地鐵客運(yùn)服務(wù)主管崗位技能考試題含答案
- 銷售管理崗面試全攻略及參考答案
- 私人奴隸協(xié)議書(shū)范本
- GB/T 17774-2025通風(fēng)機(jī)尺寸
- 2025年綜合物流園區(qū)建設(shè)可行性研究報(bào)告及總結(jié)分析
- 興國(guó)縣2025年招聘城市社區(qū)專職網(wǎng)格員【23人】考試參考題庫(kù)附答案解析
- 承包砂石場(chǎng)合同范本
- 2025年杭州蕭山技師學(xué)院招聘職業(yè)教育合同制教師28人筆試考試備考試題及答案解析
- 2026年醫(yī)院感染管理科年度工作計(jì)劃
- 人力資源管理i國(guó)內(nèi)外研究綜述
- 2025年年終個(gè)人述職報(bào)告
- 二年級(jí)(上)數(shù)學(xué)晨讀晚默綜合每日一練
- (人教2024版)英語(yǔ)八年級(jí)上冊(cè)Unit 6 大單元教學(xué)設(shè)計(jì)(新教材)
評(píng)論
0/150
提交評(píng)論