(電子科學(xué)與技術(shù)專業(yè)論文)基于高斯混合模型的情感l(wèi)pc系數(shù)的研究與建模.pdf_第1頁
(電子科學(xué)與技術(shù)專業(yè)論文)基于高斯混合模型的情感l(wèi)pc系數(shù)的研究與建模.pdf_第2頁
(電子科學(xué)與技術(shù)專業(yè)論文)基于高斯混合模型的情感l(wèi)pc系數(shù)的研究與建模.pdf_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

摘要 隨著信息技術(shù)的高速發(fā)展,人類對計算機的依賴性不斷增強,因 此,人機的交互能力越來越受到研究者的重視。語音是眾多信息載體 中具有最大信息容量的信號,具有最高的智能水平。當(dāng)今語音信號處 理研究的熱點,己從傳統(tǒng)的只著眼于詞匯傳達的準確性,到了研究語 音信號的情感表達。因此,本文從情感語音的特征級出發(fā),對l p c ( 線 性預(yù)測) 系數(shù)的情感建模進行了研究。 本文針對當(dāng)前缺乏語音情感特征的發(fā)聲模型方面的專門研究的 現(xiàn)狀,通過探索情感特征與l p c 系數(shù)之間的映射關(guān)系,提出建立l p c 系數(shù)的情感模型的新方案。本文在中科院情感語音庫的基礎(chǔ)上分別建 立高興、憤怒、悲傷及中性四種情感數(shù)據(jù)庫;研究情感語音的音質(zhì)特 征參數(shù),得到上述四種情感的共振峰統(tǒng)計規(guī)律;重點設(shè)計并實現(xiàn)基于 高斯混合( g m m ) 模型的情感l(wèi) p c 系數(shù)的建模方案,通過采用不同情 感語音的l p c 特征矢量,結(jié)合動態(tài)時間規(guī)整技術(shù)( d t w ) 、期望最大 化算法( e m ) 和最小均方誤差準貝, t j ( m m s e ) ,對模型進行訓(xùn)練和參數(shù)估 計,最終獲得高興、憤怒、悲傷三種情感對中性語音的l p c 系數(shù)映射 規(guī)則函數(shù),完成對情感l(wèi) p c 參數(shù)的建模。并設(shè)計實驗測試方案,采用 板倉一齋田準則( 工s ) 對通過映射函數(shù)得到的l p c 系數(shù)和標(biāo)準中性語音 的l p c 系數(shù)進行譜失真測度的計算,仿真實驗結(jié)果表明,建立的情感 模型有效的表征了不同情感對l p c 系數(shù)的影響。 本文提出的基于高斯混合模型的情感l(wèi) p c 參數(shù)的聲學(xué)建模方法, 是情感語音信號處理領(lǐng)域的一個新的研究方法,為情感給語音合成、 識別等帶來的影響研究提供了新的思路和解決方案。 關(guān)鍵詞:情感語音建模,l p c 系數(shù),高斯混合模型,e m 算法 a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,h u m a n d e p e n d e n c e o n c o m p u t e r i s g r o w i n g t h e r e f o r e ,h u m a n c o m p u t e r i n t e r a c t i o nc a p a b i l i t i e sg e tm o r ea n dm o r ea t t e n t i o no fr e s e a r c h e r s v o i c e h a st h el a r g e s ti n f o r m a t i o nc a p a c i t yi nm a n yi n f o r m a t i o nc a r d e r ,w i t ht h e h i g h e s tl e v e lo fi n t e l l i g e n c e t r a d i t i o n a lv o i c ep r o c e s s i n gs y s t e m sf o c u s o nt h ea c c u r a c yo fv o i c eo n l y ,i g n o r i n gt h ee m o t i o n a lf a c t o r sc o n t a i n e di n t h ev o i c es i g n a l t h e r e f o r e ,t h i sa r t i c l es t u d i e do ne m o t i o n a ls p e e c h m o d e l i n go fl p cc o e f f i c i e n t s a c c o r d i n gt os t a t u so fd e f i c i e n c yo fs t u d yo ne m o t i o n a ls p e e c h m o d e l i n g ,t h ep a p e rp r e s e n t s an e wm e t h o do fe m o t i o n a l s p e e c h m o d e l i n go fl p c c o e f f i c i e n t s t h e p a p e r e s t a b l i s h e df o u rk i n d so f e m o t i o n a ls p e e c hd a t a b a s e i n c l u d i n gh a p p y ,a n g r y ,s a da n dn e u t r a l e m o t i o nr e c o r d e db yc h i n e s ea c a d e m yo fs c i e n c e s ;r e s e a r c h e da c o u s t i c c h a r a c t e r i s t i cp a r a m e t e r s ;g o tr e s o n a n c ep e a ks t a t i s t i c a lr e g u l a r i t yo f d i f f e r e n te m o t i o n ;d e s i g n e da n dr e a l i z e dt h en e wm o d e l i n gs c h e m eo f e m o t i o n a ll p cc o e f f i c i e n t i tu s e dd i f f e r e n te m o t i o n a ll p cf e a t u r ev e c t o r , c o m b i n e dw i t ht h ed y n a m i ct i m ew a r p i n gt e c h n o l o g y ,e ma l g o r i t h ma n d m m s ec r i t e r i o n ,f i n a l l yg o tl p cc o e f f i c i e n tm a p p i n gr u l ef u n c t i o no f t h r e ek i n d so fe m o t i o n a ls p e e c ht on e u t r a ls p e e c h ;a n dc o m p l e t e dt h e e m o t i o n a l l p cp a r a m e t e rm o d e l i n g a l s o t h e p a p e rd e s i g n e d t h e e x p e r i m e n t a lt e s tp l a n ,c a l c u l a t e ds p e c t r u md i s t o r t i o nm e a s u r eb e t w e e n t h es t a n d a r dn e u t r a lv o i c el p cc o e f f i c i e n ta n dl p cc o e f f i c i e n tw h i c hg o tb y m a p p i n gf u n c t i o nu s i n gi sd i s t a n c e s i m u l a t i o nr e s u l t s s h o wt h a tt h e e m o t i o n a l s p e e c h m o d e lc a n e f f i c i e n t l y c h a r a c t e r i z et h ed i f f e r e n t e m o t i o n a le f f e c to nl p cc o e f f i c i e n t t h en e wm e t h o do fm o t i o n a ls p e e c hm o d e l i n go fl p cc o e f f i c i e n t s t h a tt h i sp a p e rp r e s e n t e di san e wm e t h o do fe m o t i o n a ls p e e c hs i g n a l p r o c e s s i n gf i e l da n dp r o v i d e san e wi d e aa n ds o l u t i o nt ot h er e s e a r c ho f t h ei n f l u e n c ef o re m o t i o n a ls p e e c hs y n t h e s i sa n dr e c o g n i t i o n k e yw o r d s :e m o t i o n a ls p e e c hm o d e l i n g ,l p cc o e f f i c i e n t s ,g m mm o d e l , e m a l g o r i t h m 目錄 摘要i a b s t r a c t i i 第一章緒 論1 1 1 課題背景和意義1 1 2 情感特征參數(shù)的研究現(xiàn)狀2 1 3 情感建模的研究現(xiàn)狀_ 4 1 4 課題主要研究內(nèi)容5 第二章情感語音數(shù)據(jù)庫7 2 1 情感語音庫7 2 1 1 情感語音的定義7 2 1 2 情感語音的分類7 2 1 3 情感語音庫的分類8 2 1 4 情感語音庫介紹9 2 2 情感語音數(shù)據(jù)庫的建立1 0 2 3 本章小結(jié)11 第三章情感語音的音質(zhì)特征分析1 3 3 1 語音信號的預(yù)處理1 3 3 1 1 預(yù)處理1 3 3 1 2 端點檢測1 5 3 2 線性預(yù)測系數(shù)l p c 1 8 3 2 1 線性預(yù)測基本原理1 8 3 2 2 線性預(yù)測系數(shù)的計算1 9 3 3 語音情感的音質(zhì)特征分析2 1 3 3 1 情感對音質(zhì)的影響2 l 3 3 2 共振峰分析2 2 3 4 常見的語音信號建模方法2 3 3 4 1 線性多變量同歸法2 3 3 4 2 神經(jīng)網(wǎng)絡(luò)法2 4 3 4 3 隱馬爾可夫模型法2 5 3 4 4 高斯混合模型法2 5 3 5 本章小結(jié)2 6 第四章基于高斯混合模型的情感l(wèi) p c 系數(shù)研究2 7 4 1 高斯混合模型的基本概念2 7 4 1 1 高斯混合模型的描述2 7 4 1 2 高斯混合模型的參數(shù)設(shè)置2 8 4 1 3 初始參數(shù)設(shè)置2 9 4 2 建模的構(gòu)架及流程2 9 4 3 情感l(wèi) p c 參數(shù)的提取3 0 4 3 1 預(yù)處理3 0 4 3 2 參數(shù)的提取和仿真3 3 4 4 情感l(wèi) p c 參數(shù)模型的建立3 6 4 4 1g m m 模型的參數(shù)訓(xùn)練3 6 4 4 2 映射規(guī)則3 7 4 5 本章小結(jié)3 8 第五章實驗分析與評價4 0 5 1 實驗平臺4 0 5 2 實驗方案4 0 5 3 實驗結(jié)果與評價4 l 5 4 本章小結(jié)4 4 第六章總結(jié)與展望4 5 參考文獻4 7 附勇匙5 1 致謝5 5 學(xué)位期間主要的研究成果5 6 碩士學(xué)位論文 第一章緒論 1 1 課題背景和意義 第一章緒論 隨著科技的高速發(fā)展,計算機在人們的生活中扮演著越來越重要的角色。所 以,人與機器間實現(xiàn)自然的、智能化的交流是人們追求的理想【1 】。人機交互發(fā)展 的目標(biāo)就是計算機智能化的實現(xiàn),即計算機可以根據(jù)交流對象的情感狀態(tài)及周圍 的環(huán)境等因素,自適應(yīng)地調(diào)整自身的情感狀態(tài),從而為交流對象提供更為友好的 交流環(huán)境。在所有信息載體中,語音具有最大信息容量,是人們相互間交流的最 自然的方式,具有最高的智能水平【2 】。語音中除了自身包含的文字信息外,同時 還包含了情感和情緒等對于正確理解話語非常重要的信息。內(nèi)容相同的語音,可 以由于說話者的情感不同,話語給聽者傳遞的信息就不同。 現(xiàn)階段對于情感語音的研究無論是國內(nèi)還是國外都還處于一個起步階段,考 慮到情感和態(tài)度對語音所引起的變化對語音合成、語音識別、說話人識別的影響 較大,語音的情感研究逐漸引起人們的重視。在語音處理和人工智能等領(lǐng)域中, 對情感信息的研究有著十分重要的意義。 然而,現(xiàn)有的語音處理研究中還沒有很多考慮到語音信號中包含的情感信 息,多注重于準確的表達語音的文字信息。另外,傳統(tǒng)的語音信號處理都是對中 性語音進行建模,往往忽略了包含在語音信號中的情感因素,其實情感變化對語 音處理的各個領(lǐng)域,如語音合成、語音識別、說話人識別等都產(chǎn)生了巨大的影響 【3 訓(xùn)。當(dāng)說話人在不同情感狀態(tài)間轉(zhuǎn)變時,由于說話人情緒的改變引起了發(fā)音方 式的變化,使得基于中性訓(xùn)練語音的說話人識別系統(tǒng)的性能急劇下降【5 。7 】。隨著 人機交互對系統(tǒng)友好性與自然性要求的不斷提高,如何解決說話人自身的變異, 如情感變異帶來的系統(tǒng)性能的下降,是語音信號領(lǐng)域中一個有待解決的重要問題 【8 - l o 0 面對該問題,解決方案從底層到高層可以概括為3 類:( 1 ) 特征級,現(xiàn)階段 的研究表明,語音之所以能夠表達情感,是因為其中包含能體現(xiàn)情感特征的參數(shù)。 情感的變化就是通過特征參數(shù)的差異而體現(xiàn)出來。( 2 ) 聲學(xué)模型級,這類方法主 要是根據(jù)語音信號的特點在特征和聲學(xué)模型訓(xùn)練上作調(diào)整,但由于目前語音情感 分析的研究還處于較低的發(fā)展水平,至今為止對情感信息的建模以及工學(xué)處理方 法的研究成果比較少。( 3 ) 語言模型級,即利用高層知識在語言模型上作的調(diào)整。 現(xiàn)有的語音建模方法還沒有將語音的情感信息考慮到語音模型中。其實,語 音模型包含了情感因素,情感的變化會導(dǎo)致語音參數(shù)的明顯變化,從而不利于語 音識別等語音處理的相關(guān)應(yīng)用。針對上述問題,本課題將語音情感特征考慮到語 碩士學(xué)位論文 第一章緒論 音建模中,通過對含語音情感的發(fā)聲模型進行建模,有利于語音識別、說話人識 別系統(tǒng)的性能。此外,本課題的研究對情感語音合成、復(fù)雜聲音環(huán)境中說話人語 音信號的提取、分離也都有著重要的意義。 1 2 情感特征參數(shù)的研究現(xiàn)狀 心理學(xué)和韻律學(xué)研究結(jié)果表明,說話者的情感在語音中最直觀的表現(xiàn)就是韻 律特征和語音質(zhì)量特征的變化。韻律特征主要有音調(diào)、音強和語速等特征n ;音 質(zhì)特征如呼吸聲、明亮度特征( 低頻能量和高頻能量的比值,用以反映語音的清 亮特性) 和喉化音等。因此對語音情感的研究也是普遍從韻律特征和音質(zhì)特征開 始,尤其是韻律特征,是目前主要的語音情感特征的研究參數(shù)n 引。表1 1 中列出 了目前較常用的特征參數(shù)。 表卜1 常用的情感特征參數(shù) 情感特征參數(shù)參數(shù)意義 p i t c ha v e r a g e p i t c hr a n g e i n t e n s i t y p i t c hc h a n g e f 1a v e r a g e f 1r a n g e 單位時間內(nèi)的音節(jié)數(shù)即語速 基音頻率的均值 基音頻率的變化范圍 語音信號的強度,振幅均值 基頻的平均變化率 第一共振峰的均值 第一共振峰的變化范圍 早在1 9 7 2 年,w i l l i a m s 發(fā)現(xiàn)人的情感變化對語音的基音輪廓有很大的影響, 這是國外最早的語音情感方面的研究之一。h i o r y af u j i s a k i 于1 9 8 4 年最早提出了 針對喉部生理運動特征的f u j i s a k i 基頻模型n3 1 。該模型能夠很好地逼近基頻輪廓, 目前已經(jīng)用于日語、漢語、英語等多種語言。雖然,基音攜帶了重要的情感信息, 但基音檢測較困難。a b e l i n 1 4 】等用了語速、振幅、基音的混合語音特征參數(shù),研 究表明:相似特征的情緒具有相似的聲學(xué)表現(xiàn),如生氣和強勢的聲學(xué)表現(xiàn)為短時 長,強音強,恐懼和害羞的聲學(xué)表現(xiàn)都是長時長,弱音強,難過和害羞的句子內(nèi) 都有較長的間斷。語音韻律特征的缺點是難以準確提取,只能區(qū)別各種基本情感 1 5 1 o 音質(zhì)是指語音的聽覺質(zhì)量,目前研究的主要有共振峰參數(shù)和聲門波參數(shù)n 6 1 2 碩士學(xué)位論文第一章緒論 等。音質(zhì)類參數(shù)和聲道的形狀變化有關(guān)。對于情感語音,發(fā)音人會適當(dāng)?shù)馗淖兟?道形狀、肌肉張力等參數(shù)以達到表達某種情感的目的。共振峰口7 3 是反映聲道特性 的一個重要參數(shù),因為不同情感的發(fā)音可能使聲道有不同的變化,所以能夠預(yù)料 到不同情感發(fā)音的共振峰的位置不同。聲門波參數(shù)的特性不僅對語音音質(zhì)有影 響,而且對于語音情感色彩的調(diào)整更是意義重大n8 | 。音質(zhì)特征是其情感表達的一 個非常重要的方面。利用音質(zhì)特征進行語音情感研究是近年來眾多學(xué)者都在嘗試 的思路之一。 綜合現(xiàn)有的研究,韻律特征( 基頻、能量、語速等) 與語音情感的感知具有明 顯的關(guān)系,并且也被廣泛關(guān)注,這些語音特征參數(shù)也較容易分析,因此成為目前 語音情感識別中所用的主流特征。相反,語音信號的譜特征,包括共振峰結(jié)構(gòu)、 平均譜的總體結(jié)構(gòu)等卻較少被關(guān)注,這些特征都是和語音信號的音質(zhì)相關(guān)的。這 些特征和情感感知不具有明顯的顯式關(guān)系,并且與時間強烈相關(guān)而難于提取。然 而,有研究成果表明加入音質(zhì)特征對于區(qū)分那些韻律特征比較相近的情感具有明 顯的幫助。綜上所述,韻律特征和音質(zhì)特征共同影響著語音情感的形成。 當(dāng)前通過對表1 1 的特征參數(shù)進行了大量的研究之后,人們對它們在各種情 感下的表現(xiàn)規(guī)律有了相似的認識,這些規(guī)律已經(jīng)應(yīng)用于許多情感語音處理的研究 中。此外,有些研究還發(fā)掘出了一些其它的情感特征參數(shù),比如l p c 參數(shù)u 引、 基音的標(biāo)準差、前三個共振峰峰值等等啪1 。 線性預(yù)測分析是當(dāng)前最有效的語音分析技術(shù)之一,在語音編碼、語音合成、 語音識別和說話人識別等語音處理領(lǐng)域中得到了廣泛的應(yīng)用。語音線性預(yù)測的基 本思想是:一個語音信號的抽樣值可以用過去若干個取樣值的線性組合來逼近。 通過使實際語音抽樣值與線性預(yù)測抽樣值的均方誤差達到最小,可以確定唯一的 一組線性預(yù)測系數(shù)。 采用線性預(yù)測分析不僅能夠得到語音信號的預(yù)測波形,而且能夠提供一個非 常好的聲道模型。由l p 分析得到的l p c 參數(shù)可以作為語音識別、語音合成的重 要參數(shù)之。 如果將語音模型看作激勵源通過一個線性時不變系統(tǒng)產(chǎn)生的輸出,那么可以 利用線性預(yù)測分析對聲道參數(shù)進行估值,以少量低信息率的時變參數(shù)精確地描述 語音波形及其頻譜的性質(zhì)。此外,線性預(yù)測分析還能夠?qū)舱穹?、功率譜等語音 參數(shù)進行精確估計。 l p c 系數(shù)作為線性預(yù)測分析的基本參數(shù),是對聲管模型的一種描述,情感變 化必將引起聲管的形變,這將導(dǎo)致l p c 參數(shù)隨情感發(fā)生變化,但它在各種情感 語音下的表現(xiàn)規(guī)律還在深入的研究中。 碩士學(xué)位論文 第一章緒論 1 3 情感建模的研究現(xiàn)狀 情感建模既是情感心理學(xué)研究者追求的目標(biāo),也是情感計算研究者的期望。 合理的情感模型應(yīng)該不僅能夠正確描述情感特征,而且應(yīng)該適合于情感計算衛(wèi)u 。 目前有部分學(xué)者在情感建模方面做了初步研究,其中一些是完全從心理學(xué)角度建 立的定性模型,此外也有一些利用心理學(xué)研究成果建立的可計算的情感數(shù)學(xué)模 型。 g c r s h e n s o n 提出了一種基于多值邏輯( 即模糊邏輯) 的情感模型瞳2 l 。他用三個 二值邏輯:l o v e h a t e 、j o y g r i e f 、h a p p y s a d n e s s 作為三組基本情感,構(gòu)建了一個三 維情感空間模型。 谷學(xué)靜等人在分析人類情感表現(xiàn)特點的基礎(chǔ)上,提出了一種基于h m m 情感 模型乜3 j 。該模型將人類的情感過程視為兩層的隨機過程,h m m 的觀測值對應(yīng)人 類情感表現(xiàn),而隱含狀態(tài)對應(yīng)人類的心情,通過調(diào)整模型的初始參數(shù),能夠構(gòu)建 具有不同性格特征的心理模型。他們還提出了情感熵的概念,將其作為構(gòu)造和評 價虛擬人物不同個性的參數(shù)指標(biāo)。 y c h e l a 和t h e 則提出了基于粗集理論的情感計算模型瞳利。在這個模型中, 他們利用情感類別將情感空間劃分為有限個等量集合,用粗集來表示這些情感集 合。并用馬爾可夫鏈表示粗集的混合矩陣,描述人類情感狀態(tài)的變化趨勢。 v a nk e s t e r e n 等人針對外界刺激建立了一個分布式情感模型乜5 1 。整個分布式 系統(tǒng)把特定的外界刺激轉(zhuǎn)換成與之相對應(yīng)的情感狀態(tài),過程分為兩個階段:第一 階段評價事件的情感意義,這由事件評估器完成,針對每一類相關(guān)事件,分別定 義一個事件評估器,當(dāng)事件發(fā)生時,先確定事件的類型和事件信息,然后選擇相 關(guān)事件評估器進行情感評估,并產(chǎn)生量化結(jié)果e w ( 情感脈沖向量) ;第二階段對 e w 歸一化得到n e w ,通過e s c ( 情感狀態(tài)估計器) 計算情感狀態(tài)。事件評估器、 e i v 到n e w 及e s c 均采用神經(jīng)網(wǎng)絡(luò)實現(xiàn)。 f u j i s a k i 模型瞳剛最早由h i o r y af u j i s a k 在1 9 8 4 年提出,用于建立日文的基頻 模型,后來又推廣到其他語言,比如英語、德語、普通話、泰語等。f u j i s a k i 模 型針對全句建立數(shù)學(xué)模型,它的基本思想是認為一句話的語音基頻是由三個部分 構(gòu)成的:( 1 ) 基頻直流分量;( 2 ) 以聲帶一次激勵結(jié)果形成的局部基頻形狀;( 3 ) 跨越多 個局部的基頻整體趨勢瞳7 1 。該模型以生理學(xué)為基礎(chǔ),是一種利用喉部結(jié)構(gòu)和喉部 結(jié)構(gòu)的相互作用來定量描述f o 生成和控制機制的模型。模型利用了重疊組織的 方法很好的描繪出了語句中這種下傾的走勢,通過對于語句中每個需要的時間點 計算f 0 值,模型參數(shù)至少要在一個音節(jié)或韻律詞內(nèi)保持恒定,模型組件重疊后 生成的平滑曲線適合于模擬自然的f o 曲線。f u j i s a k i 模型從生理上、聲學(xué)特性上 以及韻律控制上對語調(diào)做出了清楚的描述。 4 碩士學(xué)位論文第一章緒論從以上的介紹中可知,現(xiàn)有的關(guān)于情感建模的研究大多還是集中于心理學(xué)層面和理論層面。關(guān)于有針對性的適合于語音情感的建模方法的研究目前還很少,甚至當(dāng)前沒有含語音情感特征的發(fā)聲模型方面的專門研究。1 4 課題主要研究內(nèi)容本文針對當(dāng)前缺乏語音情感特征的發(fā)聲模型專門研究的現(xiàn)狀,通過探索情感特征與l p c 系數(shù)之間的映射關(guān)系,提出了建立l p c 情感語音模型的新思路和新方法。該方法分別建立高興、憤怒、悲傷及中性四種情感下的情感語音庫,采用g m m 模型,將中性語音和情感語音的l p c 特征矢量作為聯(lián)合矢量,根據(jù)動態(tài)時間規(guī)整技術(shù)、e m 算法和m m s e 準則,對模型進行訓(xùn)練和參數(shù)估計,最終獲得不同情感狀態(tài)的語音對中性語音的l p c 系數(shù)映射函數(shù),完成對情感l(wèi) p c 參數(shù)的建模。設(shè)計了實驗測試方案,采用i s 距離對通過映射函數(shù)的得到的l p c 系數(shù)和標(biāo)準中性語音的l p c 系數(shù)進行性能比較,從而驗證了模型的有效性。下面介紹論文的安排:第一章緒論。主要介紹課題背景和研究意義,情感語音特征參數(shù)和情感語音建模的發(fā)展現(xiàn)狀以及本文主要研究內(nèi)容和論文安排。第二章情感語音數(shù)據(jù)庫。確定了本課題所采用的情感分類方法和情感語音庫一中科院錄制的情感語音庫。分析了情感語音庫的建立規(guī)范,并根據(jù)本文的研究內(nèi)容和方案,在中科院情感語音庫的基礎(chǔ)上選擇了和確立了本文采用的情感語音數(shù)據(jù)庫。第三章情感語音的音質(zhì)特征分析。分析研究各種情感下語音的音質(zhì)情感特征參數(shù)的規(guī)律。作為語音信號分析和處理的前提和基礎(chǔ),本章首先對預(yù)處理,包括分幀、預(yù)加重、端點檢測的原理和算法進行了研究。基于當(dāng)前缺乏語音情感特征的發(fā)聲模型方面的專門研究的現(xiàn)狀,本文提出了l p c 參數(shù)的情感特征分析和建模的新思路。因此本章還分析了經(jīng)典的線性預(yù)測技術(shù)和l p c 參數(shù)的提取方法。在總結(jié)現(xiàn)有的對語音的音質(zhì)情感特征參數(shù)的研究成果基礎(chǔ)上,本章研究了共振峰參數(shù)在高興、憤怒、悲傷和中性狀態(tài)下的規(guī)律,發(fā)現(xiàn)其受說話人和文本的影響較大,但是還是有一定的共性。最后,本章研究了幾種常見的建模和研究方法,為下一章節(jié)的研究與分析奠定了理論基礎(chǔ)。第四章基于高斯混合模型的情感l(wèi) p c 系數(shù)研究。研究了g m m 模型的基本結(jié)構(gòu)、參數(shù)設(shè)置的方法。給出了訓(xùn)練的基本流程和框架。本章采用g m m 模型,將中性語音和情感語音的l p c 特征矢量作為聯(lián)合矢量,根據(jù)動態(tài)時間規(guī)整技術(shù)、e m 算法和m m s e 準則,對模型進行訓(xùn)練和參數(shù)估計,最終獲得不同情感狀態(tài)的語音對中性語音的l p c 系數(shù)映射函數(shù),完成對情感l(wèi) p c 參數(shù)的建模。 碩士學(xué)位論文第一章緒論第五章實驗分析與評價。設(shè)計了實驗測試方案,采用i s 距離對通過映射函數(shù)的得到的l p c 系數(shù)和標(biāo)準中性語音的l p c 系數(shù)進行性能比較,從而驗證了模型的有效性。第六章結(jié)束語。首先對本文所做的工作進行了總結(jié),說明了本文的創(chuàng)新點,最后對下一步的研究工作進行了展望。6 碩士學(xué)位論文第二章情感語音數(shù)據(jù)庫第二章情感語音數(shù)據(jù)庫情感語音研究的基礎(chǔ)是建立高質(zhì)量的情感語音庫,只有建立高真實感、大規(guī)模的情感語音數(shù)據(jù)庫才有可能從事情感語音的研究。情感語音數(shù)據(jù)庫為情感語音的研究提供了大量的分析數(shù)據(jù)及訓(xùn)練語料。2 1 情感語音庫2 1 1 情感語音的定義情感是根據(jù)所處環(huán)境由主觀沖動引起的較強的心理狀態(tài)、生理狀態(tài),能夠引起的表現(xiàn)主要在語音、表情以及行為上。對于情感的產(chǎn)生機理,盡管研究者們做了很多的研究工作,如今對于情感仍然沒有被廣泛認同的定義。不同的研究方法和目的會有不同的情感機理的表現(xiàn)形式。目前有許多研究情感的學(xué)者對情感的正確定義進行了研究,通常認為情感是由思想和外部事件引起的生理變化、行為及主觀體驗組成,是人們相互之間交流的信息。k l a u ss r 乜8 3 指出情感同立場、態(tài)度和情緒是不相同的,盡管它們之間存在著一定的聯(lián)系。一般來說,態(tài)度與情感是不容易區(qū)分的,而o h a l a 砼鮑則指出情感與態(tài)度間存在本質(zhì)的區(qū)別,說話者在對話中的目的即是說話者的態(tài)度,說話人對所處環(huán)境和心理狀態(tài)的反映則是情感。兩者中,態(tài)度的主動性更強,情感則比較被動。從心理學(xué)角度上,c o r n e l i u s 啪1 把情感分成了六種:高興,悲傷,生氣,厭惡,憤怒和驚訝。憤怒包括了惡狠狠的冷怒和“怒發(fā)沖冠”的怒。k l a u ss r b 用心理學(xué)中的高低喚醒度來表達感情狀態(tài)的強烈程度。高喚醒度( 1 l i g ha r o u a s l ) 是指表現(xiàn)較豐富的感情,可以使說話者表現(xiàn)出強烈感情的語音,而低喚醒度( 1 0 wa r o u s a l ) 的情感表現(xiàn)比較弱,在發(fā)音中沒包含較多的感情。各種情感有各自的喚醒度范圍,如怒發(fā)沖冠的喚醒度較高,而羞愧和悲傷的喚醒度較低。情感語音處理中一般選用較為典型的情感,如高興、恐懼、憤怒和悲傷,也有高興、憤怒、悲傷、恐懼和厭惡等刳。b e r l i n 科技大學(xué)的通訊科學(xué)研究所錄制了包含中立、高興、憤怒、悲傷、厭惡、恐懼和厭煩的情感語音庫口3 i 。2 1 2 情感語音的分類在對情感語音信號進行研究之前,要采用某些標(biāo)準對語音的情感進行合理有效的分類。與情感的定義一樣,目前對情感的分類也沒有比較統(tǒng)一的認識,因此具體如何分類可以根據(jù)研究的特定目的來決定。情感的分類的粒度、精確度在很7 碩士學(xué)位論文第二章情感語音數(shù)據(jù)庫高興一,一、贊網(wǎng)弋期望(雷寨:點) 恐懼i 、自然暇點,麟、- 一鼢、- 一巴。厭惡一瑟傷表2 1f o x 的情感三級分類模型2 1 3 情感語音庫的分類情感語音庫的分類主要依據(jù)獲得情感語音數(shù)據(jù)的不同途徑,常見的三種情感語音庫類型有啪1 :( 1 ) 自然產(chǎn)生的情感語音:( 2 ) 表演所得的情感語音;( 3 ) 由情感8 碩士學(xué)位論文第二章情感語音數(shù)據(jù)庫引導(dǎo)產(chǎn)生的情感語音。各種類型的情感語音庫各有優(yōu)缺點。選擇情感語音庫時,需要根據(jù)我們情感研究的方法、目的、應(yīng)用需求以及一些客觀條件等選擇適合的情感語音庫。1 自然產(chǎn)生的情感語音自然產(chǎn)生的情感語音具有最高的可信度,但是收集起來非常困難。自然情感語音通常在說話者不知情時錄音,從而達到收集情感語音的目的。因為說話者對收集情感語音是不知情的,所以說話者處在非常自然的情況下用語言來達自己的情感。然而,因為說話者對采集情感語音的不知情,引出了版權(quán)等一系列法律相關(guān)的問題。在使用自然產(chǎn)生的情感語音之前,需要對這類情感語音進行分類。將自然產(chǎn)生的情感語音合理分類是比較困難的,因為目前情感的分類還是不確定的,根據(jù)不同的研究者及研究目的分類也有差別。自然產(chǎn)生的情感語音庫有l(wèi) e e d s r e a d i n ge m o t i o ni ns p e e e hc o r p u s ,b e l f a s td a t a b a s e ,s u s a sc o r p u s 及j s td a t a b a s e 等。2 表演所得的情感語音雖然自然產(chǎn)生的情感語音具有最高的自然度,但是收集起來太困難,因此,情感語音的學(xué)者們請若干個演員或播音員模擬各種情感來朗讀給定的語句,然后對這些情感語音進行情感分析,從而得到了表演所得的情感語音。雖然表演所得的情感語音的自然度不如自然產(chǎn)生的情感語音高,但比較容易獲得。表演所得的情感語音的質(zhì)量同它的說話者有很大的聯(lián)系。因此,為提高表演所得的情感語音的質(zhì)量,可以邀請專業(yè)演員或播音員來表演獲取。表演所得的情感語音與自然情感語音相比,前者的情感狀態(tài)可能會被不同程度的夸大,所以,真實的情感不能在有些表演所得的情感語音中得到合理的體現(xiàn);雖然表演所得的情感語音有較高的語音情感識別率,但是真實的情感語音的特點是不能僅僅用這類情感語音來代表的??梢?,語音的情感狀態(tài)的自然度同情感語音的獲取方法是不可調(diào)和的矛盾。3 由情感引導(dǎo)產(chǎn)生的情感語音在對這類情感語音進行錄音之前,情感語音學(xué)者會讓說話者讀一些能讓說話者產(chǎn)生某種感情的文學(xué)段落,或者看一段能讓說話者產(chǎn)生某種情感的電影,來引導(dǎo)說話者產(chǎn)生某種情感,從而獲得由情感引導(dǎo)產(chǎn)生的情感語音。2 1 4 情感語音庫介紹下面對國外已有的情感語音庫作簡要介紹口9 l 。b e l f a s td a t a b a s e :該情感語音庫是英語文本,情感種類有憤怒,悲傷,高興,中立和害怕,情感語音庫的類型是由情感引導(dǎo)產(chǎn)生的情感語音庫,是音頻文件,9 碩士學(xué)位論文第二章情感語音數(shù)據(jù)庫發(fā)音人共有5 0 位;b e l f a s tn a t u r a l :該情感語音庫是在電視錄音中采集的英語情感語音,屬于表演所得的情感語音庫,每段語音長度在10 6 0 s 間,情感種類主要是憤怒,共有1 2 5 個發(fā)音人,其中3 1 個男生,9 4 個女生;a l b e l i n :這個情感語音庫是瑞典語文本,是表演所得的情感語音,情感種類有憤怒,厭惡,害怕,高興,悲傷,驚訝和羞愧等,只有一個發(fā)音人;b a n s ea n ds c h e r e r :該情感語音庫屬于引導(dǎo)產(chǎn)生的情感語音庫,是德語文本,字面不包含情感,有情感引導(dǎo)文本引導(dǎo)說話人說出各種情感語音,情感種類有惡狠狠的憤怒,冷怒,焦慮,煩躁,鄙視,厭惡,興高采烈,害怕,高興,感興趣,驕傲,悲傷及羞愧1 3 種情感,共有1 2 個發(fā)音人,6 個男生6 個女生,音頻視頻文件皆有;m o z z i c o n a c c i :該情感語音庫屬于引導(dǎo)產(chǎn)生的情感語音庫,是荷蘭語文本,文本中不包含情緒,但有引導(dǎo)說話人產(chǎn)生某種情感的文本,情感種類包括憤怒,煩惱,害怕,厭惡,內(nèi)疚,高興,驕傲,憤怒,高興,中立,狂怒,悲傷和擔(dān)心1 3 種情感,有3 個發(fā)音人,音頻文件;r e a d h a g l e e d sd a t a b a s e :該情感語音庫是4 5 個小時的廣播電視錄音,英語發(fā)音,情感種類主要是憤怒。國內(nèi)普通話的情感語音庫主要有中科院錄制的情感語音庫。該語音庫屬于a c t e ds p e e c h 類型。錄音人是一普通話標(biāo)準的男性,語音庫以句子為單位,每個句子由六個字組成,分別以高興、憤怒、悲傷、驚奇、害怕和中立6 種情感方式朗讀,采樣率為1 6 k h z ,以w a v 文件類型保存。2 2 情感語音數(shù)據(jù)庫的建立由于語音產(chǎn)生的機理復(fù)雜、受包括語法句式、重音、說話人情感以及說話人個性特征等在內(nèi)的眾多因素的影響,為了突出情感特征參數(shù)如何受情感因素影響的研究初衷,設(shè)計、選取了特定的情感語音數(shù)據(jù)庫。該數(shù)據(jù)庫在語句內(nèi)容、長度、說話人等方面做了一定的限制,有效避免了干擾因素的影響。本文采用中科院錄制的情感語音庫,并根據(jù)研究方案,對該數(shù)據(jù)庫進行了刪選,下面分別從情感類型的選擇、語料的選擇j 錄音者、存儲格式等方面分析本文建立的情感數(shù)據(jù)庫。( 1 ) 情感類別的選擇情感的確定是建立情感語音數(shù)據(jù)庫之前必須考慮的問題。研究表明,過細的情感分類并沒有對人機交互和情感識別產(chǎn)生很重大的意義。當(dāng)下的情感識別中,多采用4 - 6 種情感分類。國內(nèi)許多學(xué)者將情感分為高興、憤怒、驚奇、悲傷四種 碩士學(xué)位論文 第二章情感語音數(shù)據(jù)庫 進行相關(guān)研究h0 。,或者分為歡快、憤怒、恐懼、悲傷。這四種情感模型的好處是 情感粒度大,容易區(qū)分辨別。另外,有研究表明,音質(zhì)類參數(shù)與情感不具有一對 一的關(guān)系,而是可能與一大類的情感相關(guān)。為有效提高實驗的準確程度,本文采 用r u s s e l l 情感空間中的四種主要情感:憤怒、高興、悲傷和中立。 ( 2 ) 情感語料的選擇 語料的選擇是非常重要的,同時也是具有一定難度的。每一位話者對各種情 感的理解可能不同,對所選語句內(nèi)容的理解可能也不盡相同。即使某一語句從內(nèi) 容上具有某種情感傾向,但經(jīng)某話者發(fā)音后,用信號處理分析后未必是有效的。 因此,為了得到有效的情感語音數(shù)據(jù),實驗用語料的選擇需要考慮以下3 個方 面: 1 ) 所選擇的語句必須不包含某一方面的情感傾向; 2 ) 必須具有較高的情感自由度,對同一個語句能施加各種情感進行分析比 j 工 牧; 3 ) 是口語化的陳述句。 ( 3 ) 錄音者以及存儲格式 該語音庫的錄音者是一普通話標(biāo)準的女性,可以使實驗結(jié)果不受說話人個性 特征的影響。對挑選出的每個句子分別按照上面所述的歡快、憤怒、悲傷以及不 帶感情的四個方式朗讀。采用1 6 k h z 采樣率、1 6 b i t 的單聲道音頻格式錄制成標(biāo) 準p c m 編碼格式并以w a v 類型保存文件。圖2 2 是該情感數(shù)據(jù)庫中的語句“你 可真?zhèn)ゴ笱健狈謩e在憤怒、高興、悲傷和中立四種情感狀態(tài)下的語音波形。 ( a ) 高興情感語音的波形 1 型 蛆 辜o 1 里 l “hk l 一一。 丫_ 呵 一 r 一1 i 耵1 ( c ) 悲傷情感語音的波形( d ) 中立情感下的語音波形 圖2 - 2 各情感下的語音波形 2 3 本章小結(jié) 本章首先介紹了情感的分類方法,然后根據(jù)實驗條件等客觀因素確定了本課 碩士學(xué)位論文第二章情感語音數(shù)據(jù)庫題采用的情感分類方法;介紹了情感語音庫的類型和已有的情感語音庫,在此基礎(chǔ)上確定了本課題所采用的情感語音庫一中科院錄制的情感語音庫;并根據(jù)本課題的研究方案和需要,分析了情感語音庫的建立規(guī)則和選擇條件,并從中選取了特定的情感語句,最終確定了本課題的情感語音庫。 碩士學(xué)位論文 第三章情感語音的音質(zhì)特征分析 第三章情感語音的音質(zhì)特征分析 在一定的情感狀態(tài)下,說話人發(fā)出的含有一定語義的語音即為情感語音。語 音中所包含的情感信息是相當(dāng)重要的信息,情感信息能幫助人們更好的通過語音 進行交流。語音情感狀態(tài)的變化可以由情感參數(shù)的變化規(guī)律來體現(xiàn)。本章主要分 析研究了情感語音的音質(zhì)特征參數(shù)。盡管當(dāng)今對情感語音的音質(zhì)特征研究還比較 少,通過對共振峰參數(shù)等的分析,還是發(fā)現(xiàn)了一定的情感表現(xiàn)規(guī)律。本文針對當(dāng) 前缺乏語音情感特征的發(fā)聲模型方面的專門研究,通過研究現(xiàn)有的建模方法,提 出了建立基于g m m 模型的情感l(wèi) p c 系數(shù)模型的新思路。 預(yù)處理包括語音信號的數(shù)字化和數(shù)字化后的初步處理,是對語音信號進行分 析和處理的前提和基礎(chǔ),對情感語音自然也不例外。所以,本節(jié)首先對語音信號 的預(yù)處理進行了研究。 3 1 語音信號的預(yù)處理 3 1 1 預(yù)處理 由于語音信號的平均功率譜受聲門激勵和口鼻輻射影響,信號的高頻部分大 約在8 0 0 h z 以上按6 d b 倍頻程跌落,即語音信號的頻譜產(chǎn)生高頻衰落現(xiàn)象。所 以系統(tǒng)得到語音信號頻譜時,頻率越高相應(yīng)的成分越少,高頻部分的頻譜比低頻 部分的難求,為抵消這種影響就進行預(yù)加重( p r e e m p h a s i s ) 處理h 1 j 。預(yù)加重的目的 是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻整個頻帶中,能用 同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。預(yù)加重一般是在語音信 號數(shù)字化之后、參數(shù)分析之前在計算機里用具有提升高頻特性的預(yù)加重數(shù)字濾波 器來實現(xiàn),它般是一個一階的數(shù)字濾波器 h = l a z 。1( 3 1 ) a 決定截止頻率,此濾波器為單零點濾波器,呈高通特性。a 為頻域中的預(yù) 加重因子,控制預(yù)加重程度,a 典型值為0 9 左右。圖3 1 是a 為0 9 時的頻率 特性。 語音信號特性是隨時間變化的,但是在一個短時間范圍內(nèi)其特性基本保持不 變,因此可以將語音看作是一個準平穩(wěn)過程,對語音的分析和處理都建立在短時 分析的基礎(chǔ)上,將其分成一段一段來分析,其中每一段稱為一幀,即對語音信號 流采用分幀或分段來處理。由于語音通常在1 0 m s 一- 3 0 m s 之內(nèi)是保持相對平穩(wěn)的, 因而幀長一般取為10 m s - 3 0 m s 。 碩士學(xué)位論文第三章情感語音的音質(zhì)特征分析1 0號0翟加2 0:= - = ,1 7 f 。_ - - - - - 。j 。- - - - - 一。廣。oo 2歸境頻率( o 死gr a 州s a m p i e 0 8 )歸一化頻率r ,刑。,m 、圖3 1 預(yù)加重濾波器頻率特性如圖3 2 所示,經(jīng)過了預(yù)加重之后,聲音變得比較尖銳,音量也變小了。a值越大對高頻分量幅度的提升越大。( a ) 原始語音n y( b ) 預(yù)加重后語音:a - - o 9 5 圖3 - 2 預(yù)加重效果進行過預(yù)加重數(shù)字濾波處理后,接下來就是要進行加窗分幀處理。分幀的過程實際上就是加窗的過程。分幀雖然可以用連續(xù)分段的方法,但一般要采用交疊分段的方法,使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀與后一幀之間的距離稱為幀移。幀長與幀移的比值一般為i 2 左右。分幀是用可移動的有限長度窗口進行加權(quán)的方法來實現(xiàn)的,這就是用一定的窗函數(shù)w ( 刀) 乘以信號s 俐。從而形成加窗語音信號s w ( 玎) = s 俐術(shù)w ( n ) 。1 4 碩士學(xué)位論文第三章情感語音的音質(zhì)特征分析在語音數(shù)字信號處理中常用的窗函數(shù)有矩形窗、漢明( h a m m i n g ) 窗和漢寧( h a r m i n g ) 窗,其定義分別為( 1 ) 矩形窗w _ 蕊虬( 3 - 2 )w ( 加惦其他)( 2 ) 漢明窗) 一i u ,其他、?!? 3 ) 漢寧窗w ( 爐 0 晉:s ( 2 冊化) 】,o 如虬。( 3 - 4 )w ( 玎) 2 1 0 ,妻他、”其中三為窗長,這些窗函數(shù)都有低通特性。通過比較分析:矩形窗旁瓣太高,會產(chǎn)生嚴重的泄漏現(xiàn)象,因此很少采用矩形窗;而漢明窗旁瓣最低,可有效地克服泄漏現(xiàn)象,具有更平滑的低通特性,因此應(yīng)用最廣泛。另外若窗越長,它對信號的平均作用越厲害,信號的頻率分辨率越高,但是其時間分辨率也越低,因此要想反映出快速時變信息,窗長應(yīng)相對短一些。3 。1 2 端點檢測對于采集到的語音信號,除了用戶的語音信號以外,一般在頭部和尾部還包含靜音段,而在現(xiàn)實環(huán)境中,靜音段經(jīng)常由于受到噪聲的污染能量值不為零,導(dǎo)致系統(tǒng)誤判,性能降低。對語音信號進行端點檢測n2 | ,有利于減少系統(tǒng)運算量,提高系統(tǒng)性能。首先可以考慮用信號的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論