語(yǔ)音情感識(shí)別_第1頁(yè)
語(yǔ)音情感識(shí)別_第2頁(yè)
語(yǔ)音情感識(shí)別_第3頁(yè)
語(yǔ)音情感識(shí)別_第4頁(yè)
語(yǔ)音情感識(shí)別_第5頁(yè)
已閱讀5頁(yè),還剩71頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語(yǔ)音情感識(shí)別概述語(yǔ)音情感識(shí)別是指由計(jì)算機(jī)自動(dòng)識(shí)別輸入語(yǔ)音的情感狀態(tài)。人機(jī)語(yǔ)音智能交互的關(guān)鍵技術(shù)互動(dòng)電影、情感翻譯、心理檢測(cè)、電子游戲和輔助心理治療……語(yǔ)音情感識(shí)別研究具有重要的理論價(jià)值和應(yīng)用前景2研究進(jìn)展美國(guó)、日本、韓國(guó)、歐洲等許多國(guó)家國(guó)內(nèi):東南大學(xué)、中國(guó)科學(xué)院、清華大學(xué)、浙江大學(xué)、哈爾濱工業(yè)大學(xué)、微軟亞洲研究院3結(jié)構(gòu)1 語(yǔ)音情感識(shí)別的系統(tǒng)2語(yǔ)音情感特征參數(shù)3特征選擇和降維方法4語(yǔ)音情感識(shí)別算法5展望41 系統(tǒng)概述1 語(yǔ)音情感識(shí)別的系統(tǒng)三個(gè)環(huán)節(jié):即預(yù)處理、特征提取和情感分類6預(yù)處理主要包括采樣量化、預(yù)加重、端點(diǎn)檢測(cè)、分幀加窗。預(yù)處理過(guò)程的好壞在一定程度上也影響系統(tǒng)的識(shí)別效果7特征提取特征提取的任務(wù)是從輸入的語(yǔ)音信號(hào)中提取能夠區(qū)分不同情感的參數(shù)序列,在提取特征數(shù)據(jù)的過(guò)程中,為了獲得最優(yōu)特征子集,可能還需要特征降維、特征選擇等進(jìn)一步處理。8模式分類a)在訓(xùn)練時(shí)用反映情感特征的參數(shù)序列,為每種情感建立相應(yīng)的情感模型b)在測(cè)試或識(shí)別時(shí)根據(jù)所得到的待識(shí)別語(yǔ)音信號(hào)的特征參數(shù)序列,由系統(tǒng)對(duì)這些參數(shù)和已知情感模型之間的相似程度進(jìn)行評(píng)估,并根據(jù)評(píng)估的結(jié)果判斷輸入語(yǔ)音信號(hào)的情感歸屬92特征參數(shù)2語(yǔ)音情感特征參數(shù)語(yǔ)音情感的變化通過(guò)特征參數(shù)的差異來(lái)體現(xiàn)語(yǔ)音情感識(shí)別系統(tǒng)主要依靠語(yǔ)音的低層次聲學(xué)特征來(lái)進(jìn)行識(shí)別特征征大致可分為基于模型的特征非基于模型的特征112.1基于模型的特征1 線性激勵(lì)源/濾波器語(yǔ)音產(chǎn)生模型特征2 非線性激勵(lì)源/濾波器語(yǔ)音生成模型特征3 語(yǔ)音的全極點(diǎn)模型特征4 正弦語(yǔ)音模型特征122.1.1線性激勵(lì)源/濾波器語(yǔ)音產(chǎn)生模型特征特征主要表現(xiàn)在語(yǔ)音的頻譜結(jié)構(gòu)上包含了反映聲道共振的頻譜包絡(luò)特征信息和反映聲帶振動(dòng)等音源特性的頻譜細(xì)節(jié)構(gòu)造特征信息具有代表性的特征參數(shù)有基音頻率共振峰。13基音頻率濁音的聲帶振動(dòng)基本頻率稱為基音頻率多語(yǔ)種下,情感語(yǔ)音的基頻結(jié)構(gòu)特征隨情感狀態(tài)改變有明顯的變化,且不同語(yǔ)種下這種結(jié)構(gòu)的變化有較好的一致性。[1]一般提取的基音參數(shù)是一段語(yǔ)音的基頻衍生參數(shù),如基頻的均值、范圍、方差、中值、輪廓變化等。[2]14基頻與人的生理構(gòu)造密切相關(guān),具有較強(qiáng)的相異性和不穩(wěn)定性,基頻本身絕對(duì)數(shù)值使用較少,基頻的統(tǒng)計(jì)數(shù)值更為常用,而且在不同的性別上基頻差異更為明顯。通過(guò)分析基頻均值、方差、統(tǒng)計(jì)分布模型在性別上的差異,對(duì)基頻參數(shù)進(jìn)行基于性別差異的規(guī)整;引入規(guī)整后的基頻均值和方差以及基頻統(tǒng)計(jì)分布模型距離作為情感特征參數(shù)[3]15共振峰當(dāng)元音激勵(lì)進(jìn)入聲道時(shí)會(huì)引起共振特性,產(chǎn)生一組共振頻率即共振峰共振峰的位置和頻帶寬度是反映聲道特性應(yīng)用最廣泛的是前三個(gè)共振峰峰值及前三個(gè)共振峰的帶寬。共振峰參數(shù)存在個(gè)體差異,應(yīng)用較多的是統(tǒng)計(jì)特征[4]162.1.2非線性激勵(lì)源/濾波器語(yǔ)音生成模型特征傳統(tǒng)的語(yǔ)音學(xué)方法對(duì)語(yǔ)音模型的研究將語(yǔ)音的產(chǎn)生假定為線性源—濾波器模型,語(yǔ)音被假設(shè)是沿聲道方向傳播的平面波Teager等人[5]認(rèn)為當(dāng)氣流通過(guò)聲帶和偽聲帶區(qū)域會(huì)出現(xiàn)氣流的分離、附著,進(jìn)而形成渦流,并與平面波一起構(gòu)成語(yǔ)音生成的原因,提出Teager能量算子(TEO)17TEO發(fā)展TEO算子分別應(yīng)用于信號(hào)的時(shí)域和頻域,并與子帶能量特征相結(jié)合,提出兩種基于TEO的非線性特征用于識(shí)別語(yǔ)音情感。[6]結(jié)合小波分析的多分辨率思想將不同形式的TEO與美爾頻域倒譜系數(shù)(MFCC)相結(jié)合,提出五種非線性特征用于語(yǔ)音情感識(shí)別[7]182.1.3語(yǔ)音的全極點(diǎn)模型特征這類特征主要表現(xiàn)在語(yǔ)音頻譜結(jié)構(gòu)隨時(shí)間的變化上,包含了特征參數(shù)的動(dòng)態(tài)特性代表性的特征參數(shù)是倒譜系數(shù),如線性預(yù)測(cè)倒譜系數(shù)(LPCC)和美爾頻域倒譜系數(shù)(MFCC)19線性預(yù)測(cè)倒譜系數(shù)(LPCC)LPCC是基于語(yǔ)音信號(hào)為自回歸信號(hào)的假設(shè),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。根據(jù)同態(tài)處理的概念和語(yǔ)音信號(hào)產(chǎn)生的模型,語(yǔ)音信號(hào)的倒譜等于激勵(lì)信號(hào)的倒譜和聲道傳輸函數(shù)的倒譜之和。20通過(guò)分析激勵(lì)信號(hào)的語(yǔ)音特點(diǎn)及聲道傳輸函數(shù)的零極點(diǎn)分布情況可知,激勵(lì)信號(hào)的倒譜分布范圍很寬,而聲道傳輸函數(shù)的倒譜主要分布于低時(shí)域中??紤]到不同情感的發(fā)音可能使聲道有不同的變化,進(jìn)而引起聲道傳輸函數(shù)倒譜的變化,因而在語(yǔ)音情感識(shí)別中語(yǔ)音信號(hào)倒譜的低時(shí)域系數(shù)LPCC得到了應(yīng)用。21MFCC然而,LPCC在所有的頻率上是線性逼近語(yǔ)音的,這與人的聽(tīng)覺(jué)特性不一致,而且LPCC包含了語(yǔ)音高頻部分的大部分噪聲細(xì)節(jié),使其抗噪聲性能較差。針對(duì)以上的缺陷提出了MFCC,并在語(yǔ)音情感識(shí)別領(lǐng)域得到廣泛應(yīng)用。222.1.4正弦語(yǔ)音模型特征語(yǔ)音信號(hào)被假設(shè)可以由一組不同頻率、幅度和相位的正弦波之和表示,因此這組正弦波的頻率、幅度和相位可以作為表達(dá)語(yǔ)音情感變化的特征參數(shù)。仿真結(jié)果表明上述三種特征可以有效地刻畫語(yǔ)音情感的變化,并且性能優(yōu)于常用的倒譜特征參數(shù)。[8]232.2非基于模型的特征這類特征通常由一幀或一段語(yǔ)音信號(hào)的各個(gè)時(shí)域采樣直接計(jì)算一個(gè)特征矢量,常用的特征參數(shù)有語(yǔ)速、短時(shí)平均過(guò)零率、發(fā)音持續(xù)時(shí)間和能量等。24發(fā)音長(zhǎng)度通常認(rèn)為,歡快、憤怒、驚奇的發(fā)音長(zhǎng)度和平靜發(fā)音相比壓縮了,而悲傷的發(fā)音長(zhǎng)度卻稍稍伸長(zhǎng)了。25語(yǔ)速?gòu)恼Z(yǔ)速和情感的關(guān)系來(lái)看,歡快、憤怒、驚奇和平靜發(fā)音相比變快了,而悲傷卻變慢了在提取持續(xù)時(shí)間時(shí)應(yīng)注意包括無(wú)聲部分,因?yàn)闊o(wú)聲部分本身對(duì)情感是有貢獻(xiàn)的。對(duì)于漢語(yǔ)而言,一個(gè)漢字即為一個(gè)音節(jié),所以用總音節(jié)數(shù)除以持續(xù)時(shí)間即得到語(yǔ)速。26能量語(yǔ)音作為一種能量有限的信號(hào),能量特征是其最重要的特征之一。從人們的直觀感覺(jué)中就可感受到語(yǔ)音信號(hào)的能量特征與情感具有較強(qiáng)的相關(guān)性,如當(dāng)人們憤怒時(shí),發(fā)音的音量往往變大;而當(dāng)人們悲傷時(shí),往往講話聲音較低。273特征選擇和降維3.1特征選擇任一類型特征都有各自的側(cè)重點(diǎn)和適用范圍,不同的特征之間具有一定的互補(bǔ)性。因此,相當(dāng)多的文獻(xiàn)采用了混合參數(shù)構(gòu)成特征向量。常用的特征選擇方法有[9]序列前向選擇(SFS)序列后向選擇(SBS)優(yōu)先選擇法(PFS)29SFSSFS法考慮了所選特征與已選定特征之間的相關(guān)性,但它的主要缺點(diǎn)是一旦某特征已入選,即使由于后加入的特征使它變得冗余,也無(wú)法再將它剔除。30SBSSBS在計(jì)算過(guò)程中可以估計(jì)每除去一個(gè)特征所造成的可分性的降低,與SFS相比,由于要在較大的變量集上計(jì)算可分性判據(jù),其計(jì)算量要比SFS大。31PFSPFS方法雖然不能得到最優(yōu)的結(jié)果,但它能快速、方便地完成特征選擇過(guò)程,在一些原始特征數(shù)量較大、可分性判據(jù)計(jì)算復(fù)雜的情況下,被普遍使用,在有些情況下它的綜合效率比SFS和SBS都要高。323.2降維方法從模式識(shí)別的研究也表明,識(shí)別率不與特征空間的維數(shù)成正比,在高維情況下泛化能力反而減弱,甚至導(dǎo)致維數(shù)災(zāi)難。現(xiàn)在解決此問(wèn)題的方法是對(duì)高維特征向量進(jìn)行特征選擇或者降維。常用的降維方法有主成分分析法(PCA)線性判別分析(LDA)33PCAPCA提取了最有代表性的特征,可以有效地消除冗余,降低維數(shù),但它沒(méi)有考慮不同類別數(shù)據(jù)之間的區(qū)分性。34LDALDA通過(guò)最大化數(shù)據(jù)的類間離散度和最小化類內(nèi)離散度來(lái)選擇合適的投影方向,側(cè)重于尋找具有最大分辨力的方向。354識(shí)別算法4語(yǔ)音情感識(shí)別算法語(yǔ)音情感識(shí)別現(xiàn)在的處理思路仍然是把它作為典型的模式識(shí)別問(wèn)題,所以到目前為止,幾乎所有的模式識(shí)別算法都被應(yīng)用其中。37兩大類較為流行的方法a)基于概率生成模型的方法隱馬爾可夫模型(HMM)高斯混合模型(GMM)b)基于判別模型的方法支持向量機(jī)(SVM)人工神經(jīng)網(wǎng)絡(luò)(ANN)384.1隱馬爾可夫模型(HMM)HMM是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型由于它既能用短時(shí)模型即狀態(tài)解決聲學(xué)特性相對(duì)穩(wěn)定段的描述,又能用狀態(tài)轉(zhuǎn)移規(guī)律刻畫穩(wěn)定段之間的時(shí)變過(guò)程,在基于時(shí)序特征的語(yǔ)音情感識(shí)別模型中,HMM已成為研究人員廣泛采用的模型。39常用HMM的結(jié)構(gòu)自左向右連續(xù)型HMM模型狀態(tài)回跳連續(xù)HMM模型各態(tài)歷經(jīng)離散HMM模型自左向右半連續(xù)型HMM模型自左向右的狀態(tài)轉(zhuǎn)移結(jié)構(gòu)適合文本相關(guān)的情感識(shí)別,各態(tài)歷經(jīng)的狀態(tài)轉(zhuǎn)移結(jié)構(gòu)適合文本無(wú)關(guān)的情感識(shí)別。40離散型HMM模型離散型模型相對(duì)簡(jiǎn)單語(yǔ)音情感特征參數(shù)必須經(jīng)過(guò)矢量量化(VQ)處理從而造成一些信息的丟失VQ的碼本訓(xùn)練和離散HMM的訓(xùn)練不是同時(shí)進(jìn)行優(yōu)化訓(xùn)練,因而很難保證訓(xùn)練的全局優(yōu)化41連續(xù)型HMM模型連續(xù)型HMM模型避免了矢量量化的計(jì)算,可以直接處理特征參數(shù)為得到較精確的狀態(tài)觀察值的概率密度分布函數(shù)必須使用較多的概率密度函數(shù)進(jìn)行混合,這樣造成模型復(fù)雜、運(yùn)算量大,并且需要足夠多的訓(xùn)練數(shù)據(jù)才能得到可靠的模型參數(shù)。42半連續(xù)型HMM模型半連續(xù)型模型的特點(diǎn)介于離散型模型和連續(xù)型模型模型之間。43HMM特點(diǎn)基于HMM的語(yǔ)音情感識(shí)別擴(kuò)展性好,增加新樣本不需要對(duì)所有的樣本進(jìn)行訓(xùn)練,只需訓(xùn)練新樣本缺點(diǎn)是模型結(jié)構(gòu)參數(shù)的選擇仍與待處理的語(yǔ)音數(shù)據(jù)有關(guān),需由實(shí)驗(yàn)確定,并且訓(xùn)練時(shí)的計(jì)算量較大444.2高斯混合模型(GMM)GMM本質(zhì)上是一種多維概率密度函數(shù),可以用來(lái)表示語(yǔ)音特征矢量的概率密度函數(shù)。它可以看作為一種狀態(tài)數(shù)為1的連續(xù)分布HMM。4546通過(guò)對(duì)情感特征矢量聚類,把每一類看做是一個(gè)多維高斯分布函數(shù)然后求出每一類的均值、協(xié)方差矩陣和出現(xiàn)的概率,將此作為每種情感的訓(xùn)練模板。識(shí)別時(shí)將測(cè)試矢量輸入每種情感模板,最大后驗(yàn)概率即為識(shí)別結(jié)果。GMM的識(shí)別率高于采用短時(shí)特征矢量與HMM分類器的識(shí)別率[10]矢量回歸模型(VR)傳統(tǒng)的GMM算法中,通常假設(shè)特征矢量之間是統(tǒng)計(jì)獨(dú)立的,而事實(shí)上語(yǔ)音在發(fā)生過(guò)程中,特征矢量之間存在相互的制約關(guān)系,而矢量回歸模型(VR)則可有效地描述矢量之間的相關(guān)性。4748利用VR改進(jìn)傳統(tǒng)的GMM,提出一種稱為高斯混合回歸模型(GMVAR)的分類器實(shí)驗(yàn)表明GMVAR算法的識(shí)別效果明顯優(yōu)于HMM、K近鄰算法及前向神經(jīng)網(wǎng)絡(luò)算法[11]GMM特點(diǎn)GMM的優(yōu)點(diǎn)是可以平滑地逼近任意形狀的概率密度函數(shù),每個(gè)密度分布可以表示出基本聲學(xué)類,并且模型穩(wěn)定、參數(shù)容易處理GMM階數(shù)和初值較難確定,特別是階數(shù)很難從理論上推導(dǎo)出來(lái),通常根據(jù)不同的語(yǔ)音樣本由實(shí)驗(yàn)確定494.3支持向量機(jī)(SVM)支持向量機(jī)是貝爾實(shí)驗(yàn)室研究人員Vapnik等人在對(duì)統(tǒng)計(jì)學(xué)習(xí)理論進(jìn)行了多年研究的基礎(chǔ)上提出的一種全新的機(jī)器學(xué)習(xí)算法,該算法基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,能夠較好地解決小樣本學(xué)習(xí)問(wèn)題。5051由于SVM有統(tǒng)計(jì)學(xué)習(xí)理論作為堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),可以很好地克服維數(shù)災(zāi)難和過(guò)擬合等傳統(tǒng)算法所不可避免的問(wèn)題,近年來(lái)已成為一種有效的分類工具,并被廣泛地應(yīng)用于語(yǔ)音情感識(shí)別研究當(dāng)中。計(jì)算機(jī)仿真實(shí)驗(yàn)結(jié)果表明,與已有的多種語(yǔ)音情感識(shí)別方法相比,SVM對(duì)情感識(shí)別取得的識(shí)別效果優(yōu)于其他方法。52SVM良好的分類性能在模式識(shí)別中得到了日益廣泛的應(yīng)用目前在SVM的訓(xùn)練和實(shí)現(xiàn)上仍然存在一些y有待解決的問(wèn)題。SVM中核函數(shù)的選擇影響分類器的性能,如何根據(jù)語(yǔ)音樣本數(shù)據(jù)選擇和構(gòu)造合適的核函數(shù)及確定核函數(shù)的參數(shù)等問(wèn)題缺乏相應(yīng)的理論指導(dǎo)。雖然多類SVM的訓(xùn)練算法已被提出,但用于多分類問(wèn)題的有效算法及多類SVM的優(yōu)化設(shè)計(jì)等仍需進(jìn)一步研究。4.4人工神經(jīng)網(wǎng)絡(luò)(ANN)神經(jīng)網(wǎng)絡(luò)可視為大量相連的簡(jiǎn)單處理器(神經(jīng)元)構(gòu)成的大規(guī)模并行計(jì)算系統(tǒng),具有學(xué)習(xí)復(fù)雜的非線性輸入輸出關(guān)系的能力,可以利用訓(xùn)練過(guò)程來(lái)適應(yīng)數(shù)據(jù),對(duì)于模型和規(guī)則的依賴性較低。對(duì)于語(yǔ)音情感識(shí)別問(wèn)題,根據(jù)使用的特征和情感分類的不同,可以使用不同的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。53all-class-in-one(ACON)[12]ACON即為所有情感訓(xùn)練一個(gè)網(wǎng)絡(luò)。利用兩層的網(wǎng)絡(luò)結(jié)構(gòu)容易實(shí)現(xiàn)較為滿意的近似映射,因此該網(wǎng)絡(luò)包含與特征維數(shù)相同的輸入節(jié)點(diǎn)、一個(gè)隱含層和與情感類別相同數(shù)目的輸出節(jié)點(diǎn)。對(duì)每一個(gè)待識(shí)別的情感語(yǔ)句,將其特征矢量輸入到網(wǎng)絡(luò)中,再根據(jù)網(wǎng)絡(luò)的輸出判斷其屬于何種情感。54one-class-in-one(OCON)

[13]OCON即為每一種情感訓(xùn)練一個(gè)子網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)是一個(gè)多層感知器(MLP)。將提取出的特征矢量輸入到每一個(gè)子神經(jīng)網(wǎng)絡(luò)中,每個(gè)子網(wǎng)輸出界于0~1的數(shù)值,表示輸入的參數(shù)矢量可能屬于某種情感的似然程度,利用各個(gè)子網(wǎng)絡(luò)的輸出進(jìn)行決策得出情感識(shí)別結(jié)果。55ANN特點(diǎn)神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)功能非常強(qiáng)大,由于語(yǔ)音樣本特征向量與情感的許多規(guī)律進(jìn)行顯性的描述是困難的,而神經(jīng)網(wǎng)絡(luò)則可以通過(guò)反復(fù)學(xué)習(xí)的過(guò)程獲得對(duì)這些規(guī)律的隱性表達(dá),其在語(yǔ)音情感識(shí)別中具有獨(dú)特的優(yōu)勢(shì)。為充分學(xué)習(xí)這些隱性規(guī)則,神經(jīng)網(wǎng)絡(luò)方法一般都采取了含有大量神經(jīng)元的隱含中間層,從而導(dǎo)致復(fù)雜度和計(jì)算量較高。564.5混合模型近來(lái),一種新的解決思路是把上述若干模型融合起來(lái),各自取長(zhǎng)補(bǔ)短,形成混合模型這種混合模型現(xiàn)已基本形成兩類模式并聯(lián)融合串聯(lián)融合。57并聯(lián)融合并聯(lián)融合是將單項(xiàng)特征分別進(jìn)行獨(dú)立的匹配處理,得到各個(gè)匹配分?jǐn)?shù),通過(guò)融合算法將各匹配分?jǐn)?shù)進(jìn)行綜合得到最終決策結(jié)果GMM/K最近鄰的方法SVM/K-NN的方法多分類器融合方法HMM/PNN的方法58串聯(lián)融合串聯(lián)融合是將前面分類器的輸出作為后面分類器的輸入,最終決策結(jié)果由后面分類器決定GMM/SVM方法594.6語(yǔ)音情感識(shí)別算法HMM和GMM是基于概率生成模型的方法,這類模型可以從統(tǒng)計(jì)的角度充分表示語(yǔ)音同類情感特征矢量的分布情況,具有較好的魯棒性。概率生成模型只考慮同一類模式內(nèi)部的相關(guān)性,而忽略了不同模式之間的區(qū)別,所以對(duì)于比較相近的情感,概率生成模型的區(qū)分能力較差。60ANN和SVM是基于判別模型的方法,這類模型是尋找不同類別之間的最優(yōu)化分類面,由于它們利用了訓(xùn)練數(shù)據(jù)的類別標(biāo)志信息,具有較好的識(shí)別性能。其忽略了同類情感的特征相似性,這會(huì)導(dǎo)致識(shí)別結(jié)果過(guò)分依賴于不同情感類中的少數(shù)樣本特征,進(jìn)而造成識(shí)別錯(cuò)誤。6162兩類模型在識(shí)別機(jī)理上有著很大的互補(bǔ)性混合模型的優(yōu)點(diǎn)是能對(duì)不同模型取長(zhǎng)補(bǔ)短,將會(huì)在一定程度上使識(shí)別率得到提高;缺點(diǎn)是模型復(fù)雜、計(jì)算量大,并聯(lián)融合通常需要實(shí)驗(yàn)來(lái)確定各分類器的加權(quán)系數(shù),串聯(lián)融合不能同步訓(xùn)練各個(gè)模型,因而很難獲得全局最優(yōu)混合模型。5展望5展望至今,有關(guān)語(yǔ)音情感識(shí)別的研究已經(jīng)取得了豐碩成果,就其情感特征提取和識(shí)別算法而言,尚有許多問(wèn)題需要探索和解決。64展望1研究者們已分析了多種類型的特征與情感變化的關(guān)系特性,但就各類特征提取而言,不同的提取方法產(chǎn)生不同的特征精度,如基頻的提取目前仍是一項(xiàng)開(kāi)放的研究課題。因此,更加準(zhǔn)確的特征提取方法有待進(jìn)一步研究。65展望2由于語(yǔ)音情感變化引起語(yǔ)音的諸多特征發(fā)生變化,將多種特征混合起來(lái)可以更全面地表示情感。多類特征組合將是特征獲取的一個(gè)研究方向。66展望3特征混合帶來(lái)的最直接的問(wèn)題是特征維數(shù)可能很高。準(zhǔn)確率不與特征空間的維數(shù)成正比,且在高維情況下分類器的泛化能力反而會(huì)減弱。語(yǔ)音情感高效識(shí)別,必須進(jìn)行針對(duì)性的情感聲學(xué)特征降維和選擇等方法的研究?;谥悄芩惴ǖ奶卣鬟x擇方法作了一些嘗試,但研究仍需深入。67展望4不同的訓(xùn)練和測(cè)試環(huán)境導(dǎo)致語(yǔ)音情感特征參數(shù)的變異,也使識(shí)別系統(tǒng)的性能明顯降低,影響這種變異的因素包括環(huán)境、生理、心理、文化背景、語(yǔ)境、語(yǔ)義等。如何充分利用好這些影響情感的因素,有待深入地研究。68展望5高效、穩(wěn)定的語(yǔ)音情感識(shí)別算法仍將是未來(lái)研究的熱點(diǎn),而將現(xiàn)有的幾種主要算法各取所長(zhǎng)、集成使用將有可能是解決該問(wèn)題的有效途徑。69展望6部分文獻(xiàn)的仿真結(jié)果雖然取得了較高的識(shí)別率,但鮮有文獻(xiàn)從識(shí)別模型本身進(jìn)行識(shí)別算法優(yōu)劣的深層次理論分析。為識(shí)別模型優(yōu)劣提供理論支持有待研究。70謝謝!參考文獻(xiàn)[1]田嵐,姜曉慶,侯正信.多語(yǔ)種下情感語(yǔ)音基頻參數(shù)變化的統(tǒng)計(jì)分析[J].控制與決策,2005,20(11):1311-1313.[2]HYUNKH,KIMEH,KWAKYK.Emotionalfeatureextractionbasedonphonemeinformationforspeechemotionrecognition[C]//Procofthe16thIEEEInternationalSymposiumonRobot&HumanInteractiveCommunication.2007:802-806.[3]王治平,趙力,鄒采榮.基于基音參數(shù)規(guī)整及統(tǒng)計(jì)分布模型距離的語(yǔ)音情感識(shí)別[J].聲學(xué)學(xué)報(bào),2006,31(1):28-34.7273[4]ZHAOL,iCAOYu-jia,WANGZhi-ping,etal.SpeechemotionalrecognitionusingglobalandtimesequencestructurefeatureswithMMD[C]//Procofthe1stInternationalConferenceonAffectiveComputingandIntelligentInteraction.Berlin:Springer,2005:311-318.[5]KAISERJF.Onasimplealgorithmtocalculatetheenergyofasignal[C]//ProcofIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing.1990:381-384.[6]NWETL,FOOSW,DESILVALC.Classificationofstressinspeechusinglinearandnonlinearfeatures[C]//ProcofIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing.2003:9-12.74[7]GAOHu,iCHENShan-guang,SUGuang-chuan.EmotionclassificationofmandarinspeechbasedonTEOnonlinearfeatures[C]//Procofthe8thACISInternationalConferenceonSoftwareEngineering,ArtificialIntelligence,Networking,andParallel/DistributedComputing.WashingtonDC:IEEEComputerSociety,2007:394-398.[8]RAMAMOHANS,DANDAPATS.Sinusoidalmodel-basedanalysisandclassificationofstressedspeech[J].IEEETransonAudio,Speech,andLanguageProcessing,2006,14(3):737-74

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論