CN112382309B 情緒識別模型的訓練方法、裝置、設(shè)備及存儲介質(zhì)(平安科技(深圳)有限公司)_第1頁
CN112382309B 情緒識別模型的訓練方法、裝置、設(shè)備及存儲介質(zhì)(平安科技(深圳)有限公司)_第2頁
CN112382309B 情緒識別模型的訓練方法、裝置、設(shè)備及存儲介質(zhì)(平安科技(深圳)有限公司)_第3頁
CN112382309B 情緒識別模型的訓練方法、裝置、設(shè)備及存儲介質(zhì)(平安科技(深圳)有限公司)_第4頁
CN112382309B 情緒識別模型的訓練方法、裝置、設(shè)備及存儲介質(zhì)(平安科技(深圳)有限公司)_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(22)申請日2020.12.11道福安社區(qū)益田路5033號平安金融中心23樓務所(普通合伙)44507專利代理師張傳義(56)對比文件審查員林登樟權(quán)利要求書2頁說明書9頁附圖2頁儲介質(zhì)(57)摘要緒識別模型的訓練方法、裝置、設(shè)備及存儲介質(zhì),述正面情緒音頻和所述負面情緒音頻進行特征樣本音頻中的所述正面情緒音頻進行音頻過濾,情緒音頻輸入至預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練,2獲取樣本音頻,所述樣本音頻中包括正面情緒音頻和負面情緒音頻,并分別對所述正面情緒音頻和所述負面情緒音頻進行特征提取,得到語音特征;根據(jù)所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾,得到過濾后的樣本音頻;對所述樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,得到新增負面情緒音頻;將所述過濾后的樣本音頻以及所述新增負面情緒音頻作為訓練數(shù)據(jù),并將所述訓練數(shù)據(jù)輸入至預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練,以得到情緒識別模型。2.根據(jù)權(quán)利要求1所述的情緒識別模型的訓練方法,其特征在于,所述根據(jù)所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾,包括:分析所述正面情緒音頻的語音特征的正向特征值和所述負面情緒音頻的語音特征的負向特征值,得到語音特征、語音特征的特征值和情緒類別的規(guī)律曲線;基于所述規(guī)律曲線確定篩選閾值,并根據(jù)所述篩選閾值和所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾;其中,所述分析所述正面情緒音頻的語音特征的正向特征值和所述負面情緒音頻的語音特征的負向特征值,得到語音特征、語音特征的特征值和情緒類別的規(guī)分析所述樣本音頻中每一個正面情緒音頻對于所述語音特征的正向特征值,獲得所述語音特征對應的正向特征值的變化趨勢;分析所述樣本音頻中每一個負面情緒音頻對于所述語音特征的負向特征值,獲得所述語音特征對應的負面特征值的變化趨勢;基于同一所述語音特征對應的所述正向特征值的變化趨勢以及所述負面特征值的變化趨勢,繪制所述語音特征對應的從正面情緒音頻到負面情緒音頻的變化趨勢,獲得所述規(guī)律曲線。3.根據(jù)權(quán)利要求1所述的情緒識別模型的訓練方法,其特征在于,所述方法包括:對所述樣本音頻進行音頻分析,得到所述樣本音頻的信號能量值變化;根據(jù)所述樣本音頻的信號能量值變化對所述樣本音頻進行端點檢測,并基于檢測出的端點對所述樣本音頻進行切割,得到所述樣本音頻中的有聲音頻片段。4.根據(jù)權(quán)利要求1所述的情緒識別模型的訓練方法,其特征在于,所述方法包括:對所述樣本音頻進行語音識別,確定所述樣本音頻中是否包括語音信息;若所述樣本音頻中不包括語音信息,則刪除所述樣本音頻;若所述樣本音頻中部分包括語音信息,則對所述樣本音頻進行切割,得到包括語音信息的音頻片段。5.根據(jù)權(quán)利要求1所述的情緒識別模型的訓練方法,其特征在于,所述預設(shè)的神經(jīng)網(wǎng)絡(luò)包括輸入層、特征提取層、隱藏層、池化層和輸出層;所述將所述訓練數(shù)據(jù)輸入至預設(shè)的神將所述訓練數(shù)據(jù)通過所述輸入層輸入預設(shè)的神經(jīng)網(wǎng)絡(luò);基于所述特征提取層對所述訓練數(shù)據(jù)進行特征提取,得到第一訓練特征;將所述第一訓練特征輸入所述隱藏層,得到與所述第一訓練特征對應的第二訓練特3基于所述池化層對所述第二訓練特征進行特征降維,得到第三訓練特征;基于所述第三訓練特征進行分類,并通過所述輸出層輸出分類結(jié)果;基于所述分類結(jié)果和所述訓練數(shù)據(jù)中音頻的情緒類型對所述預設(shè)的神經(jīng)網(wǎng)絡(luò)進行迭代訓練。6.根據(jù)權(quán)利要求1所述的情緒識別模型的訓練方法,其特征在于,所述方法包括:對所述樣本音頻進行噪聲去除,得到去除噪聲后的樣本音頻。7.根據(jù)權(quán)利要求1所述的情緒識別模型的訓練方法,其特征在于,所述數(shù)據(jù)增強包括語速擾動、相位擾動和頻譜掩蔽中的至少一項。特征提取模塊,用于獲取樣本音頻,所述樣本音頻中包括正面情緒音頻和負面情緒音頻,并分別對所述正面情緒音頻和所述負面情緒音頻進行特征提取,得到語音特征;音頻過濾模塊,用于根據(jù)所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音數(shù)據(jù)增強模塊,用于對所述樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,得到新增負面情緒音頻;模型訓練模塊,用于將所述過濾后的樣本音頻以及所述新增負面情緒音頻作為訓練數(shù)據(jù),并將所述訓練數(shù)據(jù)輸入至預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練,以得到情緒識別模型。9.一種計算機設(shè)備,其特征在于,所述計算機設(shè)備包括存儲器和處理器;所述存儲器用于存儲計算機程序;所述處理器,用于執(zhí)行所述計算機程序并在執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至7中任一項所述的情緒識別模型的訓練方法。10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時使所述處理器實現(xiàn)如權(quán)利要求1至7中任一項所述的情緒識別模型的訓練方法。4情緒識別模型的訓練方法、裝置、設(shè)備及存儲介質(zhì)技術(shù)領(lǐng)域[0001]本申請涉及模型訓練領(lǐng)域,尤其涉及一種情緒識別存儲介質(zhì)。背景技術(shù)[0002]隨著互聯(lián)網(wǎng)的飛速發(fā)展,大量的業(yè)務開始在線上進行處理。目前設(shè)置了大量的網(wǎng)絡(luò)客服來解答用戶的問題。為了保證客服的服務質(zhì)量,大多會對通話過程進行錄音,通過錄音轉(zhuǎn)文字的方式來對本次的服務過程進行記錄。但語音轉(zhuǎn)文字的方式僅能夠得知錄音的文字內(nèi)容,而對于對話雙方的情緒識別,尤其是對于客戶的情緒無從得知,這導致無法對用戶的負面情緒進行識別,也就無法得知用戶對于本次服務過程是否滿意。[0003]因此,如何訓練情緒識別模型,使情緒識別模型能夠準確對用戶的情緒進行識別成為亟待解決的問題。發(fā)明內(nèi)容[0004]本申請?zhí)峁┝艘环N情緒識別模型的訓練方法、裝置、設(shè)備及存儲介質(zhì),以使情緒識別模型能夠準確對用戶的情緒進行識別。[0006]獲取樣本音頻,所述樣本音頻中包括正面情緒音頻和負面情緒音頻,并分別對所述正面情緒音頻和所述負面情緒音頻進行特征提取,得到語音特征;根據(jù)所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾,得到過濾后的樣本音頻;對所述樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,得到新增負面情緒音頻;將所述過濾后的樣本音頻以及所述新增負面情緒音頻作為訓練數(shù)據(jù),并將所述訓練數(shù)據(jù)輸入至預設(shè)的神經(jīng)網(wǎng)絡(luò)進行[0008]特征提取模塊,用于獲取樣本音頻,所述樣本音頻中包括正面情緒音頻和負面情緒音頻,并分別對所述正面情緒音頻和所述負面情緒音頻進行特征提取,得到語音特征;音頻過濾模塊,用于根據(jù)所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾,得到過濾后的樣本音頻;數(shù)據(jù)增強模塊,用于對所述樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,得到新增負面情緒音頻;模型訓練模塊,用于將所述過濾后的樣本音頻以及所述新增負面情緒音頻作為訓練數(shù)據(jù),并將所述訓練數(shù)據(jù)輸入至預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練,以得到情緒識別模型。[0009]第三方面,本申請還提供了一種計算機設(shè)備,所述計算機設(shè)備包括存儲器和處理器;所述存儲器用于存儲計算機程序;所述處理器,用于執(zhí)行所述計算機程序并在執(zhí)行所述計算機程序時實現(xiàn)如上述的情緒識別模型的訓練方法。[0010]第四方面,本申請還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時使所述處理器實現(xiàn)如上述的情緒識別5模型的訓練方法。[0011]本申請公開了一種情緒識別模型的訓練方法、裝置、設(shè)備及存儲介質(zhì),通過獲取樣本音頻,其中,樣本音頻中包括正面情緒音頻和負面情緒音頻,然后分別對正面情緒音頻和負面情緒音頻進行特征提取,得到語音特征,然后根據(jù)語音特征對樣本音頻中的正面情緒音頻進行音頻過濾,得到過濾后的樣本音頻,再對樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,得到新增負面情緒音頻,最終將過濾后的樣本音頻和新增負面情緒音頻作為訓練數(shù)據(jù),利用訓練數(shù)據(jù)對預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練,得到情緒識別模型。通過對樣本音頻中的正面情緒音頻進行音頻過濾,提高過濾后的樣本音頻中負面情緒音頻的數(shù)據(jù)占比,然后對樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,將得到的新增負面情緒音頻以及過濾后的樣本音頻共同作為訓練數(shù)據(jù)進行模型訓練,進一步提高訓練數(shù)據(jù)中負面情緒音頻的數(shù)據(jù)占比,從而解決模型訓練過程中的數(shù)據(jù)不平衡問題,使訓練得到的情緒識別模型對于負面情緒音頻的識別準確率提高。附圖說明[0012]為了更清楚地說明本申請實施例技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0013]圖1是本申請實施例提供的一種情緒識別模型的訓練方法的示意流程圖;[0014]圖2是本申請實施例提供的對正面情緒音頻進行音頻過濾的步驟示意流程圖;[0015]圖3為本申請實施例提供的一種情緒識別模型的訓練裝置的示意性框圖;[0016]圖4為本申請實施例提供的一種計算機設(shè)備的結(jié)構(gòu)示意性框圖。具體實施方式[0017]下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施[0018]附圖中所示的流程圖僅是示例說明,不是必須包括所有的內(nèi)容和操作/步驟,也不執(zhí)行的順序有可能根據(jù)實際情況改變。[0019]應當理解,在此本申請說明書中所使用的術(shù)語僅僅是出于描述特定實施例的目的而并不意在限制本申請。如在本申請說明書和所附權(quán)利要求書中所使用的那樣,除非上下[0020]還應當理解,在本申請說明書和所附權(quán)利要求書中使用的術(shù)語“和/或”是指相關(guān)聯(lián)列出的項中的一個或多個的任何組合以及所有可能組合,并且包括這些組合。[0021]本申請的實施例提供了一種情緒識別模型的訓練方法、裝置、計算機設(shè)備及存儲介質(zhì)。情緒識別模型的訓練方法可用于訓練基于用戶音頻對用戶的負面情緒進行識別的情緒識別模型,提高訓練得到的情緒識別模型對于負面情緒識別的準確率。訓練得到的情緒識別模型可基于音頻,對用戶的負面情緒進行識別。6[0022]例如,本申請的實施例提供的情緒識別模型的訓練方法訓練的情緒識別模型,可應用于線上客服系統(tǒng)中,通過對服務過程中的音頻進行情緒識別,可得知用戶的負面情緒,進而提高客服質(zhì)量。[0023]下面結(jié)合附圖,對本申請的一些實施方式作詳細說明。在不沖突的情況下實施例及實施例中的特征可以相互組合。[0024]請參閱圖1,圖1是本申請實施例提供的一種情緒識別模型的訓練方法的示意流程圖。該情緒識別模型的訓練方法通過對正面情緒音頻進行音頻過濾,以及對負面情緒音頻進行數(shù)據(jù)增強,來提高訓練數(shù)據(jù)中負面情緒數(shù)據(jù)的數(shù)據(jù)比例,進而解決模型訓練過程中的數(shù)據(jù)不平衡問題,提高情緒識別模型對于負面情緒的識別準確率。[0026]S101、獲取樣本音頻,所述樣本音頻中包括正面情緒音頻和負面情緒音頻,并分別對所述正面情緒音頻和所述負面情緒音頻進行特征提取,得到語音特征。[0027]其中,所述樣本音頻是指在業(yè)務處理過程中所真實產(chǎn)生的業(yè)務數(shù)據(jù)。例如,以客服系統(tǒng)為例,樣本音頻為歷史客服過程中的錄音音頻。由于真實產(chǎn)生的業(yè)務數(shù)據(jù)中的負面情緒音頻數(shù)量的占比極少,因此,需要對樣本音頻進行處理來縮減樣本音頻中的數(shù)據(jù)比例。[0028]樣本音頻中包括正面情緒音頻和負面情緒音頻,正面情緒音頻是指說話人的情緒[0029]對正面情緒音頻和負面情緒音頻進行特征提取,具體是指從正面情緒音頻和負面對應的特征值、頻譜以及頻譜對應的特征值。[0030]在一實施例中,所述情緒識別模型的訓練方法包括:對所述樣本音頻進行噪聲去除,得到去除噪聲后的樣本音頻。[0031]由于實際采集到的音頻中往往會有一定強度的背景音,這些背景音一般是背景噪音,當背景噪音強度較大時,從音頻中提取出的語音特征中會包括大量的無關(guān)特征,因此,可以對樣本音頻進行噪聲去除,從而得到去除噪聲后的樣本音頻,從而提高得到的語音特征的準確度。[0032]在具體實施過程中,可以使用傅里葉變換對樣本音頻進行處理,得到樣本音頻的頻譜,然后從樣本音頻的頻譜中提取出噪聲的頻譜,并將樣本音頻根據(jù)噪聲的頻譜做一個反向的補償運算,從而得到去除噪聲后的樣本音頻。[0033]在一實施例中,所述情緒識別模型的訓練方法包括:對所述樣本音頻進行音頻分析,得到所述樣本音頻的信號能量值變化;根據(jù)所述樣本音頻的信號能量值變化對所述樣本音頻進行端點檢測,并基于檢測出的端點對所述樣本音頻進行切割,得到所述樣本音頻中的有聲音頻片段。[0034]對樣本音頻進行音頻分析,具體是指獲取樣本音頻中每幀的振幅,由于聲音越小,聲波的振幅越小,而聲波的振幅也表示了信號能量值的大小,聲波的振幅越小,信號的能量值越小。因此,可以根據(jù)樣本音頻的信號能量值變化,來對樣本音頻進行端點檢測,得到樣本音頻中的有聲音頻片段的前后端點,然后根據(jù)前后端點對樣本音頻進行切割。[0035]例如,當樣本音頻在連續(xù)若干幀內(nèi)(第0幀至第N幀之間)的信號能量值均低于能量7值閾值E,而在接下來的連續(xù)若干幀內(nèi)(第N幀至第M幀之間)的信號能量值均高于能量值閾值E,則認為樣本音頻能量值增大的地方(第N幀)為樣本音頻的前端點。[0036]同樣的,當樣本音頻在連續(xù)若干幀內(nèi)(第N幀至第M幀之間)的信號能量值均高于能量值閾值E,而在接下來的連續(xù)若干幀內(nèi)(第M幀至第P幀之間)的信號能量值均低于能量值閾值E,則認樣本音頻能量值減小的地方(第M幀)為樣本音頻的后端點。[0037]根據(jù)樣本音頻的前端點第N幀和后端點第M幀對樣本音頻進行切割,得到樣本音頻[0038]在一實施例中,所述情緒識別模型的訓練方法包括:對所述樣本音頻進行語音識別,確定所述樣本音頻中是否包括語音信息;若所述樣本音頻中不包括語音信息,則刪除所述樣本音頻;若所述樣本音頻中部分包括語音信息,則對所述樣本音頻進行切割,得到包括語音信息的音頻片段。[0039]對于樣本音頻來說,樣本音頻中除了可能包括一些無聲音片段之外,還可能會包括一些無效的聲音片段,例如呼嚕聲等。因此,可以通過對樣本音頻進行語音識別,確定樣本音頻中是否包括語音信息,根據(jù)語音信息對樣本音頻進行篩選和切割,來得到樣本音頻中包括語音信息的音頻片段,能夠減少樣本音頻中的無效音頻,進而提高訓練的情緒識別模型的識別準確率。[0040]因此,在對樣本音頻進行語音識別,得到樣本音頻中不包括語音信息時,認為該樣本音頻為無效的樣本音頻,可以刪除該樣本音頻。[0041]在對樣本音頻進行語音識別,得到樣本音頻中至少有一部分包括語音信息時,可以對樣本音頻中包括語音信息的部分進行切割,從而得到包括語音信息的音頻片段。[0042]S102、根據(jù)所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾,得到過濾后的樣本音頻。[0043]根據(jù)語音特征對樣本音頻中的正面情緒音頻進行音頻過濾,從而減少樣本音頻中的正面情緒音頻的數(shù)量,實現(xiàn)縮減正負面數(shù)據(jù)比例的目的。[0044]在一實施例中,請參閱圖2,對正面情緒音頻進行音頻過濾的步驟具體包括:S1021、分析所述正面情緒音頻的語音特征的正向特征值和所述負面情緒音頻的語音特征的負向特征值,得到語音特征、語音特征的特征值和情緒類規(guī)律曲線確定篩選閾值,并根據(jù)所述篩選閾值和所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾。[0045]對于提取出的語音特征,分析樣本音頻中每一個正面情緒音頻對于該語音特征的正向特征值,然后將多條正面情緒音頻的正向特征值進行綜合,可以得到對于該語音特征,正面情緒音頻的正向特征值的變化趨勢。[0046]同樣的,分析樣本音頻中每一個負面情緒音頻對于該語音特征的負向特征值,然后將多條負面情緒音頻的負向特征值進行綜合,可以得到對于該語音特征,負面情緒音頻的負向特征值的變化趨勢。[0047]例如,當一個音頻為正面情緒音頻時,其音頻的基頻對應的正向特征值是多少,將多個正面情緒音頻的基頻對應的正向特征值進行綜合,可以得到在正面情緒音頻中,對于基頻這一語音特征,基頻對應的正向特征值的變化趨勢。[0048]當一個音頻為負面情緒音頻時,其音頻的基頻對應的負向特征值是多少,將多個8負面情緒音頻的基頻對應的負向特征值進行綜合,可以得到在負面情緒音頻中,對于基頻這一語音特征,基頻對應的負向特征值的變化趨勢。[0049]對于同一語音特征,基于該語音特征在不同情緒類型的音頻中,語音特征的特征值變化趨勢可以得知,在該語音特征下,從正面情緒音頻到負面情緒音頻的變化趨勢,將該變化趨勢繪制為語音特征、語音特征的特征值和情緒類別的規(guī)律曲線。[0050]根據(jù)該規(guī)律曲線確定篩選閾值,然后根據(jù)篩選閾值和語音特征對樣本音頻中的正面情緒音頻進行音頻過濾,從而減少樣本音頻中正面情緒音頻的數(shù)量。[0051]需要說明的是,根據(jù)規(guī)律曲線確定的篩選閾值并非一成不變的,可以根據(jù)實際的訓練情況基于該規(guī)律曲線進行適應性的調(diào)整。[0052]當語音特征有多個時,可以分別對于每一個語音特征均構(gòu)建語音特征、語音特征的特征值和情緒類別的規(guī)律曲線,然后根據(jù)多條規(guī)律曲線確定每一個語音特征的篩選閾值。[0053]S103、對所述樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,得到新增負面情緒音頻。[0054]其中,數(shù)據(jù)增強是指基于樣本音頻中的負面情緒音頻,構(gòu)建虛擬的樣本,將構(gòu)建的虛擬的樣本作為新增負面情緒音頻。通過數(shù)據(jù)增強進一步縮減正面情緒音頻和負面情緒音頻的數(shù)據(jù)比例,提高訓練得到的情緒識別模型的泛化能力。[0055]在一實施例中,所述數(shù)據(jù)增強包括語速擾動、相位擾動和頻譜掩蔽中的至少一項。[0056]語速擾動是指在時域?qū)颖疽纛l進行線性拉伸或者壓縮,由于擾動后的樣本音頻在頻域也會按照一定比例發(fā)生變化,因此在時域和頻域變化的共同作用下,擾動后的樣本音頻經(jīng)特征提取后,會和原樣本音頻呈現(xiàn)一定的差異性,從而實現(xiàn)了構(gòu)造新樣本的目的。例如,將樣本音頻在時域上的速度分別調(diào)整至0.9、1.0以及1.1三個級別。[0057]相位擾動的規(guī)則同語速擾動相同。頻譜掩蔽主要是將樣本音頻中部分的頻域值進行賦0處理,操作后的樣本音頻不會影響到真實的使用,僅是在某些頻段進行做掩蔽處理。[0058]S104、將所述過濾后的樣本音頻以及所述新增負面情緒音頻作為訓練數(shù)據(jù),并將所述訓練數(shù)據(jù)輸入至預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練,以得到情緒識別模型。[0059]將過濾后的樣本音頻和新增負面情緒音頻共同作為訓練數(shù)據(jù),來對預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練,當預設(shè)的神經(jīng)網(wǎng)絡(luò)被訓練至收斂時,將收斂的神經(jīng)網(wǎng)絡(luò)作為情緒識別模[0060]通過對樣本音頻中的正面情緒音頻進行過濾,以及對負面情緒音頻的數(shù)據(jù)增強,縮減了訓練數(shù)據(jù)中正面情緒音頻和負面情緒音頻的比例,使在基于真實的業(yè)務數(shù)據(jù)來進行模型訓練時,能夠解決模型訓練過程中的正面情緒音頻和負面情緒音頻的數(shù)據(jù)不平衡問題,提高訓練得到的情緒識別模型對于負面情緒音頻的識別準確率。[0061]在一實施例中,所述預設(shè)的神經(jīng)網(wǎng)絡(luò)包括輸入層、特征提取層、隱藏層、池化層和輸出層;所述將所述訓練數(shù)據(jù)輸入至預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練,包括:將所述訓練數(shù)據(jù)通過所述輸入層輸入預設(shè)的神經(jīng)網(wǎng)絡(luò);基于所述特征提取層對所述訓練數(shù)據(jù)進行特征提取,得到第一訓練特征;將所述第一訓練特征輸入所述隱藏層,得到與所述第一訓練特征對應的第二訓練特征;基于所述池化層對所述第二訓練特征進行特征降維,得到第三訓練特征;基于所述第三訓練特征進行分類,并通過所述輸出層輸出分類結(jié)果;基于所述分類結(jié)果和所述訓練數(shù)據(jù)中音頻的情緒類型對所述預設(shè)的神經(jīng)網(wǎng)絡(luò)進行迭代訓練。9[0062]將訓練數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)的輸入層進行輸入,然后輸入的訓練數(shù)據(jù)到達特征提取層后,由特征提取層對訓練數(shù)據(jù)進行特征提取,得到第一訓練特征。該第一訓練特征被輸入神經(jīng)網(wǎng)絡(luò)的隱藏層,其中,隱藏層可以是一個RNN網(wǎng)絡(luò),通過隱藏層得到輸入的訓練數(shù)據(jù)的高維特征,也即第二訓練特征,然后通過池化層對第二訓練特征進行降維,將高維特征映射到低維度,得到第三訓練特征。最終根據(jù)第三訓練特征進行二分類,并通過輸出層輸出分類結(jié)果。[0063]根據(jù)分類結(jié)果和訓練數(shù)據(jù)中音頻的情緒類型來計算預設(shè)的神經(jīng)網(wǎng)絡(luò)的損失函數(shù),并對神經(jīng)網(wǎng)絡(luò)的參數(shù)進行迭代更新,直至損失函數(shù)的值達到預設(shè)值,認為神經(jīng)網(wǎng)絡(luò)收斂,將訓練的神經(jīng)網(wǎng)絡(luò)作為情緒識別模型,完成模型訓練。[0064]上述實施例提供的情緒識別模型的訓練方法,通過獲取樣本音頻,其中,樣本音頻中包括正面情緒音頻和負面情緒音頻,然后分別對正面情緒音頻和負面情緒音頻進行特征提取,得到語音特征,然后根據(jù)語音特征對樣本音頻中的正面情緒音頻進行音頻過濾,得到過濾后的樣本音頻,再對樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,得到新增負面情緒音頻,最終將過濾后的樣本音頻和新增負面情緒音頻作為訓練數(shù)據(jù),利用訓練數(shù)據(jù)對預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練,得到情緒識別模型。通過對樣本音頻中的正面情緒音頻進行音頻過濾,提高過濾后的樣本音頻中負面情緒音頻的數(shù)據(jù)占比,然后對樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,將得到的新增負面情緒音頻以及過濾后的樣本音頻共同作為訓練數(shù)據(jù)進行模型訓練,進一步提高訓練數(shù)據(jù)中負面情緒音頻的數(shù)據(jù)占比,從而解決模型訓練過程中的數(shù)據(jù)不平衡問題,使訓練得到的情緒識別模型對于負面情緒音頻的識別準確率提高。[0065]請參閱圖3,圖3是本申請的實施例的提供一種情緒識別模型的訓練裝置的示意性框圖,該情緒識別模型的訓練裝置用于執(zhí)行前述的情緒識別模型的訓練方法。其中,該情緒識別模型的訓練裝置可以配置于服務器或終端中。[0066]其中,服務器可以為獨立的服務器,也可以為服務器集群。該終端可以是手機、平[0067]如圖3所示,情緒識別模型的訓練裝置200包括:特征提取模塊201、音頻過濾模塊202、數(shù)據(jù)增強模塊203和模型訓練模塊204。[0068]特征提取模塊201,用于獲取樣本音頻,所述樣本音頻中包括正面情緒音頻和負面情緒音頻,并分別對所述正面情緒音頻和所述負面情緒音頻進行特征提取,得到語音特征。[0069]音頻過濾模塊202,用于根據(jù)所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾,得到過濾后的樣本音頻。[0070]在一實施例中,音頻過濾模塊202包括曲線構(gòu)建子模塊2021和閾值過濾子模塊[0071]其中,曲線構(gòu)建子模塊2021,用于分析所述正面情緒音頻的語音特征的正向特征值和所述負面情緒音頻的語音特征的負向特征值,得到語音特征、語音特征的特征值和情緒類別的規(guī)律曲線。閾值過濾子模塊2022,用于基于所述規(guī)律曲線確定篩選閾值,并根據(jù)所述篩選閾值和所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾。[0072]數(shù)據(jù)增強模塊203,用于對所述樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,得到新增負面情緒音頻。[0073]模型訓練模塊204,用于將所述過濾后的樣本音頻以及所述新增負面情緒音頻作為訓練數(shù)據(jù),并將所述訓練數(shù)據(jù)輸入至預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練,以得到情緒識別模[0074]需要說明的是,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡潔,上述描述的情緒識別模型的訓練裝置和各模塊的具體工作過程,可以參考前述情緒識別模型的訓練方法實施例中的對應過程,在此不再贅述。[0075]上述的情緒識別模型的訓練裝置可以實現(xiàn)為一種計算機程序的形式,該計算機程序可以在如圖4所示的計算機設(shè)備上運行。[0076]請參閱圖4,圖4是本申請實施例提供的一種計算機設(shè)備的結(jié)構(gòu)示意性框圖。該計算機設(shè)備可以是服務器或終端。[0077]參閱圖4,該計算機設(shè)備包括通過系統(tǒng)總線連接的處理器、存儲器和網(wǎng)絡(luò)接口,其中,存儲器可以包括非易失性存儲介質(zhì)和內(nèi)存儲器。[0078]非易失性存儲介質(zhì)可存儲操作系統(tǒng)和計算機程序。該計算機程序包括程序指令,該程序指令被執(zhí)行時,可使得處理器執(zhí)行任意一種情緒識別模型的訓練方法。[0079]處理器用于提供計算和控制能力,支撐整個計算機設(shè)備的運行。[0080]內(nèi)存儲器為非易失性存儲介質(zhì)中的計算機程序的運行提供環(huán)境,該計算機程序被處理器執(zhí)行時,可使得處理器執(zhí)行任意一種情緒識別模型的訓練方法。[0081]該網(wǎng)絡(luò)接口用于進行網(wǎng)絡(luò)通信,如發(fā)送分配的任務等。本領(lǐng)域技術(shù)人員可以理解,圖4中示出的結(jié)構(gòu),僅僅是與本申請方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對本申請方案所應用于其上的計算機設(shè)備的限定,具體的計算機設(shè)備可以包括比圖中所示更多或更少的部[0082]應當理解的是,處理器可以是中央處理單元(CentralProcessingUnit,CPU),該處理器還可以是其他通用處理器、數(shù)字信號處理器(DigitalSignalProcessor,DSP)、專用集成電路(ApplicationSpecificIntegratedCircuit,ASIC)、現(xiàn)場可編程門陣列(Field-ProgrammableGateArray,FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。其中,通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。[0083]其中,在一個實施例中,所述處理器用于運行存儲在存儲器中的計算機程序,以實現(xiàn)如下步驟:[0084]獲取樣本音頻,所述樣本音頻中包括正面情緒音頻和負面情緒音頻,并分別對所述正面情緒音頻和所述負面情緒音頻進行特征提取,得到語音特征;根據(jù)所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾,得到過濾后的樣本音頻;對所述樣本音頻中的負面情緒音頻進行數(shù)據(jù)增強,得到新增負面情緒音頻;將所述過濾后的樣本音頻以及所述新增負面情緒音頻作為訓練數(shù)據(jù),并將所述訓練數(shù)據(jù)輸入至預設(shè)的神經(jīng)網(wǎng)絡(luò)進行[0085]在一個實施例中,所述處理器在實現(xiàn)所述根據(jù)所述語音特征對所述樣本音頻中的所述正面情緒音頻進行音頻過濾時,用于實現(xiàn):[0086]分析所述正面情緒音頻的語音特征的正向特征值和所述負面情緒音頻的語音特征的負向特征值,得到語音特征、語音特征的特征值和情緒類別的規(guī)律曲線;基于所述規(guī)律曲線確定篩選閾值,并根據(jù)所述篩選閾值和所述語音特征對所述樣本音頻中的所述正面情11緒音頻進行音頻過濾。[0088]對所述樣本音頻進行音頻分析,得到所述樣本音頻的信號能量值變化;根據(jù)所述樣本音頻的信號能量值變化對所述樣本音頻進行端點檢測,并基于檢測出的端點對所述樣本音頻進行切割,得到所述樣本音頻中的有聲音頻片段。[0090]對所述樣本音頻進行語音識別,確定所述樣本音頻中是否包括語音信息;若所述樣本音頻中不包括語音信息,則刪除所述樣本音頻;若所述樣本音頻中部分包括語音信息,則對所述樣本音頻進行切割,得到包括語音信息的音頻片段。[0091]在一個實施例中,所述預設(shè)的神經(jīng)網(wǎng)絡(luò)包括輸入層、特征提取層、隱藏層、池化層和輸出層;所述處理器在實現(xiàn)所述將所述訓練數(shù)據(jù)輸入至預設(shè)的神經(jīng)網(wǎng)絡(luò)進行模型訓練[0092]將所述訓練數(shù)據(jù)通過所述輸入層輸入預設(shè)的神經(jīng)網(wǎng)絡(luò);基于所述特征提取層對所述訓練數(shù)據(jù)進行特征提取,得到第一訓練特征;將所述第一訓練特征輸入所述隱藏層,得到與所述第一訓練特征對應的第二訓練特征;基于所述池化層對所述第二訓練特征進行特征降維,得到第三訓練特征;基于所述第三訓練特征進行分類,并通過所述輸出層輸出分類結(jié)果;基于所述分類結(jié)果和所述訓練數(shù)據(jù)中音頻的情緒類型對所述預設(shè)的神經(jīng)網(wǎng)絡(luò)進行迭代[0093]在一個實施例中,所述處理器用于實現(xiàn):[0094]對所述樣本音頻進行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論