CN114333896B 語音分離方法、電子設(shè)備、芯片及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) (華為技術(shù)有限公司)_第1頁(yè)
CN114333896B 語音分離方法、電子設(shè)備、芯片及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) (華為技術(shù)有限公司)_第2頁(yè)
CN114333896B 語音分離方法、電子設(shè)備、芯片及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) (華為技術(shù)有限公司)_第3頁(yè)
CN114333896B 語音分離方法、電子設(shè)備、芯片及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) (華為技術(shù)有限公司)_第4頁(yè)
CN114333896B 語音分離方法、電子設(shè)備、芯片及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) (華為技術(shù)有限公司)_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號(hào)CN114333896B(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)(73)專利權(quán)人華為技術(shù)有限公司地址518129廣東省深圳市龍崗區(qū)坂田華為總部辦公樓專利權(quán)人中國(guó)科學(xué)院自動(dòng)化研究所(72)發(fā)明人盧恒惠秦磊張鵬許家銘徐波(74)專利代理機(jī)構(gòu)深圳市賽恩倍吉知識(shí)產(chǎn)權(quán)代理有限公司44334專利代理師饒智彬GO6V40/16(2022.01)EP3607547A1separationwithvisualInternationaljointconferennetworks.2021,全文.審查員王昊語音分離方法、電子設(shè)備、芯片及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)本申請(qǐng)實(shí)施例提供了一種語音分離方法,涉及電子設(shè)備領(lǐng)域。通過獲取用戶在說話過程中包含用戶語音的音頻信息及包含用戶臉部的視頻信息,并對(duì)所述音頻信息進(jìn)行編碼得到混合聲學(xué)特征,再?gòu)乃鲆曨l信息中提取所述用戶的視覺語義特征,再將所述混合聲學(xué)特征和所述視覺語義特征輸入至預(yù)設(shè)視覺語音分離網(wǎng)絡(luò),得到所述用戶的聲學(xué)特征,最后對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的語音信號(hào)。本申請(qǐng)實(shí)施例還提供了一種電子設(shè)備、芯片及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。本申請(qǐng)基于視覺語義特征對(duì)混合語音進(jìn)獲取用戶在說話過程中包含用戶語音的音頻信息及包含用獲取用戶在說話過程中包含用戶語音的音頻信息及包含用-21戶臉部的視頻信息對(duì)所述音頻信息進(jìn)行編碼,得到混合聲學(xué)特征從所述視頻信息中提取所述用戶的視覺語義特征對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的語音信號(hào)2獲取用戶在說話過程中包含用戶語音的音頻信息及包含用戶臉部的視頻信息;對(duì)所述音頻信息進(jìn)行編碼,得到混合聲學(xué)特征;從所述視頻信息中提取所述用戶的視覺語義特征,所述視覺語義特征包括所述用戶在說話過程中的面部運(yùn)動(dòng)特征;將所述混合聲學(xué)特征和所述視覺語義特征輸入至預(yù)設(shè)視覺語音分離網(wǎng)絡(luò),得到所述用戶的聲學(xué)特征;對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的語音信號(hào);其中,所述從所述視頻信息中提取所述用戶的視覺語義特征,包括:將所述視頻信息轉(zhuǎn)換為按照幀播放順序排列的圖像幀,所述圖像幀包含人臉;將所述圖像幀輸入至預(yù)設(shè)解耦網(wǎng)絡(luò),利用所述預(yù)設(shè)解耦網(wǎng)絡(luò)將每一所述圖像幀映射成包含人臉身份特征和所述視覺語義特征的視覺表征,及對(duì)所述視覺表征進(jìn)行身份特征丟失處理,從所述視覺表征中分離出所述視覺語義特征。2.如權(quán)利要求1所述的語音分離方法,其特征在于,所述音頻信息為包含所述用戶語音與環(huán)境噪聲的混合語音信息,所述對(duì)所述音頻信息進(jìn)行編碼,包括:基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建時(shí)域音頻編碼器;利用所述時(shí)域音頻編碼器對(duì)所述音頻信息進(jìn)行時(shí)域編碼。3.如權(quán)利要求2所述的語音分離方法,其特征在于,所述對(duì)所述用戶的聲學(xué)特征進(jìn)行解基于所述卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建時(shí)域音頻解碼器;利用所述時(shí)域音頻解碼器對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的時(shí)域語音信號(hào)。4.如權(quán)利要求1所述的語音分離方法,其特征在于,所述音頻信息為包含所述用戶語音與環(huán)境噪聲的混合語音信息,所述對(duì)所述音頻信息進(jìn)行編碼,包括:利用預(yù)設(shè)短時(shí)傅里葉變換算法對(duì)所述音頻信息進(jìn)行時(shí)域編碼。5.如權(quán)利要求4所述的語音分離方法,其特征在于,所述對(duì)所述用戶的聲學(xué)特征進(jìn)行解利用預(yù)設(shè)短時(shí)傅里葉逆變換算法對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的時(shí)域語音信號(hào)。6.如權(quán)利要求1所述的語音分離方法,其特征在于,所述將所述圖像幀輸入至預(yù)設(shè)解耦對(duì)所述圖像幀進(jìn)行處理,得到具有預(yù)設(shè)尺寸且包含所述用戶臉部的人臉縮略圖;將所述人臉縮略圖輸入至所述預(yù)設(shè)解耦網(wǎng)絡(luò)。7.如權(quán)利要求6所述的語音分離方法,其特征在于,所述對(duì)所述圖像幀進(jìn)行處理,得到具有預(yù)設(shè)尺寸且包含所述用戶臉部的人臉縮略圖,包括:定位所述圖像幀中包含所述用戶臉部的圖像區(qū)域;對(duì)所述圖像區(qū)域進(jìn)行放大或縮小處理,得到具有所述預(yù)設(shè)尺寸且包含所述用戶臉部的人臉縮略圖。8.如權(quán)利要求1所述的語音分離方法,其特征在于,所述將所述混合聲學(xué)特征和所述視3覺語義特征輸入至預(yù)設(shè)視覺語音分離網(wǎng)絡(luò),得到所述用戶的聲學(xué)特征,包括:獲取所述混合聲學(xué)特征的時(shí)間依賴關(guān)系,以基于所述混合聲學(xué)特征的時(shí)間依賴關(guān)系得到深度混合聲學(xué)特征;獲取所述視覺語義特征的時(shí)間依賴關(guān)系,以基于所述視覺語義特征的時(shí)間依賴關(guān)系得到深度視覺語義特征;對(duì)所述深度混合聲學(xué)特征與所述深度視覺語義特征進(jìn)行模態(tài)融合,得到視聽覺特征;基于所述視聽覺特征預(yù)測(cè)得到所述用戶的聲學(xué)特征。9.如權(quán)利要求8所述的語音分離方法,其特征在于,所述對(duì)所述深度混合聲學(xué)特征與所述深度視覺語義特征進(jìn)行模態(tài)融合之前,還包括:對(duì)所述深度混合聲學(xué)特征與所述深度視覺語義進(jìn)行時(shí)間維度同步處理,以使得所述深度混合聲學(xué)特征的時(shí)間維度與所述深度視覺語義的時(shí)間維度保持同步。10.如權(quán)利要求8所述的語音分離方法,其特征在于,所述基于所述視聽覺特征預(yù)測(cè)得基于所述視聽覺特征預(yù)測(cè)得到所述用戶語音的掩蔽值;利用預(yù)設(shè)激活函數(shù)對(duì)所述掩蔽值進(jìn)行輸出映射處理;將經(jīng)過所述預(yù)設(shè)激活函數(shù)處理的掩蔽值與所述混合聲學(xué)特征進(jìn)行矩陣點(diǎn)乘運(yùn)算,得到所述用戶的聲學(xué)特征。11.如權(quán)利要求10所述的語音分離方法,其特征在于,所述利用預(yù)設(shè)激活函數(shù)對(duì)所述若基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述音頻信息進(jìn)行編碼,利用sigmoid函數(shù)對(duì)所述掩蔽值進(jìn)行若基于短時(shí)傅里葉變換算法對(duì)所述音頻信息進(jìn)行編碼,利用Tanh函數(shù)對(duì)所述掩蔽值進(jìn)行輸出映射處理。12.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,當(dāng)所述計(jì)算機(jī)指令在電子設(shè)備上運(yùn)行時(shí),使得所述電子設(shè)備執(zhí)行如權(quán)利要求1至權(quán)利要求11中任一項(xiàng)所述的語音分離方法。13.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器用于存儲(chǔ)指令,所述處理器用于調(diào)用所述存儲(chǔ)器中的指令,使得所述電子設(shè)備執(zhí)行權(quán)利要求1至權(quán)利要求11中任一項(xiàng)所述的語音分離方法。14.一種芯片,與電子設(shè)備中的存儲(chǔ)器耦合,其特征在于,所述芯片用于控制所述電子設(shè)備執(zhí)行權(quán)利要求1至權(quán)利要求11中任一項(xiàng)所述的語音分離方法。4技術(shù)領(lǐng)域[0001]本申請(qǐng)涉及終端技術(shù)領(lǐng)域,尤其涉及一種語音算機(jī)可讀存儲(chǔ)介質(zhì)。背景技術(shù)[0002]語音交互技術(shù)已經(jīng)越來越多地應(yīng)用在實(shí)際產(chǎn)品中,如手機(jī)智能語音助手、智能音箱的語音控制、視頻會(huì)議設(shè)備等。然而,在受嘈雜環(huán)境及周邊人聲干擾的情況下,會(huì)出現(xiàn)語音識(shí)別準(zhǔn)確率低、通話質(zhì)量下降等情形。為解決上述問題,業(yè)界提出了基于音視頻融合的語音分離技術(shù),該音視頻融合的語音分離技術(shù)基于人臉表征進(jìn)行語音分離,其基本思想是:利用預(yù)訓(xùn)練人臉模型提取人臉表征,然后基于人臉表征、混合語音及深度學(xué)習(xí)算法,提取指定說話人的語音。但該技術(shù)對(duì)未知說話者的泛化能力較差,即當(dāng)目標(biāo)說話人的語音未在訓(xùn)練數(shù)據(jù)集中出現(xiàn)過時(shí),其語音分離的精度較差,導(dǎo)致用戶使用體驗(yàn)較差,且語音分離的延遲較大,難以應(yīng)用在實(shí)時(shí)語音分離的應(yīng)用場(chǎng)景中。發(fā)明內(nèi)容[0003]有鑒于此,有必要提供一種語音分離方法,其可克服上述問題,對(duì)未知說話者的泛[0004]本申請(qǐng)實(shí)施例第一方面公開了一種語音分離方法,包括:獲取用戶在說話過程中包含用戶語音的音頻信息及包含用戶臉部的視頻信息;對(duì)所述音頻信息進(jìn)行編碼,得到混合聲學(xué)特征;從所述視頻信息中提取所述用戶的視覺語義特征,所述視覺語義特征包括所述用戶在說話過程中的面部運(yùn)動(dòng)特征;將所述混合聲學(xué)特征和所述視覺語義特征輸入至預(yù)設(shè)視覺語音分離網(wǎng)絡(luò),得到所述用戶的聲學(xué)特征;對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的語音信號(hào)。[0005]通過采用該技術(shù)方案,可實(shí)現(xiàn)基于視覺語義特征對(duì)包含有用戶語音與環(huán)境噪聲的混合語音進(jìn)行語音分離,可準(zhǔn)確地分離出所述用戶的聲音,提升用戶使用體驗(yàn)。[0006]在一種可能的實(shí)現(xiàn)方式中,所述音頻信息為包含所述用戶語音與環(huán)境噪聲的混合語音信息,所述對(duì)所述音頻信息進(jìn)行編碼,包括:基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建時(shí)域音頻編碼器;利用所述時(shí)域音頻編碼器對(duì)所述音頻信息進(jìn)行時(shí)域編碼。[0007]通過采用該技術(shù)方案,對(duì)混合語音進(jìn)行時(shí)域編碼,使得后續(xù)可以解碼得到時(shí)域語音信號(hào),減少語音相位信息損失,提升語音分離性能,且具有語音分離延時(shí)低的優(yōu)點(diǎn)。[0008]在一種可能的實(shí)現(xiàn)方式中,所述對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的語音信號(hào),包括:基于所述卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建時(shí)域音頻解碼器;利用所述時(shí)域音頻解碼器對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的時(shí)域語音信號(hào)。[0009]通過采用該技術(shù)方案,可以解碼得到時(shí)域語音信號(hào),減少語音相位信息損失,提升語音分離性能,且具有語音分離延時(shí)低的優(yōu)點(diǎn)。[0010]在一種可能的實(shí)現(xiàn)方式中,所述音頻信息為包含所述用戶語音與環(huán)境噪聲的混合5語音信息,所述對(duì)所述音頻信息進(jìn)行編碼,包括:利用預(yù)設(shè)短時(shí)傅里葉變換算法對(duì)所述音頻信息進(jìn)行時(shí)域編碼。[0011]通過采用該技術(shù)方案,對(duì)混合語音進(jìn)行時(shí)域編碼,使得后續(xù)可以解碼得到時(shí)域語音信號(hào),減少語音相位信息損失,提升語音分離性能,且具有語音分離延[0012]在一種可能的實(shí)現(xiàn)方式中,所述對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的語音信號(hào),包括:利用預(yù)設(shè)短時(shí)傅里葉逆變換算法對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的時(shí)域語音信號(hào)。[0013]通過采用該技術(shù)方案,可以解碼得到時(shí)域語音信號(hào),減少語音相位信息損失,提升語音分離性能,且具有語音分離延時(shí)低的優(yōu)點(diǎn)。[0014]在一種可能的實(shí)現(xiàn)方式中,所述從所述視頻信息中提取所述用戶的視覺語義特征,包括:將所述視頻信息轉(zhuǎn)換為按照幀播放順序排列的圖像幀;對(duì)每一所述圖像幀進(jìn)行處理,得到具有預(yù)設(shè)尺寸且包含所述用戶臉部的多個(gè)人臉縮略圖;將多個(gè)所述人臉縮略圖輸入至預(yù)設(shè)解耦網(wǎng)絡(luò),以提取所述用戶的視覺語義特征。[0015]通過采用該技術(shù)方案,實(shí)現(xiàn)基于視覺語義特征對(duì)包含有用戶語音與環(huán)境噪聲的混合語音進(jìn)行語音分離,可準(zhǔn)確地分離出所述用戶的聲音,提升用戶使用體驗(yàn)。[0016]在一種可能的實(shí)現(xiàn)方式中,所述對(duì)每一所述圖像幀進(jìn)行處理,得到具有預(yù)設(shè)尺寸且包含所述用戶臉部的多個(gè)人臉縮略圖,包括:定位每一所述圖像幀中包含所述用戶臉部的圖像區(qū)域;對(duì)所述圖像區(qū)域進(jìn)行放大或縮小處理,得到具有所述預(yù)設(shè)尺寸且包含所述用戶臉部的人臉縮略圖。[0017]通過采用該技術(shù)方案,實(shí)現(xiàn)基于視覺語義特征對(duì)包含有用戶語音與環(huán)境噪聲的混合語音進(jìn)行語音分離,可準(zhǔn)確地分離出所述用戶的聲音,提升用戶使用體驗(yàn)。[0018]在一種可能的實(shí)現(xiàn)方式中,所述將多個(gè)所述人臉縮略圖輸入至預(yù)設(shè)解耦網(wǎng)絡(luò),以提取所述用戶的視覺語義特征,包括:將多個(gè)所述人臉縮略圖輸入至所述預(yù)設(shè)解耦網(wǎng)絡(luò);利用所述預(yù)設(shè)解耦網(wǎng)絡(luò)將每一所述人臉縮略圖映射成包含人臉身份特征和所述視覺語義特征的視覺表征,并從所述視覺表征中分離出所述視覺語義特征。[0019]通過采用該技術(shù)方案,實(shí)現(xiàn)利用預(yù)設(shè)解耦網(wǎng)絡(luò)從視覺表征中分離出視覺語義特征,實(shí)現(xiàn)對(duì)包含有用戶語音與環(huán)境噪聲的混合語音進(jìn)行語音分離,可準(zhǔn)確地分離出所述用[0020]在一種可能的實(shí)現(xiàn)方式中,所述將所述混合聲學(xué)特征和所述視覺語義特征輸入至預(yù)設(shè)視覺語音分離網(wǎng)絡(luò),得到所述用戶的聲學(xué)特征,包括:獲取所述混合聲學(xué)特征的時(shí)間依賴關(guān)系,以基于所述混合聲學(xué)特征的時(shí)間依賴關(guān)系得到深度混合聲學(xué)特征;獲取所述視覺語義特征的時(shí)間依賴關(guān)系,以基于所述視覺語義特征的時(shí)間依賴關(guān)系得到深度視覺語義特征;對(duì)所述深度混合聲學(xué)特征與所述深度視覺語義特征進(jìn)行模態(tài)融合,得到視聽覺特征;基于所述視聽覺特征預(yù)測(cè)得到所述用戶的聲學(xué)特征。[0021]通過采用該技術(shù)方案,實(shí)現(xiàn)利用預(yù)設(shè)視覺語音分離網(wǎng)絡(luò)對(duì)包含有用戶語音與環(huán)境噪聲的混合語音進(jìn)行語音分離,可準(zhǔn)確地分離出所述用戶的聲音,提升用戶使用體驗(yàn)。[0022]在一種可能的實(shí)現(xiàn)方式中,所述對(duì)所述深度混合聲學(xué)特征與所述深度視覺語義特征進(jìn)行模態(tài)融合之前,還包括:對(duì)所述深度混合聲學(xué)特征與所述深度視覺語義進(jìn)行時(shí)間維度同步處理,以使得所述深度混合聲學(xué)特征的時(shí)間維度與所述深度視覺語義的時(shí)間維度保6持同步。[0023]通過采用該技術(shù)方案,實(shí)現(xiàn)利用預(yù)設(shè)視覺語音分離網(wǎng)絡(luò)對(duì)包含有用戶語音與環(huán)境噪聲的混合語音進(jìn)行語音分離,可準(zhǔn)確地分離出所述用戶的聲音,提升用戶使用體驗(yàn)。[0024]在一種可能的實(shí)現(xiàn)方式中,所述基于所述視聽覺特征預(yù)測(cè)得到所述用戶的聲學(xué)特征,包括:基于所述視聽覺特征預(yù)測(cè)得到所述用戶語音的掩蔽值;利用預(yù)設(shè)激活函數(shù)對(duì)所述掩蔽值進(jìn)行輸出映射處理;將經(jīng)過所述預(yù)設(shè)激活函數(shù)處理的掩蔽值與所述混合聲學(xué)特征進(jìn)行矩陣點(diǎn)乘運(yùn)算,得到所述用戶的聲學(xué)特征。[0025]通過采用該技術(shù)方案,實(shí)現(xiàn)利用預(yù)設(shè)視覺語音分離網(wǎng)絡(luò)對(duì)包含有用戶語音與環(huán)境噪聲的混合語音進(jìn)行語音分離,可準(zhǔn)確地分離出所述用戶的聲音,提升用戶使用體驗(yàn)。[0026]在一種可能的實(shí)現(xiàn)方式中,所述利用預(yù)設(shè)激活函數(shù)對(duì)所述掩蔽值進(jìn)行輸出映射處理,包括:若基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述音頻信息進(jìn)行編碼,利用sigmoid函數(shù)對(duì)所述掩蔽值進(jìn)行輸出映射處理;或若基于短時(shí)傅里葉變換算法對(duì)所述音頻信息進(jìn)行編碼,利用Tanh函數(shù)對(duì)所述掩蔽值進(jìn)行輸出映射處理。[0027]通過采用該技術(shù)方案,實(shí)現(xiàn)根據(jù)不同的音頻編碼算法,采用與該音頻編碼算法對(duì)應(yīng)的激活函數(shù)來進(jìn)行輸出映射處理。[0028]第二方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),包括計(jì)算機(jī)指令,當(dāng)計(jì)算機(jī)指令在電子設(shè)備上運(yùn)行時(shí),使得電子設(shè)備執(zhí)行如第一方面或第二方面所述的語音分離方[0029]第三方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,所述電子設(shè)備中至少安裝代理服務(wù)進(jìn)程,所述電子設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器用于存儲(chǔ)指令,所述處理器用于調(diào)用所述存儲(chǔ)器中的指令,使得所述電子設(shè)備執(zhí)行如第一方面或第二方面所述的語音分離方[0030]第四方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行如第一方面或第二方面所述的語音分離方法。[0031]第五方面,本申請(qǐng)實(shí)施例提供一種裝置,該裝置具有實(shí)現(xiàn)上述第一方面或第二方面所提供的方法中第一電子設(shè)備行為的功能。功能可以通過硬件實(shí)現(xiàn),也可以通過硬件執(zhí)行相應(yīng)的軟件實(shí)現(xiàn)。硬件或軟件包括一個(gè)或多個(gè)與上述功能相對(duì)應(yīng)的模塊。[0032]可以理解地,上述提供的第二方面所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),第三方面所述的電子設(shè)備,第四方面所述的計(jì)算機(jī)程序產(chǎn)品,第五方面所述的裝置均與上述第一方面的方法對(duì)應(yīng),因此,其所能達(dá)到的有益效果可參考上文所提供的對(duì)應(yīng)的方法中的有益效果,此處不再贅述。附圖說明[0033]圖1為本申請(qǐng)一實(shí)施例提供的語音分離裝置的應(yīng)用場(chǎng)景示意圖;[0034]圖2為本申請(qǐng)一實(shí)施例提供的語音分離方法的流程示意圖;[0035]圖3為本申請(qǐng)一實(shí)施例提供的預(yù)設(shè)解耦網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)示意圖;[0036]圖4為本申請(qǐng)一實(shí)施例提供的預(yù)設(shè)視覺語音分離網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)示意圖;[0037]圖5為本申請(qǐng)一實(shí)施例提供的語音分離裝置的功能模塊示意圖;[0038]圖6為本申請(qǐng)一實(shí)施例提供的一種可能的電子設(shè)備的結(jié)構(gòu)示意圖;7具體實(shí)施方式示:?jiǎn)为?dú)存在A,同時(shí)存在A和B,單獨(dú)存在B的情況,其中A,B可以是單數(shù)或者復(fù)數(shù)。本申請(qǐng)的區(qū)別類似的對(duì)象,而不是用于描述特定的順序或先后次序。[0040]為了便于理解,示例性的給出了部分與本申請(qǐng)實(shí)施例相關(guān)概念的說明以供參考。[0041]下面結(jié)合圖1示例性的介紹本發(fā)明實(shí)施例提供的一種語音分離裝置的應(yīng)用場(chǎng)景示意圖。語音分離裝置可以設(shè)置在電子設(shè)備100中。[0042]當(dāng)用戶使用電子設(shè)備100進(jìn)行通話、視頻會(huì)議、語音交互控制等過程中,如果用戶當(dāng)前所處的場(chǎng)景中包含其他人物發(fā)聲或者其他物體的發(fā)聲,可對(duì)用戶語音進(jìn)行分離與增強(qiáng),從而突出用戶語音,降低周圍環(huán)境噪聲對(duì)用戶語音的干擾。[0044]參照?qǐng)D2所示,本申請(qǐng)實(shí)施例提供的一種語音分離方法,應(yīng)用于電子設(shè)備100中。本[0045]21、獲取用戶在說話過程中包含用戶語音的音頻信息及包含用戶臉部的視頻信[0046]在一些實(shí)施例中,電子設(shè)備100可以包含有攝像功能以及拾音功能,比如電子設(shè)備100包括攝像頭及麥克風(fēng),利用攝像頭采集用戶在說話過程中包含用戶臉部的視頻信息,利用麥克風(fēng)采集用戶在說話過程中包含用戶語音的音頻信息,進(jìn)而可以從攝像頭與麥克風(fēng)中獲取用戶在說話過程中包含用戶語音的音頻信息及包含用戶臉部的視頻信息。[0047]可以理解,攝像頭采集到的視頻信息不僅包含有用戶臉部信息,可能還包含用戶其他身體部位信息、當(dāng)前拍攝背景信息、或者其他用戶的身體部位信息。麥克風(fēng)采集到的音頻信息不僅包含有用戶當(dāng)前說話的語音,還可能包含有環(huán)境噪聲。比如環(huán)境噪聲為其他用戶的聲音和/或其他物體發(fā)出的聲音。[0049]在一些實(shí)施例中,可以采用預(yù)設(shè)音頻編碼器對(duì)所述音頻信息進(jìn)行編碼,得到混合聲學(xué)特征。所述預(yù)設(shè)音頻編碼器可以是基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)構(gòu)建得到的編碼器,但并不以CNN為限,也可以是其他類型的神經(jīng)網(wǎng)絡(luò),長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)等。采用CNN構(gòu)建所述預(yù)設(shè)音頻編碼器的構(gòu)建方式可以是現(xiàn)有方案記載的構(gòu)[0050]在一些實(shí)施例中,對(duì)音頻信息處理一般包括時(shí)域處理與頻域處理。時(shí)域處理與頻域處理相比,時(shí)域處理可降低語音幀的長(zhǎng)度,便于進(jìn)行低延遲語音分離模型的設(shè)計(jì),減少語音相位信息損失,進(jìn)而可提升語音分離性能。該預(yù)設(shè)音頻編碼器優(yōu)選是基于CNN構(gòu)建得到的進(jìn)行時(shí)域編碼的音頻編碼器。[0051]在一些實(shí)施例中,所述音頻信息為包含有用戶語音的混合語音,所述混合聲學(xué)特征可以是指經(jīng)過CNN編碼得到的包含混合語音特征的向量。[0052]在一些實(shí)施例中,也可以采用短時(shí)傅里葉變換算法對(duì)所述音頻信息進(jìn)行時(shí)域編8區(qū)域,最后對(duì)所述圖像區(qū)域進(jìn)行放大或縮小處臉部的人臉縮略圖。所述預(yù)設(shè)尺寸可以根據(jù)實(shí)際需求進(jìn)行設(shè)定,比如預(yù)設(shè)即將所述用戶臉部的圖像區(qū)域統(tǒng)一轉(zhuǎn)換為256*[0058]b.將多個(gè)所述人臉縮略圖輸入至預(yù)設(shè)解耦網(wǎng)絡(luò),以提取所述用戶的視覺語義特征。[0060]在一些實(shí)施例中,可以利用N個(gè)視頻樣例及N個(gè)音頻樣例來訓(xùn)練所述預(yù)設(shè)解耦網(wǎng)特征的視覺表征;(即該音頻樣例為該視頻樣例的播放聲音),記為1=1,當(dāng)?shù)趎個(gè)視頻樣例與第m個(gè)音頻樣例不匹配時(shí),記為1m=0??梢詫⒌趎個(gè)視頻樣例輸入至視覺編碼器到包含人臉身份特征和視覺語義特征的視覺表征fv(m),將第m個(gè)音頻樣例輸入至語音編碼[0063]當(dāng)?shù)玫揭曈X表征fv(m)與語音表征fa(m)后,可以通過以下三種處理方式來實(shí)現(xiàn)拉近9[0067]b).利用二分類鑒別器D?來進(jìn)行對(duì)抗訓(xùn)練,識(shí)別輸入的表征是視覺表征還是音頻器E的權(quán)重,使其權(quán)重不被訓(xùn)練),訓(xùn)練二分類鑒別器D?使其可以[0076]首先凍結(jié)視覺編碼器E,的權(quán)重來訓(xùn)練身份鑒別器Dis,使得身份鑒別器Dis可以正確識(shí)別視頻樣例中每張人臉的身份,其訓(xùn)練損失記為L(zhǎng)adv,然后凍結(jié)身份鑒別器Dis的權(quán)例總共包括10類身份(第一類身份至第十類身份),若第一視頻樣例屬于第一類身份,則對(duì)convld、激活-卷積單元PreLU_convld、激活單元?/Tanh及矩陣點(diǎn)乘單元Matrix_dm。[0082]正則-卷積單元LN_convld用于對(duì)輸入的混合聲學(xué)特征進(jìn)行正則化與一維卷積層處理;第一TCN單元TCN-1用于捕捉混合聲學(xué)特征的時(shí)間依賴關(guān)系,得到深度混合聲學(xué)特征;第三TCN單元TCN-3用于捕捉輸入的視覺語義特征的時(shí)間依賴關(guān)系,得到深度視覺語義特征;上采樣單元Upsample用于對(duì)深度視覺語義特征進(jìn)行上采樣,使其在時(shí)間維度與深度混合聲學(xué)特征同步;模態(tài)融合單元Modal_fusion用于在通道維度對(duì)深度視覺語義特征與深度混合聲學(xué)特征進(jìn)行連接并經(jīng)過一個(gè)線性層做維度變換,得到融合的視聽覺特征,融合的視聽覺特征可以通過以下算式進(jìn)行表示:=P([a;Upsample(V)]),其中f為融合的視聽覺特征;第二TCN單元TCN-2與激活-卷積單元PreLU_convld用于根據(jù)融合的視聽覺特征f預(yù)測(cè)所述用戶語音的掩蔽值(mask);激活單元σ/Tanh用于引入非線性特性對(duì)所述掩蔽值進(jìn)行映射輸出處理;矩陣點(diǎn)乘單元Matrix_dm用于將激活單元σ/Tanh輸出的mask與混合聲學(xué)特征進(jìn)行矩陣點(diǎn)乘運(yùn)算,得到所述用戶的聲學(xué)特征。使用sigmoid函數(shù)進(jìn)行非線性特性引入,當(dāng)采用短時(shí)傅里葉變換得到所述混合聲學(xué)特征時(shí),激活單元?/Tanh可選使用Tanh函數(shù)進(jìn)行非線性特性引入。[0085]在一些實(shí)施例中,當(dāng)通過所述預(yù)設(shè)視覺語音分離網(wǎng)絡(luò)得到所述用戶的聲學(xué)特征時(shí),可以采用預(yù)設(shè)音頻解碼器對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的語音信號(hào)。所述預(yù)設(shè)音頻解碼器可以是基于CNN構(gòu)建得到的解碼器,但并不以CNN為限,也可以是其他構(gòu)建所述預(yù)設(shè)音頻解碼器的構(gòu)建方式可以是現(xiàn)有方案記載的構(gòu)建方式,在此不再贅述。[0086]可以理解,當(dāng)采用短時(shí)傅里葉變換算法對(duì)所述音頻信息進(jìn)行編碼得到混合聲學(xué)特征時(shí),此時(shí),可以采用短時(shí)傅里葉逆變換算法對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的語音信號(hào)。[0087]在一些實(shí)施例中,由于是采用CNN或者短時(shí)傅里葉變換算法對(duì)所述音頻信息進(jìn)行時(shí)域編碼,解碼得到的用戶語音信號(hào)即為時(shí)域語音信號(hào)。[0088]上述語音分離方法,基于視覺語義特征并在時(shí)域上對(duì)混合語音進(jìn)行語音分離,可以從環(huán)境噪聲干擾中準(zhǔn)確、實(shí)時(shí)分離出目標(biāo)說話者的語音,對(duì)于未知說話者的語音分離準(zhǔn)[0089]參照?qǐng)D5所示,本申請(qǐng)實(shí)施例提供的一種語音分離裝置110,可應(yīng)用于圖1所示的電子設(shè)備100中,電子設(shè)備100可以包含有攝像功能以及拾音功能。本實(shí)施例中,語音分離裝置[0090]獲取模塊101用于獲取用戶在說話過程中包含用戶語音的音頻信息及包含用戶臉部的視頻信息。[0091]編碼模塊102用于對(duì)所述音頻信息進(jìn)行編碼,得到混合聲學(xué)特征。[0092]提取模塊103用于從所述視頻信息中提取所述用戶的視覺語義特征,所述視覺語義特征包括所述用戶在說話過程中的面部運(yùn)動(dòng)特征。11[0093]分離模塊104用于將所述混合聲學(xué)特征和所述視覺語義特征輸入至預(yù)設(shè)視覺語音分離網(wǎng)絡(luò),得到所述用戶的聲學(xué)特征。[0094]解碼模塊105用于對(duì)所述用戶的聲學(xué)特征進(jìn)行解碼,得到所述用戶的語音信號(hào)。[0095]可以理解,以上裝置110中的各個(gè)模塊的劃分僅僅是一種邏輯功能的劃分,實(shí)際實(shí)現(xiàn)時(shí)可以全部或部分集成到一個(gè)物理實(shí)體上,也可以物理上分開。例如,以上各個(gè)模塊可以為單獨(dú)設(shè)立的處理元件,也可以集成在終端的某一個(gè)芯片中實(shí)現(xiàn),此外,也可以以程序代碼的形式存儲(chǔ)于控制器的存儲(chǔ)元件中,由處理器的某一個(gè)處理元件調(diào)用并執(zhí)行以上各個(gè)模塊的功能。此外各個(gè)模塊可以集成在一起,也可以獨(dú)立實(shí)現(xiàn)。這里所述的處理元件可以是一種集成電路芯片,具有信號(hào)的處理能力。該處理元件可以是通用處理器,例如中央處理器(centralprocessingunit,CPU),還可以是被配置成實(shí)施以上功能模塊的一個(gè)或多個(gè)集成電路,例如:一個(gè)或多個(gè)特定集成電路(application-specificintegratedcircuit,ASIC),或,一個(gè)或多個(gè)微處理器(digitalsignalprocessor,DSP),或,一個(gè)或者多個(gè)現(xiàn)場(chǎng)可編程門陣列(field-programmablegatearray,FPGA)等。[0096]參考圖6,為本申請(qǐng)實(shí)施例提供的電子設(shè)備100的硬件結(jié)構(gòu)示意圖。如圖6所示,電子設(shè)備100可以包括處理器1001、存儲(chǔ)器1002、通信總線1003、攝像頭組1005及揚(yáng)聲器組件1006。存儲(chǔ)器1002用于存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)程序1007。一個(gè)或多個(gè)計(jì)算機(jī)程序1007被配置為被該處理器1001執(zhí)行。該一個(gè)或多個(gè)計(jì)算機(jī)程序1007包括指令,上述指令可以用于實(shí)現(xiàn)在電子設(shè)備100中執(zhí)行上述語音分離方法或者上述語音分離裝置110。[0097]可以理解的是,本實(shí)施例示意的結(jié)構(gòu)并不構(gòu)成對(duì)電子設(shè)備100的具體限定。在另一些實(shí)施例中,電子設(shè)備100可以包括比圖示更多或更少的部件,或者組合某些部件,或者拆[0098]處理器1001可以包括一個(gè)或多個(gè)處理單元,例如:處理器1001可以包括應(yīng)用處理器(applicationprocessor,AP),圖形處理器(graphicsprocessingunit,GPU),圖像信號(hào)處理器(imagesignalprocessor,ISP),控制器,視頻編解碼器,DSP,CPU,基帶處理器,和/或神經(jīng)網(wǎng)絡(luò)處理器(neural-networkprocessingunit,NPU)等。其中,不同的處理單元可以是獨(dú)立的器件,也可以集成在一個(gè)或多個(gè)處理器中。[0099]處理器1001還可以設(shè)置有存儲(chǔ)器,用于存儲(chǔ)指令和數(shù)據(jù)。在一些實(shí)施例中,處理器1001中的存儲(chǔ)器為高速緩沖存儲(chǔ)器。該存儲(chǔ)器可以保存處理器1001剛用過或循環(huán)使用的指令或數(shù)據(jù)。如果處理器1001需要再次使用該指令或數(shù)據(jù),可從該存儲(chǔ)器中直接調(diào)用。避免了重復(fù)存取,減少了處理器1001的等待時(shí)間,因而提高了系統(tǒng)的效率。[0100]在一些實(shí)施例中,處理器1001可以包括一個(gè)或多個(gè)接口。接口可以包括集成電路(inter-integratedcircuit,I2C)接口,集成電路內(nèi)置音頻(inter-integratedcircuitsound,I2S)接口,脈沖編碼調(diào)制(pulsecodemodulation,PCM)接口,通用異步收發(fā)傳輸器(universalasynchronousreceiver/transmitter,UART)接口,移動(dòng)產(chǎn)業(yè)處理器接口(mobileindustrypr[0101]在一些實(shí)施例中,存儲(chǔ)器1002可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失易失性固態(tài)存儲(chǔ)器件。[0102]攝像頭組件1004用于拍攝說話者的臉部信息,以生成包含說話者臉部的視頻信息,攝像頭組件1004可以包括鏡頭、圖像傳感器、圖像信號(hào)處理器等。麥克風(fēng)組件1005用于錄制說話者的聲音及周圍環(huán)境聲音,得到包含用戶語音的音頻信息,麥克風(fēng)組件1005可以包括麥克風(fēng)及與麥克風(fēng)配合的外圍電路或元件。揚(yáng)聲器組件1006用于播放經(jīng)過語音分離處理得到的說話者的聲音,揚(yáng)聲器組件1006可以包括揚(yáng)聲器及與揚(yáng)聲器配合的外圍電路或元件。[0103]本實(shí)施例還提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),該計(jì)算機(jī)存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)指令,當(dāng)該計(jì)算機(jī)指令在電子設(shè)備上運(yùn)行時(shí),使得電子設(shè)備執(zhí)行上述相關(guān)方法步驟實(shí)現(xiàn)上述實(shí)施例中的語音分離方法。[0104]本實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)該計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述相關(guān)步驟,以實(shí)現(xiàn)上述實(shí)施例中的語音分離方法。[0105]另外,本申請(qǐng)的實(shí)施例還提供一種裝置,這個(gè)裝置具體可以是芯片,組件或模塊,該裝置可包括相連的處理器和存儲(chǔ)器;其中,存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)執(zhí)行指令,當(dāng)裝置運(yùn)行時(shí),處理器可執(zhí)行存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令,以使芯片執(zhí)行上述各方法實(shí)施例中的語音分離方法。[0106]其中,本實(shí)施例提供的第一電子設(shè)備、計(jì)算機(jī)存儲(chǔ)介質(zhì)、計(jì)算機(jī)程序產(chǎn)品或芯片均用于執(zhí)行上文所提供的對(duì)應(yīng)的方法,因此,其所能達(dá)到的有益效果可參考上文所提供的對(duì)應(yīng)的方法中的有益效果,此處不再贅述。[0107]通過以上的實(shí)施方式的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論