CN114974245B 語音分離方法和裝置、電子設(shè)備和存儲(chǔ)介質(zhì) (南京地平線機(jī)器人技術(shù)有限公司)_第1頁
CN114974245B 語音分離方法和裝置、電子設(shè)備和存儲(chǔ)介質(zhì) (南京地平線機(jī)器人技術(shù)有限公司)_第2頁
CN114974245B 語音分離方法和裝置、電子設(shè)備和存儲(chǔ)介質(zhì) (南京地平線機(jī)器人技術(shù)有限公司)_第3頁
CN114974245B 語音分離方法和裝置、電子設(shè)備和存儲(chǔ)介質(zhì) (南京地平線機(jī)器人技術(shù)有限公司)_第4頁
CN114974245B 語音分離方法和裝置、電子設(shè)備和存儲(chǔ)介質(zhì) (南京地平線機(jī)器人技術(shù)有限公司)_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

(19)國家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號(hào)CN114974245B(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)(73)專利權(quán)人南京地平線機(jī)器人技術(shù)有限公司地址210046江蘇省南京市經(jīng)濟(jì)技術(shù)開發(fā)區(qū)興智科技園A棟20層(72)發(fā)明人胡玉祥朱長寶余凱(74)專利代理機(jī)構(gòu)北京思源智匯知識(shí)產(chǎn)權(quán)代理有限公司11657專利代理師李林莎WO2020232867A1,2020.11.26審查員宋玉香語音分離方法和裝置、電子設(shè)備和存儲(chǔ)介質(zhì)本公開實(shí)施例公開了一種語音分離方法和獲取空間區(qū)域內(nèi)的第一混合語音信號(hào)和第一圖像序列;對(duì)第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定第一圖像序列的圖像質(zhì)量;響應(yīng)于第一圖像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn),利用第一語音分離模型對(duì)輸入的第一混合語音信號(hào)和第一圖像序列進(jìn)行處理,獲得第一語音信號(hào);響應(yīng)于第一圖像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn),利用第二語音分離模型對(duì)第一混合語音信號(hào)進(jìn)行處理,獲得第二語音信號(hào)。本公開實(shí)施例可以對(duì)第一混合語音信號(hào)進(jìn)行語音分離,并可以確定分離后語音信獲取空間區(qū)域內(nèi)的第一混合語音信號(hào)和第一對(duì)第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定第一圖像序列入的第一混合語音信號(hào)和第一圖像序列進(jìn)行處理,響應(yīng)于第一圖像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn),利用2獲取空間區(qū)域內(nèi)的第一混合語音信號(hào)和第一圖像序列,其中,所述第一混合語音信號(hào)包括第一人物的語音信號(hào)和第二人物的語音信號(hào),所述第一圖像序列為在所述空間區(qū)域采集的包括空間內(nèi)人物的圖像序列;對(duì)所述第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定所述第一圖像序列的圖像質(zhì)量;響應(yīng)于所述第一圖像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn),利用第一語音分離模型對(duì)輸入的所述第一混合語音信號(hào)和所述第一圖像序列進(jìn)行處理,獲得第一語音信號(hào),其中,所述第一語音信號(hào)包括所述混合語音信號(hào)分離出的至少一路語音信號(hào);響應(yīng)于所述第一圖像序列的圖像質(zhì)量不滿足所述預(yù)設(shè)標(biāo)準(zhǔn),利用第二語音分離模型對(duì)所述第一混合語音信號(hào)進(jìn)行處理,獲得第二語音信號(hào),其中,所述第二語音信號(hào)包括所述混合語音信號(hào)分離出的至少一路語音信號(hào)。2.根據(jù)權(quán)利要求1所述的語音分離方法,其中,所述對(duì)所述第一圖像序列進(jìn)行圖像質(zhì)量獲取所述第一圖像序列對(duì)應(yīng)的圖像信號(hào),確定所述圖像信號(hào)的圖像信號(hào)質(zhì)量;基于所述第一圖像序列的各圖像幀,確定所述第一圖像序列的圖像內(nèi)容質(zhì)量;基于所述圖像信號(hào)質(zhì)量和所述圖像內(nèi)容質(zhì)量,確定所述第一圖像序列的圖像質(zhì)量。3.根據(jù)權(quán)利要求2所述的方法,其中,所述基于所述第一圖像序列的各圖像幀,確定所述第一圖像序列的圖像內(nèi)容質(zhì)量,包括:基于所述第一圖像序列的各圖像幀,確定所述第一人物和/或所述第二人物在所述各圖像幀中的唇部遮擋狀態(tài);基于所述唇部遮擋狀態(tài),確定所述圖像內(nèi)容質(zhì)量。4.根據(jù)權(quán)利要求3所述的方法,其中,所述基于所述圖像信號(hào)質(zhì)量和所述圖像內(nèi)容質(zhì)響應(yīng)于所述圖像信號(hào)質(zhì)量不滿足圖像信號(hào)質(zhì)量標(biāo)準(zhǔn),確定所述第一圖像序列的圖像質(zhì)量不滿足所述預(yù)設(shè)標(biāo)準(zhǔn);響應(yīng)于所述圖像內(nèi)容質(zhì)量不滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn),確定所述第一圖像序列的圖像質(zhì)量不滿足所述預(yù)設(shè)標(biāo)準(zhǔn);響應(yīng)于所述圖像信號(hào)質(zhì)量滿足所述圖像信號(hào)質(zhì)量標(biāo)準(zhǔn)且所述圖像內(nèi)容質(zhì)量滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn),確定所述第一圖像序列的圖像質(zhì)量滿足所述預(yù)設(shè)標(biāo)準(zhǔn)。5.根據(jù)權(quán)利要求4所述的方法,所述基于所述第一圖像序列的各圖像幀,確定所述第一圖像序列的圖像內(nèi)容質(zhì)量,還包括:響應(yīng)于所述唇部遮擋狀態(tài)為所述第一人物和/或所述第二人物的唇部未被遮擋,基于所述第一圖像序列的各圖像幀,確定所述第一人物和/或所述第二人物的唇部動(dòng)作;響應(yīng)于所述唇部動(dòng)作不滿足預(yù)設(shè)唇部動(dòng)作標(biāo)準(zhǔn),確定所述第一圖像序列的圖像質(zhì)量不滿足所述圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn)。6.根據(jù)權(quán)利要求1所述的語音分離方法,所述第二語音分離模型包括第一人物聲源模型、第二人物聲源模型和盲源分離模型,其中,所述盲源分離模型用于對(duì)所述第一混合語音信號(hào)進(jìn)行盲源分離,所述第一人物聲源模型用于基于所述盲源分離的結(jié)果確定所述第一人物的語音信號(hào),所述第二人物聲源模型用于基于所述盲源分離的結(jié)果確定所述第二人物的3語音信號(hào)。7.根據(jù)權(quán)利要求6所述的語音分離方法,在所述利用第二語音分離模型對(duì)所述第一混基于所述第一語音分離模型分離出的第一人物的歷史聲源信號(hào)和第二人物的歷史聲源信號(hào)進(jìn)行在線建模,得到所述第一人物聲源模型和所述第二人物聲源模型。8.根據(jù)權(quán)利要求7所述的語音分離方法,其中,所述利用第二語音分離模型對(duì)所述第一基于所述第一圖像序列,確定所述第一人物和/或所述第二人物的身份信息;基于所述身份信息,獲取與所述身份信息相匹配的所述第一人物聲源模型和/或第二人物聲源模型,并獲取所述盲源分離模型;基于所述第一人物聲源模型和/或第二人物聲源模型,以及所述盲源分離模型對(duì)所述第一混合語音信號(hào)進(jìn)行處理,獲得所述第二語音信號(hào)。獲取模塊,用于獲取空間區(qū)域內(nèi)的第一混合語音信號(hào)和第一圖像序列,其中,所述第一混合語音信號(hào)包括第一人物的語音信號(hào)和第二人物的語音信號(hào),所述第一圖像序列為在所述空間區(qū)域采集的包括空間內(nèi)人物的圖像序列;圖像質(zhì)量確定模塊,用于對(duì)所述第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定所述第一圖像序列的圖像質(zhì)量;第一處理模塊,用于響應(yīng)于所述第一圖像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn),利用第一語音分離模型對(duì)輸入的所述第一混合語音信號(hào)和所述第一圖像序列進(jìn)行處理,獲得第一語音信號(hào),其中,所述第一語音信號(hào)包括所述第一混合語音信號(hào)分離出的至少一路語音信號(hào);第二處理模塊,用于響應(yīng)于所述第一圖像序列的圖像質(zhì)量不滿足所述預(yù)設(shè)標(biāo)準(zhǔn),利用第二語音分離模型對(duì)所述第一混合語音信號(hào)進(jìn)行處理,獲得第二語音信號(hào),其中,所述第二語音信號(hào)包括所述第一混合語音信號(hào)分離出的至少一路語音信號(hào)。10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于執(zhí)行上述權(quán)利要求1-8任一所述的語音分離方法。處理器;用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;所述處理器,用于從所述存儲(chǔ)器中讀取所述可執(zhí)行指令,并執(zhí)行所述指令以實(shí)現(xiàn)上述權(quán)利要求1-8任一所述的語音分離方法。4技術(shù)領(lǐng)域[0001]本公開涉及車輛技術(shù)領(lǐng)域和語音處理技術(shù)領(lǐng)域,尤其是一種語音分離方法和裝背景技術(shù)[0002]隨著基于語音的控制技術(shù)和車輛技術(shù)的發(fā)展,出現(xiàn)了通過語音對(duì)車載設(shè)備進(jìn)行控制的方式。[0003]為了方便車內(nèi)多用戶對(duì)車輛進(jìn)行控制,需要分離獲取車內(nèi)不同乘客的語音信號(hào)。相關(guān)技術(shù)中,采用盲源分離(BSS,BlindSourceSeparation)的方式進(jìn)行語分離是指在信號(hào)的理論模型和聲源信號(hào)無法精確獲知的情況下,從混迭信號(hào)(觀測(cè)信號(hào))中分離出各聲源信號(hào)的過程?,F(xiàn)有的盲源分離方法,由于無法確定分離出的語音信號(hào)與車內(nèi)乘客之間的對(duì)應(yīng)關(guān)系,進(jìn)而無法實(shí)現(xiàn)對(duì)不同乘客控制不同車載設(shè)備的有效管理。發(fā)明內(nèi)容[0004]目前,通過盲源分離的方式對(duì)混合語音信號(hào)進(jìn)行語音分離,分離后可以得到不用人物的語音。由于不清楚語音信號(hào)的所屬人物,因此無法針對(duì)分離后的語音信號(hào)進(jìn)行不同的權(quán)限控制,進(jìn)而不清楚是否響應(yīng)語音信號(hào)的對(duì)車載設(shè)備的控制內(nèi)容,用戶體驗(yàn)差。[0005]為了解決上述技術(shù)問題,提出了本公開。本公開的實(shí)施例提供了一種語音分離方[0007]獲取空間區(qū)域內(nèi)的第一混合語音信號(hào)和第一圖像序列,其中,所述第一混合語音信號(hào)包括第一人物的語音信號(hào)和第二人物的語音信號(hào),所述第一圖像序列為在所述空間區(qū)域采集的包括空間內(nèi)人物的圖像序列;[0008]對(duì)所述第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定所述第一圖像序列的圖像質(zhì)量;[0009]響應(yīng)于所述第一圖像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn),利用第一語音分離模型對(duì)輸入的所述第一混合語音信號(hào)和所述第一圖像序列進(jìn)行處理,獲得第一語音信號(hào),其中,所述第一語音信號(hào)包括所述混合語音信號(hào)分離出的至少一路語音信號(hào);[0010]響應(yīng)于所述第一圖像序列的圖像質(zhì)量不滿足所述預(yù)設(shè)標(biāo)準(zhǔn),利用第二語音分離模型對(duì)所述第一混合語音信號(hào)進(jìn)行處理,獲得第二語音信號(hào),其中,所述第二語音信號(hào)包括所述混合語音信號(hào)分離出的至少一路語音信號(hào)。[0011]根據(jù)本公開實(shí)施例的第二方面,提供了一種[0012]獲取模塊,用于獲取空間區(qū)域內(nèi)的第一混合語音信號(hào)和第一圖像序列,其中,所述第一混合語音信號(hào)包括第一人物的語音信號(hào)和第二人物的語音信號(hào),所述第一圖像序列為在所述空間區(qū)域采集的包括空間內(nèi)人物的圖像序列;[0013]圖像質(zhì)量確定單元,用于對(duì)所述第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定所述第一圖像序列的圖像質(zhì)量;5[0014]第一處理單元,用于響應(yīng)于所述第一圖像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn),利用第一語音分離模型對(duì)輸入的所述第一混合語音信號(hào)和所述第一圖像序列進(jìn)行處理,獲得第一語音信號(hào),其中,所述第一語音信號(hào)包括所述第一混合語音信號(hào)分離出的至少一路語音信[0015]第二處理單元,用于響應(yīng)于所述第一圖像序列的圖像質(zhì)量不滿足所述預(yù)設(shè)標(biāo)準(zhǔn),利用第二語音分離模型對(duì)所述第一混合語音信號(hào)進(jìn)行處理,獲得第二語音信號(hào),其中,所述第二語音信號(hào)包括所述第一混合語音信號(hào)分離出的至少一路語音信號(hào)。[0016]根據(jù)本公開實(shí)施例的第三方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于執(zhí)行上述第一方面所述的語音分離方法。[0017]根據(jù)本公開實(shí)施例的第四方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:[0019]用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;[0020]所述處理器,用于從所述存儲(chǔ)器中讀取所述可執(zhí)行指令,并執(zhí)行所述指令以實(shí)現(xiàn)上述第一方面所述的語音分離方法。[0021]基于本公開上述實(shí)施例提供的語音分離方法和裝置、電子設(shè)備和存儲(chǔ)介質(zhì),獲取空間區(qū)域(例如駕駛艙)內(nèi)的第一混合語音信號(hào)和第一圖像序列后,對(duì)第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定第一圖像序列的圖像質(zhì)量;根據(jù)第一圖像序列的圖像質(zhì)量是否滿足預(yù)設(shè)標(biāo)準(zhǔn),相應(yīng)地使用第一語音分離模型或第二語音分離模型對(duì)第一混合語音信號(hào)進(jìn)行針對(duì)性的語音分離,可以得到分離后的多路語音信號(hào),并可以確定多路語音信號(hào)的所屬人物,從多路語音信號(hào)中輸出至少一路語音信號(hào),進(jìn)而可以根據(jù)輸出至少一路語音信號(hào)所屬人物的權(quán)限信息,確定是否控制車載設(shè)備對(duì)輸出的至少一路語音信號(hào)的語音指令進(jìn)行響應(yīng),用戶體驗(yàn)好。[0022]下面通過附圖和實(shí)施例,對(duì)本公開的技術(shù)方案做進(jìn)一步的詳細(xì)描述。附圖說明[0023]通過結(jié)合附圖對(duì)本公開實(shí)施例進(jìn)行更詳細(xì)的描述,本公開的上述以及其他目的、特征和優(yōu)勢(shì)將變得更加明顯。附圖用來提供對(duì)本公開實(shí)施例的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本公開實(shí)施例一起用于解釋本公開,并不構(gòu)成對(duì)本公開的限制。在附圖中,相同的參考標(biāo)號(hào)通常代表相同部件或步驟。[0024]圖1是本公開一個(gè)實(shí)施例中的語音分離方法的流程示意圖;[0025]圖2為本公開一個(gè)實(shí)施例中步驟S2的流程示意圖;[0026]圖3是本公開一個(gè)實(shí)施例中步驟S4的流程示意圖;[0027]圖4是本公開一個(gè)實(shí)施例中語音分離裝置的結(jié)構(gòu)框圖;[0028]圖5是本公開一個(gè)實(shí)施例中圖像質(zhì)量確定模塊200的結(jié)構(gòu)框圖;[0029]圖6是本公開一個(gè)實(shí)施例中第二處理模塊400的框圖;[0030]圖7是本公開一示例性實(shí)施例提供的電子設(shè)備的結(jié)構(gòu)圖。具體實(shí)施方式[0031]下面,將參考附圖詳細(xì)地描述根據(jù)本公開的示例實(shí)施例。顯然,所描述的實(shí)施例僅6僅是本公開的一部分實(shí)施例,而不是本公開的全部實(shí)施例,應(yīng)理解,本公開不受這里描述的示例實(shí)施例的限制。[0032]應(yīng)注意到:除非另外具體說明,否則在這些實(shí)施例中闡述的部件和步驟的相對(duì)布置、數(shù)字表達(dá)式和數(shù)值不限制本公開的范圍。不同步驟、設(shè)備或模塊等,既不代表任何特定技術(shù)含義,也不表示它們之間的必然邏輯順[0035]還應(yīng)理解,對(duì)于本公開實(shí)施例中提及的任一部件、數(shù)據(jù)或結(jié)構(gòu),在沒有明確限定或者在前后文給出相反啟示的情況下,一般可以理解為一個(gè)或多個(gè)。[0036]另外,本公開中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。[0037]還應(yīng)理解,本公開對(duì)各個(gè)實(shí)施例的描述著重強(qiáng)調(diào)各個(gè)實(shí)施例之間的不同之處,其相同或相似之處可以相互參考,為了簡潔,不再一一贅述。[0038]以下對(duì)至少一個(gè)示例性實(shí)施例的描述實(shí)際上僅僅是說明性的,決不作為對(duì)本公開及其應(yīng)用或使用的任何限制。[0039]對(duì)于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細(xì)討論,但在適當(dāng)情況下,所述技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為說明書的一部分。[0040]應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步討論。[0041]本公開實(shí)施例可以應(yīng)用于終端設(shè)備、計(jì)算機(jī)系統(tǒng)、服務(wù)器等電子設(shè)備,其可與眾多其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置一起操作。適于與終端設(shè)備、計(jì)算機(jī)系統(tǒng)、服務(wù)器等電子設(shè)備一起使用的眾所周知的終端設(shè)備、計(jì)算系統(tǒng)、環(huán)境和/或配置的例子包括但不限于:包括上述任何系統(tǒng)的分布式云計(jì)算技術(shù)環(huán)境,等等。[0042]終端設(shè)備、計(jì)算機(jī)系統(tǒng)、服務(wù)器等電子設(shè)備可以在由計(jì)算機(jī)系統(tǒng)執(zhí)行的計(jì)算機(jī)系統(tǒng)可執(zhí)行指令(諸如程序模塊)的一般語境下描述。通常,程序模塊可以包括例程、程序、目算機(jī)系統(tǒng)/服務(wù)器可以在分布式云計(jì)算環(huán)境中實(shí)施,分布式云計(jì)算環(huán)境中,任務(wù)是由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行的。在分布式云計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備的本地或遠(yuǎn)程計(jì)算系統(tǒng)存儲(chǔ)介質(zhì)上。[0043]示例性概述[0044]在指定空間區(qū)域內(nèi)設(shè)置圖像采集裝置和語音采集裝置,通過圖像采集裝置和音頻采集裝置分別采集該指定空間區(qū)域內(nèi)的混合音頻信號(hào)和圖像序列,例如在駕駛艙設(shè)置車載攝像頭和車載麥克風(fēng)陣列,通過車載攝像頭和車載麥克風(fēng)陣列分別采集車內(nèi)混合音頻信號(hào)和車內(nèi)圖像序列。7[0045]在得到指定空間區(qū)域內(nèi)的混合音頻信號(hào)之后,可以對(duì)混合音頻信號(hào)中背景噪聲(例如風(fēng)噪或機(jī)械噪聲)進(jìn)行降噪后,可以基于混合音頻信號(hào)的音頻特征從混合音頻信號(hào)中分離出包括第一人物的語音信號(hào)和第二人物的語音信號(hào)在內(nèi)的第一混合語音信號(hào)。[0046]利用預(yù)設(shè)標(biāo)準(zhǔn)對(duì)第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定第一圖像序列的圖像質(zhì)量。當(dāng)?shù)谝粓D像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn)時(shí),利用預(yù)訓(xùn)練的第一語音分離模型對(duì)輸入的第一混合語音信號(hào)和第一圖像序列進(jìn)行處理,獲得第一語音信號(hào);當(dāng)?shù)谝粓D像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn)時(shí),此時(shí)難以通過第一圖像序列輔助對(duì)第一混合語音信號(hào)進(jìn)行語音分離,因此利用包括盲源分離模型和人物聲源模型的第二語音分離模型對(duì)第一混合語音信號(hào)進(jìn)行處理,獲得第二語音信號(hào)。其中,針對(duì)第一語音信號(hào)和第二語音信號(hào),均可以確定其所屬人物,進(jìn)而可以根據(jù)所屬人物的權(quán)限信息確定是否響應(yīng)第一語音信號(hào)或第二語音信號(hào)對(duì)車載設(shè)備的控制指令,用戶體驗(yàn)好。[0047]示例性方法[0048]圖1是本公開一個(gè)實(shí)施例中的語音分離方法的流程示意圖。如圖1所示,包括如下步驟:[0049]S1:獲取空間區(qū)域內(nèi)的第一混合語音信號(hào)和第一圖像序列。其中,第一混合語音信號(hào)包括第一人物的語音信號(hào)和第二人物的語音信號(hào),還可以包括空間區(qū)域內(nèi)其他人物的語音信號(hào)。第一圖像序列為在空間區(qū)域采集的包括空間內(nèi)人物的圖像序列。[0050]在空間區(qū)域內(nèi)設(shè)置圖像采集裝置和語音采集裝置,通過圖像采集裝置和音頻采集裝置分別采集該指定空間區(qū)域內(nèi)的第一混合音頻信號(hào)和第一圖像序列。其中,空間區(qū)域可以是駕駛艙,圖像采集裝置可以包括車載攝像頭,音頻采集裝置可以包括車載麥克風(fēng)陣列,即可以通過車載攝像頭和車載麥克風(fēng)陣列分別采集車內(nèi)混合音頻信號(hào)和車內(nèi)圖像序列。[0051]在得到指定空間區(qū)域內(nèi)的混合音頻信號(hào)之后,可以對(duì)混合音頻信號(hào)中背景噪聲(例如風(fēng)噪或機(jī)械噪聲)進(jìn)行降噪后,可以基于混合音頻信號(hào)的音頻特征從混合音頻信號(hào)中分離出第一混合語音信號(hào)。[0052]S2:對(duì)第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定第一圖像序列的圖像質(zhì)量。[0053]預(yù)設(shè)標(biāo)準(zhǔn)可以包括圖像信號(hào)維度的標(biāo)準(zhǔn),也可以包括圖像質(zhì)量維度的標(biāo)準(zhǔn)。利用預(yù)設(shè)標(biāo)準(zhǔn)對(duì)第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),可以確定第一圖像序列是否滿足預(yù)設(shè)標(biāo)準(zhǔn),進(jìn)而可以根據(jù)第一圖像序列針對(duì)預(yù)設(shè)標(biāo)準(zhǔn)的滿足情況,確定第一圖像序列的圖像質(zhì)量。[0054]S3:響應(yīng)于第一圖像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn),利用第一語音分離模型對(duì)輸入的第一混合語音信號(hào)和第一圖像序列進(jìn)行處理,獲得第一語音信號(hào)。其中,第一語音信號(hào)包括第一混合語音信號(hào)分離出的至少一路語音信號(hào)。[0055]當(dāng)?shù)谝粓D像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn)時(shí),將第一混合語音信號(hào)和第一圖像序列作為預(yù)訓(xùn)練的第一語音分離模型的輸入,利用第一語音分離模型對(duì)第一混合語音信號(hào)和第一圖像序列進(jìn)行處理,得到第一語音信號(hào)。[0056]其中,在步驟S3之前,可以采集預(yù)定時(shí)間段內(nèi),針對(duì)空間區(qū)域采集包括有多個(gè)人物的混合語音信號(hào),作為樣本混合語音信號(hào)。采集該預(yù)定時(shí)間段內(nèi),針對(duì)空間區(qū)域采集的包括有該多個(gè)人物的圖像序列,作為樣本圖像序列?;跇颖净旌险Z音信號(hào)和樣本圖像序列,訓(xùn)練第一語音分離模型。其中,第一語音分離模型可以對(duì)樣本圖像序列進(jìn)行圖像識(shí)別,確定該多個(gè)人物在預(yù)定時(shí)間段內(nèi)的說話時(shí)間和說話內(nèi)容。第一語音分離模型還可以基于樣本混合8語音信號(hào)中不同語音信號(hào)的語音特征對(duì)樣本語音信號(hào)進(jìn)行語音分離,得到多路語音信號(hào)。進(jìn)而,第一語音分離模型可以基于該多個(gè)人物在預(yù)定時(shí)間段內(nèi)的說話時(shí)間和說話內(nèi)容,確定該多路語音信號(hào)的聲源對(duì)象,從而確定該多路語音信號(hào)的所屬人物。[0057]S4:響應(yīng)于第一圖像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn),利用第二語音分離模型對(duì)第一混合語音信號(hào)進(jìn)行處理,獲得第二語音信號(hào),其中,第二語音信號(hào)包括第一混合語音信號(hào)分離出的至少一路語音信號(hào)。[0058]當(dāng)?shù)谝粓D像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn)時(shí),此時(shí)難以通過第一圖像序列的圖像識(shí)別結(jié)果輔助確定第一混合語音信號(hào)分離后的多路語音信號(hào)的所屬人物,因此可以利用第二語音分離模型對(duì)第一混合語音信號(hào)進(jìn)行處理,獲得第二語音信號(hào)。其中,第二語音分離模型可以包括盲源分離模型和用于確定多路語音信號(hào)聲源對(duì)象的聲源模型??梢岳妹ぴ捶蛛x模型將第一混合語音信號(hào)分離成多路語音信號(hào),接著利用聲源模型確定多路語音信號(hào)的所屬人物,然后輸出第一語音信號(hào),并可以輸出第一語音信號(hào)的所屬人物。[0059]在本實(shí)施例中,獲取空間區(qū)域內(nèi)的第一混合語音信號(hào)和第一圖像序列后,對(duì)第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定第一圖像序列的圖像質(zhì)量。根據(jù)第一圖像序列的圖像質(zhì)量是否滿足預(yù)設(shè)標(biāo)準(zhǔn),相應(yīng)地使用第一語音分離模型或第二語音分離模型對(duì)第一混合語音信號(hào)進(jìn)行針對(duì)性的語音分離,可以得到分離后的多路語音信號(hào),從多路語音信號(hào)中輸出至少一路語音信號(hào),進(jìn)而可以根據(jù)輸出至少一路語音信號(hào)所屬人物的權(quán)限信息,確定是否控制車載設(shè)備對(duì)輸出的至少一路語音信號(hào)的語音指令進(jìn)行響應(yīng),用戶體驗(yàn)好。[0060]圖2為本公開一個(gè)實(shí)施例中步驟S2的流程示意圖。如圖2所示,步驟S2包括:[0061]S2-1:獲取第一圖像序列對(duì)應(yīng)的圖像信號(hào),確定圖像信號(hào)的圖像信號(hào)質(zhì)量。[0062]可以檢測(cè)第一圖像序列對(duì)應(yīng)的圖像信號(hào)的信號(hào)強(qiáng)度,根據(jù)檢測(cè)到的信號(hào)強(qiáng)度與預(yù)設(shè)的信號(hào)強(qiáng)度閾值比較結(jié)果,確定圖像信號(hào)質(zhì)量。例如當(dāng)檢測(cè)到的信號(hào)強(qiáng)度大于信號(hào)強(qiáng)度閾值時(shí),確定圖像信號(hào)強(qiáng)度滿足圖像信號(hào)質(zhì)量標(biāo)準(zhǔn);當(dāng)檢測(cè)到的信號(hào)強(qiáng)度小于或等于信號(hào)強(qiáng)度閾值時(shí),確定圖像信號(hào)強(qiáng)度不滿足圖像信號(hào)質(zhì)量標(biāo)準(zhǔn)。[0063]S2-2:基于第一圖像序列的各圖像幀,確定第一圖像序列的圖像內(nèi)容質(zhì)量。[0064]可以對(duì)第一圖像序列的各圖像幀進(jìn)行圖像識(shí)別,基于圖像識(shí)別結(jié)果確定第一圖像序列的圖像內(nèi)容質(zhì)量。例如當(dāng)圖像識(shí)別結(jié)果可以輔助確定第一混合語音信號(hào)分離后的語音信號(hào)的所屬人物時(shí),確定圖像內(nèi)容質(zhì)量滿足預(yù)設(shè)的圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn);當(dāng)圖像識(shí)別結(jié)果無法輔助確定第一混合語音信號(hào)分離后的語音信號(hào)的所屬人物時(shí),確定圖像內(nèi)容質(zhì)量不滿足預(yù)設(shè)的圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn)。[0065]S2-3:基于圖像信號(hào)質(zhì)量和圖像內(nèi)容質(zhì)量,確定第一圖像序列的圖像質(zhì)量。[0066]可以設(shè)定當(dāng)圖像信號(hào)質(zhì)量和圖像內(nèi)容質(zhì)量中的任意一項(xiàng)不滿足對(duì)應(yīng)的質(zhì)量標(biāo)準(zhǔn),即確定第一圖像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn)。例如當(dāng)圖像信號(hào)質(zhì)量不滿足圖像信號(hào)質(zhì)量標(biāo)準(zhǔn)時(shí),不進(jìn)入步驟S2-2至S2-3,直接確定第一圖像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn)。[0067]在本實(shí)施例中,對(duì)第一圖像序列進(jìn)行檢測(cè),可以確定第一圖像序列的圖像信號(hào)質(zhì)量和圖像內(nèi)容質(zhì)量,通過圖像信號(hào)質(zhì)量和圖像內(nèi)容質(zhì)量的兩個(gè)檢測(cè)維度質(zhì)量,可以有效表征第一圖像序列的圖像質(zhì)量。[0068]在本公開一個(gè)實(shí)施例中,步驟S2-2具體包括:基于第一圖像序列的各圖像幀,確定第一人物和/或第二人物在各圖像幀中的唇部遮擋狀態(tài);基于唇部遮擋狀態(tài),確定圖像內(nèi)容9[0069]唇部遮擋狀態(tài)可以包括:唇部未被遮擋和唇部被遮擋。當(dāng)唇部被遮擋時(shí),無法通過唇部圖像確定第一人物和/或第二人物是否說話,更加無法確定第一人物和/或第二人物的說話時(shí)間,進(jìn)而無法基于說話時(shí)間確定第一混合語音信號(hào)分離后的多路語音信號(hào)的所屬人物。[0070]當(dāng)?shù)谝蝗宋锖?或第二人物在各圖像幀中的唇部遮擋狀態(tài)為唇部被遮擋時(shí),確定第一圖像序列的圖像內(nèi)容質(zhì)量不滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn)。[0071]當(dāng)?shù)谝蝗宋锖?或第二人物在各圖像幀中的唇部遮擋狀態(tài)為唇部未被遮擋時(shí),可以獲取第一人物和/或第二人物在各圖像幀中的唇部圖像,基于唇部圖像進(jìn)行識(shí)別,若唇部圖像的識(shí)別結(jié)果可以確定取第一人物和/或第二人物的說話時(shí)間和說話內(nèi)容,則可以確定第一圖像序列的圖像內(nèi)容質(zhì)量滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn)。[0072]在本實(shí)施例中,基于第一圖像序列的各圖像幀,可以確定出第一人物和/或第二人物在各圖像幀中的唇部遮擋狀態(tài),基于唇部遮擋狀態(tài)可以快速確定第一圖像序列的圖像內(nèi)容質(zhì)量是否滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn),進(jìn)而可以快速確定第一圖像序列的圖像質(zhì)量是否滿足預(yù)設(shè)標(biāo)準(zhǔn),從而可以快速確定選擇第一語音分離模型還是選擇第二語音分離模型進(jìn)行語音[0073]在本公開的一個(gè)實(shí)施例中,步驟S2-3包括:響應(yīng)于圖像信號(hào)質(zhì)量不滿足圖像信號(hào)質(zhì)量標(biāo)準(zhǔn),確定第一圖像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn);響應(yīng)于圖像內(nèi)容質(zhì)量不滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn),確定第一圖像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn);響應(yīng)于圖像信號(hào)質(zhì)量滿足圖像信號(hào)質(zhì)量標(biāo)準(zhǔn)且圖像內(nèi)容質(zhì)量滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn),確定第一圖像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn)。[0074]在本實(shí)施例中,當(dāng)圖像信號(hào)質(zhì)量不滿足圖像信號(hào)質(zhì)量標(biāo)準(zhǔn)時(shí),通?;趫D像信號(hào)生成的第一圖像序列清晰度不足,進(jìn)而難以基于第一圖像序列分析出第一混合語音信號(hào)分離后的多路語音信號(hào)的所屬人物。當(dāng)圖像內(nèi)容質(zhì)量不滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn)時(shí),無法得到第一人物和/或第二人物的說話時(shí)間和說話內(nèi)容,進(jìn)而無法確定第一混合語音信號(hào)分離后的多路語音信號(hào)的所屬人物。因此僅當(dāng)圖像信號(hào)質(zhì)量和圖像內(nèi)質(zhì)量均滿足對(duì)應(yīng)的質(zhì)量標(biāo)準(zhǔn)時(shí)才可以確定第一圖像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn),進(jìn)而可以基于第一圖像序列的識(shí)別結(jié)果,有效確定第一混合語音信號(hào)分離后的多路語音信號(hào)的所屬人物。當(dāng)圖像信號(hào)質(zhì)量和圖像內(nèi)質(zhì)量中有任意一項(xiàng)不滿足相應(yīng)的質(zhì)量標(biāo)準(zhǔn)時(shí),可以快速確定第一圖像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn)。[0075]在本公開的一個(gè)實(shí)施例中,步驟S2-2包括:響應(yīng)于唇部遮擋狀態(tài)為第一人物和/或第二人物的唇部未被遮擋,基于第一圖像序列的各圖像幀,確定第一人物和/或第二人物的唇部動(dòng)作;響應(yīng)于唇部動(dòng)作不滿足預(yù)設(shè)唇部動(dòng)作標(biāo)準(zhǔn),確定第一圖像序列的圖像質(zhì)量不滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn)。[0076]若在第一圖像序列的各圖像幀中第一人物和/或第二人物的唇部未被遮擋,可以獲取第一人物和/或第二人物在第一圖像序列中的唇部圖像塊序列,基于唇部圖像塊序列進(jìn)行識(shí)別,可以得到第一人物和/或第二人物的唇部動(dòng)作。[0077]獲取預(yù)設(shè)的、可以進(jìn)行唇語識(shí)別對(duì)應(yīng)的唇部動(dòng)作標(biāo)準(zhǔn)。其中,唇部動(dòng)作標(biāo)準(zhǔn)例如可以包括人物說話時(shí)上下兩排牙齒不接觸,這樣設(shè)置可以濾除吃食物的唇部動(dòng)作。通過初步動(dòng)作標(biāo)準(zhǔn)可以濾除非人物說話的唇部動(dòng)作行為。[0078]當(dāng)唇部動(dòng)作不滿足預(yù)設(shè)唇部動(dòng)作標(biāo)準(zhǔn)時(shí),難以基于第一圖像序列進(jìn)行有效的唇語識(shí)別,進(jìn)而無法準(zhǔn)確地確定第一混合語音信號(hào)分離后的多路語音信號(hào)的所屬人物。[0079]在本實(shí)施例中,當(dāng)?shù)谝粓D像序列的各圖像幀中第一人物和/或第二人物的唇部未被遮擋時(shí),基于第一圖像序列的各圖像幀可以確定第一人物和/或第二人物的唇部動(dòng)作,當(dāng)唇部動(dòng)作不滿足預(yù)設(shè)唇部動(dòng)作標(biāo)準(zhǔn),表征難以基于第一圖像序列進(jìn)行有效的唇語識(shí)別,進(jìn)而無法準(zhǔn)確地確定第一混合語音信號(hào)分離后的多路語音信號(hào)的所屬人物。[0080]在本公開的一個(gè)實(shí)施例中,第二語音分離模型包括第一人物聲源模型、第二人物聲源模型和盲源分離模型。其中,盲源分離模型用于對(duì)第一混合語音信號(hào)進(jìn)行盲源分離,第一人物聲源模型用于基于盲源分離的結(jié)果確定第一人物的語音信號(hào),第二人物聲源模型用于基于盲源分離的結(jié)果確定第二人物的語音信號(hào)。[0081]在步驟S4中使用第二語音分離模型對(duì)第一混合語音信號(hào)進(jìn)行處理時(shí),使用盲源分離模型對(duì)第一混合語音信號(hào)進(jìn)行語音分離,得到多路語音信號(hào)。其中,每個(gè)人物的語音信號(hào)對(duì)應(yīng)一路語音信號(hào),多路語音信號(hào)至少包括第一人物的語音信號(hào)和第二人物的語音信號(hào)。當(dāng)?shù)谝换旌险Z音信號(hào)還包括其他人物的語音信號(hào)時(shí),該多路語音信號(hào)還包括其他人物的語[0082]在得到多路語音信號(hào)后,將多路語音信號(hào)分別與第一人物聲源模型和第二人物聲源模型進(jìn)行聲源特征匹配,從而確定哪路語音信號(hào)的聲源對(duì)象為第一人物,哪路語音信號(hào)的聲源對(duì)象為第二人物。[0083]在確定第一人物對(duì)應(yīng)的一路語音信號(hào)和第二人物對(duì)應(yīng)的一路語音信號(hào)之后,基于第一人物對(duì)應(yīng)的一路語音信號(hào)和/或第二人物對(duì)應(yīng)的一路語音信號(hào)確定第二語音信號(hào),然后輸出第二語音信號(hào)。[0084]在本實(shí)施例中,當(dāng)?shù)谝粓D像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn)時(shí),此時(shí)難以通過第一圖像序列的圖像識(shí)別結(jié)果輔助確定第一混合語音信號(hào)分離后的多路語音信號(hào)的所屬人物,因此可以利用盲源分離模型對(duì)第一混合語音信號(hào)進(jìn)行語音分離得到多路語音信號(hào),并利用第一人物聲源模型和第二人物聲源模型與盲源分離模型得到多路語音信號(hào)進(jìn)行聲源特征匹配,從而可以確定哪路語音信號(hào)的聲源對(duì)象為第一人物,哪路語音信號(hào)的聲源對(duì)象為第二人物,從而可以實(shí)現(xiàn)對(duì)第一混合語音信號(hào)進(jìn)行準(zhǔn)確地語音信號(hào)分離和聲源對(duì)象匹[0085]在本公開的一個(gè)實(shí)施例中,在在利用第二語音分離模型對(duì)第一混合語音信號(hào)進(jìn)行[0086]A:基于第一語音分離模型對(duì)第二混合語音信號(hào)和第二圖像序列進(jìn)行處理,獲得第一人物的聲源信號(hào)和第二人物的聲源信號(hào)。其中,第二混合語音信號(hào)的采集時(shí)間早于第一混合語音信號(hào)的采集時(shí)間。第二圖像序列的采集時(shí)間早于第一圖像序列的采集時(shí)間。第二混合語音信號(hào)包括第一人物的聲源信號(hào)和第二人物的聲源信號(hào)。第二圖像序列為在空間區(qū)域采集的包括空間內(nèi)人物的圖像序列。[0087]由于第一語音分離模型可以通過語音通道分離結(jié)合唇語識(shí)別的方式進(jìn)行語音分離,因此可以利用第一語音分離模型對(duì)第二混合語音信號(hào)進(jìn)行準(zhǔn)確地語音分離和聲源對(duì)象匹配,從而可以得到第一人物的聲源信號(hào)和第二人物的聲源信號(hào)。11[0088]B:基于第一人物的聲源信號(hào)和第二人物的聲源信號(hào)進(jìn)行在線建模,得到第一人物聲源模型和第二人物聲源模型。[0089]可以對(duì)第一人物的聲源信號(hào)提取聲源特征,進(jìn)而可以通過在線建模得分方式訓(xùn)練第一人物聲源模型。并可以對(duì)第二人物的聲源信號(hào)提取聲源特征,進(jìn)而可以通過在線建模得分方式訓(xùn)練第二人物聲源模型。[0090]在本實(shí)施例中,利用第一語音分離模型對(duì)第二混合語音信號(hào)進(jìn)行準(zhǔn)確地語音分離和聲源對(duì)象匹配,從而可以得到第一人物的聲源信號(hào)和第二人物的聲源信號(hào),基于第一人物的聲源信號(hào)和第二人物的聲源信號(hào)進(jìn)行在線建模,可以快速得到第一人物聲源模型和第二人物聲源模型。[0091]圖3是本公開一個(gè)實(shí)施例中步驟S4的流程示意圖。如圖3所示,步驟S4包括:[0092]S4-1:基于第一圖像序列,確定第一人物和/或第二人物的身份信息。[0093]可以預(yù)存第一人物和第二人物的人臉特征,通過人臉特征匹配的方式確定第一人物和/或第二人物的身份信息。[0094]S4-2:基于身份信息,獲取與身份信息相匹配的第一人物聲源模型和/或第二人物聲源模型,并獲取盲源分離模型。[0095]在確定第一人物和/或第二人物的身份信息后,由于預(yù)先訓(xùn)練有第一人物聲源模型和第二人物聲源模型,因此可以調(diào)取第二語音分離模型中的第一人物聲源模型和/或第二人物聲源模型,并調(diào)取盲源分離模型。[0096]S4-3:基于第一人物聲源模型和/或第二人物聲源模型,以及盲源分離模型對(duì)第一混合語音信號(hào)進(jìn)行處理,獲得第二語音信號(hào)。[0097]利用盲源分離模型對(duì)第一混合語音信號(hào)進(jìn)行語音分離得到多路語音信號(hào),并利用第一人物聲源模型和第二人物聲源模型與盲源分離模型得到多路語音信號(hào)進(jìn)行聲源特征匹配,從而可以確定哪路語音信號(hào)的聲源對(duì)象為第一人物,哪路語音信號(hào)的聲源對(duì)象為第[0098]在本實(shí)施例中,通過對(duì)第一圖像序列可以識(shí)別出第一人物和/或第二人物的身份信息,進(jìn)而調(diào)取第一人物聲源模型和/或第二人物聲源模型,并調(diào)取盲源分離模型,以便在第一圖像序列的圖像質(zhì)量不滿足預(yù)設(shè)標(biāo)準(zhǔn)時(shí),通過盲源分離模型結(jié)合聲源對(duì)象模型,可以對(duì)第一混合語音信號(hào)進(jìn)行準(zhǔn)確地語音分離。[0099]本公開實(shí)施例提供的任一種語音分離方法可以由任意適當(dāng)?shù)木哂袛?shù)據(jù)處理能力的設(shè)備執(zhí)行,包括但不限于:終端設(shè)備和服務(wù)器等?;蛘?,本公開實(shí)施例提供的任一種語音分離方法可以由處理器執(zhí)行,如處理器通過調(diào)用存儲(chǔ)器存儲(chǔ)的相應(yīng)指令來執(zhí)行本公開實(shí)施例提及的任一種語音分離方法。下文不再贅述。[0100]示例性裝置[0101]圖4是本公開一個(gè)實(shí)施例中語音分離裝置的結(jié)構(gòu)框圖。如圖4所示,語音分離裝置包括:[0102]獲取模塊100,用于獲取空間區(qū)域內(nèi)的第一混合語音信號(hào)和第一圖像序列,其中,所述第一混合語音信號(hào)包括第一人物的語音信號(hào)和第二人物的語音信號(hào),所述第一圖像序列為在所述空間區(qū)域采集的包括空間內(nèi)人物的圖像序列;[0103]圖像質(zhì)量確定模塊200,用于對(duì)所述第一圖像序列進(jìn)行圖像質(zhì)量檢測(cè),確定所述第一圖像序列的圖像質(zhì)量;[0104]第一處理模塊300,用于響應(yīng)于所述第一圖像序列的圖像質(zhì)量滿足預(yù)設(shè)標(biāo)準(zhǔn),利用第一語音分離模型對(duì)輸入的所述第一混合語音信號(hào)和所述第一圖像序列進(jìn)行處理,獲得第一語音信號(hào),其中,所述第一語音信號(hào)包括所述第一混合語音信號(hào)分離出的至少一路語音信號(hào);[0105]第二處理模塊400,用于響應(yīng)于所述第一圖像序列的圖像質(zhì)量不滿足所述預(yù)設(shè)標(biāo)準(zhǔn),利用第二語音分離模型對(duì)所述第一混合語音信號(hào)進(jìn)行處理,獲得第二語音信號(hào),其中,所述第二語音信號(hào)包括所述第一混合語音信號(hào)分離出的至少一路語音信號(hào)。[0106]圖5是本公開一個(gè)實(shí)施例中圖像質(zhì)量確定模塊200的結(jié)構(gòu)框圖。如圖5所示,圖像質(zhì)量確定模塊200包括:[0107]圖像信號(hào)質(zhì)量確定單元210,用于獲取所述第一圖像序列對(duì)應(yīng)的圖像信號(hào),確定所述圖像信號(hào)的圖像信號(hào)質(zhì)量;[0108]圖像內(nèi)容質(zhì)量確定單元220,用于基于所述第一圖像序列的各圖像幀,確定所述第一圖像序列的圖像內(nèi)容質(zhì)量;[0109]圖像質(zhì)量確定單元230,用于基于所述圖像信號(hào)質(zhì)量和所述圖像內(nèi)容質(zhì)量,確定所述第一圖像序列的圖像質(zhì)量。[0110]在本公開的一個(gè)實(shí)施例中,所述圖像內(nèi)容質(zhì)量確定單元220用于基于所述第一圖像序列的各圖像幀,確定所述第一人物和/或所述第二人物在所述各圖像幀中的唇部遮擋狀態(tài);所述圖像內(nèi)容質(zhì)量確定單元220還用于基于所述唇部遮擋狀態(tài),確定所述圖像內(nèi)容質(zhì)[0111]在本公開的一個(gè)實(shí)施例中,所述圖像內(nèi)容質(zhì)量確定單元220用于響應(yīng)于所述圖像信號(hào)質(zhì)量不滿足圖像信號(hào)質(zhì)量標(biāo)準(zhǔn),確定所述第一圖像序列的圖像質(zhì)量不滿足所述預(yù)設(shè)標(biāo)準(zhǔn);所述圖像內(nèi)容質(zhì)量確定單元220還用于響應(yīng)于所述圖像內(nèi)容質(zhì)量不滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn),確定所述第一圖像序列的圖像質(zhì)量不滿足所述預(yù)設(shè)標(biāo)準(zhǔn);所述圖像內(nèi)容質(zhì)量確定單元220還用于響應(yīng)于所述圖像信號(hào)質(zhì)量滿足所述圖像信號(hào)質(zhì)量標(biāo)準(zhǔn)且所述圖像內(nèi)容質(zhì)量滿足圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn),確定所述第一圖像序列的圖像質(zhì)量滿足所述預(yù)設(shè)標(biāo)準(zhǔn)。[0112]在本公開的一個(gè)實(shí)施例中,所述圖像內(nèi)容質(zhì)量確定單元220用于響應(yīng)于所述唇部遮擋狀態(tài)為所述第一人物和/或所述第二人物的唇部未被遮擋,基于所述第一圖像序列的各圖像幀,確定所述第一人物和/或所述第二人物的唇部動(dòng)作;所述圖像內(nèi)容質(zhì)量確定單元220還用于響應(yīng)于所述唇部動(dòng)作不滿足預(yù)設(shè)唇部動(dòng)作標(biāo)準(zhǔn),確定所述第一圖像序列的圖像質(zhì)量不滿足所述圖像內(nèi)容質(zhì)量標(biāo)準(zhǔn)。[0113]在本公開的一個(gè)實(shí)施例中,所述第二語音分離模型包括第一人物聲源模型、第二人物聲源模型和盲源分離模型,其中,所述盲源分離模型用于對(duì)所述第一混合語音信號(hào)進(jìn)行盲源分離,所述第一人物聲源模型用于基于所述盲源分離的結(jié)果確定所述第一人物的語音信號(hào),所述第二人物聲源模型用于基于所述盲源分離的結(jié)果確定所述第二人物的語音信[0114]在本公開的一個(gè)實(shí)施例中,第二處理模塊400具體用于基于所述第一語音分離模型對(duì)第二混合語音信號(hào)和第二圖像序列進(jìn)行處理,獲得所述第一人物的聲源信號(hào)和所述第二人物的聲源信號(hào),其中,所述第二混合語音信號(hào)的采集時(shí)間早于所述第一混合語音信號(hào)的采集時(shí)間,所述第二圖像序列的采集時(shí)間早于所述第一圖像序列的采集時(shí)間,所述第二混合語音信號(hào)包括所述第一人物的聲源信號(hào)和所述第二人物的聲源信號(hào),所述第二圖像序列為在所述空間區(qū)域采集的包括空間內(nèi)人物的圖像序列;第二處理模塊400還用于基于所述第一人物的聲源信號(hào)和第二人物的聲源信號(hào)進(jìn)行在線建模,得到所述第一人物聲源模型和所述第二人物聲源模型。[0115]圖6是本公開一個(gè)實(shí)施例中第二處理模塊400的框圖。如圖6所示,第二處理模塊[0116]身份信息確定模塊410,用于基于所述第一圖像序列,確定所述第一人物和/或所述第二人物的身份信息;[0117]模型獲取單元420,用于基于所述身份信息,獲取與所述身份信息相匹配的所述第一人物聲源模型和/或第二人物聲源模型,并獲取所述盲源分離模型;[0118]語音信號(hào)確定單元430,用于基于所述第一人物聲源模型和/或第二人物聲源模型,以及所述盲源分離模型對(duì)所述第一混合語音信號(hào)進(jìn)行處理,獲得所述第二語音信號(hào)。[0119]需要說明的是,本公開實(shí)施例的語音分離裝置的具體實(shí)施方式與本公開實(shí)施例的語音分離方法的具體實(shí)施方式類似,具體參見語音分離方法部分,為了減少冗余,不作贅述。[0121]下面,參考圖7來描述根據(jù)本公開實(shí)施例的電子設(shè)備。如圖7所示,電子設(shè)備包括一個(gè)或多個(gè)處理器10和存儲(chǔ)器20。[0122]處理器10可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其他形式的處理單元,并且可以控制電子設(shè)備中的其他組件以執(zhí)行期望的功能。[0123]存儲(chǔ)器20可以包括一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品可以包括各種形式的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如易失性存儲(chǔ)器和/或非易失性存儲(chǔ)器。所述易失性存儲(chǔ)器例如可以包括隨機(jī)存取存儲(chǔ)器(RAM)和/或高速緩沖存儲(chǔ)器(cache)等。所述非易失性存儲(chǔ)器例如可以包括只讀存儲(chǔ)器(ROM)、硬盤、閃存等。在所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上可以存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)程序指令,處理器11可以運(yùn)行所述程序指令,以實(shí)現(xiàn)上文所述的本公開的各個(gè)實(shí)施例的語音分離方法以及/或者其他期望的功能。在所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中還可以存儲(chǔ)諸如輸入信號(hào)、信號(hào)分量、噪聲分量[0124]在一個(gè)示例中,電子設(shè)備還可以包括:輸入裝置30和輸出裝置40,這些組件通過總線系統(tǒng)和/或其他形式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論