CN114420097B 語(yǔ)音定位方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備 (騰訊科技(深圳)有限公司)_第1頁(yè)
CN114420097B 語(yǔ)音定位方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備 (騰訊科技(深圳)有限公司)_第2頁(yè)
CN114420097B 語(yǔ)音定位方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備 (騰訊科技(深圳)有限公司)_第3頁(yè)
CN114420097B 語(yǔ)音定位方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備 (騰訊科技(深圳)有限公司)_第4頁(yè)
CN114420097B 語(yǔ)音定位方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備 (騰訊科技(深圳)有限公司)_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專(zhuān)利(10)授權(quán)公告號(hào)CN114420097B(21)申請(qǐng)?zhí)?02210080156.X(22)申請(qǐng)日2022.01.24(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)申請(qǐng)公布號(hào)CN114420097A(43)申請(qǐng)公布日2022.04.29(73)專(zhuān)利權(quán)人騰訊科技(深圳)有限公司科技中一路騰訊大廈35層(74)專(zhuān)利代理機(jī)構(gòu)深圳市聯(lián)鼎知識(shí)產(chǎn)權(quán)代理有限公司44232專(zhuān)利代理師徐明霞(56)對(duì)比文件(54)發(fā)明名稱(chēng)語(yǔ)音定位方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備(57)摘要本申請(qǐng)屬于人工智能技術(shù)領(lǐng)域,具體涉及一種語(yǔ)音定位方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備。該方法包括:獲取語(yǔ)音信息,對(duì)所述語(yǔ)音信息進(jìn)行處理以獲取與所述語(yǔ)音信息對(duì)應(yīng)的頻譜信息,其中所述語(yǔ)音信息包括背景音和主語(yǔ)音;將所述頻譜信息輸入至語(yǔ)音識(shí)別模型中,通過(guò)所述語(yǔ)音識(shí)別模型對(duì)所述頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信息,所述主語(yǔ)音信息包括主語(yǔ)音概率曲線;根據(jù)所述主語(yǔ)音概率曲線中的局部極值點(diǎn),確定所述主語(yǔ)音在所述語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn)。本申請(qǐng)能夠精準(zhǔn)定位語(yǔ)2獲取語(yǔ)音信息,對(duì)所述語(yǔ)音信息進(jìn)行處理以獲取與所述語(yǔ)音信息對(duì)應(yīng)的頻譜信息,其中所述語(yǔ)音信息包括背景音和主語(yǔ)音;將所述頻譜信息輸入至語(yǔ)音識(shí)別模型中,通過(guò)所述語(yǔ)音識(shí)別模型對(duì)所述頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信息,所述主語(yǔ)音信息包括主語(yǔ)音概率曲線;所述主語(yǔ)音概率曲線上各點(diǎn)為所述語(yǔ)音信息中對(duì)應(yīng)時(shí)間點(diǎn)存在所述主語(yǔ)音的概率;根據(jù)所述主語(yǔ)音概率曲線中的局部極值點(diǎn),確定所述主語(yǔ)音在所述語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn);其中,所述根據(jù)所述主語(yǔ)音概率曲線中的局部極值點(diǎn),確定所述主語(yǔ)音在所述語(yǔ)音信根據(jù)所述主語(yǔ)音概率曲線中任意兩個(gè)相鄰波谷,將所述主語(yǔ)音概率曲線劃分為多個(gè)主獲取各所述主語(yǔ)音區(qū)間中的局部極值點(diǎn),將極大值點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)標(biāo)記為所述主語(yǔ)音的起始時(shí)間點(diǎn),并將極小值點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)標(biāo)記為所述主語(yǔ)音的終止時(shí)間點(diǎn)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述頻譜信息為梅爾頻譜圖;所述對(duì)所述語(yǔ)音信息進(jìn)行處理以獲取與所述語(yǔ)音信息對(duì)應(yīng)的頻譜信息,包括:對(duì)所述語(yǔ)音信息進(jìn)行分幀和加窗,并對(duì)加窗后的所述語(yǔ)音信息進(jìn)行傅里葉變換,以獲取與所述語(yǔ)音信息對(duì)應(yīng)的聲譜圖;通過(guò)梅爾尺度濾波器對(duì)所述聲譜圖進(jìn)行濾波處理,以獲取所述梅爾頻譜圖。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語(yǔ)音識(shí)別模型包括卷積網(wǎng)絡(luò)模塊、特征增強(qiáng)網(wǎng)絡(luò)模塊、長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和分類(lèi)預(yù)測(cè)模塊;所述通過(guò)所述語(yǔ)音識(shí)別模型對(duì)所述頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信通過(guò)所述卷積網(wǎng)絡(luò)模塊對(duì)所述頻譜信息進(jìn)行分段特征提取,以獲取多個(gè)頻譜特征圖;通過(guò)所述特征增強(qiáng)網(wǎng)絡(luò)模塊對(duì)各所述頻譜特征圖進(jìn)行下采樣后上采樣并反向回傳,以獲取與各所述頻譜特征圖對(duì)應(yīng)的頻譜增強(qiáng)特征圖;通過(guò)所述長(zhǎng)短期記憶網(wǎng)絡(luò)模塊對(duì)各所述頻譜增強(qiáng)特征圖中的深層語(yǔ)義和淺層時(shí)間信通過(guò)所述分類(lèi)預(yù)測(cè)模塊對(duì)所述融合特征信息中的主語(yǔ)音進(jìn)行預(yù)測(cè),以獲取所述主語(yǔ)音信息。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述卷積網(wǎng)絡(luò)模塊包括多個(gè)結(jié)構(gòu)相同的卷積網(wǎng)絡(luò)單元,所述卷積網(wǎng)絡(luò)單元包括第一卷積單元、第二卷積單元、池化層和隨機(jī)剔除層,同時(shí)所述第一卷積單元和所述第二卷積單元均包括二維卷積層、批歸一化層和激活函數(shù)5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述特征增強(qiáng)網(wǎng)絡(luò)模塊包括第一卷積網(wǎng)絡(luò)單元和第二卷積網(wǎng)絡(luò)單元,所述第一卷積網(wǎng)絡(luò)單元和所述第二卷積網(wǎng)絡(luò)單元的結(jié)構(gòu)與所述卷積網(wǎng)絡(luò)單元的結(jié)構(gòu)相同;所述通過(guò)所述特征增強(qiáng)網(wǎng)絡(luò)模塊對(duì)各所述頻譜特征圖進(jìn)行下采樣后上采樣并反向回傳,以獲取與各所述頻譜特征圖對(duì)應(yīng)的頻譜增強(qiáng)特征圖,包括:3通過(guò)所述第一卷積網(wǎng)絡(luò)單元對(duì)所述頻譜特征圖進(jìn)行下采樣以獲取第一特征圖,并通過(guò)所述第二卷積網(wǎng)絡(luò)單元對(duì)所述第一特征圖進(jìn)行下采樣以獲取第二特征圖;對(duì)所述第二特征圖進(jìn)行上采樣以獲取第三特征圖,同時(shí)采用1×1的卷積核對(duì)所述第一特征圖進(jìn)行卷積操作,并將所述第三特征圖和卷積處理后的所述第一特征圖進(jìn)行拼接,以獲取第四特征圖;對(duì)所述第四特征圖進(jìn)行上采樣以獲取第五特征圖,同時(shí)采用1×1的卷積核對(duì)所述頻譜特征圖進(jìn)行卷積操作,并將所述第五特征圖和卷積處理后的所述頻譜特征圖進(jìn)行拼接,以獲取所述頻譜增強(qiáng)特征圖;其中,所述上采樣對(duì)應(yīng)的步長(zhǎng)和所述下采樣對(duì)應(yīng)的步長(zhǎng)相同。6.根據(jù)權(quán)利要求1~5任一項(xiàng)所述的方法,其特征在于,所述方法還包括:獲取語(yǔ)音樣本和自動(dòng)生成的與所述語(yǔ)音樣本對(duì)應(yīng)的主語(yǔ)音標(biāo)注信息;根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)待訓(xùn)練語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練,以獲取所述語(yǔ)音識(shí)別模型。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述獲取自動(dòng)生成的與所述語(yǔ)音樣本對(duì)應(yīng)對(duì)所述語(yǔ)音樣本進(jìn)行音源分離,以獲取背景音波形圖和主語(yǔ)音波形圖;根據(jù)預(yù)設(shè)時(shí)間間隔對(duì)所述背景音波形圖和所述主語(yǔ)音波形圖進(jìn)行切片,并確定各時(shí)間切片對(duì)應(yīng)的主語(yǔ)音能量和背景音能量之間的能量比;根據(jù)所述語(yǔ)音樣本中各句主語(yǔ)音的起始時(shí)間點(diǎn)將所述語(yǔ)音樣本劃分為多個(gè)語(yǔ)音區(qū)間;分別將各所述語(yǔ)音區(qū)間作為目標(biāo)語(yǔ)音區(qū)間,獲取所述目標(biāo)語(yǔ)音區(qū)間的起始時(shí)間點(diǎn)所對(duì)應(yīng)的目標(biāo)能量比,并根據(jù)所述目標(biāo)能量比和能量比下界確定能量比最大值;將所述目標(biāo)語(yǔ)音區(qū)間中各時(shí)間切片對(duì)應(yīng)的能量比與所述能量比最大值進(jìn)行比較,根據(jù)所述目標(biāo)語(yǔ)音區(qū)間中能量比大于或等于所述能量比最大值的連續(xù)時(shí)間切片確定主語(yǔ)音區(qū)間,并對(duì)所述主語(yǔ)音區(qū)間進(jìn)行標(biāo)注以獲取所述主語(yǔ)音標(biāo)注信息。8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述待訓(xùn)練語(yǔ)音識(shí)別模型包括待訓(xùn)練卷積網(wǎng)絡(luò)模塊、待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊、待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和待訓(xùn)練分類(lèi)預(yù)測(cè)模塊;所述根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)待訓(xùn)練語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練,以獲固定所述待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述待訓(xùn)練分類(lèi)預(yù)測(cè)模塊的參數(shù),根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)所述待訓(xùn)練卷積網(wǎng)絡(luò)模塊和所述待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊進(jìn)行訓(xùn)練,以獲取收斂的卷積網(wǎng)絡(luò)模塊和特征增強(qiáng)網(wǎng)絡(luò)模塊;固定所述卷積網(wǎng)絡(luò)模塊和所述特征增強(qiáng)網(wǎng)絡(luò)模塊的參數(shù),根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)所述待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述待訓(xùn)練分類(lèi)預(yù)測(cè)模塊進(jìn)行訓(xùn)練,以獲取收斂的長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和分類(lèi)預(yù)測(cè)模塊。9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述根據(jù)所述語(yǔ)音樣本和所述語(yǔ)音標(biāo)注信息對(duì)所述待訓(xùn)練卷積網(wǎng)絡(luò)模塊和所述待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊進(jìn)行訓(xùn)練,以獲取收斂的卷積網(wǎng)絡(luò)模塊和特征增強(qiáng)網(wǎng)絡(luò)模塊,包括:根據(jù)預(yù)設(shè)數(shù)量將所述語(yǔ)音樣本分為多組,從各組所述語(yǔ)音樣本中隨機(jī)截取預(yù)設(shè)長(zhǎng)度的語(yǔ)音片段;4將所述語(yǔ)音片段對(duì)應(yīng)的梅爾頻譜圖輸入至所述待訓(xùn)練語(yǔ)音識(shí)別模型中,通過(guò)所述待訓(xùn)練語(yǔ)音識(shí)別模型對(duì)所述語(yǔ)音片段對(duì)應(yīng)的梅爾頻譜圖中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音預(yù)測(cè)信息;根據(jù)所述主語(yǔ)音預(yù)測(cè)信息和所述主語(yǔ)音標(biāo)注信息確定主語(yǔ)音預(yù)測(cè)誤差,并根據(jù)所述主語(yǔ)音預(yù)測(cè)誤差對(duì)所述待訓(xùn)練卷積網(wǎng)絡(luò)模塊和所述待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊的參數(shù)進(jìn)行優(yōu)化,直至獲取所述卷積網(wǎng)絡(luò)模塊和所述特征增強(qiáng)網(wǎng)絡(luò)模塊。10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)所述待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述待訓(xùn)練分類(lèi)預(yù)測(cè)模塊進(jìn)行訓(xùn)練,以獲取收斂的長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和分類(lèi)預(yù)測(cè)模塊,包括:獲取所述語(yǔ)音樣本中的最大時(shí)長(zhǎng),通過(guò)補(bǔ)零將其它語(yǔ)音樣本的時(shí)長(zhǎng)與所述最大時(shí)長(zhǎng)對(duì)齊,并根據(jù)預(yù)設(shè)數(shù)量將所述語(yǔ)音樣本分為多組;將各組所述語(yǔ)音樣本對(duì)應(yīng)的梅爾頻譜圖輸入至包含訓(xùn)練好的卷積網(wǎng)絡(luò)模塊和特征增強(qiáng)模塊的待訓(xùn)練語(yǔ)音識(shí)別模型中,通過(guò)所述待訓(xùn)練語(yǔ)音識(shí)別模型對(duì)所述語(yǔ)音樣本對(duì)應(yīng)的梅爾頻譜圖中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音預(yù)測(cè)信息;根據(jù)所述主語(yǔ)音預(yù)測(cè)信息和所述主語(yǔ)音標(biāo)注信息確定主語(yǔ)音預(yù)測(cè)誤差,并根據(jù)所述主語(yǔ)音預(yù)測(cè)誤差對(duì)所述長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述分類(lèi)預(yù)測(cè)模塊的參數(shù)進(jìn)行優(yōu)化,直至獲取所述長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述分類(lèi)預(yù)測(cè)模塊。信息處理模塊,被配置為獲取語(yǔ)音信息,對(duì)所述語(yǔ)音信息進(jìn)行處理以獲取與所述語(yǔ)音信息對(duì)應(yīng)的頻譜信息,其中所述語(yǔ)音信息包括背景音和主語(yǔ)音;語(yǔ)音識(shí)別模塊,被配置為將所述頻譜信息輸入至語(yǔ)音識(shí)別模型中,通過(guò)所述語(yǔ)音識(shí)別模型對(duì)所述頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信息,所述主語(yǔ)音信息包括主語(yǔ)音概率曲線;所述主語(yǔ)音概率曲線上各點(diǎn)為所述語(yǔ)音信息中對(duì)應(yīng)時(shí)間點(diǎn)存在所述主語(yǔ)音的概率;語(yǔ)音定位模塊,被配置為根據(jù)所述主語(yǔ)音概率曲線中的局部極值點(diǎn),確定所述主語(yǔ)音在所述語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn);其中,所述根據(jù)所述主語(yǔ)音概率曲線中的局部極值點(diǎn),確定所述主語(yǔ)音在所述語(yǔ)音信根據(jù)所述主語(yǔ)音概率曲線中任意兩個(gè)相鄰波谷,將所述主語(yǔ)音概率曲線劃分為多個(gè)主獲取各所述主語(yǔ)音區(qū)間中的局部極值點(diǎn),將極大值點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)標(biāo)記為所述主語(yǔ)音的起始時(shí)間點(diǎn),并將極小值點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)標(biāo)記為所述主語(yǔ)音的終止時(shí)間點(diǎn)。12.一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至10中任意一項(xiàng)所述的語(yǔ)音定位方法。存儲(chǔ)器,用于存儲(chǔ)所述處理器的可執(zhí)行指令;其中,所述處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來(lái)執(zhí)行權(quán)利要求1至10中任意一項(xiàng)所述的語(yǔ)音定位方法。514.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括承載在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至10中任意一項(xiàng)所述的語(yǔ)音定位方法。6技術(shù)領(lǐng)域[0001]本申請(qǐng)屬于人工智能技術(shù)領(lǐng)域,具體涉及一種語(yǔ)音定位方法、語(yǔ)音定位裝置、計(jì)算機(jī)可讀介質(zhì)以及電子設(shè)備。背景技術(shù)[0002]隨著多媒體技術(shù)的發(fā)展,人們常常會(huì)使用電子設(shè)備錄制音頻或視頻,而為了將音頻或視頻中的人聲及對(duì)應(yīng)的時(shí)間提取出來(lái),通常需要將人聲與背景音進(jìn)行分離,然后對(duì)人聲進(jìn)行定位。[0003]目前,對(duì)語(yǔ)音進(jìn)行定位的方法主要有兩種,一種是基于音源分離的定位方法,但是該方法依賴(lài)于音源分離的準(zhǔn)確度,由于音源分離本身不完美,會(huì)帶來(lái)一些誤判,并且對(duì)于音視頻中其它的人聲也會(huì)被判定為目標(biāo)人聲,造成誤判,另外音源分離比較耗時(shí),會(huì)增加語(yǔ)音定位的資源占用;另一種是基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)的方案,但是該方案依賴(lài)于數(shù)據(jù)的標(biāo)注,標(biāo)注數(shù)據(jù)本身難以獲取,人工標(biāo)注會(huì)占用大量人力,如果采用弱標(biāo)注數(shù)據(jù)訓(xùn)練得到的模型對(duì)語(yǔ)音進(jìn)行識(shí)別定位則存在準(zhǔn)確率低的問(wèn)題。發(fā)明內(nèi)容[0004]本申請(qǐng)的目的在于提供一種語(yǔ)音定位方法、語(yǔ)音定位裝置、計(jì)算機(jī)可讀介質(zhì)以及電子設(shè)備,能夠克服相關(guān)技術(shù)中存在的語(yǔ)音定位準(zhǔn)確率低、用時(shí)長(zhǎng)、標(biāo)注數(shù)據(jù)難以獲取及模型性能差的問(wèn)題。[0005]本申請(qǐng)的其他特性和優(yōu)點(diǎn)將通過(guò)下面的詳細(xì)描述變得顯然,或部分地通過(guò)本申請(qǐng)的實(shí)踐而習(xí)得。[0006]根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供一種語(yǔ)音定位方法,該方法包括:獲取語(yǔ)音信息,對(duì)所述語(yǔ)音信息進(jìn)行處理以獲取與所述語(yǔ)音信息對(duì)應(yīng)的頻譜信息,其中所述語(yǔ)音信息包括背景音和主語(yǔ)音;將所述頻譜信息輸入至語(yǔ)音識(shí)別模型中,通過(guò)所述語(yǔ)音識(shí)別模型對(duì)所述頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信息,所述主語(yǔ)音信息包括主語(yǔ)音概率曲線;根據(jù)所述主語(yǔ)音概率曲線中的局部極值點(diǎn),確定所述主語(yǔ)音在所述語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn)。[0007]根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供一種語(yǔ)音定位裝置,該裝置包括:信息處理模塊,被配置為獲取語(yǔ)音信息,對(duì)所述語(yǔ)音信息進(jìn)行處理以獲取與所述語(yǔ)音信息對(duì)應(yīng)的頻譜信息,其中所述語(yǔ)音信息包括背景音和主語(yǔ)音;語(yǔ)音識(shí)別模塊,被配置為將所述頻譜信息輸入至語(yǔ)音識(shí)別模型中,通過(guò)所述語(yǔ)音識(shí)別模型對(duì)所述頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信息,所述主語(yǔ)音信息包括主語(yǔ)音概率曲線;語(yǔ)音定位模塊,被配置為根據(jù)所述主語(yǔ)音概率曲線中的局部極值點(diǎn),確定所述主語(yǔ)音在所述語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn)。[0008]在本申請(qǐng)的一些實(shí)施例中,所述頻譜信息為梅爾頻譜圖;基于以上技術(shù)方案,所述信息處理模塊配置為:對(duì)所述語(yǔ)音信息進(jìn)行分幀和加窗,并對(duì)加窗后的所述語(yǔ)音信息進(jìn)行傅里葉變換,以獲取與所述語(yǔ)音信息對(duì)應(yīng)的聲譜圖;通過(guò)梅爾尺度濾波器對(duì)所述聲譜圖進(jìn)7行濾波處理,以獲取所述梅爾頻譜圖。[0009]在本申請(qǐng)的一些實(shí)施例中,所述語(yǔ)音識(shí)別模型包括卷積網(wǎng)絡(luò)模塊、特征增強(qiáng)網(wǎng)絡(luò)模塊、長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和分類(lèi)預(yù)測(cè)模塊;基于以上技術(shù)方案,語(yǔ)音識(shí)別模塊包括:卷積單元,被配置為通過(guò)所述卷積網(wǎng)絡(luò)模塊對(duì)所述頻譜信息進(jìn)行分段特征提取,以獲取多個(gè)頻譜特征圖;增強(qiáng)單元,被配置為通過(guò)所述特征增強(qiáng)網(wǎng)絡(luò)模塊對(duì)各所述頻譜特征圖進(jìn)行下采樣后上采樣并反向回傳,以獲取與各所述頻譜特征圖對(duì)應(yīng)的頻譜增強(qiáng)特征圖;融合單元,被配置為通過(guò)所述長(zhǎng)短期記憶網(wǎng)絡(luò)模塊對(duì)各所述頻譜增強(qiáng)特征圖中的深層語(yǔ)義和淺層時(shí)間信息進(jìn)行融合,以獲取融合特征信息;預(yù)測(cè)單元,被配置為通過(guò)所述分類(lèi)預(yù)測(cè)模塊對(duì)所述融合特征信息中的主語(yǔ)音進(jìn)行預(yù)測(cè),以獲取所述主語(yǔ)音信息。[0010]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,所述卷積網(wǎng)絡(luò)模塊包括多個(gè)結(jié)構(gòu)相同的卷積網(wǎng)絡(luò)單元,所述卷積網(wǎng)絡(luò)單元包括第一卷積單元、第二卷積單元、池化層和隨機(jī)剔除層,同時(shí)所述第一卷積單元和所述第二卷積單元均包括二維卷積層、批歸一化層和激活函數(shù)層。[0011]在本申請(qǐng)的一些實(shí)施例中,所述特征增強(qiáng)網(wǎng)絡(luò)模塊包括第一卷積網(wǎng)絡(luò)單元和第二卷積網(wǎng)絡(luò)單元,所述第一卷積網(wǎng)絡(luò)單元和所述第二卷積網(wǎng)絡(luò)單元的結(jié)構(gòu)與所述卷積網(wǎng)絡(luò)單元的結(jié)構(gòu)相同;基于以上技術(shù)方案,增強(qiáng)單元配置為:通過(guò)所述第一卷積網(wǎng)絡(luò)單元對(duì)所述頻譜特征圖進(jìn)行下采樣以獲取第一特征圖,并通過(guò)所述第二卷積網(wǎng)絡(luò)單元對(duì)所述第一特征圖進(jìn)行下采樣以獲取第二特征圖;對(duì)所述第二特征圖進(jìn)行上采樣以獲取第三特征圖,同時(shí)采用1×1的卷積核對(duì)所述第一特征圖進(jìn)行卷積操作,并將所述第三特征圖和卷積處理后的所述第一特征圖進(jìn)行拼接,以獲取第四特征圖;對(duì)所述第四特征圖進(jìn)行上采樣以獲取第五特征圖,同時(shí)采用1×1的卷積核對(duì)所述頻譜特征圖進(jìn)行卷積操作,并將所述第五特征圖和卷積處理后的所述頻譜特征圖進(jìn)行拼接,以獲取所述頻譜增強(qiáng)特征圖;其中,所述上采樣對(duì)應(yīng)的步長(zhǎng)和所述下采樣對(duì)應(yīng)的步長(zhǎng)相同。[0012]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,語(yǔ)音定位模塊配置為:根據(jù)所述主語(yǔ)音概率曲線中任意兩個(gè)相鄰波谷將所述主語(yǔ)音概率曲線劃分為多個(gè)主語(yǔ)音區(qū)間;獲取各所述主語(yǔ)音區(qū)間中的局部極值點(diǎn),將極大值點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)標(biāo)記為所述主語(yǔ)音的起始時(shí)間點(diǎn),并將極小值點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)標(biāo)記為所述主語(yǔ)音的終止時(shí)間點(diǎn)。[0013]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,語(yǔ)音定位裝置還包括:樣本獲取模塊,被配置為獲取語(yǔ)音樣本和自動(dòng)生成的與所述語(yǔ)音樣本對(duì)應(yīng)的主語(yǔ)音標(biāo)注信息;模型訓(xùn)練模塊,被配置為根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)待訓(xùn)練語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)[0014]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,樣本獲取模塊配置為:對(duì)所述語(yǔ)音樣本進(jìn)行音源分離,以獲取背景音波形圖和主語(yǔ)音波形圖;根據(jù)預(yù)設(shè)時(shí)間間隔對(duì)所述背景音波形圖和所述主語(yǔ)音波形圖進(jìn)行切片,并確定各時(shí)間切片對(duì)應(yīng)的主語(yǔ)音能量和背景音能量之間的能量比;根據(jù)所述語(yǔ)音樣本中各句主語(yǔ)音的起始時(shí)間點(diǎn)將所述語(yǔ)音樣本劃分為多個(gè)語(yǔ)音區(qū)間;分別將各所述語(yǔ)音區(qū)間作為目標(biāo)語(yǔ)音區(qū)間,獲取所述目標(biāo)語(yǔ)音區(qū)間的起始時(shí)間點(diǎn)所對(duì)應(yīng)的目標(biāo)能量比,并根據(jù)所述目標(biāo)能量比和能量比下界確定能量比最大值;將所述目標(biāo)語(yǔ)音區(qū)間中各時(shí)間切片對(duì)應(yīng)的能量比與所述能量比最大值進(jìn)行比較,根據(jù)所述目標(biāo)語(yǔ)音區(qū)間中能量比大于或等于所述能量比最大值的連續(xù)時(shí)間切片確定主語(yǔ)音區(qū)間,并對(duì)所8述主語(yǔ)音區(qū)間進(jìn)行標(biāo)注以形成所述語(yǔ)音標(biāo)注信息。[0015]在本申請(qǐng)的一些實(shí)施例中,所述待訓(xùn)練語(yǔ)音識(shí)別模型包括待訓(xùn)練卷積網(wǎng)絡(luò)模塊、待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊、待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和待訓(xùn)練分類(lèi)預(yù)測(cè)模塊;基于以上技術(shù)方案,模型訓(xùn)練模塊包括:第一訓(xùn)練單元,被配置為固定所述待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述待訓(xùn)練分類(lèi)預(yù)測(cè)模塊的參數(shù),根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)所述待訓(xùn)練卷積網(wǎng)絡(luò)模塊和所述待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊進(jìn)行訓(xùn)練,以獲取收斂的卷積網(wǎng)絡(luò)模塊和特征增強(qiáng)網(wǎng)絡(luò)模塊;第二訓(xùn)練單元,被配置為固定所述卷積網(wǎng)絡(luò)模塊和所述特征增強(qiáng)網(wǎng)絡(luò)模塊的參數(shù),根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)所述待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述待訓(xùn)練分類(lèi)預(yù)測(cè)模塊進(jìn)行訓(xùn)練,以獲取收斂的長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和分類(lèi)預(yù)測(cè)模塊。[0016]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,第一訓(xùn)練單元配置為:根據(jù)預(yù)設(shè)數(shù)量將所述語(yǔ)音樣本分為多組,從各組所述語(yǔ)音樣本中隨機(jī)截取預(yù)設(shè)長(zhǎng)度的語(yǔ)音片段;將所述語(yǔ)音片段對(duì)應(yīng)的梅爾頻譜圖輸入至所述待訓(xùn)練語(yǔ)音識(shí)別模型中,通過(guò)所述待訓(xùn)練語(yǔ)音識(shí)別模型對(duì)所述語(yǔ)音片段對(duì)應(yīng)的梅爾頻譜圖中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音預(yù)測(cè)信息;根據(jù)所述主語(yǔ)音預(yù)測(cè)信息和所述主語(yǔ)音標(biāo)注信息確定主語(yǔ)音預(yù)測(cè)誤差,并根據(jù)所述主語(yǔ)音預(yù)測(cè)誤差對(duì)所述待訓(xùn)練卷積網(wǎng)絡(luò)模塊和所述待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊的參數(shù)進(jìn)行優(yōu)化,直至獲取所述卷積網(wǎng)絡(luò)模塊和所述特征增強(qiáng)網(wǎng)絡(luò)模塊。[0017]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,第二訓(xùn)練單元配置為:獲取所述語(yǔ)音樣本中的最大時(shí)長(zhǎng),通過(guò)補(bǔ)零將其它語(yǔ)音樣本的時(shí)長(zhǎng)與所述最大時(shí)長(zhǎng)對(duì)齊,并根據(jù)預(yù)設(shè)數(shù)量將所述語(yǔ)音樣本分為多組;將各組所述語(yǔ)音樣本對(duì)應(yīng)的梅爾頻譜圖輸入至包含訓(xùn)練好的卷積網(wǎng)絡(luò)模塊和特征增強(qiáng)模塊的待訓(xùn)練語(yǔ)音識(shí)別模型中,通過(guò)所述待訓(xùn)練語(yǔ)音識(shí)別模型對(duì)所述語(yǔ)音樣本對(duì)應(yīng)的梅爾頻譜圖中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音預(yù)測(cè)信息;根據(jù)所述主語(yǔ)音預(yù)測(cè)信息和所述主語(yǔ)音標(biāo)注信息確定主語(yǔ)音預(yù)測(cè)誤差,并根據(jù)所述主語(yǔ)音預(yù)測(cè)誤差對(duì)所述長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述分類(lèi)預(yù)測(cè)網(wǎng)絡(luò)模塊的參數(shù)進(jìn)行優(yōu)化,直至獲取所述長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述分類(lèi)預(yù)測(cè)網(wǎng)絡(luò)模塊。[0018]根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如以上技術(shù)方案中的語(yǔ)音定位方法。[0019]根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供一種電子設(shè)備,該電子設(shè)備包括:處理器;以及存儲(chǔ)器,用于存儲(chǔ)所述處理器的可執(zhí)行指令;其中,所述處理器被配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來(lái)執(zhí)行如以上技術(shù)方案中的語(yǔ)音定位方法。[0020]根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供一種計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序,該計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序包括計(jì)算機(jī)指令,該計(jì)算機(jī)指令存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中。電子設(shè)備的處理器從計(jì)算機(jī)可讀介質(zhì)讀取該計(jì)算機(jī)指令,處理器執(zhí)行該計(jì)算機(jī)指令,使得該電子設(shè)備執(zhí)行如以上技術(shù)方案中的語(yǔ)音定位方法。[0021]在本申請(qǐng)實(shí)施例提供的技術(shù)方案中,通過(guò)采用語(yǔ)音識(shí)別模型對(duì)與語(yǔ)音信息對(duì)應(yīng)的頻譜信息進(jìn)行處理,以獲取語(yǔ)音信息中的主語(yǔ)音信息,該主語(yǔ)音信息包括主語(yǔ)音概率曲線,進(jìn)而根據(jù)該主語(yǔ)音概率曲線確定主語(yǔ)音在語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn)。本申請(qǐng)一方面能夠精準(zhǔn)定位語(yǔ)音信息中的主語(yǔ)音,提高語(yǔ)音定位的準(zhǔn)確度和時(shí)效性;另一方面能夠避免人工標(biāo)注數(shù)據(jù)導(dǎo)致的高成本和低模型準(zhǔn)確率;再一方面能夠提高產(chǎn)品的用戶(hù)粘度和用戶(hù)體9[0022]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本申請(qǐng)。附圖說(shuō)明[0023]此處的附圖被并入說(shuō)明書(shū)中并構(gòu)成本說(shuō)明書(shū)的一部分,示出了符合本申請(qǐng)的實(shí)施例,并與說(shuō)明書(shū)一起用于解釋本申請(qǐng)的原理。顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0024]圖1示意性地示出了應(yīng)用本申請(qǐng)技術(shù)方案的示例性系統(tǒng)架構(gòu)框圖。[0025]圖2示意性地示出了本申請(qǐng)中語(yǔ)音定位方法的步驟流程示意圖。[0026]圖3示意性地示出了本申請(qǐng)中語(yǔ)音識(shí)別模型的架構(gòu)示意圖。[0027]圖4示意性地示出了本申請(qǐng)中卷積網(wǎng)絡(luò)單元的結(jié)構(gòu)示意圖。[0028]圖5示意性地示出了本申請(qǐng)中通過(guò)語(yǔ)音識(shí)別模型獲取主語(yǔ)音信息的流程示意圖。[0029]圖6示意性地示出了本申請(qǐng)中獲取頻譜增強(qiáng)特征圖的流程示意圖。[0030]圖7示意性地示出了本申請(qǐng)中獲取主語(yǔ)音標(biāo)注信息的流程示意圖。[0031]圖8示意性地示出了本申請(qǐng)中的標(biāo)注有歌詞起始時(shí)間點(diǎn)的歌詞lrc文件。[0032]圖9示意性地示出了本申請(qǐng)中局部訓(xùn)練的流程示意圖。[0033]圖10示意性地示出了本申請(qǐng)中全局訓(xùn)練的流程示意圖。[0034]圖11示意性地示出了本申請(qǐng)中語(yǔ)音定位裝置的結(jié)構(gòu)框圖。[0035]圖12示意性示出了適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的電子設(shè)備的計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)框具體實(shí)施方式[0036]現(xiàn)在將參考附圖更全面地描述示例實(shí)施方式。然而,示例實(shí)施方式能夠以多種形式實(shí)施,且不應(yīng)被理解為限于在此闡述的范例;相反,提供這些實(shí)施方式使得本申請(qǐng)將更加全面和完整,并將示例實(shí)施方式的構(gòu)思全面地傳達(dá)給本領(lǐng)域的技術(shù)人員。[0037]此外,所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個(gè)或更多實(shí)施例中。在下面的描述中,提供許多具體細(xì)節(jié)從而給出對(duì)本申請(qǐng)的實(shí)施例的充分理解。然而,本領(lǐng)域技術(shù)人員將意識(shí)到,可以實(shí)踐本申請(qǐng)的技術(shù)方案而沒(méi)有特定細(xì)節(jié)中的一個(gè)或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細(xì)示出或描述公知方[0038]附圖中所示的方框圖僅僅是功能實(shí)體,不一定必須與物理上獨(dú)立的實(shí)體相對(duì)應(yīng)。即,可以采用軟件形式來(lái)實(shí)現(xiàn)這些功能實(shí)體,或在一個(gè)或多個(gè)硬件模塊或集成電路中實(shí)現(xiàn)這些功能實(shí)體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實(shí)現(xiàn)這些功能實(shí)體。[0039]附圖中所示的流程圖僅是示例性說(shuō)明,不是必須包括所有的內(nèi)容和操作/步驟,也不是必須按所描述的順序執(zhí)行。例如,有的操作/步驟還可以分解,而有的操作/步驟可以合并或部分合并,因此實(shí)際執(zhí)行的順序有可能根據(jù)實(shí)際情況改變。[0040]圖1示意性地示出了應(yīng)用本申請(qǐng)技術(shù)方案的示例性系統(tǒng)架構(gòu)框圖。[0041]如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備110、網(wǎng)絡(luò)120和服務(wù)器130。終端設(shè)備110例如可以包括智能手機(jī)、平板電腦、筆記本電腦等各種電子設(shè)備,進(jìn)一步地,終端設(shè)備110還可以是包含有語(yǔ)音收錄單元的裝置,也可以是語(yǔ)音收錄裝置,例如錄音筆、連接有外置麥克風(fēng)的臺(tái)式電腦等電子設(shè)備。服務(wù)器130可以是獨(dú)立的物理服務(wù)器,也可以是多個(gè)物理服務(wù)器構(gòu)成的服務(wù)器集群或者分布式系統(tǒng),還可以是提供云計(jì)算服務(wù)的云服務(wù)器。網(wǎng)絡(luò)120可以是能夠在終端設(shè)備110和服務(wù)器130之間提供通信鏈路的各種連接類(lèi)型的通信介質(zhì),例如可以是有線通信鏈路或者無(wú)線通信鏈路。[0042]根據(jù)實(shí)現(xiàn)需要,本申請(qǐng)實(shí)施例中的系統(tǒng)架構(gòu)可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。例如,服務(wù)器130可以是由多個(gè)服務(wù)器設(shè)備組成的服務(wù)器例提供的技術(shù)方案可以應(yīng)用于終端設(shè)備110,也可以應(yīng)用于服務(wù)器130,或者可以由終端設(shè)備110和服務(wù)器130共同實(shí)施,本申請(qǐng)對(duì)此不做特殊限定。[0043]在本申請(qǐng)的一些實(shí)施例中,用戶(hù)通過(guò)終端設(shè)備110獲取語(yǔ)音信息,通過(guò)網(wǎng)絡(luò)120將語(yǔ)音信息傳輸至服務(wù)器130,該語(yǔ)音信息例如可以是歌曲、電視/電影片段以及其它音視頻,如活動(dòng)音視頻等,并且語(yǔ)音信息中包括背景音和主語(yǔ)音,具體而言,歌曲中的伴奏就是背景音,人聲就是主語(yǔ)音,電視/電影片段中的背景音樂(lè)為背景音,對(duì)視頻中的音樂(lè)、嘈雜人聲都是背景音,發(fā)言人的聲音為主語(yǔ)音。服務(wù)器130接收到語(yǔ)音信息后,可以對(duì)其進(jìn)行處理獲取與其對(duì)應(yīng)的頻譜信息,該頻譜信息是人耳可識(shí)別頻率的信息;接著調(diào)用語(yǔ)音識(shí)別模型,并將頻譜信息輸入至該語(yǔ)音識(shí)別模型,通過(guò)語(yǔ)音識(shí)別模型對(duì)頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信息;進(jìn)一步地,可以根據(jù)主語(yǔ)音信息確定主語(yǔ)音在語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn),即可實(shí)現(xiàn)對(duì)語(yǔ)音信息中主語(yǔ)音的定位。[0044]在本申請(qǐng)的一些實(shí)施例中,語(yǔ)音定位裝置還可以配置于終端設(shè)備110中,用戶(hù)在終端設(shè)備110中確定需要定位的語(yǔ)音信息后,終端設(shè)備110可以對(duì)其進(jìn)行處理獲取與其對(duì)應(yīng)的頻譜信息,接著調(diào)用語(yǔ)音識(shí)別模型,并將頻譜信息輸入至該語(yǔ)音識(shí)別模型,通過(guò)語(yǔ)音識(shí)別模型對(duì)頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信息;進(jìn)一步地,可以根據(jù)主語(yǔ)音信息確定主語(yǔ)音在語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn),即可實(shí)現(xiàn)對(duì)語(yǔ)音信息中主語(yǔ)音的定位。具體地,該主語(yǔ)音信息包括主語(yǔ)音概率曲線,在確定主語(yǔ)音在語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn)時(shí)可以根據(jù)主語(yǔ)音概率曲線中的局部極值點(diǎn)確定得到。[0045]在本申請(qǐng)的一些實(shí)施例中,終端設(shè)備110或者服務(wù)器130中設(shè)置的語(yǔ)音識(shí)別模型是基于人工智能技術(shù)進(jìn)行語(yǔ)音定位的機(jī)器學(xué)習(xí)模型。[0046]人工智能(ArtificialIntelligence,AI)是利用數(shù)字計(jì)算機(jī)或者數(shù)字計(jì)算機(jī)控制的機(jī)器模擬、延伸和擴(kuò)展人的智能,感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最佳結(jié)果的理智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類(lèi)智能相似的方式做出反應(yīng)的智能機(jī)器。人工智能也就是研究各種智能機(jī)器的設(shè)計(jì)原理與實(shí)現(xiàn)方法,使機(jī)器具有感知、推理與決策的功能。[0047]人工智能技術(shù)是一門(mén)綜合學(xué)科,涉及領(lǐng)域廣泛,既有硬件層面的技術(shù)也有軟件層大數(shù)據(jù)處理技術(shù)、操作/交互系統(tǒng)、機(jī)電一體化等技術(shù)。人工智能軟件技術(shù)主要包括計(jì)算機(jī)視覺(jué)技術(shù)、語(yǔ)音處理技術(shù)、自然語(yǔ)言處理技術(shù)以及機(jī)器學(xué)習(xí)/深度學(xué)習(xí)等幾大方向。[0048]計(jì)算機(jī)視覺(jué)技術(shù)(ComputerVision,CV)計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使機(jī)器“看”11的科學(xué),更進(jìn)一步的說(shuō),就是指用攝影機(jī)和電腦代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別和測(cè)量等機(jī)器視覺(jué),并進(jìn)一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測(cè)的圖像。作為一個(gè)科學(xué)學(xué)科,計(jì)算機(jī)視覺(jué)研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取信息的人工智能系統(tǒng)。計(jì)算機(jī)視覺(jué)技術(shù)通常包括圖像處理、圖像識(shí)別、圖像語(yǔ)義理解、[0049]機(jī)器學(xué)習(xí)(MachineLearning,ML)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。專(zhuān)門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。機(jī)器學(xué)習(xí)是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域。教學(xué)習(xí)等技術(shù)。[0050]在本申請(qǐng)的相關(guān)技術(shù)中,以對(duì)歌曲中的演唱進(jìn)行定位為例,主要有基于音源分離定位演唱和基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)演唱的定位方案。[0051]基于音源分離的演唱定位方案,首先是對(duì)歌曲做音源分離,得到人聲音軌和伴奏音樂(lè)音軌,然后計(jì)算人聲音軌和伴奏音樂(lè)音軌上對(duì)應(yīng)每一個(gè)小的時(shí)間區(qū)間的能量,最后根據(jù)人聲能量與伴奏音樂(lè)能量的比值與預(yù)設(shè)閾值的關(guān)系進(jìn)行演唱定位。具體地,當(dāng)人聲能量與伴奏音樂(lè)能量的比值大于或等于預(yù)設(shè)閾值時(shí),則認(rèn)定該時(shí)間區(qū)間為有人聲演唱,當(dāng)人聲能量與伴奏音樂(lè)能量的比值小于預(yù)設(shè)閾值時(shí),則認(rèn)定該時(shí)間區(qū)間無(wú)人聲演唱。[0052]基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的演唱定位方案,依賴(lài)于有標(biāo)簽的數(shù)據(jù),但由于完整標(biāo)注工作量大,通常采用弱標(biāo)注的方法,也就是對(duì)每首歌中有無(wú)人聲演唱進(jìn)行標(biāo)注,如果有人聲演唱?jiǎng)t認(rèn)定整首歌都在演唱,通過(guò)采用弱標(biāo)注的樣本訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)得到一個(gè)基礎(chǔ)模型后,再用模型的預(yù)測(cè)結(jié)果去修正標(biāo)簽,進(jìn)而根據(jù)修正后的標(biāo)簽對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再訓(xùn)練,重復(fù)多次后,即認(rèn)定得到穩(wěn)定的卷積神經(jīng)網(wǎng)絡(luò),并可用于對(duì)歌曲中的演唱進(jìn)行定位。[0053]但是上述兩種方案存在相應(yīng)的弊端,就音源分離進(jìn)行歌曲演唱定位而言,首先,基于音源分離的方案依賴(lài)于音源分離的準(zhǔn)確度,由于音源分離方法本身并不完美,會(huì)帶來(lái)一些誤判;其次,對(duì)于一些現(xiàn)場(chǎng)類(lèi)歌曲,會(huì)有觀眾的歡呼聲,并且一些歌曲中會(huì)有歌手對(duì)歌曲身比較耗時(shí),會(huì)增加演唱定位的資源占用。就基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行歌曲演唱定位而言,基于卷積神經(jīng)網(wǎng)絡(luò)的方案依賴(lài)數(shù)據(jù)的標(biāo)準(zhǔn),數(shù)據(jù)標(biāo)注本身難以獲取,人工標(biāo)注會(huì)占用大量人力,并且基于弱標(biāo)注的方案在性能上相對(duì)較差,進(jìn)而造成演唱定位預(yù)測(cè)結(jié)果的準(zhǔn)確率低。[0054]針對(duì)相關(guān)技術(shù)中存在的問(wèn)題,下面結(jié)合具體實(shí)施方式對(duì)本申請(qǐng)?zhí)峁┑恼Z(yǔ)音定位方法、語(yǔ)音定位裝置、計(jì)算機(jī)可讀介質(zhì)以及電子設(shè)備等技術(shù)方案做出詳細(xì)說(shuō)明。[0055]圖2示意性地示出了本申請(qǐng)一個(gè)實(shí)施例中的語(yǔ)音定位方法的步驟流程示意圖,該語(yǔ)音定位方法可以由終端設(shè)備或者服務(wù)器執(zhí)行,也可以由終端設(shè)備和服務(wù)器共同執(zhí)行。如圖2所示,本申請(qǐng)實(shí)施例中的語(yǔ)音定位方法主要可以包括如下的步驟S210至步驟S230。[0056]步驟S210:獲取語(yǔ)音信息,對(duì)所述語(yǔ)音信息進(jìn)行處理以獲取與所述語(yǔ)音信息對(duì)應(yīng)的頻譜信息,其中所述語(yǔ)音信息包括背景音和主語(yǔ)音;[0057]步驟S220:將所述頻譜信息輸入至語(yǔ)音識(shí)別模型中,通過(guò)所述語(yǔ)音識(shí)別模型對(duì)所述頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信息,所述主語(yǔ)音信息包括主語(yǔ)音概率曲[0058]步驟S230:根據(jù)所述主語(yǔ)音概率曲線中的局部極值點(diǎn),確定所述主語(yǔ)音在所述語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn)。[0059]在本申請(qǐng)實(shí)施例提供的語(yǔ)音定位方法中,通過(guò)采用語(yǔ)音識(shí)別模型對(duì)與語(yǔ)音信息對(duì)應(yīng)的頻譜信息進(jìn)行處理,以獲取語(yǔ)音信息中的主語(yǔ)音信息,進(jìn)而根據(jù)主語(yǔ)音信息確定主語(yǔ)音在語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn)。本申請(qǐng)一方面能夠精準(zhǔn)定位語(yǔ)音信息中的主語(yǔ)音,提高語(yǔ)音定位的準(zhǔn)確度和時(shí)效性;另一方面能夠避免人工標(biāo)注數(shù)據(jù)導(dǎo)致的高成本和低模型準(zhǔn)確率;再一方面能夠提高產(chǎn)品的用戶(hù)粘度和用戶(hù)體驗(yàn)。[0060]下面對(duì)語(yǔ)音定位方法的各個(gè)方法步驟的具體實(shí)現(xiàn)方式進(jìn)行詳細(xì)說(shuō)明。[0061]在步驟S210中,獲取語(yǔ)音信息,對(duì)所述語(yǔ)音信息進(jìn)行處理以獲取與所述語(yǔ)音信息對(duì)應(yīng)的頻譜信息,其中所述語(yǔ)音信息包括背景音和主語(yǔ)音。[0062]在本申請(qǐng)的一個(gè)實(shí)施例中,語(yǔ)音信息包括背景音和主語(yǔ)音,例如語(yǔ)音信息可以是歌曲,歌曲由曲和詞組成,人聲根據(jù)曲的節(jié)拍演唱詞,那么用于伴奏的曲便是背景音,人聲是主語(yǔ)音;還可以是電視劇/電影片段,片段中包含的人物對(duì)然還可以是其它類(lèi)型的語(yǔ)音信息,比如拍攝的包含有人聲的視頻或錄制的包含人聲的語(yǔ)音,等等。值得注意的是,人聲可以是現(xiàn)實(shí)中的人發(fā)出的聲音,也可以是虛擬人物發(fā)出的聲音,例如虛擬歌手演唱的歌曲中的聲音也可以作為人聲。[0063]在本申請(qǐng)的一個(gè)實(shí)施例中,在獲取語(yǔ)音信息后,需要對(duì)其進(jìn)行處理,以得到語(yǔ)音識(shí)別模型可識(shí)別的數(shù)據(jù)結(jié)構(gòu)。在本申請(qǐng)的實(shí)施例中,可以對(duì)語(yǔ)音信息進(jìn)行處理以獲取與語(yǔ)音信息對(duì)應(yīng)的頻譜信息,該頻譜信息為語(yǔ)音信息對(duì)應(yīng)的梅爾頻譜圖。具體而言,首先可以對(duì)語(yǔ)音信息進(jìn)行預(yù)處理,并對(duì)預(yù)處理后的語(yǔ)音信息進(jìn)行短時(shí)傅里葉變換,以獲取與語(yǔ)音信息對(duì)應(yīng)的聲譜圖;然后通過(guò)梅爾濾波器對(duì)聲譜圖進(jìn)行濾波處理,以獲取梅爾頻譜圖。[0064]其中,對(duì)語(yǔ)音信息進(jìn)行的預(yù)處理具體可以是對(duì)語(yǔ)音信息中的聲音信號(hào)進(jìn)行分幀,然后對(duì)分幀得到的聲音幀進(jìn)行加窗,接著再對(duì)每一幀聲音信號(hào)做傅里葉變換,最后將每一幀的結(jié)果沿預(yù)設(shè)維度進(jìn)行堆疊,以得到聲譜圖。由于得到的聲譜圖較大,并且頻率的單位是Hz,人耳能聽(tīng)到的頻率范圍是20-20000Hz,但是人耳對(duì)Hz單位不是線性敏感,而是對(duì)低Hz敏感,對(duì)高Hz不敏感,因此為了得到合適大小的聲音特征,通常將聲譜圖通過(guò)梅爾尺度濾波器組(Mel-scalefilterbanks)變?yōu)槊窢栴l譜,將Hz頻率轉(zhuǎn)化為梅爾頻率,則人耳對(duì)頻率的感知度就變?yōu)榫€性。變換公式如公式(1)所示:[0067]在步驟S220中,將所述頻譜信息輸入至語(yǔ)音識(shí)別模型中,通過(guò)所述語(yǔ)音識(shí)別模型對(duì)所述頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信息,所述主語(yǔ)音信息包括主語(yǔ)音概率曲線。[0068]在本申請(qǐng)的一個(gè)實(shí)施例中,在獲取語(yǔ)音信息對(duì)應(yīng)的梅爾頻譜圖后,可以調(diào)用語(yǔ)音識(shí)別模型對(duì)其進(jìn)行處理,以獲取語(yǔ)音信息中的主語(yǔ)音。本申請(qǐng)中的語(yǔ)音識(shí)別模型是一個(gè)復(fù)合模型,圖3示出了語(yǔ)音識(shí)別模型的架構(gòu)示意圖,如圖3所示,語(yǔ)音識(shí)別模型300包括卷積網(wǎng)絡(luò)模塊301、特征增強(qiáng)網(wǎng)絡(luò)模塊302、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)模塊303和分類(lèi)預(yù)測(cè)模塊304。其中,卷積網(wǎng)絡(luò)模塊301包括多個(gè)結(jié)構(gòu)相同的卷積網(wǎng)絡(luò)單元,例如可以是4個(gè),也可以是5個(gè)等等;特征增強(qiáng)網(wǎng)絡(luò)模塊302包括第一卷積網(wǎng)絡(luò)單元302-1和第二卷積網(wǎng)絡(luò)單元302-2,第一卷積網(wǎng)絡(luò)單元302-1和第二卷積網(wǎng)絡(luò)單元302-2的結(jié)構(gòu)與卷積網(wǎng)絡(luò)單元的結(jié)構(gòu)相同;分類(lèi)預(yù)測(cè)模塊304由全連接層FC和softmax層組成。[0069]在本申請(qǐng)的一個(gè)實(shí)施例中,圖4示出了卷積網(wǎng)絡(luò)單元的結(jié)構(gòu)示意圖,如圖4所示,卷積網(wǎng)絡(luò)單元400包括依次連接的第一卷積單元401、第二卷積單元402、池化層(pool)403和隨機(jī)剔除層(dropout)404.其中,第一卷積單元401和第二卷積單元402的組成相同,均包括依次連接的二維卷積層(conv2d)、批歸一化層(BN)和激活函數(shù)層。在本申請(qǐng)的實(shí)施例中,該二維卷積層是在時(shí)間和頻率兩個(gè)維度進(jìn)行卷積的卷積層;激活函數(shù)層所使用的激活函數(shù)為ReLu函數(shù),以增加網(wǎng)絡(luò)的非線性分割能力,在反向傳播時(shí)避免梯度爆炸;隨機(jī)剔除層404可以在得到池化層403輸出的信息后進(jìn)行隨機(jī)剔除,防止過(guò)擬合。[0070]接下來(lái),基于圖3所示的語(yǔ)音識(shí)別模型的結(jié)構(gòu)以及圖4所示的卷積網(wǎng)絡(luò)單元的結(jié)構(gòu)對(duì)如何通過(guò)語(yǔ)音識(shí)別模型獲取主語(yǔ)音信息進(jìn)行說(shuō)明。[0071]圖5示出了通過(guò)語(yǔ)音識(shí)別模型獲取主語(yǔ)音信息的流程示意圖,如圖5所示,在步驟S501中,通過(guò)所述卷積網(wǎng)絡(luò)模塊對(duì)所述頻譜信息進(jìn)行分段特征提取,以獲取多個(gè)頻譜特征圖;在步驟S502中,通過(guò)所述特征增強(qiáng)網(wǎng)絡(luò)模塊對(duì)各所述頻譜特征圖進(jìn)行下采樣后上采樣并反向回傳,以獲取與各所述頻譜特征圖對(duì)應(yīng)的頻譜增強(qiáng)特征圖;在步驟S503中,通過(guò)所述長(zhǎng)短期記憶網(wǎng)絡(luò)模塊對(duì)各所述頻譜增強(qiáng)特征圖中的深層語(yǔ)義和淺層時(shí)間信息進(jìn)行融合,以獲取融合特征信息;在步驟S504中,通過(guò)所述分類(lèi)預(yù)測(cè)模塊對(duì)所述融合特征信息中的主語(yǔ)音進(jìn)行預(yù)測(cè),以獲取所述主語(yǔ)音信息。[0072]值得說(shuō)明的是,在語(yǔ)音識(shí)別模型的訓(xùn)練過(guò)程中,是分為局部訓(xùn)練和全局訓(xùn)練兩部分進(jìn)行的,卷積網(wǎng)絡(luò)模塊301和特征增強(qiáng)網(wǎng)絡(luò)模塊302是同時(shí)訓(xùn)練得到優(yōu)化參數(shù)的,長(zhǎng)短期記憶網(wǎng)絡(luò)模塊303和分類(lèi)預(yù)測(cè)模塊304是同時(shí)訓(xùn)練得到優(yōu)化參數(shù)的,在訓(xùn)練卷積網(wǎng)絡(luò)模塊301和特征增強(qiáng)網(wǎng)絡(luò)模塊302時(shí)采用從語(yǔ)音樣本中截取的部分語(yǔ)音樣本進(jìn)行訓(xùn)練的,比如采用60s的語(yǔ)音樣本作為訓(xùn)練數(shù)據(jù),而在訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊303和分類(lèi)預(yù)測(cè)模塊304是將所有的語(yǔ)音樣本的時(shí)長(zhǎng)通過(guò)補(bǔ)零的方式與最長(zhǎng)語(yǔ)音樣本對(duì)齊,然后采用語(yǔ)音樣本進(jìn)行訓(xùn)練的,因此在使用語(yǔ)音識(shí)別模型對(duì)語(yǔ)音信息進(jìn)行處理時(shí),卷積網(wǎng)絡(luò)模塊301只能對(duì)語(yǔ)音信息進(jìn)行分段特征提取,特征增強(qiáng)網(wǎng)絡(luò)模塊302對(duì)分段特征提取后得到的頻譜特征圖分別進(jìn)行下采樣后上采樣并反向回傳,以實(shí)現(xiàn)特征增強(qiáng),而長(zhǎng)短期記憶網(wǎng)絡(luò)模塊303則對(duì)所有的頻譜增強(qiáng)特征圖中的深層語(yǔ)義和淺層時(shí)間信息進(jìn)行融合,以獲取與語(yǔ)音信息對(duì)應(yīng)的融合特征信息,并通過(guò)分類(lèi)預(yù)測(cè)模塊304基于融合特征信息對(duì)主語(yǔ)音進(jìn)行預(yù)測(cè),以獲取主語(yǔ)音信息。[0073]進(jìn)一步地,在步驟S502中,特征增強(qiáng)網(wǎng)絡(luò)模塊302對(duì)頻譜特征圖進(jìn)行的處理分為兩部分,第一部分是通過(guò)第一卷積網(wǎng)絡(luò)單元302-1和第二卷積網(wǎng)絡(luò)單元302-2對(duì)頻譜特征圖進(jìn)行下采樣,第二部分是對(duì)下采樣后得到的特征進(jìn)行上采樣并反向回傳,在反向回傳的過(guò)程中,還需要將上采樣生成的特征圖與下采樣過(guò)程中大小相同的特征圖進(jìn)行拼接,以使最終得到的頻譜增強(qiáng)特征圖既包含下采樣得到的深層語(yǔ)義又包含上采樣得到的淺層信息。[0074]圖6示出了獲取頻譜增強(qiáng)特征圖的流程示意圖,如圖6所示,在步驟S601中,通過(guò)所述第一卷積網(wǎng)絡(luò)單元對(duì)所述頻譜特征圖進(jìn)行下采樣以獲取第一特征圖,并通過(guò)所述第二卷積網(wǎng)絡(luò)單元對(duì)所述第一特征圖進(jìn)行下采樣以獲取第二特征圖;在步驟S602中,對(duì)所述第二特征圖進(jìn)行上采樣以獲取第三特征圖,同時(shí)采用1×1的卷積核對(duì)所述第一特征圖進(jìn)行卷積操作,并將所述第三特征圖和卷積處理后的所述第一特征圖進(jìn)行拼接,以獲取第四特征圖;在步驟S603中,對(duì)所述第四特征圖進(jìn)行上采樣以獲取第五特征圖,同時(shí)采用1×1的卷積核對(duì)所述頻譜特征圖進(jìn)行卷積操作,并將所述第五特征圖和卷積處理后的所述頻譜特征圖進(jìn)行拼接,以獲取所述頻譜增強(qiáng)特征圖;其中,所述上采樣對(duì)應(yīng)的步長(zhǎng)和所述下采樣對(duì)應(yīng)的步長(zhǎng)相同。[0075]在本申請(qǐng)的一個(gè)實(shí)施例中,通過(guò)分類(lèi)預(yù)測(cè)模塊304對(duì)融合特征信息中的主語(yǔ)音進(jìn)行預(yù)測(cè)后,可以得到主語(yǔ)音信息,該主語(yǔ)音信息包括主語(yǔ)音概率曲線,主語(yǔ)音概率曲線上各點(diǎn)為對(duì)應(yīng)各時(shí)間點(diǎn)存在主語(yǔ)音的概率。基于主語(yǔ)音概率曲線可以獲取語(yǔ)音信息中的主語(yǔ)音所對(duì)應(yīng)的起止時(shí)間點(diǎn),實(shí)現(xiàn)語(yǔ)音信息中主語(yǔ)音的定位。[0076]在步驟S230中,根據(jù)所述主語(yǔ)音概率曲線中的局部極值點(diǎn),確定所述主語(yǔ)音在所述語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn)。[0077]在本申請(qǐng)的一個(gè)實(shí)施例中,在獲取主語(yǔ)音信息后,可以根據(jù)各時(shí)間點(diǎn)對(duì)應(yīng)的存在主語(yǔ)音的概率形成主語(yǔ)音概率曲線,并基于主語(yǔ)音概率曲線確定主語(yǔ)音在語(yǔ)音信息中對(duì)應(yīng)的起止時(shí)間點(diǎn)。在根據(jù)主語(yǔ)音概率曲線確定主語(yǔ)音對(duì)應(yīng)的起止時(shí)間點(diǎn)時(shí),首先可以明確的是,主語(yǔ)音概率曲線上任意相鄰的兩個(gè)波谷之間的曲線對(duì)應(yīng)一個(gè)主語(yǔ)音區(qū)間,例如當(dāng)語(yǔ)音信息為歌曲時(shí),那么兩相鄰的波谷之間的曲線對(duì)應(yīng)一個(gè)演唱區(qū)間,因此可以根據(jù)主語(yǔ)音概率曲線中任意兩個(gè)相鄰的波谷將語(yǔ)音概率曲線劃分為多個(gè)主語(yǔ)音區(qū)間;接著可以獲取主語(yǔ)音區(qū)間中的局部極值點(diǎn),并將極大值點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)標(biāo)記為主語(yǔ)音的起始時(shí)間點(diǎn),將極小值點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)標(biāo)記為主語(yǔ)音的終止時(shí)間點(diǎn)。具體而言,由第一個(gè)波谷到波峰的上升概率曲線中必然存在主語(yǔ)音開(kāi)始的時(shí)間點(diǎn),在波峰到第二個(gè)波谷的下降曲線中必然存在主語(yǔ)音結(jié)束的時(shí)間點(diǎn),因此可以通過(guò)計(jì)算離散導(dǎo)數(shù)的局部極值點(diǎn)得到主語(yǔ)音的起始時(shí)間點(diǎn)和終止時(shí)間點(diǎn)。[0078]在獲取主語(yǔ)音的起止時(shí)間點(diǎn)后,可以通過(guò)接口以文字的形式返回主語(yǔ)音對(duì)應(yīng)的時(shí)間區(qū)間,例如在一段歌曲中有三句歌詞,并且每句歌詞都有人聲演唱,那么在確定每句歌詞對(duì)應(yīng)的人聲的起始時(shí)間點(diǎn)和終止時(shí)間點(diǎn)后,可以返回演唱區(qū)間為“[00:00:30,00:01:00]、[0079]在本申請(qǐng)的一個(gè)實(shí)施例中,為了提高語(yǔ)音定位的準(zhǔn)確性,在采用語(yǔ)音識(shí)別模型對(duì)梅爾頻譜圖進(jìn)行處理之前,還需要采用大量的語(yǔ)音樣本對(duì)待訓(xùn)練語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練,以獲取穩(wěn)定的語(yǔ)音識(shí)別模型。[0080]在訓(xùn)練待訓(xùn)練語(yǔ)音識(shí)別模型之前,需要獲取大量的語(yǔ)音樣本以及與語(yǔ)音樣本對(duì)應(yīng)的主語(yǔ)音標(biāo)注信息,以便根據(jù)語(yǔ)音樣本和主語(yǔ)音標(biāo)注信息對(duì)待訓(xùn)練語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)[0081]在本申請(qǐng)的一個(gè)實(shí)施例中,可以收集一批語(yǔ)音樣本,然后自動(dòng)生成與語(yǔ)音樣本對(duì)應(yīng)的主語(yǔ)音標(biāo)注信息。[0082]圖7示出了獲取主語(yǔ)音標(biāo)注信息的流程示意圖,如圖7所示,獲取主語(yǔ)音標(biāo)注信息的流程至少包括步驟S701-S705,具體如下:[0083]在步驟S701中,對(duì)所述語(yǔ)音樣本進(jìn)行音源分離,以獲取背景音波形圖和主語(yǔ)音波形圖。[0084]在本申請(qǐng)的一個(gè)實(shí)施例中,在對(duì)語(yǔ)音樣本中的主語(yǔ)音進(jìn)行標(biāo)注時(shí),可以根據(jù)主語(yǔ)音能量與背景音能量的大小關(guān)系進(jìn)行標(biāo)注。為了獲取主語(yǔ)音能量和背景音能量,需要對(duì)語(yǔ)音樣本進(jìn)行音源分離,以從語(yǔ)音樣本中提取主語(yǔ)音波形圖和背景音波形圖,進(jìn)而根據(jù)主語(yǔ)音波形圖和背景音波形圖計(jì)算主語(yǔ)音能量和背景音能量。[0085]在步驟S702中,根據(jù)預(yù)設(shè)時(shí)間間隔對(duì)所述背景音波形圖和所述主語(yǔ)音波形圖進(jìn)行切片,并確定各時(shí)間切片對(duì)應(yīng)的主語(yǔ)音能量和背景音能量之間的能量比。[0086]在本申請(qǐng)的一個(gè)實(shí)施例中,在獲取主語(yǔ)音波形圖和背景音波形圖后,可以根據(jù)預(yù)設(shè)時(shí)間間隔對(duì)主語(yǔ)音波形圖和背景音波形圖進(jìn)行切片,該預(yù)設(shè)時(shí)間間隔可以根據(jù)實(shí)際需要設(shè)定,例如可以是0.5s。在完成切片后,可以提取各個(gè)時(shí)間切片對(duì)應(yīng)的主語(yǔ)音波形圖和背景音波形圖的振幅、頻率等參數(shù),進(jìn)而計(jì)算得到各時(shí)間切片對(duì)應(yīng)的主語(yǔ)音能量和背景音能量,最后再將同一時(shí)間切片對(duì)應(yīng)的主語(yǔ)音能量和背景音能量相比即可得到二者之間的能量比。[0087]在步驟S703中,根據(jù)所述語(yǔ)音樣本中各句主語(yǔ)音的起始時(shí)間點(diǎn)將所述語(yǔ)音樣本劃分為多個(gè)語(yǔ)音區(qū)間。[0088]在本申請(qǐng)的一個(gè)實(shí)施例中,在獲取語(yǔ)音樣本時(shí),該語(yǔ)音樣本中有人工標(biāo)注的每句主語(yǔ)音的起始時(shí)間點(diǎn),根據(jù)各句主語(yǔ)音的起始時(shí)間點(diǎn)可以將語(yǔ)音樣本劃分為多個(gè)語(yǔ)音區(qū)間,例如當(dāng)語(yǔ)音樣本為歌曲時(shí),同時(shí)還需要收集歌曲對(duì)應(yīng)的歌詞1rc文件,其中對(duì)于每句歌詞都標(biāo)注有開(kāi)始時(shí)間,如圖8所示,進(jìn)一步地,可以根據(jù)每句歌詞的起始時(shí)間點(diǎn)可以將歌曲劃分為多個(gè)歌詞區(qū)間。[0089]在步驟S704中,分別將所述多個(gè)語(yǔ)音區(qū)間中的各語(yǔ)音區(qū)間作為目標(biāo)語(yǔ)音區(qū)間,獲取所述目標(biāo)語(yǔ)音區(qū)間的起始時(shí)間點(diǎn)所對(duì)應(yīng)的目標(biāo)能量比,并根據(jù)所述目標(biāo)能量比和能量比下界確定能量比最大值。[0090]在本申請(qǐng)的一個(gè)實(shí)施例中,對(duì)于每句主語(yǔ)音而言,當(dāng)開(kāi)始說(shuō)話時(shí)便產(chǎn)生了主語(yǔ)音能量和背景音能量之間的能量比,因此可以將每句主語(yǔ)音的起始時(shí)間點(diǎn)對(duì)應(yīng)的能量比作為目標(biāo)能量比,并基于目標(biāo)能量比確定該語(yǔ)音區(qū)間中的哪個(gè)時(shí)間點(diǎn)為主語(yǔ)音的終止時(shí)間點(diǎn),進(jìn)而根據(jù)起始時(shí)間點(diǎn)和終止時(shí)間點(diǎn)確定主語(yǔ)音區(qū)間。在確定主語(yǔ)音區(qū)間時(shí),可以將一系數(shù)作用于各個(gè)目標(biāo)語(yǔ)音區(qū)間的目標(biāo)能量比,然后根據(jù)處理后的目標(biāo)能量比和能量比下界確定能量比最大值,最后將目標(biāo)語(yǔ)音區(qū)間各時(shí)間切片對(duì)應(yīng)的能量比與能量比最大值進(jìn)行比較,以確定主語(yǔ)音所對(duì)應(yīng)的時(shí)間區(qū)間。[0091]其中,能量比最大值可以描述為max(ax,b),其中a為人工設(shè)置的系數(shù),且滿(mǎn)足0<a<[0092]在步驟S705中,將所述目標(biāo)語(yǔ)音區(qū)間中各時(shí)間切片對(duì)應(yīng)的能量比與所述能量比最大值進(jìn)行比較,根據(jù)所述目標(biāo)語(yǔ)音區(qū)間中能量比大于或等于所述能量比最大值的連續(xù)時(shí)間切片確定主語(yǔ)音區(qū)間,并對(duì)所述主語(yǔ)音區(qū)間進(jìn)行標(biāo)注以獲取所述主語(yǔ)音標(biāo)注信息。[0093]在本申請(qǐng)的一個(gè)實(shí)施例中,在確定能量比最大值后,將目標(biāo)語(yǔ)音區(qū)間中各時(shí)間切片對(duì)應(yīng)的能量比與能量比最大值進(jìn)行比較,如果存在連續(xù)多個(gè)時(shí)間切片所對(duì)應(yīng)的能量比都大于或等于能量比最大值時(shí),便可以根據(jù)該些連續(xù)的時(shí)間切片確定主語(yǔ)音區(qū)間,說(shuō)明在該主語(yǔ)音區(qū)間內(nèi)存在主語(yǔ)音,進(jìn)而可以對(duì)該主語(yǔ)音區(qū)間進(jìn)行標(biāo)注以獲取主語(yǔ)音標(biāo)注信息。通過(guò)將目標(biāo)語(yǔ)音區(qū)間內(nèi)各個(gè)時(shí)間切片對(duì)應(yīng)的能量比與能量比最大值進(jìn)行比較,能夠過(guò)濾掉語(yǔ)音樣本中的無(wú)效主語(yǔ)音,比如有一句文字沒(méi)有人聲讀出來(lái)的情況。[0094]通過(guò)如圖7所示的流程,可以對(duì)獲取的語(yǔ)音樣本自動(dòng)標(biāo)注出與其對(duì)應(yīng)的主語(yǔ)音標(biāo)注信息,并將語(yǔ)音樣本和主語(yǔ)音標(biāo)注信息用于待訓(xùn)練語(yǔ)音識(shí)別模型的訓(xùn)練,相對(duì)于弱標(biāo)注的樣本而言,本申請(qǐng)中的樣本標(biāo)注方法提高了模型的精度和準(zhǔn)確度。[0095]在本申請(qǐng)的一個(gè)實(shí)施例中,在確定語(yǔ)音樣本和對(duì)應(yīng)的主語(yǔ)音標(biāo)注信息后,可以對(duì)待訓(xùn)練語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練。與圖3所示語(yǔ)音識(shí)別模型的結(jié)構(gòu)相似,待訓(xùn)練語(yǔ)音識(shí)別模型包括待訓(xùn)練語(yǔ)音識(shí)別模型包括待訓(xùn)練卷積網(wǎng)絡(luò)模塊、待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊、待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和待訓(xùn)練分類(lèi)預(yù)測(cè)模塊,在模型訓(xùn)練時(shí)分為兩部分進(jìn)行,分別是局部訓(xùn)練和全局訓(xùn)練,其中局部訓(xùn)練是固定待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和待訓(xùn)練分類(lèi)預(yù)測(cè)模塊的參數(shù),根據(jù)語(yǔ)音樣本和主語(yǔ)音標(biāo)注信息對(duì)待訓(xùn)練卷積網(wǎng)絡(luò)模塊和待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊進(jìn)行訓(xùn)練,以獲取收斂的卷積網(wǎng)絡(luò)模塊和特征增強(qiáng)網(wǎng)絡(luò)模塊;全局訓(xùn)練是固定訓(xùn)練好的卷積網(wǎng)絡(luò)模塊和特征增強(qiáng)網(wǎng)絡(luò)模塊的參數(shù),根據(jù)語(yǔ)音樣本和主語(yǔ)音標(biāo)注信息對(duì)待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和待訓(xùn)練分類(lèi)預(yù)測(cè)模塊進(jìn)行訓(xùn)練,以獲取收斂的長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和分類(lèi)預(yù)測(cè)模塊,進(jìn)而得到收斂的語(yǔ)音識(shí)別模型。[0096]接下來(lái),對(duì)局部訓(xùn)練和全局訓(xùn)練的過(guò)程進(jìn)行詳細(xì)說(shuō)明。述語(yǔ)音樣本分為多組,從各組所述語(yǔ)音樣本中隨機(jī)截取預(yù)設(shè)長(zhǎng)度的語(yǔ)音片段;在步驟S902中,將所述語(yǔ)音片段對(duì)應(yīng)的梅爾頻譜圖輸入至所述待訓(xùn)練語(yǔ)音識(shí)別模型中,通過(guò)所述待訓(xùn)練語(yǔ)音識(shí)別模型對(duì)所述語(yǔ)音片段對(duì)應(yīng)的梅爾頻譜圖中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音預(yù)測(cè)信息;在步驟S903中,根據(jù)所述主語(yǔ)音預(yù)測(cè)信息和所述主語(yǔ)音標(biāo)注信息確定主語(yǔ)音預(yù)測(cè)誤差,并根據(jù)所述主語(yǔ)音預(yù)測(cè)誤差對(duì)所述待訓(xùn)練卷積網(wǎng)絡(luò)模塊和所述待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊的參數(shù)進(jìn)行優(yōu)化,直至獲取所述卷積網(wǎng)絡(luò)模塊和所述特征增強(qiáng)網(wǎng)絡(luò)模塊。[0098]其中,在步驟S901中,在采用語(yǔ)音樣本對(duì)待訓(xùn)練語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練時(shí),遍歷所有的語(yǔ)音樣本,每次選取b個(gè)語(yǔ)音樣本,并從每個(gè)語(yǔ)音樣本中隨機(jī)截取預(yù)設(shè)長(zhǎng)度的語(yǔ)音片段,然后再根據(jù)所截取的語(yǔ)音片段對(duì)應(yīng)的梅爾頻譜圖對(duì)待訓(xùn)練語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練。該預(yù)設(shè)長(zhǎng)度可以根據(jù)實(shí)際需要設(shè)定,例如可以是60s,預(yù)設(shè)長(zhǎng)度不能超過(guò)最短語(yǔ)音樣本的時(shí)長(zhǎng),且不能超出顯存占用的實(shí)際限制,在滿(mǎn)足這兩個(gè)條件下預(yù)設(shè)長(zhǎng)度越長(zhǎng)越好,這樣便更能學(xué)到更長(zhǎng)的時(shí)間依賴(lài)關(guān)系。b個(gè)語(yǔ)音樣本中截取的預(yù)設(shè)長(zhǎng)度的語(yǔ)音片段即可組成一組訓(xùn)練樣本,通過(guò)遍歷所有語(yǔ)音樣本即可獲取多組訓(xùn)練樣本。在步驟S902中,將截取的預(yù)設(shè)長(zhǎng)度的語(yǔ)音片段對(duì)應(yīng)的梅爾頻譜圖輸入至待訓(xùn)練語(yǔ)音識(shí)別模型,待訓(xùn)練語(yǔ)音識(shí)別模型中的各個(gè)模塊依次對(duì)梅爾頻譜圖進(jìn)行處理,以獲取主語(yǔ)音預(yù)測(cè)信息。每一組訓(xùn)練樣本經(jīng)過(guò)待訓(xùn)練卷積網(wǎng)絡(luò)模塊和待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊后,形成一個(gè)三維的張量,維度為(b,n,d),其中b為每組語(yǔ)音樣本的總數(shù)量,n為與樣本長(zhǎng)度對(duì)應(yīng)的時(shí)間維度,d為每個(gè)時(shí)間點(diǎn)的特征維度,在經(jīng)過(guò)待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和待訓(xùn)練分類(lèi)預(yù)測(cè)模塊處理后,可以針對(duì)每個(gè)時(shí)間點(diǎn)位作是否存在主語(yǔ)音的二分類(lèi)預(yù)測(cè),進(jìn)而得到一個(gè)二維矩陣X,維度為(b,n)。在步驟S903中,結(jié)合主語(yǔ)音標(biāo)注信息可以判斷每個(gè)時(shí)間點(diǎn)位是否存在主語(yǔ)音,如果存在用1標(biāo)記,如果不存在用0標(biāo)記,這樣也可以得到一個(gè)標(biāo)注的二維矩陣Y,維度也是(b,n),根據(jù)二維矩陣X、Y和損失函數(shù)即可確定主語(yǔ)音預(yù)測(cè)誤差,并根據(jù)主語(yǔ)音預(yù)測(cè)誤差進(jìn)行反向調(diào)參,直至獲取待訓(xùn)練卷積網(wǎng)絡(luò)模塊和待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊的最優(yōu)參數(shù)。[0099]本申請(qǐng)實(shí)施例中采用的損失函數(shù)可以是交叉熵?fù)p失函數(shù),計(jì)算公式如公式(2)所[0103]在對(duì)待訓(xùn)練語(yǔ)音識(shí)別模型進(jìn)行全局訓(xùn)練時(shí),同樣可以從語(yǔ)音樣本中選取b個(gè)語(yǔ)音測(cè)誤差時(shí)所采用的損失函數(shù)與局部訓(xùn)練時(shí)采用的損失函數(shù)可以相同,均為交叉熵?fù)p失函圖中的演唱進(jìn)行識(shí)別,以輸出每個(gè)時(shí)間點(diǎn)存在人聲演唱的概率;最后根據(jù)各個(gè)時(shí)間點(diǎn)對(duì)應(yīng)的概率形成演唱概率曲線,該演唱概率曲線中任意兩相鄰波谷之間的曲線對(duì)應(yīng)一個(gè)演唱區(qū)間,進(jìn)而通過(guò)對(duì)每個(gè)演唱區(qū)間計(jì)算離散倒數(shù)的局部極值點(diǎn)可以得到每個(gè)演唱區(qū)間具體的起始時(shí)間點(diǎn)和終止時(shí)間點(diǎn),實(shí)現(xiàn)演唱定位。當(dāng)完成演唱定位后,可以根據(jù)定位得到的起止時(shí)間以根據(jù)演唱定位信息實(shí)現(xiàn)。[0106]本申請(qǐng)中的語(yǔ)音定位方法是通過(guò)采用語(yǔ)音識(shí)別模型對(duì)語(yǔ)音信息對(duì)應(yīng)的頻譜信息進(jìn)行處理以獲取主語(yǔ)音信息,該主語(yǔ)音信息包括主語(yǔ)音概率曲線,并根據(jù)主語(yǔ)音概率曲線中的局部極值點(diǎn),確定主語(yǔ)音在語(yǔ)音信息中的起止時(shí)間點(diǎn)。本申請(qǐng)一方面能夠提高語(yǔ)音定位的準(zhǔn)確性和時(shí)效性;另一方面所使用的語(yǔ)音識(shí)別模型是采用自動(dòng)標(biāo)注的語(yǔ)音樣本訓(xùn)練得到的,相比采用弱標(biāo)注的語(yǔ)音樣本訓(xùn)練得到的模型性能更好,并且避免了人工標(biāo)注,提高了標(biāo)注效率和準(zhǔn)確率;再一方面能夠提高使用語(yǔ)音定位的產(chǎn)品的用戶(hù)粘度和用戶(hù)體驗(yàn)。[0107]應(yīng)當(dāng)注意,盡管在附圖中以特定順序描述了本申請(qǐng)中方法的各個(gè)步驟,但是,這并非要求或者暗示必須按照該特定順序來(lái)執(zhí)行這些步驟,或是必須執(zhí)行全部所示的步驟才能實(shí)現(xiàn)期望的結(jié)果。附加的或備選的,可以省略某些步驟,將多個(gè)步驟合并為一個(gè)步驟執(zhí)行,以及/或者將一個(gè)步驟分解為多個(gè)步驟執(zhí)行等。[0108]以下介紹本申請(qǐng)的裝置實(shí)施例,可以用于執(zhí)行本申請(qǐng)上述實(shí)施例中的語(yǔ)音定位方法。圖11示意性地示出了本申請(qǐng)實(shí)施例提供的語(yǔ)音定位裝置的結(jié)構(gòu)框圖。如圖11所示,語(yǔ)音定位裝置1100包括:信息處理模塊1110、語(yǔ)音識(shí)別模塊1120和語(yǔ)音定位模塊1130,具體地:[0109]信息處理模塊1110,被配置為獲取語(yǔ)音信息,對(duì)所述語(yǔ)音信息進(jìn)行處理以獲取與所述語(yǔ)音信息對(duì)應(yīng)的頻譜信息,其中所述語(yǔ)音信息包括背景音和主語(yǔ)音;語(yǔ)音識(shí)別模塊1120,被配置為將所述頻譜信息輸入至語(yǔ)音識(shí)別模型中,通過(guò)所述語(yǔ)音識(shí)別模型對(duì)所述頻譜信息中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音信息,所述主語(yǔ)音信息包括主語(yǔ)音概率曲線;語(yǔ)音定位模塊1130,被配置為根據(jù)所述主語(yǔ)音概率曲線中的局部極值點(diǎn),確定所述主語(yǔ)音在所述語(yǔ)音信息中所對(duì)應(yīng)的起止時(shí)間點(diǎn)。[0110]在本申請(qǐng)的一些實(shí)施例中,所述頻譜信息為梅爾頻譜圖;基于以上技術(shù)方案,所述信息處理模塊1110配置為:對(duì)所述語(yǔ)音信息進(jìn)行分幀和加窗,并對(duì)加窗后的所述語(yǔ)音信息進(jìn)行傅里葉變換,以獲取與所述語(yǔ)音信息對(duì)應(yīng)的聲譜圖;通過(guò)梅爾尺度濾波器對(duì)所述聲譜圖進(jìn)行濾波處理,以獲取所述梅爾頻譜圖。[0111]在本申請(qǐng)的一些實(shí)施例中,所述語(yǔ)音識(shí)別模型包括卷積網(wǎng)絡(luò)模塊、特征增強(qiáng)網(wǎng)絡(luò)模塊、長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和分類(lèi)預(yù)測(cè)模塊;基于以上技術(shù)方案,語(yǔ)音識(shí)別模塊1120包括:卷積單元,被配置為通過(guò)所述卷積網(wǎng)絡(luò)模塊對(duì)所述頻譜信息進(jìn)行分段特征提取,以獲取多個(gè)頻譜特征圖;增強(qiáng)單元,被配置為通過(guò)所述特征增強(qiáng)網(wǎng)絡(luò)模塊對(duì)各所述頻譜特征圖進(jìn)行下采樣后上采樣并反向回傳,以獲取與各所述頻譜特征圖對(duì)應(yīng)的頻譜增強(qiáng)特征圖;融合單元,被配置為通過(guò)所述長(zhǎng)短期記憶網(wǎng)絡(luò)模塊對(duì)各所述頻譜增強(qiáng)特征圖中的深層語(yǔ)義和淺層時(shí)間信息進(jìn)行融合,以獲取融合特征信息;預(yù)測(cè)單元,被配置為通過(guò)所述分類(lèi)預(yù)測(cè)模塊對(duì)所述融合特征信息中的主語(yǔ)音進(jìn)行預(yù)測(cè),以獲取所述主語(yǔ)音信息。[0112]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,所述卷積網(wǎng)絡(luò)模塊包括多個(gè)結(jié)構(gòu)相同的卷積網(wǎng)絡(luò)單元,所述卷積網(wǎng)絡(luò)單元包括第一卷積單元、第二卷積單元、池化層和隨機(jī)剔除層,同時(shí)所述第一卷積單元和所述第二卷積單元均包括二維卷積層、批歸一化層和激活函數(shù)層。[0113]在本申請(qǐng)的一些實(shí)施例中,所述特征增強(qiáng)網(wǎng)絡(luò)模塊包括第一卷積網(wǎng)絡(luò)單元和第二卷積網(wǎng)絡(luò)單元,所述第一卷積網(wǎng)絡(luò)單元和所述第二卷積網(wǎng)絡(luò)單元的結(jié)構(gòu)與所述卷積網(wǎng)絡(luò)單元的結(jié)構(gòu)相同;基于以上技術(shù)方案,增強(qiáng)單元配置為:通過(guò)所述第一卷積網(wǎng)絡(luò)單元對(duì)所述頻譜特征圖進(jìn)行下采樣以獲取第一特征圖,并通過(guò)所述第二卷積網(wǎng)絡(luò)單元對(duì)所述第一特征圖進(jìn)行下采樣以獲取第二特征圖;對(duì)所述第二特征圖進(jìn)行上采樣以獲取第三特征圖,同時(shí)采用1×1的卷積核對(duì)所述第一特征圖進(jìn)行卷積操作,并將所述第三特征圖和卷積處理后的所述第一特征圖進(jìn)行拼接,以獲取第四特征圖;對(duì)所述第四特征圖進(jìn)行上采樣以獲取第五特征圖,同時(shí)采用1×1的卷積核對(duì)所述頻譜特征圖進(jìn)行卷積操作,并將所述第五特征圖和卷積處理后的所述頻譜特征圖進(jìn)行拼接,以獲取所述頻譜增強(qiáng)特征圖;其中,所述上采樣對(duì)應(yīng)的步長(zhǎng)和所述下采樣對(duì)應(yīng)的步長(zhǎng)相同。[0114]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,語(yǔ)音定位模塊1130配置為:根據(jù)所述主語(yǔ)音信息形成主語(yǔ)音概率曲線;根據(jù)所述語(yǔ)音概率曲線中任意兩個(gè)相鄰波谷將所述主語(yǔ)音概率曲線劃分為多個(gè)主語(yǔ)音區(qū)間;獲取各所述主語(yǔ)音區(qū)間中的局部極值點(diǎn),將極大值點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)標(biāo)記為所述主語(yǔ)音的起始時(shí)間點(diǎn),并將極小值點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)標(biāo)記為所述主語(yǔ)音的終止時(shí)間點(diǎn)。[0115]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,語(yǔ)音定位裝置1100還包括:樣本獲取模塊,被配置為獲取語(yǔ)音樣本和自動(dòng)生成的與所述語(yǔ)音樣本對(duì)應(yīng)的主語(yǔ)音標(biāo)注信息;模型訓(xùn)練模塊,被配置為根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)待訓(xùn)練語(yǔ)音識(shí)別模型進(jìn)[0116]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,樣本獲取模塊配置為:對(duì)所述語(yǔ)音樣本進(jìn)行音源分離,以獲取背景音波形圖和主語(yǔ)音波形圖;根據(jù)預(yù)設(shè)時(shí)間間隔對(duì)所述背景音波形圖和所述主語(yǔ)音波形圖進(jìn)行切片,并確定各時(shí)間切片對(duì)應(yīng)的主語(yǔ)音能量和背景音能量之間的能量比;根據(jù)所述語(yǔ)音樣本中各句主語(yǔ)音的起始時(shí)間點(diǎn)將所述語(yǔ)音樣本劃分為多個(gè)語(yǔ)音區(qū)間;分別將各所述語(yǔ)音區(qū)間作為目標(biāo)語(yǔ)音區(qū)間,獲取所述目標(biāo)語(yǔ)音區(qū)間的起始時(shí)間點(diǎn)所對(duì)應(yīng)的目標(biāo)能量比,并根據(jù)所述目標(biāo)能量比和能量比下界確定能量比最大值;將所述目標(biāo)語(yǔ)音區(qū)間中各時(shí)間切片對(duì)應(yīng)的能量比與所述能量比最大值進(jìn)行比較,根據(jù)所述目標(biāo)語(yǔ)音區(qū)間中能量比大于或等于所述能量比最大值的連續(xù)時(shí)間切片確定主語(yǔ)音區(qū)間,并對(duì)所述主語(yǔ)音區(qū)間進(jìn)行標(biāo)注以形成所述語(yǔ)音標(biāo)注信息。[0117]在本申請(qǐng)的一些實(shí)施例中,所述待訓(xùn)練語(yǔ)音識(shí)別模型包括待訓(xùn)練卷積網(wǎng)絡(luò)模塊、待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊、待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和待訓(xùn)練分類(lèi)預(yù)測(cè)模塊;基于以上技術(shù)方案,模型訓(xùn)練模塊包括:第一訓(xùn)練單元,被配置為固定所述待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述待訓(xùn)練分類(lèi)預(yù)測(cè)模塊的參數(shù),根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)所述待訓(xùn)練卷積網(wǎng)絡(luò)模塊和所述待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊進(jìn)行訓(xùn)練,以獲取收斂的卷積網(wǎng)絡(luò)模塊和特征增強(qiáng)網(wǎng)絡(luò)模塊;第二訓(xùn)練單元,被配置為固定所述卷積網(wǎng)絡(luò)模塊和所述特征增強(qiáng)網(wǎng)絡(luò)模塊的參數(shù),根據(jù)所述語(yǔ)音樣本和所述主語(yǔ)音標(biāo)注信息對(duì)所述待訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述待訓(xùn)練分類(lèi)預(yù)測(cè)模塊進(jìn)行訓(xùn)練,以獲取收斂的長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和分類(lèi)預(yù)測(cè)模塊。[0118]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,第一訓(xùn)練單元配置為:根據(jù)預(yù)設(shè)數(shù)量將所述語(yǔ)音樣本分為多組,從各組所述語(yǔ)音樣本中隨機(jī)截取預(yù)設(shè)長(zhǎng)度的語(yǔ)音片段;將所述語(yǔ)音片段對(duì)應(yīng)的梅爾頻譜圖輸入至所述待訓(xùn)練語(yǔ)音識(shí)別模型中,通過(guò)所述待訓(xùn)練語(yǔ)音識(shí)別模型對(duì)所述語(yǔ)音片段對(duì)應(yīng)的梅爾頻譜圖中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音預(yù)測(cè)信息;根據(jù)所述主語(yǔ)音預(yù)測(cè)信息和所述主語(yǔ)音標(biāo)注信息確定主語(yǔ)音預(yù)測(cè)誤差,并根據(jù)所述主語(yǔ)音預(yù)測(cè)誤差對(duì)所述待訓(xùn)練卷積網(wǎng)絡(luò)模塊和所述待訓(xùn)練特征增強(qiáng)網(wǎng)絡(luò)模塊的參數(shù)進(jìn)行優(yōu)化,直至獲取所述卷積網(wǎng)絡(luò)模塊和所述特征增強(qiáng)網(wǎng)絡(luò)模塊。[0119]在本申請(qǐng)的一些實(shí)施例中,基于以上技術(shù)方案,第二訓(xùn)練單元配置為:獲取所述語(yǔ)音樣本中的最大時(shí)長(zhǎng),通過(guò)補(bǔ)零將其它語(yǔ)音樣本的時(shí)長(zhǎng)與所述最大時(shí)長(zhǎng)對(duì)齊,并根據(jù)預(yù)設(shè)數(shù)量將所述語(yǔ)音樣本分為多組;將各組所述語(yǔ)音樣本對(duì)應(yīng)的梅爾頻譜圖輸入至包含訓(xùn)練好的卷積網(wǎng)絡(luò)模塊和特征增強(qiáng)模塊的待訓(xùn)練語(yǔ)音識(shí)別模型中,通過(guò)所述待訓(xùn)練語(yǔ)音識(shí)別模型對(duì)所述語(yǔ)音樣本對(duì)應(yīng)的梅爾頻譜圖中的主語(yǔ)音進(jìn)行識(shí)別,以獲取主語(yǔ)音預(yù)測(cè)信息;根據(jù)所述主語(yǔ)音預(yù)測(cè)信息和所述主語(yǔ)音標(biāo)注信息確定主語(yǔ)音預(yù)測(cè)誤差,并根據(jù)所述主語(yǔ)音預(yù)測(cè)誤差對(duì)所述長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述分類(lèi)預(yù)測(cè)網(wǎng)絡(luò)模塊的參數(shù)進(jìn)行優(yōu)化,直至獲取所述長(zhǎng)短期記憶網(wǎng)絡(luò)模塊和所述分類(lèi)預(yù)測(cè)網(wǎng)絡(luò)模塊。[0120]本申請(qǐng)各實(shí)施例中提供的語(yǔ)音定位裝置的具體細(xì)節(jié)已經(jīng)在對(duì)應(yīng)的方法實(shí)施例中[0121]圖12示意性地示出了用于實(shí)現(xiàn)本申請(qǐng)實(shí)施例的電子設(shè)備的計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)框圖,該電子設(shè)備可以是如圖1中所示的終端設(shè)備110或者服務(wù)器130。[0122]需要說(shuō)明的是,圖12示出的電子設(shè)備的計(jì)算機(jī)系統(tǒng)1200僅是一個(gè)示例,不應(yīng)對(duì)本申請(qǐng)實(shí)施例的功能和使用范圍帶來(lái)任何限制。[0123]如圖12所示,計(jì)算機(jī)系統(tǒng)1200包括中央處理器1201(CentralProcessingUnit,CPU),其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器1202(Read-OnlyMemory,ROM)中的程序或者從存儲(chǔ)部分1208加載到隨機(jī)訪問(wèn)存儲(chǔ)器1203(RandomAccessMemory,RAM)中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在隨機(jī)訪問(wèn)存儲(chǔ)器1203中,還存儲(chǔ)有系統(tǒng)操作所需的各種程序和數(shù)據(jù)。中央處理器1201、在只讀存儲(chǔ)器1202以及隨機(jī)訪問(wèn)存儲(chǔ)器1203通過(guò)總線1204彼此相連。輸入/輸出接口1205(Input/Output接口,即I/0接口)也連接至總線1204。[0124]在一些實(shí)施例中,以下部件連接至輸入/輸出接口1205:包括鍵盤(pán)、鼠標(biāo)等的輸入部分1206;包括諸如陰極射線管(CathodeRayTube,CRT)、液晶顯示器(LiquidCrystalDisplay,LCD)等以及揚(yáng)聲器等的輸出部分1207;包括硬盤(pán)等的存儲(chǔ)部分1208;以及包括諸如局域網(wǎng)卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分1209。通信部分1209經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器1210也根據(jù)需要連接至輸入/輸出接口1205。可拆卸介質(zhì)從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分1208。[0125]特別地,根據(jù)本申請(qǐng)的實(shí)施例,各個(gè)方法流程圖中所描述的過(guò)程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,本申請(qǐng)的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括承載在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過(guò)通信部分1209從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)1211被安裝。在該計(jì)算機(jī)程序被中央處理器1201執(zhí)行時(shí),執(zhí)行本申請(qǐng)的系統(tǒng)中限定的各種功能。[0126]需要說(shuō)明的是,本申請(qǐng)實(shí)施例所示的計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀介質(zhì)或者是上述兩者的任意組合。計(jì)算機(jī)可讀介質(zhì)例如可以是——但不限機(jī)可讀介質(zhì)的更具體的例子可以包括但不限于:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤(pán)、硬盤(pán)、隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器意合適的組合。在本申請(qǐng)中,計(jì)算機(jī)可讀介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請(qǐng)中,計(jì)算機(jī)可讀信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳[0127]附圖中的流程圖和框圖,圖示了按照本申請(qǐng)各種實(shí)施

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論