版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
論文題目(仿宋體五號(hào))1
摘要:目前,語音分離技術(shù)被大家普遍熟知且廣泛應(yīng)用于日常生活當(dāng)中,然而,現(xiàn)實(shí)生活中總是存在噪聲干擾,所以導(dǎo)致語音分離技術(shù)的效果不是很理想。近些年來,國內(nèi)外的許多研究人員為提升語音分離技術(shù)花費(fèi)了巨大的精力,他們也提出了一些相對(duì)比較實(shí)用的方法。近期,由于深度學(xué)習(xí)研究的廣為流傳,基于深度學(xué)習(xí)的語音分離技術(shù)越來越受到大家的歡迎,從而展現(xiàn)了其光明前景,逐步成為語音分離中一個(gè)新的研究方向。目前已提出很多基于深度學(xué)習(xí)的語音分離方法,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,DNN)作為深層模型的代表之一,在語音分離領(lǐng)域表現(xiàn)出強(qiáng)大的優(yōu)勢(shì)。本文主要研究的是噪聲干擾下的語音分離問題,從混合語音信號(hào)分離出目標(biāo)說話人的語音,借助深度學(xué)習(xí)技術(shù),從訓(xùn)練數(shù)據(jù)中提取到說話人的語音特征,實(shí)現(xiàn)語音分離的目的。深度學(xué)習(xí)技術(shù)已經(jīng)發(fā)展的很成熟,使用人們認(rèn)可數(shù)據(jù)集的語音數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),利用CNN神經(jīng)網(wǎng)絡(luò)處理時(shí)序性數(shù)據(jù)上的優(yōu)勢(shì),實(shí)現(xiàn)混合語音分離。關(guān)鍵詞:深度學(xué)習(xí);語音分離;卷積神經(jīng)網(wǎng)絡(luò)1緒論1.1課題的背景及研究意義通常在現(xiàn)實(shí)環(huán)境中,噪聲會(huì)干擾我們感興趣的語音信號(hào),嚴(yán)重?fù)p害語音的清晰度、可懂度。所以前端語音分離技術(shù)是最常用的解決這一問題的方法之一。然而,在非噪聲和單通道的情況下,語音分離技術(shù)的性能還遠(yuǎn)遠(yuǎn)沒有達(dá)到滿意的程度,所以說語音分離技術(shù)仍然面臨著巨大的挑戰(zhàn)。Cherry,由于1953年提出了“雞尾酒會(huì)問題”[1],語音分離問題成為信號(hào)處理技術(shù)領(lǐng)域的重要問題。依此背景來看語音分離技術(shù)經(jīng)過多年的研究取得了一定的進(jìn)步和發(fā)展(許之博,鄭曉鵬,2022)。語音分離技術(shù)根據(jù)在麥克風(fēng)的數(shù)量中使用的信號(hào)采集裝置是一個(gè)或多個(gè)可以分為單通道語音分離和多通道語音分離兩種情況。從信號(hào)處理角度的早期,人們提出了一些初步分離算法,例如譜減法,維納濾波方法,并基于最小均方誤差(MMSE)頻譜估計(jì)方法(馬麗娜,陳嘉偉,2023)[2]?;诖朔N情況譜減法是一種相對(duì)簡單的方法,第一語音和背景噪聲彼此獨(dú)立,然后在基于噪聲的語音中,基于音量的音量背景噪聲,得到估計(jì)的目標(biāo)語音能量譜。上述i(覃思遠(yuǎn),閻曉峰,2018)方法通常只適用于平穩(wěn)噪聲,或有必要建立噪聲平滑的前提,因此,大多數(shù)不平滑噪聲的現(xiàn)實(shí)環(huán)境并不好,在低信噪比環(huán)境中尤為不好甚至可能會(huì)是無效的(田志遠(yuǎn),黃夢(mèng)琪,2021)。從數(shù)據(jù)中得以窺見基于模型的語音分離方法通常是監(jiān)督學(xué)習(xí)方法,并且在混合之前的源信號(hào)中需要語音和噪聲的特性和模型。基于模型的方法與基于信號(hào)處理的方法相比可以在低信噪比下明顯提高語音分離性能。其中,非負(fù)矩陣分解NMF是一種常見的模型,在此類環(huán)境中將信號(hào)分解為多個(gè)非負(fù)組件通過矩陣分解,從而挖掘本地語音和噪聲的基礎(chǔ)上表示(賀俊豪,萬澤楷,2021)。2009年,Kim等人,在低SNR訓(xùn)練高斯混合模型(高斯混合模型,GMM)的情況下,在這等條件下為了預(yù)測(cè)MEL域掩蔽的理想二進(jìn)制,選擇輸入特性是振動(dòng)幅度譜(AMS)及其差分功能。模型是提高語音分離的效果可以被理解為,這只是適合的條件訓(xùn)練集和測(cè)試集的噪聲匹配,泛化能力較弱(覃思遠(yuǎn),閻曉峰,2018)。文獻(xiàn)提出了一個(gè)新的框架,可以根據(jù)不同的輸入數(shù)據(jù)自動(dòng)選擇不同的GMM模型。通過引入短時(shí)特征光譜波譜的變化會(huì)使信號(hào)的微小變化更加健壯。Roweis使用隱馬爾可夫模型分解(FHMM)在文獻(xiàn)中模型揚(yáng)聲器,聲音和目標(biāo)是通過時(shí)頻掩蔽的目標(biāo)和兩個(gè)揚(yáng)聲器分離的問題解決(林俊杰,何婉如,2021)。Hershey[3]和其他人提出一個(gè)分層FHMM模型,這在一定范圍內(nèi)顯示了該模型通過使用短時(shí)動(dòng)態(tài)信息單通道語音分離和語音識(shí)別,有很好的效果(孔令杰,邱柏霖,2023)。語音分離作為一種監(jiān)督學(xué)習(xí)問題時(shí),從語音和噪聲的監(jiān)督學(xué)習(xí)算法的分離目標(biāo),過程之間的非線性映射關(guān)系的研究內(nèi)容主要包括三個(gè)方面:特點(diǎn)、模型和目標(biāo)。李明杰,陸晨曦[4]等人利用傅里葉振幅譜或?qū)?shù)譜作為輸入特征。Gammatone字段過濾特征進(jìn)行分析總結(jié),提出特征組合,提升系統(tǒng)性能。當(dāng)聲音的頻譜特性是根據(jù)的大小區(qū)分建模單元,這在某種程度上映射了它可以分為一次頻率(t
-f)單元級(jí)特性和幀級(jí)特性(陳立新,趙曉鵬,2021)。本文亦是站在已有的理論高峰之上塑造了此次的框架模型,無論是在信息軌跡還是數(shù)據(jù)分析技巧方面,均流露出對(duì)先賢研究成果的敬仰與承襲,并在這個(gè)起點(diǎn)上開啟了創(chuàng)新與飛躍之旅。首先,在信息流的編排視角,本文借鑒了經(jīng)典的信息整理理論,促使信息從擷取、搬運(yùn)到研析的每一個(gè)層級(jí)都能做到高效且精準(zhǔn)無誤。依靠對(duì)數(shù)據(jù)來路的嚴(yán)苛甄別以及標(biāo)準(zhǔn)化的處理流程,信息的質(zhì)量被牢牢穩(wěn)固,從而可以更側(cè)重于信息流的直觀性與回溯可能性。但是現(xiàn)在許多研究人員傾向于使用框架水平特點(diǎn),為了更好地利用相鄰的時(shí)頻單元之間的關(guān)聯(lián)信息。本文研究背景下我們不可忽視這種情況的存在語音分離目標(biāo)主要分為兩類:基于時(shí)頻掩蔽目標(biāo)和目標(biāo)映射(楊曼玉,趙玉潔,2019)。1.2課題研究的國內(nèi)外現(xiàn)狀年份人物貢獻(xiàn)1986年Jutten教授首次實(shí)現(xiàn)盲源分離技術(shù)1989年法國Common通過獨(dú)立分量分析的方法實(shí)現(xiàn)盲源分離1995年Bell和Sejnowski利用最大熵準(zhǔn)則實(shí)現(xiàn)盲源分離1996年清華大學(xué)教授張賢達(dá)第一次系統(tǒng)地介紹了盲源分離和相關(guān)算法的概念2002年Douglas使用盲源分離方法從多個(gè)混合聲音中分離出兩種單獨(dú)的聲音1.3本人主要工作(1)查閱深度學(xué)習(xí)和信號(hào)分離相關(guān)的技術(shù)資料。(2)了解單通道語音的特點(diǎn),設(shè)計(jì)語音分離的方法。(3)使用Python對(duì)已經(jīng)確定好的算法進(jìn)行仿真。(4)使用深度學(xué)習(xí)中的全卷積時(shí)域音頻分離網(wǎng)絡(luò)進(jìn)行信號(hào)分離。1.4論文組織與結(jié)構(gòu)本文共分為五個(gè)部分,內(nèi)容具體如下:第一部分:介紹了該課題的背景及研究意義、國內(nèi)外研究現(xiàn)狀、本人的主要工作、論文的組織結(jié)構(gòu)第二部分:介紹了語音處理領(lǐng)域的基礎(chǔ)知識(shí)包括噪音和語音分離基本概念、語音分離的一般性結(jié)構(gòu)框架、語音信號(hào)的分離質(zhì)量評(píng)價(jià)、語音分離的方法第三部分:介紹了基于全卷積時(shí)域音頻分離網(wǎng)絡(luò)的Conv-Tas-Net的語音分離第四部分:介紹了實(shí)驗(yàn)的仿真過程及結(jié)果分析第五部分:對(duì)本論文進(jìn)行了總結(jié)2理論基礎(chǔ)介紹2.1基本概念=1\*GB3①噪聲特性從人類聽覺,噪聲是一個(gè)包含無用信息的雜亂語音信號(hào)。從物理學(xué)中,噪聲是沒有規(guī)則的對(duì)象。從生理學(xué)中,噪聲就是所有阻礙人們的學(xué)習(xí),生活和休息的聲音。噪音,每個(gè)人的理解是不同的,由以上詳細(xì)分析內(nèi)容得出相同的聲音聽起來,有的人覺得可能是噪音,而另一些人覺得可能是一個(gè)悅耳的聲音。根據(jù)上述論證推斷當(dāng)人們躺在床上睡著時(shí),音樂此時(shí)對(duì)于他們來講就是噪音,相反,對(duì)于正在上音樂課的學(xué)生來說就是優(yōu)美的(周安琪,陳志遠(yuǎn),2017)。=2\*GB3②語音分離在語音分離領(lǐng)域,根據(jù)干擾對(duì)象的不同我們可以將語音分離大致分為語音增強(qiáng)、解混響和多說話人分離三大類。依此背景來看當(dāng)干擾對(duì)象是我們常見的物體不規(guī)則碰撞的噪聲、汽車鳴笛的噪聲、咀嚼食物的噪聲等其他類似的噪聲的時(shí)候,這種把說話人的聲音分離出來的類別就是語音增強(qiáng)(梁奇成,賈雅文,2022)。基于此種情況解混響就是把說話人的聲音從疊加了說話人自己的各種反射聲波的混合語音信號(hào)分離出來,其主要干擾是說話者自己的反射波,例如(陳遠(yuǎn),周麗娜,2021):客廳墻壁的反射。從數(shù)據(jù)中得以窺見多個(gè)說話者的語音通過傳播介質(zhì)最終在一個(gè)麥克風(fēng)上混雜在一起,如何把干擾為多個(gè)說話者的語音分離出來,這個(gè)問題就是多說話者分離。在理論模型的證實(shí)與修正工作中,本文獲取了卷帙浩繁且詳實(shí)的數(shù)據(jù)資源。這些數(shù)據(jù)廣泛覆蓋各類研究對(duì)象,并且延展到不同的時(shí)間跨度以及社會(huì)場域,從而為理論模型的全面證實(shí)創(chuàng)造了優(yōu)越條件。借助統(tǒng)計(jì)分析技術(shù)針對(duì)量化數(shù)據(jù)予以處理,能夠確切地核驗(yàn)既有理論模型里的各項(xiàng)假設(shè),并揭示其中的局限所在。后續(xù)研究將嘗試增添更多變量或者使用更大規(guī)模的樣本數(shù)據(jù),以促進(jìn)理論模型的詮釋力度與預(yù)測(cè)水平提升?,F(xiàn)階段,在此類環(huán)境中語音分離主要是使用單通道混合語音信號(hào)實(shí)現(xiàn)語音信號(hào)的分離,在單通道混合語音信號(hào)中就包含了說話人語音的時(shí)間和頻率信息(袁澤羽,成怡茜,2021)。=3\*GB3③盲信號(hào)分離盲信號(hào)分離是指從多個(gè)觀測(cè)到的混合信號(hào)中分析出沒有觀測(cè)的原始信號(hào)。觀測(cè)到的混合信號(hào)通常來自多個(gè)傳感器的輸出。在這等條件下盲信號(hào)分離的有效方法通常包括常見的獨(dú)立分量分析(唐一凡,劉心怡,2022)。盲信號(hào)分離問題的數(shù)學(xué)模型如下圖2.1.1所示圖2.1.1盲信號(hào)分離的數(shù)學(xué)模型該模型可以用下式表示:x=A?s……(公式一)u=W?x……(公式二)源信號(hào)S
=
(S1,
S2……Sn)和混合矩陣A是未知,W是懸而未決的矩陣,經(jīng)過分離矩陣W,終于獲得分離的輸出向量u
=
(u1,
u2…un);觀測(cè)信號(hào)x
=
(x1,
x2
...xn)是已知的。信號(hào)盲分離的終極目標(biāo)是找到分離矩陣W,因此需要輸出信號(hào)u近似的與源信號(hào)相同(滕宏偉,蔣美娟,2021)。以兩個(gè)信號(hào)源為例用恒等式表示:x1tx2tytx1(t)
,x2
(t)
通常表示收集獲取到的兩個(gè)未知混合信號(hào),s(t)
,j(t)表示收集到的兩個(gè)信號(hào)源,h11
,
h12
,h21
,h22在此次過程中表示混合矩陣,這在一定范圍內(nèi)顯示了信號(hào)源輸入個(gè)數(shù)的不同對(duì)應(yīng)的矩陣的階數(shù)也是不同的。最后解混后的聲音我們通常用y(t)來表示,表示分離矩陣用w1
,w2,這在某種程度上映射了我們的目標(biāo)是使得輸出y(t)在最大程度上接近s(t)或j(t)或是我們需要聽到干擾非常小的信號(hào)聲源。所以我們需要做的是選取合適的分離矩陣(程子睿,許怡,2023)。本文在數(shù)據(jù)評(píng)估時(shí)使用了多種統(tǒng)計(jì)方法來確保數(shù)據(jù)的正確性,并辨識(shí)出可能存在的異常值。通過對(duì)數(shù)據(jù)屬性的全面分析,本文篩除了那些與預(yù)期不符的數(shù)據(jù)點(diǎn),同時(shí)保持了重要樣本信息的完整性。為了進(jìn)一步保障結(jié)論的堅(jiān)固性和普遍適用性,本文還進(jìn)行了敏感性測(cè)驗(yàn)。2.2語音分離的結(jié)構(gòu)語音分離的一般結(jié)構(gòu)模型主要由5個(gè)模塊構(gòu)成。本文研究背景下我們不可忽視這種情況的存在下面將對(duì)各個(gè)模塊的功能進(jìn)行簡單的描述與介紹(嵇報(bào)遠(yuǎn),殷村琳,2023)。=1\*GB3①時(shí)頻分解:在時(shí)域上,我們通常會(huì)對(duì)大多數(shù)的信號(hào)進(jìn)行處理,由以上詳細(xì)分析內(nèi)容得出將輸入信號(hào)拆分成二維的時(shí)頻信號(hào)的過程,我們將其稱為時(shí)頻分解。=2\*GB3②特征提取(周浩然,李思敏,2021):對(duì)聽覺特征采用幀級(jí)別或者時(shí)頻單元級(jí)別的提取方式,比如,我們常見的一些提取方式包括短時(shí)傅里葉變換譜(FFT-magnitude)、短時(shí)傅里葉變換對(duì)數(shù)譜(FFT-log)等。=3\*GB3③分離目標(biāo):在日常生活中,時(shí)頻掩蔽的目標(biāo)、目標(biāo)語音幅度譜估計(jì)的目標(biāo)和隱式時(shí)頻掩蔽目標(biāo)作為我們常用的語音分離目標(biāo)。時(shí)頻掩蔽的目標(biāo)通常會(huì)使得估計(jì)的掩蔽和理想的掩蔽盡可能相似;根據(jù)上述論證推斷目標(biāo)語音幅度譜估計(jì)的目標(biāo)通常會(huì)使得估計(jì)的幅度譜與目標(biāo)語音的幅度譜盡可能相似[6];依此背景來看隱式時(shí)頻掩蔽目標(biāo)通常用來增強(qiáng)語音特征或估計(jì)目標(biāo)語音,隱式掩蔽通常作為一個(gè)中間的計(jì)算過程來獲得最終的學(xué)習(xí)目標(biāo)并不是直接估計(jì)理想掩蔽,最終的目標(biāo)誤差通過隱式掩蔽的傳導(dǎo)來更新模型參數(shù)(霍俊熙,林澤昊,2023)。=4\*GB3④模型訓(xùn)練:利用大量的輸入輸出訓(xùn)練對(duì)通過機(jī)器學(xué)習(xí)算法學(xué)習(xí)一個(gè)從帶噪特征到分離目標(biāo)的映射函數(shù)(韓天辰,孫雅瀾,2020)。=5\*GB3⑤波形合成:利用估計(jì)的分離目標(biāo)以及混合信號(hào),基于此種情況通過逆變換(逆傅里葉變換或者逆Gammatone濾波)獲得目標(biāo)語音的波形信號(hào)。文中關(guān)于結(jié)論的驗(yàn)證并未詳細(xì)談及,時(shí)間因素在其中扮演重要角色??茖W(xué)研究常呈長期性特點(diǎn),尤其是在處理復(fù)雜問題或進(jìn)軍新領(lǐng)域的情況下,需要足夠的時(shí)間去捕捉現(xiàn)象、分析數(shù)據(jù),進(jìn)而形成堅(jiān)實(shí)的結(jié)論。此項(xiàng)研究雖已取得一定前期成果,但要達(dá)成對(duì)所有結(jié)論的全面細(xì)致驗(yàn)證,還需投入更長時(shí)間進(jìn)行跟蹤研究與重復(fù)實(shí)驗(yàn)。這不僅有利于排除偶然因素的干擾,也能提升研究成果的可信度與普適性。此外,技術(shù)手段的發(fā)展水平也在一定程度上左右著結(jié)論驗(yàn)證的過程。隨著科技的進(jìn)步,新的研究工具和技術(shù)不斷推陳出新,為科學(xué)研究創(chuàng)造了更多有利條件。2.3語音信號(hào)的分離質(zhì)量評(píng)價(jià)語音質(zhì)量包括兩個(gè)方面的內(nèi)容:可懂度和清晰度。前者對(duì)應(yīng)語音的辨識(shí)水平。而后者則是衡量語音中字、單詞和句子的流暢程度。從數(shù)據(jù)中得以窺見對(duì)語音信號(hào)質(zhì)量進(jìn)行評(píng)價(jià)是一個(gè)多學(xué)科交叉的且相對(duì)比較復(fù)雜的問題。在此類環(huán)境中總體上看可將語音質(zhì)量評(píng)價(jià)分為兩大類:客觀評(píng)價(jià)與主觀評(píng)價(jià)。(1)客觀評(píng)價(jià)語音質(zhì)量的客觀評(píng)價(jià)分析的是不同語音信號(hào)某些特性的變化。根據(jù)采用的語音信號(hào)的特征的不同,可將客觀評(píng)價(jià)標(biāo)準(zhǔn)分為下面這幾類,在這等條件下具體的評(píng)價(jià)方法結(jié)果如表2.3所示(許文博,鄭啟航,2023)。表2.3語音信號(hào)的客觀評(píng)價(jià)標(biāo)準(zhǔn)域測(cè)度評(píng)價(jià)方法時(shí)域失真測(cè)度信噪比(Signal-to-NoiseRatio,SNR)平均幀信噪比(AverageFrameSignal-to-NoiseRatio,AFSNR)頻域失真測(cè)度對(duì)數(shù)譜測(cè)度(log-spectraldistortion,LSD)對(duì)數(shù)似然比測(cè)度(loglikelihoodration,LLR)感知域失真測(cè)度語音感知質(zhì)量評(píng)估(perceptualevaluationofspeechquality,PESQ)巴克譜失真測(cè)度(Barkerspectraldistortionmeasure,BSDM)(2)主觀評(píng)價(jià)人耳對(duì)語音信號(hào)質(zhì)量的感知即人們通常所說的語音信號(hào)的主觀評(píng)價(jià),也就是聽者主動(dòng)地對(duì)語音信號(hào)質(zhì)量做出評(píng)價(jià)。判斷滿意度測(cè)量(DAM)和平均意見得分(MeanOpinionScore,MOS)這是常用的作為語音信號(hào)質(zhì)量主觀評(píng)價(jià)的兩個(gè)標(biāo)準(zhǔn)。主觀評(píng)價(jià)的優(yōu)點(diǎn)是評(píng)價(jià)標(biāo)準(zhǔn)與人類對(duì)于語音信號(hào)的感知比較貼合,缺點(diǎn)是不夠靈活,費(fèi)時(shí)費(fèi)力,不夠穩(wěn)定、重復(fù)性比較差,這在一定范圍內(nèi)顯示了易受到主觀因素的影響。平均意見得分(MOS)在網(wǎng)絡(luò)電話中提供了一種估量方法,在電路目的端估量人類交流的質(zhì)量(吳佳敏,丁依依,2020)。最直觀反映語音質(zhì)量的技術(shù)指標(biāo)是MOS值,根據(jù)ITUP.862規(guī)范定義,取值范圍為1(最差)~5(最好)。這在某種程度上映射了在表2.4中給出了MOS值和語音聽覺感受的關(guān)系(鄭子豪,王麗娜,2021):表2.3語音信號(hào)的主觀評(píng)價(jià)標(biāo)準(zhǔn)MOS值質(zhì)量級(jí)別失真級(jí)別1很差不能忍受2差稍有察覺明顯察覺但可以忍受3一般稍有察覺且有點(diǎn)厭煩4良稍有察覺5優(yōu)無察覺2.4語音分離的方法下面的框架圖是有關(guān)語音分離的一系列方法。本文研究背景下我們不可忽視這種情況的存在其中最常見的就是基于學(xué)習(xí)的語音分離方法(李澤宇,陳文博,2018)。 基于CASA的語音分離 語音分離 基于生成模型的語音分離基于高斯混合模型 基于學(xué)習(xí)的語音分離 基于NMF的語音分離 基于有監(jiān)督學(xué)習(xí)的語音分離 3深度學(xué)習(xí)下的語音分離網(wǎng)絡(luò)—全卷積時(shí)域音頻分離網(wǎng)絡(luò)3.1深度學(xué)習(xí)相關(guān)介紹由以上詳細(xì)分析內(nèi)容得出現(xiàn)如今深度學(xué)習(xí)已經(jīng)成為一個(gè)很受人們關(guān)注的熱點(diǎn)問題,普遍應(yīng)用在很多領(lǐng)域,并在圖像檢測(cè)、圖像識(shí)別等范圍內(nèi)有了很大的突破:2011年以來,深度學(xué)習(xí)技術(shù)在語音識(shí)別領(lǐng)域取得很大的進(jìn)步,根據(jù)上述論證推斷使語音識(shí)別的正確率提高了20%~30%,與此同時(shí)深度學(xué)習(xí)技術(shù)在圖像識(shí)別范圍內(nèi)也取得了令人驚訝的成績,使圖像識(shí)別正確率率從15%提高到了26%(孟子凡,唐韻竹,2022);2014年以來,卷積神經(jīng)網(wǎng)絡(luò)進(jìn)入大眾視野,人們將傳統(tǒng)的方法拋棄,進(jìn)而選擇卷積神經(jīng)網(wǎng)絡(luò)或傳統(tǒng)方法與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法;在數(shù)據(jù)的匯聚之路上,本文采取了問卷調(diào)查、現(xiàn)場探訪與文獻(xiàn)挖掘等多元化策略,以確保數(shù)據(jù)的全面與細(xì)致。經(jīng)過對(duì)這些數(shù)據(jù)的周密分析與綜合處理,本文得以驗(yàn)證研究假設(shè),并洞察數(shù)據(jù)背后的規(guī)律與潛在聯(lián)系。雖然本文的研究取得了一定的成就,但本文同樣明白,任何探索都有其邊界。未來的研究可以在樣本的多樣性、方法的精進(jìn)及理論的豐富性上繼續(xù)深耕,以期達(dá)到更高的研究境界。2016年3月,圍棋名將李世石被阿爾法狗(AlphaGo)所打贏,從此深度學(xué)習(xí)被大眾普遍熟知,依此背景來看逐漸走進(jìn)生產(chǎn)生活的各個(gè)領(lǐng)域(謝俊逸,郭曉瀾,2020)。人工神經(jīng)網(wǎng)絡(luò)的研究與發(fā)展進(jìn)而使得深度學(xué)習(xí)概念被研究人員所提出。機(jī)器學(xué)習(xí)研究中的一個(gè)相對(duì)很新的領(lǐng)域就是我們經(jīng)常說的深度學(xué)習(xí),其目的在于對(duì)人腦進(jìn)行模擬分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),基于此種情況同時(shí)也希望它可以對(duì)數(shù)據(jù)進(jìn)行解釋(潘志恒,崔浩淼,2022)。3.2全卷積時(shí)域音頻分離網(wǎng)絡(luò)簡介全卷積時(shí)域音頻分離網(wǎng)絡(luò)(Conv-TasNet)由三個(gè)處理階段組成,如圖3.2.1所示:編碼器、分離和解碼器。首先,編碼器模塊用于將混合波形的短段轉(zhuǎn)換為它們?cè)谥虚g特征空間中的對(duì)應(yīng)表示。從數(shù)據(jù)中得以窺見然后,該表示用于在每個(gè)時(shí)間步估計(jì)每個(gè)源的乘法函數(shù)(掩碼)(湯嘉誠,屈子淳,2022)。然后,利用解碼器模塊對(duì)屏蔽編碼器特征進(jìn)行變換,重構(gòu)源波形(夏柳青,謝志宏,2022)。圖3.2.1這是一個(gè)監(jiān)督學(xué)習(xí)的過程:
encoder:類似fft,提取語音特征。
decoder:類似ifft,獲得語音波形
separation過程:類似得到mask,在此類環(huán)境中通過mix*單個(gè)語音的mask,類似得到單個(gè)語音的一個(gè)語譜圖。通過decoder還原出語音波形(鄧欣妍,劉雅婷,2020)。
本文介紹了一種用于時(shí)域語音分離的深度學(xué)習(xí)框架&全卷積時(shí)域音頻分離網(wǎng)絡(luò)(Conv-Tas-Net)。該框架解決了STFT域語音分離的缺點(diǎn),包括相位和幅度的分離、混合音頻的次優(yōu)表示和STFT計(jì)算的高延遲。在此類環(huán)境中這些改進(jìn)是通過用卷積編碼器-解碼器架構(gòu)替換STFT來實(shí)現(xiàn)的。Conv-Tas-Net中的分離是使用一種時(shí)間卷積網(wǎng)絡(luò)(TCN)結(jié)構(gòu)和一種深度可分離卷積操作來解決深層LSTM網(wǎng)絡(luò)的挑戰(zhàn)(韓一帆,鄭啟超,2022)。我們的評(píng)估表明,即使使用了目標(biāo)揚(yáng)聲器的理想時(shí)頻掩模,Conv-Tas-Net也明顯優(yōu)于STFT語音分離系統(tǒng)。在這等條件下此外,Conv-Tas-Net具有更小的模型大小和更短的最小延遲,這使得它適合于低資源、低延遲的應(yīng)用。與STFT有一個(gè)定義良好的逆變換可以完美地重構(gòu)輸入不同,該模型的最佳性能是通過一個(gè)過完備的線性卷積編碼器-解碼器框架實(shí)現(xiàn)的(鄭凡,周佳怡,2021)。4仿真4.1數(shù)據(jù)生成實(shí)驗(yàn)中用到的數(shù)據(jù)集為LibriMix,它是由著名的語音識(shí)別數(shù)據(jù)集LibriSpeech經(jīng)合成而得到的。這在一定范圍內(nèi)顯示了由于計(jì)算資源有限,實(shí)驗(yàn)中僅選擇了2Mix的數(shù)據(jù)集,即音頻均由兩個(gè)人的聲音混合得到。訓(xùn)練集中共有100個(gè)不同的人的聲音,共13900個(gè)音頻,總時(shí)長共計(jì)58小時(shí);這在某種程度上映射了發(fā)展集(或驗(yàn)證集)共3000個(gè)音頻,總時(shí)長11小時(shí)(趙博宇,李靜怡,2019);測(cè)試集共3000個(gè)音頻,總時(shí)長11小時(shí)。實(shí)驗(yàn)使用的數(shù)據(jù)集為不帶噪音的版本(邱婉晴,李志和,2022)。通過這種對(duì)已有階段性研究的總結(jié),為后續(xù)的研究提供了一定的參考。在研究模式上,本文能夠認(rèn)識(shí)到一系列可優(yōu)化和改進(jìn)之處。先前的研究階段給本文帶來了寶貴的經(jīng)驗(yàn),明確了哪些方法是成功的,哪些需要進(jìn)一步調(diào)整或放棄。例如,在數(shù)據(jù)獲取方面,本文可以更加重視樣本的多元性和代表性,確保所獲取的樣本能夠準(zhǔn)確反映目標(biāo)群體的整體情況。此外,針對(duì)不同的研究內(nèi)容,靈活運(yùn)用多種數(shù)據(jù)獲取技術(shù)可以提高數(shù)據(jù)的全面性和可靠性。4.2實(shí)驗(yàn)設(shè)置NLBHPXRBSPre-trainNormalization256202565123843NogLN本文研究背景下我們不可忽視這種情況的存在該表格說明了實(shí)驗(yàn)中模型用到的參數(shù),BS表示的是批量大?。˙atchsize),由于計(jì)算資源有限,故僅選擇了3。實(shí)驗(yàn)中優(yōu)化器使用Adam,學(xué)習(xí)率設(shè)置為0.001。模型均訓(xùn)練100個(gè)輪次(epoch),由以上詳細(xì)分析內(nèi)容得出其中Adversial-TasNet在訓(xùn)練時(shí)前80個(gè)輪次僅訓(xùn)練分離器,后20個(gè)輪次同時(shí)訓(xùn)練分離器和判別器(鄒文博,馬天樂,2020)。4.3結(jié)果分析實(shí)驗(yàn)從SISNR(scale-invariantsignal-tonoiseratio)、SDR(signal-to-distortionratio)兩個(gè)指標(biāo)對(duì)模型進(jìn)行對(duì)比(黃書杰,陶婧怡,2019)。模型SISNRSDRConv-TasNet11.7712.23Adversial-TasNet11.8312.32從表格可以看出,Adversial-TasNet在同樣的參數(shù)設(shè)置下能夠達(dá)到比Conv-TasNet更好的效果,驗(yàn)證了Adversial-TasNet模型的有效性該圖為Adversial-TasNet在訓(xùn)練時(shí)候的損失函數(shù)曲線圖,藍(lán)色曲線為訓(xùn)練集損失函數(shù)曲線,根據(jù)上述論證推斷橙色曲線為測(cè)試集損失函數(shù)曲線(李冰潔,王宇豪,2022)??梢钥闯觯瑩p失函數(shù)總體上處于下降的過程,且逐漸趨于穩(wěn)定,依此背景來看但測(cè)試集損失函數(shù)在30個(gè)輪次之后下降很小且與訓(xùn)練集損失函數(shù)相差較大,說明發(fā)生了一定程度的過擬合(唐曉風(fēng),劉佳慧,2022)。真值和預(yù)測(cè)語譜圖可視化真值和預(yù)測(cè)波形圖可視化一般在測(cè)試集中選取了一個(gè)音頻,對(duì)它的真值和預(yù)測(cè)分別進(jìn)行了可視化。從語譜圖和波形圖可以看出,基于此種情況模型對(duì)于目標(biāo)語音能夠有效的分離,但對(duì)于背景語音分離效果不佳,說明模型存在還一定的提升空間(林宇豪,王夢(mèng)琪,2018)。5結(jié)束語通過對(duì)《深度學(xué)習(xí)語音分離技術(shù)—全卷積時(shí)域音頻分離網(wǎng)絡(luò)的應(yīng)用與挑戰(zhàn)》論文的撰寫,讓我對(duì)Python的運(yùn)用以及對(duì)語音分離相關(guān)的知識(shí)有了進(jìn)一步的了解,盡管過程很艱辛,但是我依然沒有放棄,堅(jiān)持了下來,從數(shù)據(jù)中得以窺見努力的查找資料,對(duì)于實(shí)在看不懂的地方尋求老師、同學(xué)的幫助,逐一將難題克服,正是自己不拋棄不放棄的精神,才使得論文能夠較為滿意的完成。通過本次畢業(yè)論文的撰寫使我收獲滿滿:主要?dú)w納總結(jié)以下兩個(gè)方面。首先是學(xué)習(xí)方面:(1)對(duì)以前從未接觸過的深度學(xué)習(xí)以及語音分離有了進(jìn)一步的了解,加深;(2)對(duì)Python的使用以及簡單的編程有所認(rèn)識(shí);(3)增強(qiáng)了自己的實(shí)踐能力其次是生活方面:(1)磨練了自己的意志,使得自己在今后的工作生活中面對(duì)困難,能夠更加堅(jiān)定地走下去;(2)面對(duì)困難不要退縮,勇于想辦法直面困難,這樣我們終會(huì)成功。此外,我需要總結(jié)一下自己的經(jīng)驗(yàn),減少自己犯錯(cuò)誤的次數(shù),不必要的錯(cuò)誤一定不能犯;還有就是要繼續(xù)努力去了解學(xué)習(xí)深度學(xué)習(xí)以及信號(hào)處理方面的知識(shí)。參考文獻(xiàn)張賢達(dá).盲信號(hào)處理[J].國際學(xué)術(shù)動(dòng)態(tài),1998(3):30-31.許之博,鄭曉鵬.擴(kuò)展聯(lián)合對(duì)角化法的水聲信號(hào)盲分離技術(shù)[J].系統(tǒng)工程與電子技術(shù),2022,25(9):1058-1060.馬麗娜,陳嘉偉.盲分離算法研究及其在圖像處理中的應(yīng)用[D].上海交通大學(xué),2023.田志遠(yuǎn),黃夢(mèng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基層衛(wèi)生院藥事管理制度
- 衛(wèi)生院伙食管理制度
- 公共衛(wèi)生間服務(wù)制度
- 衛(wèi)生站十個(gè)上墻制度
- 衛(wèi)生院檔案管理工作制度
- 民宿做衛(wèi)生規(guī)章制度
- 衛(wèi)生院轉(zhuǎn)診病人制度
- 市場商戶衛(wèi)生間管理制度
- 社區(qū)衛(wèi)生室合規(guī)管理制度
- 衛(wèi)生院信息管理工作制度
- 兒童講解員禮儀
- 文物建筑勘查設(shè)計(jì)取費(fèi)標(biāo)準(zhǔn)(2020年版)
- DB14∕T2248-2020 《煤礦安全風(fēng)險(xiǎn)分級(jí)管控和隱患排查治理雙重預(yù)防機(jī)制實(shí)施規(guī)范》
- 辦公室三辦三服務(wù)課件
- 千古奇文《初心》原文
- 失禁相關(guān)性皮炎與壓力性損傷的區(qū)分鑒別
- 鋁合金門窗設(shè)計(jì)說明
- 食品行業(yè)倉庫盤點(diǎn)制度及流程
- 2024四川綿陽涪城區(qū)事業(yè)單位選調(diào)(聘)筆試管理單位遴選500模擬題附帶答案詳解
- 發(fā)貨組年終總結(jié)
- 《化工制圖》試題及參考答案 (C卷)
評(píng)論
0/150
提交評(píng)論