【《骨傳導(dǎo)的聲學(xué)特性以及語音轉(zhuǎn)換基本理論綜述》3300字】_第1頁
【《骨傳導(dǎo)的聲學(xué)特性以及語音轉(zhuǎn)換基本理論綜述》3300字】_第2頁
【《骨傳導(dǎo)的聲學(xué)特性以及語音轉(zhuǎn)換基本理論綜述》3300字】_第3頁
【《骨傳導(dǎo)的聲學(xué)特性以及語音轉(zhuǎn)換基本理論綜述》3300字】_第4頁
【《骨傳導(dǎo)的聲學(xué)特性以及語音轉(zhuǎn)換基本理論綜述》3300字】_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PAGEPAGE30PAGE骨傳導(dǎo)的聲學(xué)特性以及語音轉(zhuǎn)換基本理論綜述目錄TOC\o"1-3"\h\u15887骨傳導(dǎo)的聲學(xué)特性以及語音轉(zhuǎn)換基本理論綜述 1289131.1骨傳導(dǎo)的聲學(xué)特性 1176621.1.1骨傳導(dǎo)的基本原理 111281.1.2骨導(dǎo)語音的特性 1200691.2語音轉(zhuǎn)換基本理論 2263531.2.1語音發(fā)音系統(tǒng) 2195111.2.2語音信號產(chǎn)生的數(shù)學(xué)模型 362291.2.3語音轉(zhuǎn)換系統(tǒng)的基本原理 5261381.3語音信號的頻譜轉(zhuǎn)換 51.1骨傳導(dǎo)的聲學(xué)特性1.1.1骨傳導(dǎo)的基本原理在一般的情況下,聲波是通過氣傳導(dǎo)和骨傳導(dǎo)這兩條途徑共同的傳入人的內(nèi)耳的,傳入之后再通過內(nèi)耳的內(nèi)、外淋巴液產(chǎn)生振動(dòng),通過螺旋器實(shí)現(xiàn)感音的過程,然后聽覺神經(jīng)產(chǎn)生神經(jīng)沖動(dòng),再傳遞給聽覺中樞,再經(jīng)過大腦皮層的層層分析后,就可以"聽到"聲音了。但是大家對于骨傳導(dǎo)這個(gè)概念,就可能不太了解了。給大家舉個(gè)例子幫助理解:如果我們用手掌蓋住自己的雙耳,然后用很小的聲音去說話,這個(gè)時(shí)候,不管我們的聲音有多小,我們都能很容易聽清自己所說的內(nèi)容是什么,但是別的人在我們說話很小聲的時(shí)候卻很難聽清楚我們的語音內(nèi)容,這就是由于骨傳導(dǎo)的特性所導(dǎo)致的。1.1.2骨導(dǎo)語音的特性在本論文中,用骨導(dǎo)設(shè)備以正常大小的音量錄制的骨導(dǎo)語音。圖2-1中顯示了用氣導(dǎo)麥克風(fēng)和骨導(dǎo)麥克風(fēng)分別錄制氣導(dǎo)語音和骨導(dǎo)語音的語譜圖。我們可以根據(jù)下圖了解到,骨導(dǎo)語音的高頻部分有明顯的衰減,而氣導(dǎo)語音的高頻部分則幾乎無衰減。由此,骨導(dǎo)語音聽起來就像是感冒了發(fā)出的悶悶的聲音。而且摩擦音等在高頻范圍內(nèi)具有較大幅度的音素,他的音韻特征是非常容易丟失的。因此,骨導(dǎo)語音和氣導(dǎo)語音比較。音質(zhì)會(huì)比較嚴(yán)重的退化,并且清晰度也會(huì)比較低。(a)骨導(dǎo)語音語譜圖(b)氣導(dǎo)語音語譜圖圖2-1骨導(dǎo)和氣導(dǎo)語音語譜圖1.2語音轉(zhuǎn)換基本理論1.2.1語音發(fā)音系統(tǒng)人的發(fā)音原理和計(jì)算機(jī)的發(fā)音原理比較則完全不同,計(jì)算機(jī)的發(fā)音是通過將編碼后數(shù)字信號發(fā)送到揚(yáng)聲器中,然后再通過揚(yáng)聲器來使周圍的空氣發(fā)生共振,從而產(chǎn)生聲波,而人的發(fā)音主要由發(fā)音器官來生成的,其中包含口、鼻、喉(包括聲帶)、氣管、肺等,這些器官結(jié)合到一塊,就形成了一條十分繁冗的通道。語音的氣流是從肺部呼出的,而后通過上述繁冗的通道后才發(fā)出的聲音,這個(gè)通道中的各個(gè)位置對語音的形成都起到了相應(yīng)的作用,其中包括把從肺部呼出的氣流轉(zhuǎn)化成聲源、氣管等中間通道給聲音增添音色、嘴唇或鼻孔等器官向空間進(jìn)行輻射,所以人發(fā)音的器官,就是一些和發(fā)出聲音的過程有關(guān)的器官,具體如圖2-2所示:圖2-2發(fā)音器官的部位和名稱從肺部發(fā)出的直氣流,經(jīng)過氣管抵達(dá)喉部,而氣管壁則是由一些環(huán)狀的軟骨構(gòu)成的,并且喉部本身也是由眾多的軟骨組成的。對聲音的發(fā)音產(chǎn)生影響最大的部位則就是聲帶,即從喉結(jié)至杓狀軟骨之間的韌帶褶,當(dāng)人需要用語言進(jìn)行交流的時(shí)候,左右聲帶會(huì)進(jìn)行合攏,呼吸的時(shí)候就會(huì)張開。聲門是聲帶之間的一個(gè)部門,它的開或關(guān)由兩個(gè)杓狀軟骨管制。說話的時(shí)候,聲門會(huì)一直的張開和閉合,從而會(huì)生成了一連串的氣流,產(chǎn)生了一系列的脈沖?;糁芷诰褪峭瓿梢淮温晭ч_啟和關(guān)閉的時(shí)間,它的倒數(shù)就叫做基音頻率。每個(gè)人的聲帶都是不一樣的,所以它的基音頻率也基本都是不盡相同的,根據(jù)發(fā)音人的性別、年齡、身體等各種的狀況而定,男人的基音頻率在50~250Hz之間,女性的基音頻率在100~500Hz之間。語音的頻率越快它的音調(diào)就越高,而頻率慢的語音的音調(diào)則會(huì)偏低,因此我們可以根據(jù)語音的音調(diào)高低程度不同來區(qū)分不同的說話的人。從聲門到口或鼻的出氣通道叫做聲道,當(dāng)我們發(fā)出不同的聲音的時(shí)候,嘴唇、顎和舌的形狀是不一樣的,所以才會(huì)聽到不同語義的語音。1.2.2語音信號產(chǎn)生的數(shù)學(xué)模型一些研究者依據(jù)人的發(fā)音器官的不同特點(diǎn)和語音生成的基本原理,來摸索語音信號生成的數(shù)學(xué)模型。從上文可以得知,當(dāng)發(fā)出不同的聲音時(shí),聲道的位置情況是不相同的,比如想發(fā)漢字“國”和“家”的語音,這兩個(gè)漢字在發(fā)音時(shí)連唇形都是完全不同的。另外,在聲道和聲門之間有著一種耦合關(guān)系,能讓語音信號擁有非線性的特性。因?yàn)檎Z音是經(jīng)過肺部的氣流再通過聲道而發(fā)出的,這個(gè)氣流斷斷續(xù)續(xù)而且隨著時(shí)間的變化而變化,所以模型中的參數(shù)應(yīng)該隨時(shí)間而發(fā)生變化,但語音隨時(shí)間變化比較緩慢,因此可以將語音信號切分為一系列的短語音信號來方便對其建模,并且可以認(rèn)為這些短信號是平穩(wěn)的且隨機(jī)的。在這些短語音信號之內(nèi)來表示語音的時(shí)候,就能夠應(yīng)用線性的時(shí)不變模型來給它建模。通常情況下,語音生成系統(tǒng)能分為三部分,由肺部發(fā)出氣流到聲帶前的部分可稱為“聲門子系統(tǒng)”;負(fù)責(zé)產(chǎn)生聲源的就是激勵(lì)振動(dòng),即“激勵(lì)模型”;由聲帶一直到唇部的部位叫作“聲道模型”;把語音從唇部輻射至空氣中的部分叫作“輻射模型”。完整的語音信號產(chǎn)生的數(shù)學(xué)模型可用上述3個(gè)模型的線性組合來表示,如下圖2-3所示:。圖2-3語音信號產(chǎn)生的數(shù)學(xué)模型1.激勵(lì)模型語音學(xué)中,語音有清音和濁音之分,簡言之,當(dāng)發(fā)出聲音的時(shí)候,聲帶如果產(chǎn)生振動(dòng)那么就是濁音,否則為清音,所以激勵(lì)模型也可以分為兩種,即濁音激勵(lì)模型和清音激勵(lì)模型。發(fā)出濁音的時(shí)候,就會(huì)生成間歇性的脈沖波,它的波形與斜三角形的脈沖相似,當(dāng)發(fā)清音時(shí),聲道會(huì)被阻塞形成湍流,可將其視為隨機(jī)白噪聲。1.聲道模型對于聲道模型的數(shù)學(xué)模型來說,現(xiàn)在比較常用的方法就是將全部聲道看成一個(gè)諧振腔,整個(gè)腔體的諧振頻率叫作共振峰,所以亦可視為共振峰模型。通常情況下,用前三個(gè)共振峰就可以表示一個(gè)元音,而對于輔音或者鼻音來說,由于它們的形成很復(fù)雜,一般需要前五個(gè)以上的共振峰才可以表示。3.輻射模型口腔的輻射效應(yīng)一般應(yīng)用輻射阻抗來表示,它的值的大小和語音信號和從聲道模型輸出的速度波是相關(guān)的,對語音的高頻部分影響很大,而對于語音的低頻部分來說,影響則比較小,因此可以把輻射模型看成是一階高通濾波器。1.2.3語音轉(zhuǎn)換系統(tǒng)的基本原理練語音轉(zhuǎn)換系統(tǒng)分為兩個(gè)階段:訓(xùn)練階段、轉(zhuǎn)換階段。訓(xùn)練階段就是將源和目標(biāo)說話人的語音都先進(jìn)行參數(shù)提取,然后再通過應(yīng)用動(dòng)態(tài)時(shí)間規(guī)整(DynamicTimeWarping,DTW)技術(shù)對提取之后的特征參數(shù)來對齊,然后輸入到模型中來優(yōu)化模型,使其充分學(xué)習(xí)語音轉(zhuǎn)換的規(guī)則。在轉(zhuǎn)換的階段過程中,先將源語音進(jìn)行特征參數(shù)提取,再用優(yōu)化后的模型進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)換后的特征參數(shù),最后對其進(jìn)行語音合成。1.3語音信號的頻譜轉(zhuǎn)換在當(dāng)前語音轉(zhuǎn)換任務(wù)中,有多種特征可以作為語音特征進(jìn)行語音轉(zhuǎn)換,其中最常用且效果最好的屬于頻譜特征,頻譜中包含眾多信息,包括語音轉(zhuǎn)換中所需要的語義信息和說話人的個(gè)性信息。在眾多實(shí)現(xiàn)頻譜特征轉(zhuǎn)換的方法中,比如基于GMM模型的語音轉(zhuǎn)換方法、基于矢量量化(VectorQuantization,VQ)的語音轉(zhuǎn)換模型、基于神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換模型,包括RBMs、FNNs、RNNs、CNNs以及NMF等,大部分上述方法都要求在平行語音數(shù)據(jù)集下進(jìn)行。但平行數(shù)據(jù)的收集不僅費(fèi)時(shí)費(fèi)力,而且在很多實(shí)際情況下很難收集甚至不可實(shí)現(xiàn),如跨語種轉(zhuǎn)換和醫(yī)療輔助系統(tǒng),并且即使獲得平行的數(shù)據(jù),仍然需要DTW來使源語音。和目標(biāo)語音在每一幀上進(jìn)行時(shí)間對齊,不可避免會(huì)引入誤差,對訓(xùn)練語料的高要求會(huì)導(dǎo)致轉(zhuǎn)換模型的應(yīng)用場景十分有限,因此如何實(shí)現(xiàn)非平行文本條件下的語音轉(zhuǎn)換成了亟待解決的問題。隨著生成對抗網(wǎng)絡(luò)的提出,眾多基于GAN的語音轉(zhuǎn)換方法大放異彩,這些方法幾乎都擺脫了對平行語料的依賴,可實(shí)現(xiàn)非平行文本條件下的語音轉(zhuǎn)換,并且不需要任何額外的數(shù)據(jù)或?qū)R操作。TakuhiroKaneko等人于2017年提出CycleGAN-VC,該方法通過使用循環(huán)一致神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)語音轉(zhuǎn)換,并使用對抗性損失和周期一致性損失同時(shí)學(xué)習(xí)正向和反向映射來優(yōu)化模型轉(zhuǎn)換效果,避免了大多數(shù)基于統(tǒng)計(jì)方法的語音轉(zhuǎn)換模型中常出現(xiàn)的過平滑問題。為了進(jìn)一步改善生成后語音的質(zhì)量,該作者于2019年在CycleGAN-VC的基礎(chǔ)上引進(jìn)兩步對抗損失并改善生成器和鑒別器的結(jié)構(gòu),據(jù)此提出了CycleGAN-VC2,在自然度和相似度方面進(jìn)一步縮小轉(zhuǎn)換后語音和目標(biāo)語音之間的差距。為實(shí)現(xiàn)模型可以對任意長度的頻譜進(jìn)行轉(zhuǎn)換,MarcoPasini于2019年提出MelGAN-VC,該模型首先從語音波形文件中提取頻譜,然后使用GAN來實(shí)現(xiàn)風(fēng)格轉(zhuǎn)換,并用一個(gè)額外的神經(jīng)網(wǎng)絡(luò)來幫助模型在不犧牲對目標(biāo)說話人的語音風(fēng)格靈活建模的前提下保留更多的語義信息。但是,基于GAN的方法非常不穩(wěn)定,整個(gè)模型在訓(xùn)練過程中通常需要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論