版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄TOC\o"1-2"\h\u7996 1176821 9205111.1 92521.2 9249001.3 13279021. 15298372. 1531651.3.3 16280071.3.4 17299591.3.5聯(lián)合因子分析與i- 17185392 2235862.1 2241332.2 22305821. 2612812. 27112233. 28151372.5在頻譜圖中給出了共振峰F1與F2 28274731. 29174832. 29127233. 3186154. 3214615. 33267462.3 33213261. 34229402. 34127413. 36270682.3.2 37152181. 37268012. 3931332.3.3 40103471. 40259512. 40184893. 42102334. 43121645. 4495832.3.4 44233521.WAV 44316712. 44315802.3.5動(dòng)手實(shí)踐:SoX 4594621. 4527482.RAW轉(zhuǎn)WAV 46238373. 4762864. 47218685. 47318566. 48115182.4 48120882.5 5378861. 5459982. 5463613. 55200714. 55197775. 55192852.5.2 5655381. 5630232. 575053. 58198674.動(dòng)手實(shí)踐:短時(shí)傅里葉變換與 58306612.5.3 60193922.5.4 61110972.5.5 61166772.5.6 62195612.5.7動(dòng)手實(shí)踐:用LibROSA提取MFCC 6317749 66185233 67317653.1 67225131. 6758712. 68315393.1.3 68245481. 68240092. 69324813. 69120793.1.4 70306403.2.1 7254713.2.2 7431813.2.3ROC 75219863.2.4 76206953.2.5 76287833.2.6 77237923.3.1 77326413.3.2 78168361. 7857642. 8014681 81211333. 8148733.3.3高斯混合模型- 84147801. 84102072. 8499063.3.4高斯混合模型- 85160461. 85104432. 86179083. 87181603.3.5 88147931. 89169622. 89323723.3.6i-vector 9079281. 90318232.i-vector 90115383.基于i-vector 91287073.4 91224891. 92151462. 94313073. 9562304. 97102033.4.2 9821881. 985162 9856163.4.4 98229552.基于神經(jīng)網(wǎng)絡(luò)的i- 98200983.聯(lián)合向量j- 9877634. 986288 98201535. 99224763.4.3 100110991. 100204892. 1002233. 102232763.12 102275294. 10328691(2) 104182435. 10515229(2) 107145581. 10772322. 111252143. 11330150最后,計(jì)算驗(yàn)證音頻的嵌入碼和錄入音頻聚合嵌入碼之間的余弦相似度 11692984. 11720529 11851183.5 119267671. 120267212. 12161533. 12117576 121289794. 122257983.5.3 122115541. 122324502. 12235753.動(dòng)手實(shí)踐:用pyroomacoustics 12319273.5.4 127191991. 127161452. 128313863.6 130182251.Z-norm 131206102.T-norm 132248943.TZ-norm 133315344.S-norm 13347093.7 134351 136111354 138187264.1 138226751. 138316972. 139157313. 140221914. 14041025. 140139646. 141261897. 141236208. 142238419. 14268984.2 14297801. 142257242. 143161043. 14439774.2.2 145242981. 14518983(2) 145257942. 1451709 145306364.2.3 148237061. 14844762. 149259863. 15130810 15377514.2.4 158121784.2.5 158223174.3.1 159245364.3.2 159208814.3.3 160314024.3.4 161246441. 161147722. 16118398~S之間的數(shù)來(lái)表示,這里S=255 161251863. 163180504.模型量化對(duì)CPU 163140894.4 16399651. 16526352. 16583843. 166201314.4.3 16962501. 16928692. 17089924.5 171103391. 17360792. 17422958 174316285 175225015.1 175210381. 175301492. 176210873. 176108494. 177197405. 177184525.1.3 178172491. 179180962. 180204773. 181253374. 181182555. 18111815.1.4 18218431. 18291182. 18299273. 18213405.2 18378041. 184121752. 184137745.3 185181421. 186306462.基于閾值判別的Naive 1872756(1)第一個(gè)數(shù)據(jù)x1 18711209(5)對(duì)每一個(gè)新的數(shù)據(jù),重復(fù)第2~4 18764963.Naive 187280 18743885.3.3 189167231. 189117762. 18921947(2) 1899464(2)合并。在第 個(gè) 19029923(3) 19122894(1) 191182653.K- 19186084. 193680 19415399(2)計(jì)算相似度圖G的未歸一化拉普拉斯矩陣L 19513652 195262445. 19550485.3.4 199176621. 199217542. 20036625.4 201267305.5 203168911. 204202312. 20598155.5.2 2055121. 20629545而標(biāo)簽序列 的構(gòu)建,則需要知道該音頻的聲紋分割聚類的基本事實(shí),也就 206221232. 207313263. 20739785.5.3 208218031. 20872462. 208185603. 20987114. 20946875. 210177466. 212290287. 212275965.5.4 212222461. 212174322.Transformer 213309033. 21438824. 216297145.5.5 217156211. 217270962. 21816459首先,我們定義K×K×T的3維張量A 21826565.5.6 220223425.5.7 221299081. 22115965(1) 221118642. 2217953 221224203. 22426610(1)已知說話人數(shù)量為2 22415187 231238546 233264536.1 233283276.2 234185731. 2341975 235200572. 235281646.2.2 236298196.3.1 236123161. 23720956 237270442. 23831327 23847136.3.2 241133866.4.1 243303586.4.2 244179456.5.1 244107006.5.2 24519671. 24551222. 246312966.6 248282426.7 2501135 254304807 25572817.1 25581777.2 255143917.3 258199731. 25823527(2) 258170992. 25884997.3.2 259160487.3.3 26098047.4.1 261124657.4.2 26324347.4.3 26392207.4.4 266324637.4.5 26825574 27014055 27120230 281193191 296243582 296170892.3 296202022.4 29632552.5 296222473 297118373.1 29711443.2 297131223.3 297327353.4 29717383.5 29712054 29720804.1 29799264.2 298119814.4 29837764.5 298232985 298300455.1 29878305.2 29863945.3 298273475.5 29822235.6 299126915.7 299146976 299155036.1 299155117 299214447.3 299279997.4 299215927.5 3009071 300廣義上講,所有可以將一個(gè)人的聲音,與其他人的聲音區(qū)分開來(lái)的特征,都稱之為“聲紋”實(shí)用的技術(shù)。 年。只不報(bào)》(TheTennessean)1918年10月26日版的一則笑話里:1927年6月13日,美國(guó)《瑟克爾維爾先鋒報(bào)》(TheCirclevilleHerald)刊登了一則短新聞,如圖1.1所示,聲稱一種新型設(shè)備將可以被用來(lái)記錄罪犯的聲音,幫助警方進(jìn)行1935年2月1日,美國(guó)《匹茲堡報(bào)》(ThePittsburghPress)在當(dāng)日的版面上,用較體的技術(shù)細(xì)節(jié)描述,如圖1.2所示。根據(jù)報(bào)紙上的描述,當(dāng)時(shí)的偵探使用示波器記錄的波圖1.1《瑟克爾維爾先鋒報(bào)》1927年6月13圖1.2《匹茲堡報(bào)》1935年2月1對(duì)于聲紋這種新穎的概念,有支持的聲音,自然就會(huì)有反對(duì)的聲音。1936年3月6日,美國(guó)密歇根州的《蘭辛州立期刊》(LansingStateJournal)便在當(dāng)日的報(bào)紙版面刊登在能夠查閱到的專業(yè)科技文獻(xiàn)中,最早關(guān)于聲紋的正式研究,發(fā)表于1962年的《美 中,作者提出了一種基于時(shí)頻而這項(xiàng)發(fā)表于1962年的研究,與之前那些新聞中提到的方法最大的不同之處,便在于閱讀與分析,如圖1.3所示。圖1.3用開源音頻編輯軟件Audacity繪制的波形圖與時(shí)頻譜圖。上半部分為一名成年女性說出中文“你好”一詞的 約時(shí)報(bào)》(TheNewYorkTimes)的專訪。而這家公司的名字,就叫作“聲紋實(shí)驗(yàn)室”。之前提到的發(fā)表于1962年的“聲紋鑒定”論文[2],其最重要的貢獻(xiàn),便在于其提出了利提出。早在1951年的時(shí)候,位于美國(guó)俄克拉何馬州的一家名為KayElectric的公司便開始圖1.4KayElectric公司最早研發(fā)的商用音頻頻譜分析儀器Sona-碼(linearpredictivecoding,LPC)、感知線性預(yù)測(cè)(perceptrallinearpredictive,PLP)、 (power-normalizedcepstralcoefficients,PNCC),等等。這些與聲紋技術(shù)密切相關(guān)的音頻信號(hào)處理技術(shù),將在第2章進(jìn)行詳細(xì)介紹。上,用來(lái)描述聲紋的統(tǒng)計(jì)模型的發(fā)展。1962年的那篇“聲紋鑒定”論文里所描述的方法, 主要分布在4000Hz左右,而另一段時(shí)頻譜的“你”字主要分布在2000Hz左右,那么我們有既然對(duì)人工鑒別法有了直觀的理解,那么我們現(xiàn)在便可以著手設(shè)計(jì)一些最簡(jiǎn)單的計(jì)機(jī)算法。一段時(shí)頻譜,可以被視為一個(gè)FT的二維矩陣,其元素S,t表示在時(shí)刻∈1,,其在頻帶∈1,上的強(qiáng)度。假如我們有兩段這樣的時(shí)頻譜S(1) 與S(2),最簡(jiǎn)單的別法,便是直接計(jì)算兩者之間的差別S(1)S(2)2,或者相關(guān)度o(S(1),S(2))。這個(gè)差別D的數(shù)值越大,或者相關(guān)度ρ的數(shù)值越小,我們?cè)絻A向于認(rèn)為,這兩段時(shí)頻譜來(lái)自不同的說話者。這里需要注意的是,無(wú)論是計(jì)算范數(shù)2還是相關(guān)度o(,),都需要先將二維矩陣S展開為一維向量。 ||S(1)-S(2,k)||。同理,我們 盡管我們?cè)诿枋鲞@種方法的時(shí)候,采用了時(shí)頻譜的二維矩陣S作為音頻特征,但事實(shí)上,(dynamictimewarping,DTW)[4]及矢量量化(vectorquantization,VQ)[5]相結(jié)合。不過噪聲的不同而增加;用20世紀(jì)90年代的磁帶錄音機(jī)錄下音頻,與用當(dāng)代最專業(yè)的錄音棚發(fā)表于1971年的論文6,便對(duì)統(tǒng)計(jì)學(xué)方法在早期聲紋技術(shù)里的應(yīng)用做出了較為詳細(xì)介紹。在這些方法中,最簡(jiǎn)單的一種,便是對(duì)時(shí)頻譜二維矩陣S 的時(shí)間維度進(jìn)行均值計(jì),得到一個(gè)一維的均值向量。這個(gè)向量的每一個(gè)數(shù)值,代表整段語(yǔ)音在對(duì)應(yīng)頻帶的平均強(qiáng)度。有了這個(gè)均值向量之后,我們便可以對(duì)兩段語(yǔ)音計(jì)算其均值向量之間的差值范數(shù),或者相關(guān)度,從而得到更加穩(wěn)定的鑒定結(jié)果。在統(tǒng)計(jì)學(xué)里,高斯混合模型(Gaussianmixturemodel,GMM)絕對(duì)是一個(gè)極為重要在所有將高斯混合模型用于聲紋識(shí)別的研究中,比較著名的是DouglasReynolds等人發(fā)表于1995年的論文[9]。值得注意的是,這篇論文通過高斯混合模型,實(shí)現(xiàn)了較為穩(wěn)健的關(guān)于高斯混合模型及其在聲紋識(shí)別中的應(yīng)用,將在3.3.2識(shí)別準(zhǔn)確率進(jìn)一步提升。在這些改進(jìn)方法中,比較有名的包括DouglasReynolds于2000年提出的高斯混合模型-通用背景模型(GMM-UBM)[10],以及發(fā)表于2006年的高斯混合模型-支持向量機(jī)(GMM-SVM)[11]。筆者會(huì)在3.3.3節(jié)對(duì)這些方法進(jìn)行詳細(xì)的介紹。聯(lián)合因子分析與i-如果將聲紋識(shí)別的1995年至2006年稱為高斯混合模型時(shí)代,那么在那個(gè)時(shí)代對(duì)整個(gè)聲紋領(lǐng)域貢獻(xiàn)最大的人,可能非美國(guó)麻省理工學(xué)院(MIT)的DouglasReynolds莫屬了。而在2007年至2011年這段時(shí)期里,加拿大蒙特利爾計(jì)算機(jī)研究中心(CRIM)的PatrickKenny等人提出的聯(lián)合因子分析(JFA)[12]及i-vector[13]等技術(shù),讓聲紋識(shí)別領(lǐng)域邁上了新 vector方法一經(jīng)提出,便迅速成了業(yè)界的標(biāo)準(zhǔn)技術(shù),被各個(gè)研究機(jī)構(gòu)和企業(yè)單位所采用。關(guān)于這兩種方法,會(huì)在本書的3.3.5節(jié)與3.3.6節(jié)進(jìn)行專門的介紹。 出,并漸漸取代i-vector與之前的幾個(gè)時(shí)期不同,聲紋識(shí)別的深度學(xué)習(xí)時(shí)期并非由少數(shù)幾個(gè)人物或機(jī)構(gòu)所主導(dǎo),而是出現(xiàn)了百家爭(zhēng)鳴的局面。美國(guó)的谷歌公司、約翰斯霍普金斯大學(xué)(),以及國(guó)內(nèi)的百度公司、上海交通大學(xué)等,都成了這一時(shí)期的重量級(jí)選手。而在這些機(jī)構(gòu)中谷歌公司可以算作該時(shí)期的頭號(hào)玩家。谷歌公司不僅在2014 年便率先提出用深度學(xué)習(xí)法進(jìn)行聲紋識(shí)別14,更是在2016年于業(yè)界首先提出了端到端的聲紋識(shí)別系統(tǒng)15,并隨后模型進(jìn)行了改進(jìn),例如2018年發(fā)表的廣義端到端系統(tǒng)16及注意力模型17]等。谷歌公司最將基于深度神經(jīng)網(wǎng)絡(luò)的聲紋表征稱為dvo,以此類比于先前提到的vor方法。而d-vor 中的字母d,便是深度(dp)的意思。因此,在深度學(xué)習(xí)時(shí)代,人們有時(shí)也將有基于深度學(xué)習(xí)的聲紋識(shí)別方法都稱為dvor方法。取得了豐碩的成果,并普遍得到了業(yè)界的認(rèn)可,例如百度的DeepSpeaker系統(tǒng)[18],約翰斯·霍普金斯大學(xué)的x-vector系統(tǒng)[19],以及上海交通大學(xué)的j-vector[20,21]系統(tǒng)等。 ()22,能夠更好地對(duì)數(shù)據(jù)在時(shí)間維度的相關(guān)性進(jìn)行建模,而這一點(diǎn)是傳統(tǒng)模型所現(xiàn)了許多專門為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的算法和硬件,例如圖形處理器()和張量處理器將其作為重點(diǎn)內(nèi)容進(jìn)行詳細(xì)介紹。相關(guān)內(nèi)容請(qǐng)見本書3.4節(jié)。整個(gè)聲紋識(shí)別技術(shù)的發(fā)展史可以用圖1.5圖1.52011年10月4日,美國(guó)加利福尼亞州蘋果公司的產(chǎn)品發(fā)布會(huì)上,新上任的首席執(zhí)官mook向大家展示了蘋果公司最新的智能手機(jī)hone4。這款手機(jī)最大的創(chuàng)新之處,就在于其首次搭載了智能語(yǔ)音助手。一經(jīng)發(fā)布,i 便立即吸引了全世界范圍關(guān)注。媒體開始進(jìn)行鋪天蓋地的報(bào)導(dǎo),社交媒體上開始瘋狂轉(zhuǎn)發(fā)各種關(guān)于如何調(diào)戲i的文章,甚至有人開始危言聳聽地發(fā)布一些關(guān)于人工智能開始逐步控制人類的言論。雖i的發(fā)布是一次商業(yè)行為,但不可否認(rèn),i的背后,凝聚著音頻處理、語(yǔ)音識(shí)別和自然語(yǔ)言處理等多個(gè)領(lǐng)域數(shù)十年的研究成果。而i的出現(xiàn),讓這些領(lǐng)域首次受到人們前未有的重視。Siri2014年,美國(guó)亞馬遜公司開發(fā)的智能音箱ho橫空出世。雖然ho智能音箱搭載的智能語(yǔ)音助手與蘋果的i新的應(yīng)用場(chǎng)景——關(guān)鍵詞x,便能隨時(shí)與語(yǔ)音助手進(jìn)行交互。即便用戶此時(shí)正在做飯,手上拿著菜刀與食材,也絲毫不影響用戶同時(shí)享受智能音箱的體驗(yàn)。亞馬遜的智能音箱讓諸多國(guó)內(nèi)外企業(yè)看到了商機(jī)。2015年,京東與科大訊飛合作開發(fā)了智能音箱叮咚。2016年,谷歌發(fā)布搭載了谷歌助手GoogleAssistant的智能音箱GoogleHome。2017年,蘋果推出自家的智能音箱HomePod,如圖1.6所示。同年,阿里巴巴人工智能實(shí)驗(yàn)室發(fā)布智能音箱天貓精靈,小米發(fā)布小米AI音箱,百度發(fā)布智能音箱RavenH,喜馬拉雅發(fā)布小雅AI音箱。圖1.6智能音箱產(chǎn)品外形圖。從左至右分別為谷歌GoogleHome、亞馬遜Echo、蘋果而谷歌公司在聲紋領(lǐng)域的領(lǐng)軍地位,除了其率先發(fā)表的關(guān)于d-vector技術(shù)的多篇論喚醒詞“OKGoogle”部署到了安卓手機(jī)操作系統(tǒng)上,使得用戶能夠選擇通過喚醒詞的聲紋來(lái)解鎖手機(jī)。2017年,谷歌率先將基于喚醒詞的文本相關(guān)的聲紋識(shí)別技術(shù)部署到了智能音箱GoogleHome上,使得用戶能夠與智能語(yǔ)音助手進(jìn)行個(gè)性化的語(yǔ)音交互,例如詢問“我今天的行程是什么”,或者請(qǐng)求“播放我的健身歌單”,等等[23]。2018年,谷歌又將文本無(wú)關(guān)的聲紋識(shí)別技術(shù)部署到了GoogleHome上,用于進(jìn)一步擴(kuò)充應(yīng)用場(chǎng)景,以及提升聲紋識(shí)別的準(zhǔn)確率。2020年,谷歌將聲紋識(shí)別技術(shù)部署到了包括Sonos和Bose書,英語(yǔ)水平較高的讀者可以閱讀《人類與機(jī)器聽覺》[27]與《語(yǔ)音與語(yǔ)言處理》[28]的英文聲帶(vocalfolds)。聲帶屬于人體的呼吸系統(tǒng),是位于喉部的兩瓣左右對(duì)稱的膜狀結(jié)構(gòu),長(zhǎng)度一般為10至14毫米。人們通過聲帶肌肉來(lái)控制聲帶的張力,從而發(fā)出不同頻率更低。人體聲帶的喉鏡視圖如圖2.1所示。圖2.1人體聲帶的喉鏡視圖。圖片來(lái)自維基百科“聲帶” 這里t表示時(shí)間,f被稱為頻率,A被稱為振幅,2πft+φ被稱為相位,φ被稱為初始相出,周期為頻率f的倒數(shù)通常簡(jiǎn)寫為Hz。在圖2.2中,我們畫出一個(gè)頻率為5Hz,振幅為1的正弦波的波形。圖2.2頻率為5Hz,振幅為1,初始相位為0 頻率通常用希臘字母ω表示,其定義為定理1關(guān)于傅里葉變化的具體細(xì)節(jié),本節(jié)就不介紹了,有興趣的讀者可以參考信號(hào)與系統(tǒng)課程的教材。在圖2.3的例子。圖2.3由兩個(gè)正弦波疊加而成的波形。第一個(gè)正弦波頻率為5Hz,振幅為2;第二個(gè)正弦波頻率為50Hz,振幅為(spectrum)圖。圖2.3所示的波形,因?yàn)槠鋬H由兩個(gè)正弦波組成,所以其頻譜只在5Hz和50Hz處有兩個(gè)沖擊信號(hào),而在其他頻率處都為0。其對(duì)應(yīng)的頻譜圖如圖2.4所示。在實(shí)
圖2.4圖2.3我們都知道,電磁波按照其波長(zhǎng)或頻率,可以分為紅外線、可見光、紫外線等,人可以看見的可見光只是電磁波譜中的一部分。聲音也一樣,人耳只能感受到頻率在20z和20000z之間的聲音。而隨著人年齡的增長(zhǎng),這個(gè)上限還會(huì)降低,因此誕生了蚊音的概念。蚊音是指大概25 歲以下的青少年能夠聽見,而年齡較大的人無(wú)法聽見的高頻率音。低于20z的聲波,被稱為次聲波;而高于20000z的聲波,被稱為超聲波。(fundamentalfrequency)?;l通常被表示為F0如何理解基頻的概念呢?以圖2.3中的信號(hào)為例,該信號(hào)是一個(gè)周期信號(hào),由一個(gè)5Hz的正弦波和一個(gè)50Hz的正弦波疊加而成。因此,這個(gè)周期信號(hào)自身的頻率為5Hz,這個(gè)信號(hào)的基頻F0也就等于5Hz。對(duì)語(yǔ)音信號(hào)而言,基頻通常對(duì)應(yīng)的是說話的人在說話時(shí),理解基音軌跡的一個(gè)簡(jiǎn)單的例子,便是漢語(yǔ)拼音的聲調(diào)。漢語(yǔ)拼音的陰平(要理解聲強(qiáng),則需要先理解信號(hào)的功率(power)。假如周期為T那么其功率P 音的最小功率為P,那么聲強(qiáng)L 有時(shí),聲強(qiáng)也通過聲音所產(chǎn)生的氣壓(也稱為聲壓)來(lái)定義:這里prms是聲壓的均方 舌位有關(guān)。簡(jiǎn)單來(lái)講,F(xiàn)1取決于元音舌位的“高低”,而F2取決于元音舌位的“前后”。2.5在頻譜圖中給出了共振峰F1與F2圖2.5頻譜圖中的共振峰F1與靠毛細(xì)胞(haircells)將機(jī)械振動(dòng)(耳蝸中的流體速度變化)轉(zhuǎn)變?yōu)殡娦盘?hào)。耳蝸中不同巴克刻度(Barkscale)是由德國(guó)聲學(xué)家EberhardZwicker提出的一種心理聲學(xué)的尺度,用以描述人耳對(duì)于頻率感知的非線性。巴克刻度以德國(guó)物理學(xué)家Barkhausen名。這個(gè)刻度將人耳可以聽見的頻率范圍劃分成24個(gè)頻率群,或者說24個(gè)巴克。每一個(gè)頻率群由其中心頻率、截止頻率和帶寬確定。巴克刻度與頻率的關(guān)系圖如圖2.6所示。圖2.6舉例說明,考慮頻率1000Hz與2000Hz之間的距離,以及2000Hz與3000Hz之間的距離。1000Hz與2000Hz之間的差距更大,而2000Hz與3000Hz之間的差距則相對(duì)較小。但是,在巴克刻度上不會(huì)存在這個(gè)問題。比如9巴克與13巴克之間,以及13巴克與17巴克之間,都相差了4巴克,而人的聽覺系統(tǒng)也認(rèn)為這兩個(gè)差距是大致相同的。 性,在500Hz以上時(shí)接近對(duì)數(shù)函數(shù),因此常使用以下近似計(jì)算法:這里fband)分析[34],詳見2.5.4節(jié)。與巴克刻度類似,梅爾刻度(melscale)也是用以描述人耳對(duì)于頻率感知的非線性的同的頻率,它們對(duì)應(yīng)的梅爾值也一定是不同的。相比之下,巴克刻度因?yàn)橹挥?4個(gè)頻率頻率f與梅爾m我們將式(2.10)繪制出來(lái),如圖2.7對(duì)比圖2.6與圖2.7可以發(fā)現(xiàn),這兩個(gè)圖的刻度變化規(guī)律及總體趨勢(shì)其實(shí)有些相似,只頻率與梅爾之間的換算以1000Hz為參考點(diǎn)。也就是說,f=1000Hz時(shí),m=1000mel。倒譜系數(shù)特征[35],詳見2.5.5節(jié)。圖2.7矩形帶寬(equivalentrectangularbandwidth,ERB)的ERB刻度[36]:以及Greenwood提出的基于耳蝸內(nèi)部感知不同頻率的具體部位的坐標(biāo)的刻度[37]進(jìn)行可視化。例如,跨平臺(tái)的開源音頻編輯軟件Audacity就提供了如圖2.8所示的多種頻率變換刻度選項(xiàng)。在圖2.9中同時(shí)繪制出同一段音頻在不同頻率刻度下的可視化效果。圖2.8開源音頻編輯軟件Audacity圖2.9同一段音頻在不同頻率刻度下的可視化效果。從上往下依次為:線性、梅爾刻度、(連續(xù)的)巴克刻度,以及ERB刻度[35]中,采用對(duì)數(shù)函數(shù);而感知線性編碼特征[34]性,所以被稱為模擬信號(hào)(analogsignal)。例如,圖2.10描述了電容式麥克風(fēng)的工作原理。電容器件的薄膜受到聲波的驅(qū)動(dòng)而產(chǎn)圖2.10常見的音頻設(shè)備接口有三種:TS、TRS和TRRS。這里的T表示尖端(tip),R表示環(huán)(ring),S表示套(sleeve),其具體外觀如圖2.11所示。圖2.11三種音頻設(shè)備接口TS、TRS和TRRSTS接口只有兩個(gè)觸點(diǎn),用來(lái)傳遞單聲道音頻信號(hào),其中一個(gè)觸點(diǎn)為接地,另一個(gè)為單聲道音頻。TRS接口有三個(gè)觸點(diǎn),用來(lái)傳遞立體聲信號(hào),其三個(gè)觸點(diǎn)從上到下分別為左聲道、右聲道和接地。而TRRS用來(lái)同時(shí)傳遞立體聲信號(hào)和麥克風(fēng)信號(hào),其四個(gè)觸點(diǎn)從上到下的順序,按照不同的協(xié)議有所不同。其中CTIA協(xié)議的順序?yàn)樽舐暤?、右聲道、接地和麥克風(fēng)信號(hào);而OMTP協(xié)議的順序?yàn)樽舐暤?、右聲道、麥克風(fēng)和接地。幾種音頻設(shè)備接口的連接順序如圖2.12所示。圖2.12由于TRRS接口有CTIA和OMTP等多種不同的協(xié)議存在,導(dǎo)致了不同協(xié)議之間的不記本電腦,以及部分安卓手機(jī)等,通常采用CTIA協(xié)議;早期的諾基亞手機(jī)和部分早期的安卓手機(jī),則采用OMTP協(xié)議。音頻接口的尺寸,按照其直徑,也分為好幾類,其中比較常見的有6.35毫米、3.5毫米及2.5毫米。我們平時(shí)所使用的計(jì)算機(jī)、手機(jī)等設(shè)備,其音頻接口通常都是3.5實(shí)踐1我們需要測(cè)試某個(gè)設(shè)備上的音頻處理程序,以手機(jī)應(yīng)用為例,該程序先從設(shè)備的麥克風(fēng)接口TRRS接口的連接線),以及導(dǎo)線若干,然后將播放設(shè)備端的音頻信號(hào)通過導(dǎo)線焊接,連熟悉焊接的讀者可以通過兩臺(tái)手機(jī)來(lái)完成上述實(shí)驗(yàn),如圖2.13所示。圖中播放設(shè)備與錄音設(shè)備的 接口的接地觸點(diǎn)通過導(dǎo)線焊接連接在了一起;而播放設(shè)備的左聲道圖2.13從播放設(shè)備到錄音設(shè)備的無(wú)失真音頻傳輸。這里假設(shè)TRRS接口采用CTIA 率,便是采樣率(samplingrate),單位為赫茲,表示每秒鐘內(nèi)所取得的采樣的個(gè)數(shù)。率信息,也不可能重建原始信號(hào)。圖2.14所示為每種情況的具體示例。因此,我們得到這定理2這個(gè)頻率被稱為奈奎斯特頻率(Nyquistfrequency)在語(yǔ)音信號(hào)中,絕大部分信息在10000Hz以下,所以通常20000Hz的采樣率足以保留8000Hz的采樣率。這種采樣率可以在很多以電話通信內(nèi)容為主的語(yǔ)音數(shù)據(jù)集中見到,例如有名的Switchboard數(shù)據(jù)集[38]。如果去聽這些采用8000Hz采樣率存儲(chǔ)的語(yǔ)音,則能明顯隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展,16000Hz的采樣率開始得到廣泛的應(yīng)用,例如互聯(lián)網(wǎng)電話等一般都采用16000Hz的寬帶頻率。使用16000Hz采樣率存儲(chǔ)的音頻,已經(jīng)能夠非常好地保激光唱片(CD)通常采用44100Hz的采樣率。有時(shí)人們提到的CD音質(zhì),指的就是其DVD光盤,96000Hz甚至更高采樣率的藍(lán)光光盤和高清DVD光盤等,我們就不一一詳述圖2.14正弦信號(hào)不同采樣率的效果。從上到下分別為:頻率為20Hz的正弦信號(hào);對(duì)信號(hào)采用40Hz采樣率所獲取的離散信號(hào);對(duì)信號(hào)采用120Hz采樣率所獲取的離散信號(hào);對(duì)信號(hào)采用25Hz采樣率所獲取的離散信號(hào)量化的具體方式有很多種,按照其精度可以分為8位量化、16位量化、32位量化化。例如,如果采用8位有符號(hào)量化,那么量化之后的整數(shù)取值范圍便是-128至127早期的電話網(wǎng)絡(luò),通常采用8000Hz采樣和8位量化。而后來(lái)的網(wǎng)絡(luò)電話,則一般采用16000Hz采樣和16位量化。方法,稱為脈沖編碼調(diào)制(pulse-codemodulation,PCM)。(linearPCM)。換句話說,對(duì)于線性脈沖編碼,量化的精度在信號(hào)的取值范圍內(nèi)是一致2.2.5 信號(hào)采用較高的精度,而對(duì)高振幅的信號(hào)采用較低的精度。這種編碼通常稱為非線性脈沖編碼。函數(shù)進(jìn)行逆變換。最常用的兩種非線性脈沖編碼為μ-law變換與A-law變換。假設(shè)原始信號(hào)為x∈[-1.0,1.0],μ-law這里sgn(·)為符號(hào)函數(shù),也就是其對(duì)正數(shù)取1,對(duì)負(fù)數(shù)取-1,對(duì)0取0。對(duì)于8位編碼來(lái)說,我們可以取μ=255。值得注意的是,在{0,-1,1}這三個(gè)點(diǎn)上,μ-law變換滿足A-law變換的公式為這里的A稱作壓縮系數(shù),歐洲通常取值A(chǔ)=87.6μ-law一般在北美和日本使用,而A-law一般在中國(guó)和歐洲使用。我們將兩種非線性變換的圖像繪制出來(lái),如圖2.15圖 μ-law變換、A-law變換,以及線性函數(shù)之間的對(duì)比。圖中的函數(shù)采用μ=255和A=87.6的取對(duì)于這個(gè)問題,一個(gè)簡(jiǎn)單的解決方案是采用自適應(yīng)脈沖編碼(adaptivePCM)。這種然后將這一段信號(hào)除以其短時(shí)能量進(jìn)行正則化,再進(jìn)行標(biāo)準(zhǔn)的PCM量化。我們之前提到的量化編碼技術(shù)都是對(duì)采樣后得到的信號(hào)x[n直接進(jìn)行量化編碼??紤](differencePCM)式(2.14)x[n-合,這類方法有著更為通用的名稱——線性預(yù)測(cè)編碼(linearpredictivecoding,LPC):這里[n]表示用前p個(gè)信號(hào)值預(yù)測(cè)x[n]的預(yù)測(cè)值,e[n]為預(yù)測(cè)誤差,p稱為預(yù)測(cè)階數(shù),而{ai}稱為預(yù)測(cè)系數(shù)。顯然,式(2.14)是式(2.15)當(dāng)p=1且a1=1時(shí)的特殊情況。對(duì)于線性預(yù)測(cè)編碼來(lái)說,預(yù)測(cè)階數(shù)p越高,預(yù)測(cè)誤差e[n]便越小,越能夠用更小的編此外,類似于“自適應(yīng)脈沖編碼一節(jié)提到的思想,我們不必對(duì)整段信號(hào)采用同一組預(yù)測(cè)系數(shù)a}。我們可以將信號(hào)分割為很多短時(shí)片段,在每個(gè)片段里自適應(yīng)地估算一組最佳的預(yù)測(cè)系數(shù)a},使這段信號(hào)的預(yù)測(cè)誤差[n最小,以進(jìn)一步降低編碼速率。此外,我們對(duì)en]進(jìn)行量化的時(shí)候,也可以采用自適應(yīng)的量化技術(shù)。結(jié)合這兩種做法之后,我們將這種編碼稱為自適應(yīng)差分脈沖編碼(dpvedne,)。自適應(yīng)差分脈沖編碼已經(jīng)形成了國(guó)際標(biāo)準(zhǔn),詳見國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門()所制定的.726標(biāo)準(zhǔn)。增量調(diào)制(deltamodulation)。增量調(diào)制的關(guān)鍵在于選取一個(gè)量化閾值Δ:當(dāng)e[n]>Δ時(shí),量化為0;當(dāng)e[n]<-Δ時(shí),量化為1;其余情況下讓0和1交替出現(xiàn)。增量調(diào)制的Δ值可以隨時(shí)間自適應(yīng)地選取,這種方法稱為自適應(yīng)增量調(diào)制(adaptivedeltamodulation)。子帶編碼(sub-bandcoding,SBC)是一種頻域編碼方法。這種方法先將信號(hào)分割成自適應(yīng)變換域編碼(adaptivetransformcoding,ATC)也是一種頻域編碼方法。這種(discretecosinetransform,DCT)。著名的MP3(全稱為MPEG-1AudioLayerIII)格式就用到了改進(jìn)的離散余弦變換(modifieddiscretecosinetransform,MDCT)進(jìn)行音頻編WAVWAV格式的文件了。因此,本節(jié)將對(duì)WAV格式進(jìn)行單獨(dú)介紹。WAV格式是由微軟和IBM于1991年提出的資源交換文件格式(resourceinterchangefileformat,RIFF)的一個(gè)應(yīng)用實(shí)例。RIFF的其他實(shí)例包括音視頻格式AVI、圖形動(dòng)畫格式ANI等。RIFF文件通常由一個(gè)表頭(header)及多個(gè)區(qū)塊(chunk)組成。WAV文件的表頭采用32位正整數(shù)表示整個(gè)文件的大小,所以WAV文件的大小不能超過4GB。WAV文件在表頭之后的第一個(gè)區(qū)塊記錄了音頻的信息,從第二個(gè)區(qū)塊開始才是真正WAV文件支持各種編碼格式,包括線性脈沖編碼、非線性脈沖編碼、自適應(yīng)差分脈沖編碼等。而16位采樣精度的線性脈沖編碼則是WAV文件最常用的編碼格式。值得注意的是,WAV文件可以包含多個(gè)聲道的信息。對(duì)于線性脈沖編碼的多聲道數(shù)頻,先存儲(chǔ)左聲道的第1個(gè)采樣值,再存儲(chǔ)右聲道的第1個(gè)采樣值,接著是左聲道的第2個(gè)采樣值,然后是右聲道的第2個(gè)采樣值,依此類推。還需要注意的是,WAV是一種文件格式,對(duì)應(yīng).wav的文件后綴名,但并不是一種具體的編碼格式。盡管絕大多數(shù)WAV文件采用無(wú)壓縮的線性脈沖編碼,但事實(shí)上,WAV除了微軟與IBM的WAV格式,蘋果公司也有一套自己的格式,其中音頻交換文件格式(audiointerchangefileformat,AIFF)通常采用線性脈沖編碼,對(duì)應(yīng).aiff或.aif的文件后綴名;而AIFC格式則采用壓縮編碼器,對(duì)應(yīng).aifc的文件后綴名。我們平常所聽的音樂通常為MP3縮的音頻編碼格式。MP3編碼采用了許多復(fù)雜的技術(shù),包括改進(jìn)的離散余弦變換,以及MP3格式主要應(yīng)用在音樂產(chǎn)業(yè)中,因此它不是本書的重點(diǎn)關(guān)注對(duì)象。除了MP3,其他有損壓縮編碼包括高級(jí)音頻編碼(AdvancedAudioCoding,AAC)、Opus等,但它們都沒有MP3那么普及。在語(yǔ)音領(lǐng)域,除了WAV格式,另一常用的格式為FLAC,其全稱為自由無(wú)損音頻壓縮編碼(freelosslessaudiocodec)。這里的重點(diǎn)在于其采用的是一種無(wú)損壓縮編碼,因此其比線性脈沖編碼高效的同時(shí),也不會(huì)像MP3那樣丟失音頻中的信息。此外,F(xiàn)LAC是自由軟件,因此很多公司愿意采用(不必?fù)?dān)心專利糾紛)。FLAC編碼涉及很多技術(shù),包括發(fā)表于1994年的名為SHORTEN的音頻壓縮技術(shù)[39]等。在科研過程中,可能經(jīng)常需要與美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(NationalInstituteofStandardsandTechnology,NIST)發(fā)布的一些標(biāo)準(zhǔn)數(shù)據(jù)集打交道。這些數(shù)據(jù)集經(jīng)常采用一種名為SPHERE的音頻格式,對(duì)應(yīng)的文件后綴名為.sph。SPHERE格式采用線性脈沖編碼,采樣率為16000Hz,其文件表頭為1024字節(jié)的ASCII文本,存儲(chǔ)了類似于WAV格式第一個(gè)區(qū)塊內(nèi)的音頻描述信息。語(yǔ)言數(shù)據(jù)聯(lián)盟LinguisticDataConsortium在其網(wǎng)站上提供了名為sph2pipe的工具,用于將SPHERE格式的文件轉(zhuǎn)換為WAV格式的文件。動(dòng)手實(shí)踐:SoXAudacity等。但有時(shí),我們需要對(duì)多個(gè)文件進(jìn)行批量處理,甚至需要一些額外的判斷、循環(huán)、遞歸邏輯。這時(shí),就會(huì)用到SoX程序,并配合Bash等腳本語(yǔ)言一起使用。SoX的全稱是SoundeXchange,是一個(gè)跨平臺(tái)的音頻處理命令行程序。大多數(shù)Linux發(fā)行版會(huì)自帶SoX。對(duì)于語(yǔ)音領(lǐng)域的工作人員來(lái)說,SoX程序相當(dāng)于一把萬(wàn)能的“瑞士軍刀”,類似于sed程序之于文本編輯的重要性。SoX程序有三個(gè)命令,分別是sox、play和rec。sox命令涵蓋了SoX程序的全部功能,play命令用于從默認(rèn)揚(yáng)聲器設(shè)備播放指定的音頻文件,rec命令則用于從默認(rèn)麥克風(fēng)設(shè)備進(jìn)行錄音。本節(jié)通過舉例介紹一些sox命令的最重要的功能。有時(shí),我們會(huì)通過命令行登錄遠(yuǎn)程Linux服務(wù)器,并在該服務(wù)器上開展工作。假如服時(shí),我們可以使用play命令播放該音頻。例如,以下便是一段在Linux系統(tǒng)中輸入playinput.wav命令后的輸出:RAW轉(zhuǎn)WAV集。這些音頻數(shù)據(jù)為沒有表頭的RAW格式,因此無(wú)法通過播放器播放,或者無(wú)法用一些音頻轉(zhuǎn)換為更友好的WAV格式。假如我們的RAW音頻文件為input.raw,通過閱讀說明文檔得知,該文件只有單個(gè)聲道,采用線性脈沖編碼,采樣精度為16位,采樣率為16000Hz。那么我們便可以用如下命令,將其轉(zhuǎn)換為WAV格式的output.wav文件:這里-c1表示輸入音頻文件只有一個(gè)聲道,-esigned-integer表示其編碼(encoding)為有符號(hào)整數(shù)的線性脈沖編碼,-b16表示每個(gè)采樣值為16位(bit),-r16000表示采樣率為16000Hz。最后的remix1表示輸出文件只有一個(gè)聲道(因?yàn)閞emix后面只有一個(gè)數(shù) 該出現(xiàn)在輸出文件名的后面。我們?cè)賮?lái)看看remix的更多用法。remix21表示輸出文件有兩個(gè)聲道(因?yàn)閞emix后面有兩個(gè)數(shù)字),其第一個(gè)聲道為注意,這里-r8000在輸入音頻的文件名之后,在輸出音頻的文件名之前,表示這個(gè)還可以用SoX程序改變文件的編碼格式。假如我們有一個(gè)16位線性脈沖編碼的音頻文件input.wav,可以用以下命令將其轉(zhuǎn)換為μ-law編碼,從而使其文件大小減半:還可以用輸出文件的后綴名來(lái)指定編碼,例如,可以用以下命令輸出FLAC編碼的文sox命令的功能遠(yuǎn)不止本節(jié)提到的這些。關(guān)于更多功能,請(qǐng)參考其官方網(wǎng)站上的具體使用手冊(cè),或者在Linux系統(tǒng)下直接用mansox或sox--help命令查看??偟膩?lái)說,sox的此外,有時(shí)會(huì)碰到一些SoX不支持的音頻格式,如MP4格式等。此時(shí),需要將SoX和FFmpeg等其他工具結(jié)合起來(lái)使用。例如以下命令便可以將MP4格式的音頻文件input.mp4轉(zhuǎn)換為WAV格式的文件:裁剪(例如T手寫數(shù)字識(shí)別40]或者R41]數(shù)據(jù)集)。在更多情況下,特征是基于圖像的局部區(qū)域,例如尺度不變特征轉(zhuǎn)換()42、局部二值模式()43、加速穩(wěn)健特征()44]等,甚至目前使用最多的卷積神經(jīng)網(wǎng)絡(luò)45,其卷積核本質(zhì)上也是一個(gè)局部的特征提取器。我們應(yīng)該避免的。通常,我們可以假定語(yǔ)音信號(hào)在10至30毫秒的范圍內(nèi)是較為平穩(wěn)的,一組在業(yè)界比較常見的分幀設(shè)置,是采用25毫秒的幀長(zhǎng)度,以及10毫秒的幀間隔。在這個(gè)設(shè)定下,假如音頻采樣率為16000Hz,我們對(duì)每一幀提取40維的特征。那么考慮一段長(zhǎng)度為一秒的音頻,其本身有16000個(gè)采樣點(diǎn),而經(jīng)過分幀之后再提取特征,將得到100×40=4000個(gè)特征,需要處理的數(shù)據(jù)量減少了75%。稱為頻譜泄漏(spectralleakage)。的權(quán)重。而不同的窗函數(shù)(windowfunction),對(duì)應(yīng)著不同的權(quán)重設(shè)計(jì)思路。(Hanningwindow)及漢明窗(Hammingwindow)對(duì)于長(zhǎng)度為N的離散信號(hào)x[n],0≤n≤N-1,這兩種窗函數(shù)所對(duì)應(yīng)的權(quán)重w[n]可以統(tǒng)一當(dāng)α=0.5時(shí),以上函數(shù)稱為漢寧窗;當(dāng)α=0.46時(shí),以上函數(shù)稱為漢明窗。N=1000時(shí)的漢明窗與漢寧窗的形狀如圖2.16所示。圖 N=1000時(shí)的漢明窗與漢寧窗的形度)圖2.17無(wú)加窗及采用漢寧窗、漢明窗之后的音頻幀及其對(duì)應(yīng)的離散傅里葉變換頻譜(音頻幀的橫坐標(biāo)為音頻采模型,可能效果不如每次將連續(xù)的4幀特征同時(shí)輸入模型。這是因?yàn)?,連續(xù)多幀的特征組別系統(tǒng)來(lái)說,2幀的上下文已經(jīng)足夠;而對(duì)于語(yǔ)音檢測(cè),可能1幀就夠了。將相鄰幀的特征拼接起來(lái)合成一個(gè)新的幀的做法,稱為幀疊加(framestacking)。在減小計(jì)算量,這種做法常被稱為幀采樣(framesubsampling)在圖2.18中,我們給出幀疊加與幀采樣的示意圖。在該圖中,幀疊加的寬度為2,每接,需要進(jìn)行一些特殊處理(圖2.18中以問號(hào)表示的幀),這時(shí)一般有如下做法:圖2.18幀疊加與幀采樣示意圖。原始的7幀在進(jìn)行疊加和采樣后,得到4個(gè)維度為原始幀兩倍的新幀。圖中問號(hào)采用所有元素全為0的空白幀。盡管這是最簡(jiǎn)單的一種做法,但是這么做也會(huì)帶來(lái)一定程度的風(fēng)險(xiǎn),尤其是當(dāng)大部分幀的數(shù)值范圍與0相差較遠(yuǎn)時(shí),引入非自然的空白音檢測(cè)、語(yǔ)音識(shí)別及聲紋識(shí)別等高級(jí)任務(wù)。圖2.19給出了以上處理步驟的大致流程示意
圖2.19音頻信號(hào)的特征一般分為時(shí)域特征與頻域特征兩大類:前者直接對(duì)以時(shí)間為自變量目前大部分實(shí)用系統(tǒng)都采用頻域特征,因此本節(jié)只對(duì)時(shí)域特征進(jìn)行簡(jiǎn)單的介紹。對(duì)于經(jīng)過分幀、加窗處理后的長(zhǎng)度為N的音頻幀x[n],0n≤N-1,其短時(shí)能量可簡(jiǎn)單線y=0 可以看到,短時(shí)自相關(guān)函數(shù)得到的特征不再是單一的數(shù)值,而是根據(jù)一組k的值而產(chǎn)生的一組特征。短時(shí)自相關(guān)函數(shù)特征包含了與信號(hào)周期有關(guān)的重要信息。當(dāng)k為周期的倍短時(shí)平均幅度差函數(shù)表示短時(shí)信號(hào)在延遲k個(gè)采樣后,與原信號(hào)的差值。由此可見,k值,可以得到一組特征。但相比之下,短時(shí)平均幅度差函數(shù)無(wú)須進(jìn)行乘法運(yùn)算,因此其 采樣值的線性組合來(lái)預(yù)測(cè)。在統(tǒng)計(jì)學(xué)中,這種方法被稱為自回歸(uogve,)的輸出,而該系統(tǒng)在Z變換域的傳遞函數(shù)為全極點(diǎn)函數(shù)。對(duì)自回歸模型或讀者,可以進(jìn)一步閱讀統(tǒng)計(jì)學(xué)或者信號(hào)與系統(tǒng)的教材進(jìn)行深入了解。對(duì)于分幀、加窗處理后的短時(shí)信號(hào)x[n],0n≤N-1而言,一個(gè)p階的線性預(yù)測(cè)編碼可 [n]表示用前p個(gè)信號(hào)值預(yù)測(cè)x[n]得到的預(yù)測(cè)值,e[n]為預(yù)測(cè)的誤差,p稱為預(yù)測(cè)階數(shù)。而預(yù)測(cè)系數(shù){a}則可以作為該音頻幀的一組特征。 e[n]=0。這樣便能得到一個(gè)以{a}為變量的線性方程組,該方程組包含了總共N-p個(gè)方程。只要解開該方程組,便能得到{a}的估算值。由于方程組中等式的數(shù)量N-p一般遠(yuǎn)大于變 在計(jì)算出{a}之后,我們還可以通過{a (linearpredictivecepstralcoefficient,LPCC)[47]的頻域特征{C}法國(guó)學(xué)者約瑟夫·傅里葉所提出的傅里葉變換(Fouriertransform),不僅是所有信號(hào)同的傅里葉分析方法,如表2.1所示。人們?cè)谔崞稹案道锶~變換”一詞時(shí),有時(shí)特指非周期連續(xù)信號(hào)的連續(xù)傅里葉變換,有時(shí)泛指表2.1中的所有分析方法。表2.1 transform,DFT)計(jì)算頻域特征。對(duì)于長(zhǎng)度為N的信號(hào)x[n],0≤n≤N-1,離散傅里葉變換這里i是虛數(shù)單位。由此可見,實(shí)數(shù)信號(hào)x在經(jīng)過離散傅里葉變換之后,得到的我們可以對(duì)頻譜取其幅值,這樣便得到N個(gè)頻譜幅值特征。頻譜幅值特征后面將要提到的PLP及MFCC特征等。有時(shí)我們用F表示式(2.26)對(duì)于長(zhǎng)度為N的信號(hào),從式(2.26)中很容易看出,計(jì)算其離散傅里葉變換的時(shí)間復(fù)(fastFouriertransform,F(xiàn)FT)是一種能夠以O(shè)(NlogN)的時(shí)間復(fù)雜度計(jì)算出離散傅里為廣泛的應(yīng)用,并非常容易用硬件來(lái)實(shí)現(xiàn),因此快速傅里葉變換被IEEE科學(xué)與工程計(jì)算期刊列為20世紀(jì)十大算法之一。得注意的是,許多快速傅里葉變換的實(shí)現(xiàn)要求信號(hào)的長(zhǎng)度為2的整數(shù)次冪。如果信號(hào)長(zhǎng)度N不是2的整數(shù)次冪,則這時(shí)的一個(gè)常見做法是在信號(hào)的后面補(bǔ)零,將其長(zhǎng)度湊成最接近的2的整數(shù)次冪。例如,假設(shè)我們的信號(hào)采樣率為16000Hz,分幀后每幀長(zhǎng)度為25毫秒。這時(shí),我們的每一個(gè)音頻幀包含400個(gè)采樣值。400不是2112個(gè)零,使其長(zhǎng)度為512,再運(yùn)行N=512的快速傅里葉變換。在補(bǔ)零之前,我們的音頻動(dòng)手實(shí)踐:短時(shí)傅里葉變換與實(shí)踐2給定一個(gè)WAV在該實(shí)踐中,主要通過Python語(yǔ)言的科學(xué)計(jì)算庫(kù)SciPy和可視化工具庫(kù)Matplotlib來(lái)完首先,音頻文件的讀取可以用SciPy中的wavfile這里filename為需要讀取的WAV文件名,rate為音頻采樣率,data為讀取后的波形在計(jì)算時(shí)頻譜時(shí),通常會(huì)采用短時(shí)傅里葉變換(short-timeFouriertransform,STFT)這三個(gè)單獨(dú)的步驟作為一個(gè)整體步驟。這里以SciPy中的STFT實(shí)現(xiàn)為例進(jìn)行說明。SciPy中STFT的調(diào)用方式為:采樣率為16000Hz(前一步WAV文件讀取后得到的rate),幀長(zhǎng)度為25毫秒,幀間隔為10毫秒,窗函數(shù)采用漢寧窗。這里x為輸入音頻的采樣信號(hào),應(yīng)該包含16000個(gè)采樣值,也就是前一步WAV文件讀取后得到的data;fs為采樣率,應(yīng)該設(shè)置為16000.0;window表示窗函數(shù)的選擇,設(shè)置為'hann',表示漢寧窗;nperseg表示一幀的采樣個(gè)數(shù),由采樣率乘 可,因此return_onesided取真。調(diào)用函數(shù)后,得到的Zxx便是時(shí)頻譜,其大小為201×101。這里的201是頻率,因?yàn)槊繋琋=400個(gè)實(shí)數(shù)采樣值,所以取單邊頻譜后為N/2+1=201;這里的101是時(shí)間,表示一共有101幀??梢暬娜蝿?wù)可以通過Matplotlib中的pyplot模塊完成。音頻波形x的繪制可以通過 pyplot.pcolormesh方法。將信號(hào)x與對(duì)應(yīng)的Zxx的幅值繪制出來(lái),如圖2.20所示。圖2.20一段長(zhǎng)度為1秒,采樣率為16000Hz此外,SciPy提供了逆短時(shí)傅里葉變換(inverseshort-timeFouriertransform,ISTFT) 時(shí)頻譜是指信號(hào)經(jīng)過短時(shí)傅里葉變換后,得到的以時(shí)間為橫軸、頻率為縱軸、顏色或灰度表示幅度的圖像。1.2 節(jié)提到的最早的聲紋識(shí)別技術(shù)就是基于時(shí)頻譜的。圖2.20方的圖像也是時(shí)頻譜。(powerspectrum)。這里要注意,功率譜與功率譜密度(powerspectraldensity)的概念以上這些與頻譜相關(guān)的概念相互之間非常容易混淆,因此需要注意區(qū)別。表2.2中列表2.2感知線性預(yù)測(cè)(perceptuallinearprediction,PLP)[34]最早發(fā)表于1990年。憑借其對(duì)人都構(gòu)建在PLP特征的基礎(chǔ)之上。本節(jié)對(duì)PLP特征的計(jì)算過程進(jìn)行簡(jiǎn)要的介紹:對(duì)輸入信號(hào)進(jìn)行分幀與加窗處理。原始論文中建議使用20毫秒的幀長(zhǎng)度及漢明對(duì)每一幀信號(hào)進(jìn)行快速傅里葉變換。如果信號(hào)幀長(zhǎng)度不是2的整數(shù)次冪,則進(jìn)通過等響度曲線(equal-loudnesscurve)預(yù)加重前一步得到的結(jié)果,從而校正人用冪函數(shù)y=x1/3對(duì)前面得到的特征進(jìn)行逆離散傅里葉變換(inversediscreteFouriertransform,這里我們看到,PLP特征非常注重對(duì)人耳聽覺的模擬,包括巴克刻度、臨界頻帶、等PLP被提出之后,又出現(xiàn)了一些后繼改進(jìn)特征,其中比較有名的是基于帶通濾波和均值消減(meansubtraction)的RASTA-PLP特征[51]。梅爾倒譜系數(shù)(mel-frequencycepstralcoefficients,MFCC)[35]算是語(yǔ)音領(lǐng)域最常用的特征了。無(wú)論是語(yǔ)音識(shí)別還是聲紋識(shí)別,MFCC都有極為廣泛的應(yīng)用,幾乎已經(jīng)成為業(yè)界標(biāo)準(zhǔn)。MFCC的設(shè)計(jì)思路與前面提到的感知線性預(yù)測(cè)有許多相似之處。本節(jié)簡(jiǎn)要介紹MFCC的計(jì)算過程:式y(tǒng)[n]=x[n]-αx[n-1]進(jìn)行處理,其中的0.9α≤1.0是預(yù)加重系數(shù)。注意這一步類似于PLP的前一步得到了12個(gè)倒譜系數(shù),再增加一個(gè)該幀的能量,得到第13個(gè)特征。通過相鄰幀計(jì)算這13個(gè)特征的一階差分及二階差分,最終得到39個(gè)特征。這39個(gè)特征便是最終的MFCC特征。功率正則化倒譜系數(shù)(power-normalizedcepstralcoefficients,PNCC)[52]是于2016年提出的用于替代RASTA-PLP或MFCC的音頻特征。雖然PNCC的知名度遠(yuǎn)不如前兩者,在PNCC的計(jì)算過程中,大部分模塊都與PLP及MFCC十分相似,或者用功能相近的實(shí)現(xiàn)進(jìn)行替代。PNCC的新穎之處在于,增加了短期和中期處理,通過計(jì)算一段時(shí)間內(nèi)的 不同的頻域特征其整體設(shè)計(jì)思路大致相似,但具體實(shí)現(xiàn)方法又有諸多區(qū)別,表2.3中將、C 及C 這三種頻域特征按功能模塊進(jìn)行簡(jiǎn)要對(duì)比,以便讀者記憶和解。表2.3PLP、MFCC及PNCC動(dòng)手實(shí)踐:用LibROSA提取MFCC實(shí)踐3我們?cè)诰W(wǎng)絡(luò)視頻網(wǎng)站YouTube上看到了一段感興趣的視頻。希望通過Python程序和其他工具首先,假設(shè)我們使用Python作為編程語(yǔ)言,這里便需要用到一些Python工具庫(kù),如用以下載YouTube視頻的pytube3,用以分析音頻、提取MFCC等特征的LibROSA,以及可視化工具M(jìn)atplotlib。這些工具可以用Python的軟件包管理系統(tǒng)pip進(jìn)行安裝:有了這些工具后,首先,利用pytube3設(shè)定好相應(yīng)的視頻鏈接my_url,在Python中運(yùn)行以上程序,便能將對(duì)應(yīng)視頻的只包含音頻部分的MP4文件下載到本地計(jì)算機(jī)的/tmp/my_audio.mp4位置。之后,根據(jù)2.3.5節(jié)介紹的方法,用Sox和FFmpeg將該文件轉(zhuǎn)換為單聲道、16000Hz、16位的WAV然后,利用常用的音頻分析工具庫(kù)LibROSA讀取該音頻,并提取MFCC在以上Python程序中,librosa.core.load是用來(lái)加載音頻文件的函數(shù),其參數(shù)sr=None表示保留原始音頻的采樣率,也就是16000Hz;其返回值waveform為波形時(shí)間序列,sample_rate為采樣率。 MFCC特征個(gè)數(shù);hop_length為音頻幀之間的間隔,這里用sample_rate//100表示間隔為10毫秒;win_length為音頻幀的長(zhǎng)度,這里用sample_rate//40表示其長(zhǎng)度為25毫秒;n_fft表示快速傅里葉變換的維度,如果音頻幀中的信號(hào)不足,則補(bǔ)零處理;fmin和fmax表示只MFCC的特征數(shù),也就是40,而第二個(gè)維度為音頻幀的總幀數(shù)。librosa.feature.mfcc函數(shù)還有很多參數(shù)可以調(diào)整,讀者可以自行參考LibROSA的文檔進(jìn)行了解。 術(shù),還是第6章將要介紹的基于聲紋的語(yǔ)音合成、人聲分離及語(yǔ)音活動(dòng)檢測(cè)等,都離不開trained),也可以是聯(lián)合訓(xùn)練(jointtraining)得到的。因此,本章也是本書最重要、最核聲紋識(shí)別,也稱為說話人識(shí)別,在英文中對(duì)應(yīng)若干種說法,例如voicerecognition、speakerrecognition、voiceprintrecognition、talkerrecognition等都是同一個(gè)概念,也就是這里要注意將聲紋識(shí)別與語(yǔ)音識(shí)別(speechrecognition)技術(shù)進(jìn)行區(qū)分。語(yǔ)音識(shí)別是1.1節(jié)就提到過,每個(gè)人的發(fā)音器官(包括聲帶、聲道等)的大小與形狀有所差異,verification)及聲紋辨認(rèn)(speakeridentification或speakermatching)。聲紋驗(yàn)證技術(shù)需要由目標(biāo)說話人(targetspeaker)事先提供音頻樣本,通過特定的算稱為聲紋錄入(voiceenrollment)或聲紋注冊(cè)(voiceregistration)。聲紋驗(yàn)證對(duì)應(yīng)的應(yīng)用主要是喚醒和安全。在智能手機(jī)或智能音箱等產(chǎn)品上,可以對(duì)領(lǐng)域(如門禁系統(tǒng)、支付系統(tǒng)等),確保操作來(lái)自被授權(quán)的用戶,而非冒名頂替者。 speakers)集合之中。假如這個(gè)集合包含了M位說話人,那么聲紋辨認(rèn)可以看作一個(gè)M元名頂替者(imposter)的類別,此時(shí)聲紋辨認(rèn)便成了一個(gè)M+1元分類問題。有時(shí),我們將無(wú)論是閉集還是開集,聲紋辨認(rèn)需要集合中的M位候選說話人各自提供音頻樣本。也就是說,這M位候選說話人的集合是由所有完成了聲紋錄入步驟的說話人組成的集合。一個(gè)最直觀的聲紋辨認(rèn)系統(tǒng)的實(shí)現(xiàn)方式,便是對(duì)集合中的M位候選說話人一一進(jìn)行聲紋辨認(rèn)對(duì)應(yīng)的應(yīng)用場(chǎng)景主要是個(gè)性化。例如,對(duì)于智能音箱產(chǎn)品而言,這里的候別出正在使用產(chǎn)品的用戶是哪一位家庭成員,并由此提供個(gè)性化的交互。例如用戶對(duì)于聲紋辨認(rèn)來(lái)說,通常認(rèn)為M越大,任務(wù)越難,識(shí)別準(zhǔn)確率也會(huì)越低。直觀上在實(shí)際應(yīng)用中,文本相關(guān)的聲紋識(shí)別系統(tǒng)主要用于喚醒詞或驗(yàn)證口令的聲紋識(shí)別。的音頻進(jìn)行聲紋識(shí)別。中文或者英文,此時(shí)我們稱之為語(yǔ)言相關(guān)、文本無(wú)關(guān)的聲紋識(shí)別。如果不對(duì)說話內(nèi)容的語(yǔ)言做限定,則稱之為語(yǔ)言無(wú)關(guān)、文本無(wú)關(guān)的聲紋識(shí)別。至衍生出了不少新興的研究方向和應(yīng)用。第5章將要介紹的聲紋分割聚類技術(shù),以及第6門的分支來(lái)研究如何區(qū)分原始的聲音和轉(zhuǎn)錄后的聲音,被稱作反欺詐,我們會(huì)在7.2.3節(jié)系統(tǒng)的運(yùn)作都包含兩個(gè)階段:事先完成的聲紋錄入階段和實(shí)際運(yùn)行時(shí)的識(shí)別階段。我們將這兩個(gè)階段的大致流程分別用圖3.1與圖3.2表示。圖3.1圖3.2語(yǔ)音,先通過第2章介紹的方法進(jìn)行分幀、加窗并提取特征,然后用本章將要介紹的方法征該說話人的聲紋特征。后面將要提到的超向量、i-vector、d-vector等,都是說話人模型表3.1類問題中常用的平均精度均值(meanaverageprecision,mAP)指標(biāo),聲紋識(shí)別領(lǐng)域中通從圖3.2中可以看出,常見的聲紋識(shí)別系統(tǒng)在識(shí)別階段主要包括特征提取、聲紋建模、相似匹配和判別這四個(gè)模塊。特征提取模塊在第2章已經(jīng)進(jìn)行了詳細(xì)的介紹,聲紋建紋模型。其輸出是一個(gè)實(shí)數(shù),通常稱為匹配分?jǐn)?shù)(o)——這個(gè)分?jǐn)?shù)越高,表示兩個(gè)聲紋模型越接近,我們?cè)絻A向于認(rèn)為驗(yàn)證音頻來(lái)自目標(biāo)說話人。假如需要匹配的聲紋模型可以表示為兩個(gè)嵌入碼向量e1與e2,那么相似匹配可以采取以下幾種形式(如圖3.3所示)。圖3.3余弦相似度(cosine 該相似度表示e與e兩個(gè)向量在多維空間中的夾角的余弦值。如果e與e 歐氏距離(Euclidean數(shù)f(e1,e2|θ)。這里θ表示機(jī)器學(xué)習(xí)模型f(·)的參數(shù)集合。聲紋識(shí)別所用的測(cè)試數(shù)據(jù)集,每個(gè)說話人都會(huì)有多段不同的語(yǔ)音(un),其中哪些音頻用于錄入,哪些用于識(shí)別。因此,一般需要將測(cè)試集分割成兩個(gè)互不重疊的子集:錄入集(nont)與驗(yàn)證集(von)。需要注意的是,錄入集與驗(yàn)證集都需要涵蓋測(cè)試集中全部說話人;但是對(duì)于每一個(gè)說話人,這兩個(gè)子集需要包含來(lái)自該說話人的不同的語(yǔ)音。舉一個(gè)簡(jiǎn)單的例子,假如測(cè)試集用了來(lái)自1號(hào)說話人的3段語(yǔ)音{U11,U12,U13},以及來(lái)自2號(hào)說話人的3段語(yǔ)音{U21,U22,U23},那么一個(gè)可行的分割方案為:每個(gè)說話人取兩(如圖3.1所示),最終得到一個(gè)包含了所有說話人聲紋模型的模型庫(kù)。之后便可以將驗(yàn)證集中的語(yǔ)音與模型庫(kù)中的說話人模型進(jìn)行相似匹配(如圖3.2所示),并根據(jù)該模型是在一些公開的數(shù)據(jù)集中,有時(shí)會(huì)提供一個(gè)實(shí)驗(yàn)語(yǔ)音對(duì)(trialpairs)的列表,如3.7.5節(jié)將介紹的VoxCeleb數(shù)據(jù)集。這種測(cè)試相當(dāng)于以上方法的一個(gè)特例,那就是錄入集中每個(gè)試集中的音頻,訓(xùn)練數(shù)據(jù)集必須不能包括任何在測(cè)試集中出現(xiàn)過的說話人。圖3.4給出了訓(xùn)練集、錄入集、驗(yàn)證集之間關(guān)系的簡(jiǎn)單示例。圖3.4訓(xùn)練集、錄入集、驗(yàn)證集之間關(guān)系的簡(jiǎn)單示例。圖中每一個(gè)小方塊代表一段語(yǔ)音,同一行的小方塊代表來(lái)ROCROC曲線的全稱是接收者操作特征曲線(receiveroperatingcharacteristiccurve),是驗(yàn)證可以看作一個(gè)二值判別的問題,因此可以用ROC曲線評(píng)價(jià)聲紋驗(yàn)證系統(tǒng)的表現(xiàn)。 的“說話人-語(yǔ)音對(duì)”{(S,U)},這里S表示由錄入集得到的第i個(gè)說話人的聲紋模型,而U表示驗(yàn)證集中第i′個(gè)說話人的第j段語(yǔ)音。如果i=i′,則該說話人-語(yǔ)音對(duì)構(gòu)成一個(gè)正 值得注意的是,對(duì)于任意U,如果S 入,計(jì)算出相似匹配的分?jǐn)?shù)s。給定任意一個(gè)判別閾值t,判別結(jié)果為 ≥t),而真實(shí)結(jié)果為yi,i′j=δ(i=i′)。通過對(duì)所有與yi,i′j的比較,可以計(jì)算出該測(cè)試集上的正確接受率(trueaccept,TA)、正確拒絕率(truereject,TR)、錯(cuò)誤接受率(falseaccept,F(xiàn)A),以及錯(cuò)誤拒絕率(falsereject,F(xiàn)R)。在統(tǒng)計(jì)學(xué)中,F(xiàn)A與FR分別被稱作第一類錯(cuò)誤(typeIerror)與第二類錯(cuò)誤(typeIIerror)。如果考慮以FA為橫坐標(biāo),TA為縱坐標(biāo)的平面,則每一個(gè)判別閾值t都對(duì)應(yīng)了該平面上的一個(gè)點(diǎn)。如果將t的值從s的取值范圍內(nèi)掃過,那么隨著t的增加,F(xiàn)A與TA都會(huì)減小,從而在該平面上繪制出一條單調(diào)遞增的曲線。該曲線便是ROC曲線。曲線與x軸之間的面積,被稱為曲線下面積(areaundercurve,AUC在聲紋識(shí)別領(lǐng)域,常常以FA為橫坐標(biāo),以FR(而非TA)為縱坐標(biāo)繪制單調(diào)遞減的ROC曲線。這種形式的ROC曲線更利于我們觀察在判別閾值變化的過程中,F(xiàn)A與FR這兩類錯(cuò)誤之間的取舍。在這種設(shè)定下,ROC曲線下方的面積越小,意味著系統(tǒng)的識(shí)別能邊界情況的處理,等等。這些細(xì)節(jié)的不同,可能導(dǎo)致同一組匹配分?jǐn)?shù),在不同的AUC實(shí)與曲線下面積相比,等錯(cuò)率(equalerrorrate,EER)的定義與實(shí)現(xiàn)都更加簡(jiǎn)單清晰,因此也成了聲紋識(shí)別領(lǐng)域最常用的評(píng)價(jià)指標(biāo)。顧名思義,等錯(cuò)率表示當(dāng)FA與FR兩類錯(cuò)誤數(shù)值相等時(shí)的FA與FR數(shù)值。在以FA為橫坐標(biāo),F(xiàn)R為縱坐標(biāo)的ROC曲線上,等錯(cuò)率表示該ROC曲線與直線y=x的交點(diǎn)。該點(diǎn)對(duì)應(yīng)的判別閾值,通常稱為等錯(cuò)率閾值。在實(shí)際計(jì)算等錯(cuò)率的時(shí)候,由于會(huì)對(duì)判別閾值進(jìn)行掃描,一般會(huì)得到ROC曲線上與y=x最接近的兩個(gè)點(diǎn)。我們通常會(huì)通過這兩個(gè)點(diǎn)擬合出一條直線(即ROC曲線的切線),計(jì)算其與y=x的交點(diǎn),從而得到等錯(cuò)率。雖然這種做法在某種程度上也會(huì)受到判別積那樣依賴ROC曲線上所有的點(diǎn),在掃描判別閾值的時(shí)候,可以采用二分查找法進(jìn)行掃值得注意的是,因?yàn)榈儒e(cuò)率表示FA與FR相等時(shí)的數(shù)值,所以在等錯(cuò)率閾值這一點(diǎn),真正的錯(cuò)誤率是FA與FR之和,也就是等錯(cuò)率的兩倍,而非等錯(cuò)率本身。率只能非常粗略地反映ROC曲線的位置,并不包含有關(guān)ROC曲線形狀的信息。因此,只有當(dāng)兩條ROC曲線的形狀大致相同時(shí),等錯(cuò)率才有最佳的可比性。如果兩條ROC曲線的(tolerance)。一般來(lái)說,喚醒類應(yīng)用傾向于采用FR更低的閾值,安全類應(yīng)用傾向于采用FA更低的閾值。這是因?yàn)?,?duì)于智能手機(jī)、智能音箱上的喚醒系統(tǒng)而言,F(xiàn)R意味著用戶的交互得不到響應(yīng),會(huì)導(dǎo)致較差的產(chǎn)品體驗(yàn);而在很多情況下,F(xiàn)A(例如語(yǔ)音識(shí)別結(jié)果等)FA意味著冒名頂替者成功通過驗(yàn)證,會(huì)對(duì)用戶的信息、財(cái)產(chǎn)安全造成損害;而FR因此,美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)提出了基于檢測(cè)代價(jià)函數(shù)(detectioncost 這里C和C分別表示FR與FA這兩類錯(cuò)誤所對(duì)應(yīng)的代價(jià),P與P則分別表示真實(shí)說話人與冒名頂替者出現(xiàn)的先驗(yàn)概率;而使得C的值最小的判別閾值,稱為最小檢測(cè)代價(jià)函數(shù)閾值。顯然,喚醒類應(yīng)用傾向于采用更大的 有時(shí)也會(huì)用到辨認(rèn)準(zhǔn)確率(identificationaccuracy)。 前面提到過,聲紋驗(yàn)證系統(tǒng)的評(píng)價(jià)指標(biāo)基于“說話人-語(yǔ)音對(duì)”{(S,U)}。對(duì)于聲紋辨認(rèn)系統(tǒng),我們需要用到多個(gè)說話人模型與語(yǔ)音組成的元組{(S,S,···,S,U)},這里k ···,S中,有一個(gè)來(lái)自真實(shí)說話人,其余說話人模型則來(lái)自隨機(jī)選取的冒名頂替者。我們將語(yǔ)音U與這k個(gè)說話人模型進(jìn)行匹配,并取分?jǐn)?shù)最高的模型作為匹配結(jié)果。在所有元組中,語(yǔ)音被匹配到了正確的說話人模型的比例,稱為k類辨認(rèn)準(zhǔn)確率。關(guān)于k值的選取,則取決于實(shí)際應(yīng)用的場(chǎng)景。例如家用的智能音箱,其通常需要辨認(rèn)多個(gè)家庭成員的聲音,因此k值可以選取為購(gòu)買該音箱的所有家庭的平均家庭成員數(shù)。我們已經(jīng)介紹了圖3.1和圖3.2所對(duì)應(yīng)的聲紋識(shí)別系統(tǒng)流程的大部分模塊。從本節(jié)開法,并分別在本節(jié)和3.4節(jié)進(jìn)行介紹。這樣分類的原因是:基于深度學(xué)習(xí)的方法目前已經(jīng)早在1.3.2節(jié)與1.3.3節(jié)便已介紹了一些早期的基于模板匹配和統(tǒng)計(jì)量的聲紋建模方第一種改進(jìn)方法是基于矢量量化[5]的方法。這種方法將音頻特征所在的d維特征空間劃分為K個(gè)子區(qū)域,每個(gè)區(qū)域由一個(gè)中心點(diǎn)(centroid)表示。矢量量化,然后將得到的K個(gè)區(qū)域中心點(diǎn)稱為該說話人的碼表(codebook)。碼表的構(gòu)建通常采用K-均值(K-means)算法[55]或者LBG算法[56]。而在識(shí)別階段,我們提取驗(yàn)證音頻似然比失真度(likelihoodratiodistortion)的計(jì)算方法。第二種改進(jìn)方法基于動(dòng)態(tài)時(shí)間歸正(dynamictimewarping,DTW)[4]技術(shù)。這種方的音頻特征矢量組成的序列X=(x1,x2,···,xM)與Y=(y1,y2,···,yN),這里M/=N。真度最小。通過采用動(dòng)態(tài)規(guī)劃(dynamicprogramming)算法,求解動(dòng)態(tài)時(shí)間歸正的時(shí)間1.3.4節(jié)曾提到過,高斯混合模型(Gaussianmixturemodel,GMM)是統(tǒng)計(jì)學(xué)中一個(gè)的概率分布,如圖3.5所示。在聲紋識(shí)別領(lǐng)域,采用高斯混合模型的動(dòng)機(jī)也可以直觀地理圖3.5本節(jié)介紹的基于高斯混合模型的聲紋識(shí)別方法,主要參考DouglasReynolds等人發(fā)表于1995年的論文[9]。該論文的一個(gè)核心設(shè)定是:將每個(gè)說話人的音頻特征用一個(gè)高斯混合模型來(lái)表示。假如該說話人的音頻特征序列為X=(x1,x2,···,xN),我們希望用以下概率分布擬合X中特征的分布:這里λ表示該高斯混合模型的所有參數(shù)的集合,M 數(shù),c≥0表示第i個(gè)高斯分量的權(quán)重,并滿足其和為1:N(x)表示第i 這里K表示音頻特征x的維度,μ和Σ分別是第i個(gè)高斯分量的均值向量及協(xié)方差矩陣。|Σ|是矩陣 回到式(3.4),從式(3.7)中可以看出,ci是實(shí)數(shù),i是一維向量,而Σi模型的總參數(shù)數(shù)量為M(12),其中大部分參數(shù)都被協(xié)方差矩陣占據(jù)。尤其是當(dāng)音頻特征x的維度K出現(xiàn)嚴(yán)重的過擬合。此時(shí),等式(3.6)其中σi=[σi1,σi2,···,σiK]是由對(duì)角協(xié)方差矩陣的對(duì)角元素的平方根組成的一維向量,而參數(shù)的總數(shù)量減少為M·(1+2K)。我們將完整的協(xié)方差矩陣簡(jiǎn)化為對(duì)角矩陣的理論依據(jù)是:具有M個(gè)完整協(xié)方差高斯參考文獻(xiàn)9對(duì)多種協(xié)方差矩陣的選取進(jìn)行了實(shí)驗(yàn),并最終認(rèn)為,讓每個(gè)說話人的每做法。此后的大多數(shù)研究都沿用了這種做法。就是對(duì)高斯混合模型進(jìn)行參數(shù)估計(jì)(parameterestimation)。常用的做法是進(jìn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 成本核算精細(xì)化與績(jī)效融合策略
- 保密協(xié)議合同公證
- 能源交易合同協(xié)議書
- 微倉(cāng)系統(tǒng)測(cè)試服務(wù)協(xié)議
- 安裝一體化項(xiàng)目評(píng)估協(xié)議
- 2026年“六五”普法法律知識(shí)競(jìng)賽試題及答案
- 包裹寄存點(diǎn)委托協(xié)議
- 慢病預(yù)防的健康經(jīng)濟(jì)學(xué)評(píng)價(jià)體系構(gòu)建
- KPI報(bào)表服務(wù)委托協(xié)議
- 2026年國(guó)家版圖知識(shí)競(jìng)賽網(wǎng)絡(luò)賽試題及答案
- 2025黑龍江牡丹江林口縣招聘公益性崗位人員補(bǔ)充考試核心試題及答案解析
- 2025年嘉興市經(jīng)英人才發(fā)展服務(wù)有限公司城南分公司招錄法律專業(yè)人才及法律輔助人員16人筆試重點(diǎn)題庫(kù)及答案解析
- 統(tǒng)編版語(yǔ)文一年級(jí)上冊(cè)第八單元 口語(yǔ)交際:我會(huì)想辦法 教學(xué)課件
- 2025年山西省福利彩票市場(chǎng)管理員招聘?jìng)淇碱}庫(kù)及答案詳解參考
- 2026年交管12123學(xué)法減分復(fù)習(xí)考試題庫(kù)(有一套)
- 手術(shù)室護(hù)理中精細(xì)化管理的應(yīng)用與手術(shù)安全及護(hù)理質(zhì)量保障研究答辯
- 第四章 對(duì)數(shù)與對(duì)數(shù)函數(shù)(原卷版及全解全析)
- TCABEE《零碳辦公建筑評(píng)價(jià)標(biāo)準(zhǔn)》
- 2025新加坡教育服務(wù)(私立教育)行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 合作銷售礦石協(xié)議書
- 年終檔案管理總結(jié)
評(píng)論
0/150
提交評(píng)論