多媒體計(jì)算機(jī)技術(shù)之?dāng)?shù)字語音處理技術(shù)_第1頁
多媒體計(jì)算機(jī)技術(shù)之?dāng)?shù)字語音處理技術(shù)_第2頁
多媒體計(jì)算機(jī)技術(shù)之?dāng)?shù)字語音處理技術(shù)_第3頁
多媒體計(jì)算機(jī)技術(shù)之?dāng)?shù)字語音處理技術(shù)_第4頁
多媒體計(jì)算機(jī)技術(shù)之?dāng)?shù)字語音處理技術(shù)_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多媒體計(jì)算機(jī)技術(shù)(jìshù)魯宏偉(hóngwěi)第一頁,共八十五頁。第四講數(shù)字語音(yǔyīn)處理技術(shù)

數(shù)字音頻壓縮技術(shù)(jìshù)三維音效語音識(shí)別自然語言理解語音合成

第二頁,共八十五頁。數(shù)字音頻壓縮(yāsuō)技術(shù)音頻壓縮技術(shù)指的是對(duì)原始數(shù)字音頻信號(hào)流〔PCM編碼(biānmǎ)〕運(yùn)用適當(dāng)?shù)臄?shù)字信號(hào)處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低〔壓縮〕其碼率,也稱為壓縮編碼(biānmǎ)。它必須具有相應(yīng)的逆變換,稱為解壓縮或解碼。音頻信號(hào)在通過一個(gè)編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。第三頁,共八十五頁。數(shù)字音頻壓縮(yāsuō)技術(shù)音頻壓縮算法的分類(fēnlèi)時(shí)域壓縮算法子帶編碼MP3音頻壓縮編碼第四頁,共八十五頁。音頻(yīnpín)壓縮算法的分類一般來講,可以將音頻壓縮技術(shù)分為無損〔lossless〕壓縮及有損〔lossy〕壓縮兩大類,而按照壓縮方案的不同,又可將其劃分為時(shí)域壓縮、變換壓縮、子帶壓縮,以及多種技術(shù)相互融合的混合壓縮等等(děnɡděnɡ)。時(shí)域壓縮〔或稱為波形編碼〕子帶壓縮技術(shù)變換壓縮技術(shù)第五頁,共八十五頁。數(shù)字音頻壓縮(yāsuō)技術(shù)音頻(yīnpín)壓縮算法的分類時(shí)域壓縮算法子帶編碼MP3音頻壓縮編碼第六頁,共八十五頁。時(shí)域壓縮算法時(shí)域壓縮技術(shù)一般多用于語音壓縮、低碼率應(yīng)用〔源信號(hào)帶寬小〕的場(chǎng)合。時(shí)域壓縮技術(shù)主要包括PCM、ADPCM、LPC、CELP,以及在這些技術(shù)上開展起來的塊壓擴(kuò)技術(shù)。脈沖編碼(biānmǎ)調(diào)制(PCM)增量調(diào)制連續(xù)可變斜率增量調(diào)制〔CVSD〕自適應(yīng)差分脈沖編碼調(diào)制

〔ADPCM〕數(shù)字電路倍增設(shè)備—自適應(yīng)差分脈沖編碼調(diào)制第七頁,共八十五頁。時(shí)域壓縮算法嵌入式自適應(yīng)差分脈沖編碼調(diào)制〔E-ADPCM

〕線性預(yù)測(cè)編碼〔LPC〕殘差鼓勵(lì)線性預(yù)測(cè)編碼〔RELP〕碼鼓勵(lì)線性預(yù)測(cè)編碼〔CELP〕低時(shí)延碼鼓勵(lì)線性預(yù)測(cè)編碼〔LD-CELP〕矢量和鼓勵(lì)線性預(yù)測(cè)編碼〔VSELP

〕代數(shù)碼(shùmǎ)本鼓勵(lì)線性預(yù)測(cè)編碼(ACELP

)共扼結(jié)構(gòu)—代數(shù)碼鼓勵(lì)線性預(yù)測(cè)編碼〔CS-ACELP〕規(guī)那么脈沖鼓勵(lì)—長(zhǎng)時(shí)預(yù)測(cè)—線性預(yù)測(cè)編碼〔RPE-LTP-LPC〕第八頁,共八十五頁。脈沖(màichōng)編碼調(diào)制

聲音數(shù)字化有兩個(gè)步驟(bùzhòu):第一步是采樣,就是每隔一段時(shí)間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號(hào)幅度轉(zhuǎn)換成數(shù)字值。量化有好幾種方法,但可歸納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。如果采用相等的量化間隔對(duì)采樣得到的信號(hào)作量化,那么這種量化稱為均勻量化。均勻量化就是采用相同的“等分尺〞來度量(dùliàng)采樣得到的幅度,也稱為線性量化。這種方法稱為脈沖編碼調(diào)制,用PCM表示。第九頁,共八十五頁。非線性量化非線性量化的根本想法是,對(duì)輸入信號(hào)(xìnhào)進(jìn)行量化時(shí),大的輸入信號(hào)(xìnhào)采用大的量化間隔,小的輸入信號(hào)(xìnhào)采用小的量化間隔。在非線性量化中,采樣輸入信號(hào)幅度和量化輸出數(shù)據(jù)之間定義了兩種對(duì)應(yīng)關(guān)系,一種稱為m律壓(縮)擴(kuò)(展)算法,另一種稱為A律壓(縮)擴(kuò)(展)算法。第十頁,共八十五頁。m律壓(縮)擴(kuò)(展)算法(suànfǎ)m律壓擴(kuò)用在北美和日本等地區(qū)的數(shù)字通信中,按下面的式子確定量化輸入和輸出的關(guān)系:式中:x為輸入信號(hào)(xìnhào)幅度,規(guī)格化成-1x1;sgn(x)為x的極性;m為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,取100m500。第十一頁,共八十五頁。A律壓(縮)擴(kuò)(展)算法(suànfǎ)A律(A-Law)壓擴(kuò)用在歐洲和中國(guó)大陸等地區(qū)的數(shù)字通信中,按下面的式子確定量化輸入和輸出的關(guān)系:式中:x為輸入信號(hào)幅度,規(guī)格化成-1x1,sgn(x)為x的極性;A為確定壓縮量的參數(shù)(cānshù),它反映最大量化間隔和最小量化間隔之比。第十二頁,共八十五頁。增量調(diào)制增量調(diào)制DM(DeltaModulation)是一種預(yù)測(cè)編碼技術(shù)。DM是對(duì)實(shí)際(shíjì)的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)行編碼,將極性變成“0〞和“1〞這兩種可能的取值之一。如果實(shí)際(shíjì)的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性為“正〞,那么用“1〞表示;相反那么用“0〞表示。由于DM編碼只須用1比特對(duì)信號(hào)進(jìn)行編碼,所以DM編碼系統(tǒng)又稱為“1比特系統(tǒng)〞。第十三頁,共八十五頁。DM波形(bōxínɡ)編碼的原理圖

其中x[i]表示(biǎoshì)在i點(diǎn)的編碼輸出,yi表示輸入信號(hào)的實(shí)際值,y[i]表示輸入信號(hào)的預(yù)測(cè)值。假設(shè)采用均勻量化,量化階的大小為△,在開始位置的輸入信號(hào)y0=0,預(yù)測(cè)值y[0]=0,編碼輸出x[0]=1第十四頁,共八十五頁。增量調(diào)制的缺點(diǎn)(quēdiǎn)一是會(huì)出現(xiàn)斜率過載,即增量調(diào)制器的輸出不能保持跟蹤輸入信號(hào)的快速變化二是會(huì)產(chǎn)生粒狀噪聲。反響回路(huílù)輸出信號(hào)的最大變化速率受到量化階大小的限制,因?yàn)榱炕A的大小是固定的。解決方法:自適應(yīng)增量調(diào)制。根據(jù)輸入信號(hào)斜率的變化自動(dòng)調(diào)整量化階Δ的大小,以使斜率過載和粒狀噪聲都減到最小。許多研究人員研究了各種各樣的方法,而且?guī)缀跛械姆椒ǜ旧隙际窃跈z測(cè)到斜率過載時(shí)開始增大量化階Δ,而在輸入信號(hào)的斜率減小時(shí)降低量化階Δ。第十五頁,共八十五頁。自適應(yīng)差分脈沖編碼(biānmǎ)調(diào)制ADPCM編碼的方法是對(duì)輸入樣值進(jìn)行自適應(yīng)預(yù)測(cè),然后(ránhòu)對(duì)預(yù)測(cè)誤差進(jìn)行量化編碼。它是一種預(yù)測(cè)編碼的方法。所謂預(yù)測(cè)編碼,是指編碼的對(duì)象不是原始信號(hào)的采樣量化值,而是對(duì)當(dāng)前采樣值與預(yù)測(cè)值〔根據(jù)前假設(shè)干個(gè)采樣值采用一定的預(yù)測(cè)方法產(chǎn)生的輸入信號(hào)〕的差值進(jìn)行編碼。如果采用的預(yù)測(cè)方法足夠準(zhǔn)確〔差值將接近于零〕,可以預(yù)見,這種編碼方法比直接對(duì)樣本值進(jìn)行編碼可以采用較少的比特?cái)?shù)。CCITT的32kbit/s語音編碼標(biāo)準(zhǔn)G.721采用ADPCM編碼方式,每個(gè)語音樣值相當(dāng)于用4bit進(jìn)行編碼。第十六頁,共八十五頁。自適應(yīng)差分

脈沖(màichōng)編碼調(diào)制它的核心想法是:①利用自適應(yīng)的思想改變量化階的大小,即使用小的量化階(step-size)去編碼(biānmǎ)小的差值,使用大的量化階去編碼(biānmǎ)大的差值;②使用過去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值,使實(shí)際樣本值和預(yù)測(cè)值之間的差值總是最小。

第十七頁,共八十五頁。數(shù)字電路倍增設(shè)備—自適應(yīng)(shìyìng)差分脈沖編碼調(diào)制

DCME-ADPCM是CCITTG.723語音(yǔyīn)編碼標(biāo)準(zhǔn)算法這種算法可以在40kbit/s、32kbit/s和24kbit/s三種速率中動(dòng)態(tài)調(diào)整,以到達(dá)在給定的信道中增加容量的目的第十八頁,共八十五頁。線性預(yù)測(cè)(yùcè)編碼

LPC(LinearPredictiveCoding)語音編碼是最根本的低速率語音編碼方法,LPC語音編碼的根底是語音產(chǎn)生模型,在這個(gè)模型中,語音是由鼓勵(lì)信號(hào)鼓勵(lì)一個(gè)自適應(yīng)濾波器〔即LPC濾波器〕而產(chǎn)生。LPC濾波器的參數(shù)是通過線性預(yù)測(cè)的方法,即用過去的樣值預(yù)測(cè)當(dāng)前(dāngqián)樣值提取的。美國(guó)聯(lián)邦標(biāo)準(zhǔn)FS1015的2.4kbit/sLPC-10和LPC-10e就是LPC語音編碼的典型例子,主要用于線上的窄帶語音保密通信。第十九頁,共八十五頁。低時(shí)延碼鼓勵(lì)(gǔlì)線性預(yù)測(cè)編碼LD-CELP是CCITTG.728語音編碼標(biāo)準(zhǔn)算法,其輸出速率為16kbit/s。這種方法在CELP算法的根底上,采用后向自適應(yīng)線性預(yù)測(cè)、50階合成濾波、短鼓勵(lì)矢量〔5個(gè)樣值〕等改進(jìn)方法,從而到達(dá)(dàodá)高質(zhì)量和低時(shí)延的目的,總的編碼時(shí)延小于2ms。第二十頁,共八十五頁。代數(shù)碼(shùmǎ)本鼓勵(lì)線性預(yù)測(cè)編碼極低速率可視標(biāo)準(zhǔn)H.324中語音編碼標(biāo)準(zhǔn)是,采用(cǎiyòng)5.27kbit/s和6.3kbit/s兩種速率,其中5.27kbit/s速率就是以ACELP算法為根底。第二十一頁,共八十五頁。共扼結(jié)構(gòu)—代數(shù)碼鼓勵(lì)線性預(yù)測(cè)(yùcè)編碼CS-ACELP編碼算法被ITU-T的8kbit/s語音(yǔyīn)編碼標(biāo)準(zhǔn)G.729采用

第二十二頁,共八十五頁。規(guī)那么脈沖鼓勵(lì)(gǔlì)—長(zhǎng)時(shí)預(yù)測(cè)—線性預(yù)測(cè)編碼這種算法是歐洲900MHz數(shù)字蜂窩移動(dòng)的語音編碼標(biāo)準(zhǔn)〔GSM〕,也為數(shù)字蜂窩系統(tǒng)DCS1800所采用(cǎiyòng)。RPE-LTP-LPC算法是MPE-LPC的改進(jìn)算法,除了增加長(zhǎng)時(shí)預(yù)測(cè)功能外,鼓勵(lì)脈沖的位置具有一定的規(guī)律。第二十三頁,共八十五頁。數(shù)字音頻壓縮(yāsuō)技術(shù)音頻(yīnpín)壓縮算法的分類時(shí)域壓縮算法子帶編碼MP3音頻壓縮編碼第二十四頁,共八十五頁。子帶編碼(biānmǎ)子帶編碼SBC(subbandcoding)的根本思想是,首先使用一組帶通濾波器BPF(band-passfilter)把輸入音頻信號(hào)的頻帶分成假設(shè)(jiǎshè)干個(gè)連續(xù)的頻段,每個(gè)頻段稱為子帶。對(duì)每個(gè)子帶中的音頻信號(hào)采用單獨(dú)的編碼方案去編碼。在信道上傳送時(shí),將每個(gè)子帶的代碼復(fù)合起來。在接收端譯碼時(shí),將每個(gè)子帶的代碼單獨(dú)譯碼,然后把它們組合起來,復(fù)原成原來的音頻信號(hào)。采用對(duì)每個(gè)子帶分別編碼的好處有二個(gè)。第一,對(duì)每個(gè)子帶信號(hào)分別進(jìn)行自適應(yīng)控制,量化階的大小(quantizationstep)可以按照每個(gè)子帶的能量電平加以調(diào)節(jié)。具有較高能量電平的子帶用大的量化階去量化,以減少總的量化噪聲。第二,可根據(jù)每個(gè)子帶信號(hào)在感覺上的重要性,對(duì)每個(gè)子帶分配不同的比特?cái)?shù),用來表示每個(gè)樣本值。例如,在低頻子帶中,為了保護(hù)音調(diào)和共振峰的結(jié)構(gòu),就要求用較小的量化階、較多的量化級(jí)數(shù),即分配較多的比特?cái)?shù)來表示樣本值。而話音中的摩擦音和類似噪聲的聲音,通常出現(xiàn)在高頻子帶中,對(duì)它分配較少的比特?cái)?shù)。第二十五頁,共八十五頁。子帶編碼(biānmǎ)方塊圖第二十六頁,共八十五頁。子帶編碼(biānmǎ)對(duì)每個(gè)子帶分別編碼的好處是:可以利用人耳〔或人眼〕對(duì)不同頻率信號(hào)的感知靈敏度不同的特性,在人的聽覺〔或視覺〕不敏感的頻段采用較粗糙的量化,從而到達(dá)數(shù)據(jù)壓縮的目的。各個(gè)子帶的量化噪聲都束縛在本子帶內(nèi),這就可以防止能量(néngliàng)較小的頻帶內(nèi)的信號(hào)被其它頻帶中量化噪聲所掩蓋通過頻帶分裂,各個(gè)子帶的取樣頻率可以成倍下降。第二十七頁,共八十五頁。數(shù)字音頻壓縮(yāsuō)技術(shù)音頻壓縮算法的分類時(shí)域壓縮算法子帶編碼(biānmǎ)MP3音頻壓縮編碼第二十八頁,共八十五頁。MP3音頻(yīnpín)壓縮編碼

MP3是一種音頻壓縮的國(guó)際技術(shù)標(biāo)準(zhǔn)。MP3格式開始于二十世紀(jì)80年代中期,是在德國(guó)夫朗和費(fèi)研究所〔FraunhoferInstitute〕開始的,研究致力于高質(zhì)量、低數(shù)據(jù)率的聲音(shēngyīn)編碼。1989年,夫朗和費(fèi)研究所在德國(guó)被獲準(zhǔn)取得了MP3的專利權(quán),幾年后這項(xiàng)技術(shù)被提交到國(guó)際標(biāo)準(zhǔn)組織(ISO),整合進(jìn)入了MPEG-1標(biāo)準(zhǔn)。MP3格式是一個(gè)讓音樂界產(chǎn)生巨大震動(dòng)的一個(gè)聲音格式。MP3的全稱是MovingPictureExpertsGroup,AudioLayer3,它所使用的技術(shù)是在VCD〔MPEG-1〕的音頻壓縮技術(shù)上開展出的第三代,而不是MPEG-3。第二十九頁,共八十五頁。MP3音頻(yīnpín)壓縮編碼MPEG代表的是MPEG活動(dòng)影音壓縮標(biāo)準(zhǔn)(biāozhǔn),MPEG音頻文件指的是MPEG標(biāo)準(zhǔn)(biāozhǔn)中的聲音局部即MPEG音頻層。MPEG音頻文件根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層〔MPEGAUDIOLAYER1/2/3分別與MP1、MP2和MP3這三種聲音文件相對(duì)應(yīng)〕。MPEG音頻編碼具有很高的壓縮率,MP1和MP2的壓縮率分別為4:1和6:1-8:1,而MP3的壓縮率那么高達(dá)10:1~12:1,也就是說一分鐘CD音質(zhì)的音樂未經(jīng)壓縮需要10MB存儲(chǔ)空間,而經(jīng)過MP3壓縮編碼后只有1MB左右,同時(shí)其音質(zhì)根本保持不失真。第三十頁,共八十五頁。MP3音頻(yīnpín)壓縮編碼音樂信號(hào)中有許多冗余成分,其中包括間隔和一些人耳分辨不出的信息〔如混雜在較強(qiáng)背景中的弱信號(hào)〕。MP3為降低聲音失真采取了名為“感官編碼技術(shù)〞的編碼算法:編碼時(shí)先對(duì)音頻文件進(jìn)行頻譜分析,然后用過濾器濾掉噪音,接著通過量化的方式將剩下的每一位打散排列,最后形成具有較高壓縮比的MP3文件,并使壓縮后的文件在回放時(shí)能夠到達(dá)(dàodá)比較接近原音源的聲音效果。雖然它是一種有損壓縮,但是它的最大優(yōu)勢(shì)是以極小的聲音失真換來了較高的壓縮比。第三十一頁,共八十五頁。音頻(yīnpín)編碼標(biāo)準(zhǔn)

G.711G.722G.728G.729音頻(yīnpín)編碼標(biāo)準(zhǔn)比較第三十二頁,共八十五頁。G.711

1972年CCITT為質(zhì)量和語音壓縮制定了PCM標(biāo)準(zhǔn)G.711。其速率為64kb/s,使用μ律或A律的非線性量化技術(shù)(jìshù),主要用于公共網(wǎng)中。第三十三頁,共八十五頁。G.7221988年CCITT為調(diào)幅播送質(zhì)量(zhìliàng)的音頻信號(hào)壓縮制定了G.722標(biāo)準(zhǔn),它使用子帶編碼(SBC)方案,其濾波器組將輸入信號(hào)分成上下兩個(gè)子帶信號(hào),然后分別使用ADPCM進(jìn)行編碼。G.722能將224kb/s的調(diào)幅播送質(zhì)量的音頻信號(hào)壓縮為64kb/s,主要用于視聽多媒體和會(huì)議電視等。G.722的主要目標(biāo)是保持64kb/s的數(shù)據(jù)率,而音頻信號(hào)的質(zhì)量要明顯高于G.711的質(zhì)量。第三十四頁,共八十五頁。1996年ITU-T通過了G.723標(biāo)準(zhǔn)(biāozhǔn)-“用于多媒體傳輸?shù)?.3kb/s或6.3kb/s雙速率話音編碼〞。它采用多脈沖鼓勵(lì)最大似然量化(MP-MLQ)算法,此標(biāo)準(zhǔn)(biāozhǔn)可應(yīng)用于可視及IP等系統(tǒng)中。第三十五頁,共八十五頁。G.728為了進(jìn)一步降低壓縮的速率,CCITT于1992年制定了G.728標(biāo)準(zhǔn),使用基于低時(shí)延碼本鼓勵(lì)線性預(yù)測(cè)(yùcè)編碼(LD-CELP)算法,其速率為16kb/s,主要用于公共網(wǎng)中。第三十六頁,共八十五頁。G.729ITU-T于1996年3月通過了G.729標(biāo)準(zhǔn),它使用8kb/s的共軛結(jié)構(gòu)(jiégòu)代數(shù)碼鼓勵(lì)線性預(yù)測(cè)(CS-ACELP)算法,此標(biāo)準(zhǔn)將在無線移動(dòng)網(wǎng)、數(shù)字多路復(fù)用系統(tǒng)和計(jì)算機(jī)通信系統(tǒng)中應(yīng)用。第三十七頁,共八十五頁。音頻(yīnpín)編碼標(biāo)準(zhǔn)比較第三十八頁,共八十五頁。第四講數(shù)字(shùzì)語音處理技術(shù)

數(shù)字音頻壓縮技術(shù)三維音效語音識(shí)別自然語言理解(lǐjiě)語音合成

第三十九頁,共八十五頁。三維音效(yīnxiào)人類(rénlèi)的聽覺3D音效的分類杜比AC-3DTS

第四十頁,共八十五頁。人類(rénlèi)的聽覺人耳的根本聲音定位原理是IID〔InterauralIntensityDifference,兩側(cè)聲音強(qiáng)度差異〕和ITD〔InterauralTimeDifference,兩側(cè)聲音時(shí)間延遲差異〕。IID指距離音源較近的哪一邊耳朵,所收到的聲音強(qiáng)度比另一側(cè)高,感到聲音更大一些。ITD指方位的不同,使聲音到達(dá)兩耳的時(shí)間(shíjiān)有差異,人們會(huì)覺得聲音位于到達(dá)時(shí)間(shíjiān)早些的那一邊,IID+ITD的結(jié)果是把音源定位到以聽者兩耳這間連線為軸線的錐體范圍之內(nèi)。第四十一頁,共八十五頁。人類(rénlèi)的聽覺耳廓〔外耳〕的作用是濾波器,根據(jù)聲音的不同角度,加強(qiáng)/減弱音波能量,過濾之后傳給大腦,讓我們更準(zhǔn)確地聲源的位置。耳廓的大小有限,因此能夠收到的音波范圍(fànwéi)也有限,通常是20Hz到20KHz,即波長(zhǎng)16米到1.6厘米的音波。換言之,低于此范圍(fànwéi)是次聲波,高于此范圍(fànwéi)是超聲波。由于兩耳機(jī)的距離約為15厘米,當(dāng)波長(zhǎng)大于15厘米時(shí)IIT和ITD將會(huì)減弱。頻率低的聲音波長(zhǎng)大,因此我們很難判斷出低音的位置,卻能輕易分辨高音的方位。實(shí)際上,耳廓對(duì)于聲音的定位,是至關(guān)重要的一環(huán),沒有外耳的人難以判斷聲音發(fā)出的位置。第四十二頁,共八十五頁。人類(rénlèi)的聽覺人類依靠一種稱為HRTF〔HeadRelatedTransferFunction,頭部關(guān)聯(lián)傳輸功能〕的系統(tǒng)來判斷聲音發(fā)出的位置(wèizhi)。每個(gè)人的HRTF都不盡相同,還可以進(jìn)行交換。HRTF的檢測(cè)非常簡(jiǎn)單,先在人的耳道內(nèi)放置兩個(gè)微型麥克風(fēng),再在聽者附近放一個(gè)音箱,播放確定的信號(hào),同時(shí)記錄麥克風(fēng)收到的信號(hào)。比較源信號(hào)和麥克風(fēng)的脈沖特性曲線就可以得到其中一個(gè)濾波效果。最后于聽者附近的所有位置重復(fù)上述過程,即可獲取完整的HRTF系統(tǒng)。第四十三頁,共八十五頁。三維音效(yīnxiào)人類的聽覺(tīngjué)3D音效的分類杜比AC-3DTS

第四十四頁,共八十五頁。3D音效(yīnxiào)的分類3D音效的兩個(gè)最重要因素是定位和交互。定位即讓人們準(zhǔn)確地判斷出聲音的來源,可以通過(tōngguò)預(yù)選錄制聲音,再進(jìn)行特定的解碼來實(shí)現(xiàn)。實(shí)時(shí)的定位就是交互,聲音并非預(yù)選錄制好的,而是按照你的控制來決定聲音的位置。即時(shí)生成的交互式聲音對(duì)輸入設(shè)備的要求,比預(yù)選錄制音軌的放音設(shè)備〔如:電影〕要更強(qiáng)一些。第四十五頁,共八十五頁。3D音效(yīnxiào)的分類擴(kuò)展式立體聲它使用聲音延遲技術(shù)對(duì)傳統(tǒng)的立體聲進(jìn)行額外處理,擴(kuò)寬了音場(chǎng)的位置,使聲音延展到音箱以外的空間,讓我們感覺的3D世界更廣闊

環(huán)繞立體聲它采用音頻壓縮技術(shù)(如:杜比AC-3)把多通道音源編碼成一段程序,再以一組多揚(yáng)聲器系統(tǒng)來進(jìn)行解碼,實(shí)現(xiàn)多區(qū)域環(huán)繞效果。

交互式3D音效

交互式3D盡量(jǐnliàng)地復(fù)制了人耳在真實(shí)世界中聽到的聲音,并使用一定的算法來播放出來,讓我們感到整個(gè)三維空間的所有地方都可能產(chǎn)生聲音,并隨聽者的移動(dòng)而做出相應(yīng)改變。

第四十六頁,共八十五頁。三維音效(yīnxiào)人類的聽覺(tīngjué)3D音效的分類杜比AC-3DTS

第四十七頁,共八十五頁。杜比AC-3

為了提高HDTV聲音的質(zhì)量,防止模擬矩陣編碼的局限性,提出了雙通道的碼率提供多通道的編碼性能的設(shè)想,杜比AC-3就是為了實(shí)現(xiàn)這一設(shè)想而開發(fā)的。杜比AC-3可以把五個(gè)獨(dú)立的全頻帶和一個(gè)超低音通道的信號(hào)實(shí)行統(tǒng)一編碼,成為單一的復(fù)合數(shù)據(jù)流。AC-3的頻響為20Hz~20kHz±0.5dB(-3dB時(shí)為3Hz~20.3kHz),超低聲道頻率范圍是20Hz~120Hz±0.5dB??芍С?2kHz、44.1kHz、48kHz三種(sānzhǒnɡ)取樣頻率。數(shù)碼率可低至單聲道的32kb/s,高到多聲道640kb/s,以適應(yīng)不同需要。第四十八頁,共八十五頁。杜比AC-3AC-3采用基于改進(jìn)離散余弦變換〔MDCT〕的自適應(yīng)變換編碼〔ATC〕算法。ATC算法的一個(gè)重要考慮是基于人耳聽覺掩蔽效應(yīng)的臨界頻帶理論,即在臨界頻帶內(nèi)一個(gè)聲音對(duì)另一個(gè)聲音信號(hào)的掩蔽效應(yīng)最明顯。因此,劃分頻帶的濾波器組要有足夠銳利(ruìlì)的頻率響應(yīng),以保證臨界頻帶外的噪聲衰減足夠大,使時(shí)域和頻域內(nèi)的噪聲限定在掩蔽門限以下。第四十九頁,共八十五頁。三維音效(yīnxiào)人類的聽覺(tīngjué)3D音效的分類杜比AC-3DTS

第五十頁,共八十五頁。DTSDTS是“DigitalTheatreSystem〞的縮寫,是“數(shù)字化影院系統(tǒng)〞的意思。從技術(shù)上講,DTS與包括DolbyDigital在內(nèi)的其它聲音處理系統(tǒng)是完全不同的。DolbyDigital是將音效數(shù)據(jù)存儲(chǔ)在電影膠片的齒孔之間,因?yàn)榭臻g的限制而必須采用大量的壓縮的模式,這樣就不得不犧牲局部音質(zhì)。DTS公司用一種簡(jiǎn)單的方法解決了這個(gè)問題(wèntí),即把音效數(shù)據(jù)存儲(chǔ)到另外的CD-ROM中,使其與影像數(shù)據(jù)同步。這樣不但空間得到增加,而且數(shù)據(jù)流量也可以相對(duì)變大,更可以將存儲(chǔ)音效數(shù)據(jù)的CD更換,來播放不同的語言版本。第五十一頁,共八十五頁。DTSDTS系統(tǒng)不僅具有AC-3相似功能,更加強(qiáng)了其縱深定位交叉效果。DTS芯片容量為1536kbps,壓縮傳輸比為4:1;而AC-3芯片容量為448kbps,壓縮比為10:1。正是由于DTS信息容量的增加,音色更加優(yōu)美。DTS家庭影院的核心是DTS解碼器,它可對(duì)DVD,CD的杜比數(shù)字解碼,輸出5.1聲道信息,也可以選擇(xuǎnzé)DTS方式,輸出6聲道信息。DTS和杜比數(shù)字在音質(zhì)上有著明顯的不同,前者聲音力度強(qiáng)勁,聲音的上升和切入都很鋒利,音場(chǎng)的透明感清晰可聞,尤其是豐富的低音效果表現(xiàn)得更加劇烈火爆。后者在低音方面缺少豐富的力度第五十二頁,共八十五頁。第四講數(shù)字(shùzì)語音處理技術(shù)

數(shù)字音頻壓縮(yāsuō)技術(shù)三維音效語音識(shí)別自然語言理解語音合成

第五十三頁,共八十五頁。語音識(shí)別技術(shù)(jìshù)及應(yīng)用語音識(shí)別(shíbié)的開展歷史語音識(shí)別技術(shù)語音識(shí)別系統(tǒng)的類型語音識(shí)別的應(yīng)用第五十四頁,共八十五頁。語音識(shí)別的開展(kāizhǎn)歷史語音識(shí)別技術(shù)的研究工作始于20世紀(jì)50年代,當(dāng)時(shí)AT&TBell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)——Audry系統(tǒng)。60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識(shí)別的開展。70年代,語音識(shí)別領(lǐng)域取得了突破。80年代,語音識(shí)別研究進(jìn)一步走向(zǒuxiàng)深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)〔ANN〕在語音識(shí)別中的成功應(yīng)用。90年代,隨著多媒體時(shí)代的來臨,迫切要求語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱谩5谖迨屙?,共八十五頁。語音識(shí)別技術(shù)(jìshù)的開展歷史如圖表示了從80年代初以來語音識(shí)別技術(shù)經(jīng)歷的從孤立詞、小詞匯量、特定(tèdìng)人到大詞匯量、非特定(tèdìng)人、自然口語識(shí)別的開展歷程。第五十六頁,共八十五頁。語音識(shí)別(shíbié)技術(shù)及應(yīng)用語音識(shí)別的開展(kāizhǎn)歷史語音識(shí)別技術(shù)語音識(shí)別系統(tǒng)的類型語音識(shí)別的應(yīng)用第五十七頁,共八十五頁。語音識(shí)別(shíbié)技術(shù)不同的語音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用(cǎiyòng)的根本技術(shù)相似,它所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。語音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)那么及模型訓(xùn)練技術(shù)三個(gè)方面。此外,還涉及到語音識(shí)別單元的選取。第五十八頁,共八十五頁。特征參數(shù)提取(tíqǔ)技術(shù)

語音信號(hào)中含有豐富(fēngfù)的信息,這些信息稱為語音信號(hào)的聲學(xué)特征特征提取是對(duì)語音信號(hào)進(jìn)行分析處理,去除對(duì)語音識(shí)別無關(guān)緊要的冗余信息,獲得影響語音識(shí)別的重要信息由于語音信號(hào)的時(shí)變特性,特征提取必須在一小段語音信號(hào)上進(jìn)行,也即進(jìn)行短時(shí)分析第五十九頁,共八十五頁。常用的一些(yīxiē)聲學(xué)特征

線性預(yù)測(cè)(yùcè)系數(shù)LPC倒譜系數(shù)CEPMel倒譜系數(shù)MFCC和感知線性預(yù)測(cè)PLP第六十頁,共八十五頁。模式匹配及模型(móxíng)訓(xùn)練技術(shù)

模型訓(xùn)練是指按照一定的準(zhǔn)那么,從大量模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配那么是根據(jù)一定準(zhǔn)那么,使未知模式與模型庫中的某一個(gè)模型獲得最正確匹配。語音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)(jìshù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)(jìshù)〔DTW,又稱為動(dòng)態(tài)時(shí)間彎折技術(shù)(jìshù)〕、隱馬爾可夫模型〔HMM〕和人工神經(jīng)元網(wǎng)絡(luò)〔ANN〕。第六十一頁,共八十五頁。典型語音(yǔyīn)識(shí)別系統(tǒng)

的實(shí)現(xiàn)過程

第六十二頁,共八十五頁。語音識(shí)別單元(dānyuán)的選取

選擇識(shí)別單元是語音識(shí)別研究的第一步語音識(shí)別單元有單詞〔句〕、音節(jié)和音素三種(sānzhǒnɡ)

單詞單元廣泛應(yīng)用于中小詞匯語音識(shí)別系統(tǒng)音節(jié)單元多見于漢語語音識(shí)別音素單元以前多見于英語語音識(shí)別的研究中,但目前中、大詞匯量漢語語音識(shí)別系統(tǒng)也在越來越多地采用第六十三頁,共八十五頁。語音識(shí)別技術(shù)(jìshù)及應(yīng)用語音識(shí)別(shíbié)的開展歷史語音識(shí)別技術(shù)語音識(shí)別系統(tǒng)的類型語音識(shí)別的應(yīng)用第六十四頁,共八十五頁。語音(yǔyīn)識(shí)別系統(tǒng)的類型語音識(shí)別系統(tǒng)有以下幾種分類方式:根據(jù)對(duì)說話人的依賴程度可以分為特定人和非特定人語音識(shí)別系統(tǒng)根據(jù)對(duì)說話人說話方式的要求,可以分為孤立字〔詞〕語音識(shí)別系統(tǒng),連接詞語音識(shí)別系統(tǒng)以及連續(xù)(liánxù)語音識(shí)別系統(tǒng)根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)第六十五頁,共八十五頁。特定(tèdìng)人語音識(shí)別系統(tǒng)

特定人的識(shí)別系統(tǒng)精明得足以能了解講話者的語音特點(diǎn),它從語音簽名上就能知道講話者的身份。只有在講話者用特定單詞(dāncí)組形成的詞匯表訓(xùn)練系統(tǒng)后,它才能識(shí)別特定人系統(tǒng)的優(yōu)點(diǎn)是它是可訓(xùn)練的,系統(tǒng)很靈活,可以訓(xùn)練它來識(shí)別新詞特定人的系統(tǒng)的缺點(diǎn)是由一個(gè)用戶訓(xùn)練的系統(tǒng)不能被另一用戶使用例:中使用的語音撥號(hào)第六十六頁,共八十五頁。非特定(tèdìng)人語音識(shí)別系統(tǒng)非持定人識(shí)別系統(tǒng)可識(shí)別任何用戶的語音。它不需要任何來自用戶的訓(xùn)練,因?yàn)樗灰蕾囉趥€(gè)人的語音簽名。為生成非特定人識(shí)別系統(tǒng)、大量的用戶訓(xùn)練了大詞匯表的識(shí)別器。在訓(xùn)練系統(tǒng)時(shí),男聲和女聲、不同的口音和方言,以及帶有背景噪音的環(huán)境(huánjìng)都計(jì)入了考慮范圍之內(nèi)以生成參考模板。例:IBMViaVoice第六十七頁,共八十五頁。孤立(gūlì)詞語音識(shí)別系統(tǒng)孤立詞(語音)識(shí)別系統(tǒng),一次只提供一個(gè)單一詞的識(shí)別識(shí)別器的第一個(gè)任務(wù)是進(jìn)行幅度和噪聲歸一化,下一步是參數(shù)分析可以通過把對(duì)應(yīng)于一個(gè)詞的大量(dàliàng)樣本聚集為單一群來獲得非特定人孤立單詞語音識(shí)別器。第六十八頁,共八十五頁。連接詞語音(yǔyīn)識(shí)別系統(tǒng)連接詞的語音由所說的短語組成,而短語又是由詞序列(xùliè)組成識(shí)別連接詞短語中單詞的一種方法是采用詞定位技術(shù)類似于孤立詞語音識(shí)別,連接詞語音識(shí)別用于命令和控制應(yīng)用第六十九頁,共八十五頁。連續(xù)(liánxù)語音識(shí)別系統(tǒng)連續(xù)語音由在聽寫中形成段落的完整句子組成連續(xù)語音識(shí)別系統(tǒng)可以分成以下三局部:第一局部包括數(shù)字化、幅度歸一化、時(shí)間歸一化和參數(shù)表示另一局部包括分割并把語音段標(biāo)記成在基于知識(shí)或基于規(guī)那么系統(tǒng)上的符號(hào)串最后一局部是設(shè)計(jì)(shèjì)用于識(shí)別詞序列而進(jìn)行語音段匹配第七十頁,共八十五頁。語音(yǔyīn)識(shí)別技術(shù)及應(yīng)用語音識(shí)別的開展歷史語音識(shí)別技術(shù)(jìshù)語音識(shí)別系統(tǒng)的類型語音識(shí)別的應(yīng)用第七十一頁,共八十五頁。語音(yǔyīn)識(shí)別的應(yīng)用語音郵件集成數(shù)據(jù)庫輸人和詢問(xúnwèn)應(yīng)用語音命令和控制應(yīng)用第七十二頁,共八十五頁。第四講數(shù)字(shùzì)語音處理技術(shù)

數(shù)字音頻壓縮技術(shù)三維音效語音識(shí)別(shíbié)自然語言理解語音合成

第七十三頁,共八十五頁。自然語言理解(lǐjiě)

自然語言理解就是研究如何能讓計(jì)算機(jī)理解并生成人們?nèi)粘K褂玫?如漢語、英語)語言,使得計(jì)算機(jī)懂得自然語言的含義,并對(duì)人給計(jì)算機(jī)提出的問題,通過對(duì)話的方式,用自然語言進(jìn)行答復(fù)。目的在于建立起一種人與機(jī)器(jīqì)之間的密切而友好的關(guān)系,使之能進(jìn)行高度的信息傳遞與認(rèn)知活動(dòng)。用自然語言與計(jì)算機(jī)進(jìn)行通信,這是人們長(zhǎng)期以來所追求的。第七十四頁,共八十五頁。自然語言理解(lǐjiě)一個(gè)中文文本從形式上看是由漢字〔包括標(biāo)點(diǎn)符號(hào)等〕組成的一個(gè)字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進(jìn)而由一些句子組成段、節(jié)、章、篇。無論在上述的各種層次:字〔符〕、詞、詞組、句子、段,……還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義現(xiàn)象,即形式上一樣的一段字符串,在不同的場(chǎng)景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。自然語言處理的核心技術(shù)是語言分析技術(shù),即將句子〔數(shù)量無限〕變換成由詞語〔數(shù)量可控〕及其抽象形式〔數(shù)量有限〕構(gòu)成(gòuchéng)的用某種數(shù)據(jù)結(jié)構(gòu)〔句法樹、復(fù)雜特征集或語義網(wǎng)絡(luò)〕表示的內(nèi)部形式〔數(shù)量有限〕。第七十五頁,共八十五頁。自然語言理解(lǐjiě)語言分析技術(shù)可以分為(fēnwéi)基于規(guī)那么與基于統(tǒng)計(jì)數(shù)據(jù)兩大類。概率語法通過語料庫統(tǒng)計(jì)給每條語言規(guī)那么加上概率值,語言規(guī)那么便有了“柔性〞,不再是“說一不二〞、“非此即彼〞。概率語法是有機(jī)結(jié)合這兩類技術(shù)的較好理論體系。為了完成這種統(tǒng)計(jì),事先必須按照人給出的語言規(guī)那么加工語料庫〔至少要加工一局部訓(xùn)練語料〕,這說明統(tǒng)計(jì)方法也需要規(guī)那么的指導(dǎo)。兩者之間的結(jié)合和互相利用是必然的趨勢(shì)。第七十六頁,共八十五頁。自然語言理解(lǐjiě)語言(yǔyán)分析可以劃分為詞法析、句法分析、語義分析、篇章分析等步驟?,F(xiàn)在,詞法分析和句法分析相對(duì)成熟,語義分析逐漸成為研究重點(diǎn)。對(duì)象單元由小到大從句子向篇章開展。實(shí)際上只有在篇章的范圍內(nèi)分析,省略、指代和句子的固有歧義等問題才可能解決。如果說自然語言處理技術(shù)尚未取得重大突破,其含義就是完整語言分析技術(shù)尚未過關(guān)。淺層分析技術(shù)或者只提取句子中的名詞短語,或者只識(shí)別句子的謂語中心詞及其他組塊同謂語中心詞的依存關(guān)系。這樣的技術(shù)就是適應(yīng)當(dāng)今大規(guī)模網(wǎng)上文本信息處理,例如,文獻(xiàn)檢索、信息提取和文本分類等的需要,吸收傳統(tǒng)的語言分析中某些局部技術(shù)而開展起來的。第七十七頁,共八十五頁。第四講數(shù)字語音處理(chǔlǐ)技術(shù)

數(shù)字音頻壓縮技術(shù)三維音效語音識(shí)別(shíbié)自然語言理解語音合成

第七十八頁,共八十五頁。語音(yǔyīn)合成語音合成是以言語產(chǎn)生(chǎnshēng)模型為根底,分析抽取鼓勵(lì)源,聲道的特征參數(shù);再利用這些特征參數(shù)重新綜合出語音信號(hào)的過程。語音合成是通過一個(gè)聲學(xué)模塊來具體實(shí)現(xiàn)的。第七十九頁,共八十五頁。語音(yǔyīn)合成早期的語音合成技術(shù)的研究,往往集中在語音合成算法本身,其研究的方法和手段與語音編碼有很多相似之處。進(jìn)入20世紀(jì)90年代以來,波形拼接(PSOLA,PitchSynchronousOverLapAdd)的算法,越來越被廣泛地應(yīng)用在語音合成系統(tǒng)中。PSOLA較好地解決了語音拼接中的問題,從而推動(dòng)了波形編輯語音合成技術(shù)的開展(kāizhǎn)與應(yīng)用。近年來,一些新的方法,如人工神經(jīng)網(wǎng)絡(luò)、決策樹、隱馬爾可夫模型等被廣泛地應(yīng)用于語音合成技術(shù)。第八十頁,共八十五頁。TTS

TTS即文本語音轉(zhuǎn)換技術(shù)(TextToSpeech),它涉及聲學(xué)、語言學(xué)、數(shù)學(xué)信號(hào)處理技術(shù)、多媒體技術(shù)等多個(gè)學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),實(shí)現(xiàn)把計(jì)算機(jī)中任意出現(xiàn)的文字轉(zhuǎn)換成自然流暢的語音輸出。T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論