版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、關(guān)于多媒體通信技術(shù)第一張,PPT共三百九十三頁,創(chuàng)作于2022年6月第一章 多媒體通信技術(shù)概述第二章 音頻技術(shù)基礎(chǔ)第三章 圖像技術(shù)基礎(chǔ)第四章 視頻信息壓縮與處理 第五章 多媒體通信系統(tǒng)中的關(guān)鍵技術(shù) 第六章 多媒體通信網(wǎng)絡(luò)技術(shù) 第七章 多媒體數(shù)據(jù)的分布式處理 第八章 多媒體通信應(yīng)用系統(tǒng) 本書章節(jié)第二張,PPT共三百九十三頁,創(chuàng)作于2022年6月第一章 多媒體通信技術(shù)概述多媒體技術(shù)的概念多媒體通信系統(tǒng)的概念及主要特征多媒體通信中的關(guān)鍵技術(shù)多媒體通信的應(yīng)用多媒體通信技術(shù)的發(fā)展趨勢(shì)第三張,PPT共三百九十三頁,創(chuàng)作于2022年6月1.1 多媒體通信的基本概念1媒體 “媒體”是指信息傳遞和存儲(chǔ)的最基本的
2、技術(shù)和手段,即信息的載體。媒體可劃分為5大類:(1) 感覺媒體(perception medium)感覺媒體是指人類通過其感覺器官,如聽覺、視覺、嗅覺、味覺和觸覺器官等直接產(chǎn)生感覺(感知信息內(nèi)容)的一類媒體,包括:聲音、文字、圖像、氣味、冷熱等。 (2) 表示媒體(representation medium) 表示媒體是指用于數(shù)據(jù)交換的編碼表示,包括:圖像編碼、文本編碼、聲音編碼等。其目的是為了能有效地加工、處理、存儲(chǔ)和傳輸感覺媒體。(3) 顯示媒體(presentation medium) 顯示媒體是指進(jìn)行信息輸入和輸出的媒體。輸入媒體包括:鏈盤、鼠標(biāo)、攝像頭、話筒、掃描儀、觸摸屏等,輸出媒
3、體包括:顯示屏、打印機(jī)、揚(yáng)聲器等。 第四張,PPT共三百九十三頁,創(chuàng)作于2022年6月(4) 存儲(chǔ)媒體(storage medium) 存儲(chǔ)媒體是指進(jìn)行信息存儲(chǔ)的媒體。包括:硬盤、光盤、軟盤、磁帶、ROM、RAM等。(5) 傳輸媒體(transmission medium) 傳輸媒體是指承載信息,將信息進(jìn)行傳輸?shù)拿襟w。包括:雙絞線、同軸電纜、光纜、無線電鏈路等。 在多媒體技術(shù)中的“多媒體”通常是指感覺媒體的組合,即聲音、文字、圖像、數(shù)據(jù)等各種媒體的組合。2多媒體(Multimedia) “多媒體技術(shù)”的定義:所謂多媒體技術(shù)就是計(jì)算機(jī)交互式綜合處理多媒體媒體信息文本、圖形、圖像和聲音,使多種信息
4、建立邏輯連接,集成為一個(gè)系統(tǒng)并具有交互性。簡(jiǎn)而言之,多媒體技術(shù)就是計(jì)算機(jī)綜合處理聲、文、圖 信息的技術(shù),具有集成性、實(shí)時(shí)性和交互性的特點(diǎn)。第五張,PPT共三百九十三頁,創(chuàng)作于2022年6月多媒體技術(shù)最簡(jiǎn)單的表現(xiàn)形式就是多媒體計(jì)算機(jī)。多媒體計(jì)算機(jī)相對(duì)于普通計(jì)算機(jī)的一個(gè)根本不同點(diǎn)在于在多媒體計(jì)算機(jī)中增加了對(duì)活動(dòng)圖像(包括伴音在內(nèi))的處理、存儲(chǔ)和顯示的能力,其硬件配以聲卡、視頻采集卡等。其主要特征體現(xiàn)在它能夠有效地對(duì)電視圖像數(shù)據(jù)進(jìn)行實(shí)時(shí)的壓縮和解壓縮,并能夠使在時(shí)間上有相關(guān)性的多種媒體保持同步。 3多媒體通信 多媒體通信技術(shù)是多媒體技術(shù)、計(jì)算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)等相互結(jié)合和發(fā)展的產(chǎn)物。 多媒體
5、通信系統(tǒng)同時(shí)具有以下三個(gè)特征:集成性交互性同步性第六張,PPT共三百九十三頁,創(chuàng)作于2022年6月集成性:主要是對(duì)各類信息進(jìn)行存儲(chǔ)、傳輸、處理、顯現(xiàn)的能力。 1)內(nèi)容數(shù)據(jù)信息:文本、圖形、靜止圖像與二值圖像、聲音、運(yùn)動(dòng)圖像 。 2)多媒體和超媒體信息:是結(jié)構(gòu)化信息,由結(jié)構(gòu)框架+內(nèi)容數(shù)據(jù)組成。 3)腳本信息 4)特定的應(yīng)用信息第七張,PPT共三百九十三頁,創(chuàng)作于2022年6月交互性:指的是在通信中使用者與系統(tǒng)之間的相互溝通的特性,它使用戶可以更有效地控制和使用信息,增加對(duì)信息的注釋和理解。 交互性有兩個(gè)方面的內(nèi)容:人機(jī)接口:也就是人在使用系統(tǒng)的終端時(shí),系統(tǒng)向用戶提供的操作界面。通信協(xié)議:用戶終端
6、與系統(tǒng)之間的應(yīng)用層通信協(xié)議。第八張,PPT共三百九十三頁,創(chuàng)作于2022年6月同步性:多媒體通信終端上顯現(xiàn)的圖象、聲音和文字等信息是以同步方式工作。檢索“劉謙 春晚”,顯示多媒體信息,各信息同步顯示。第九張,PPT共三百九十三頁,創(chuàng)作于2022年6月1多媒體數(shù)據(jù)壓縮技術(shù) 數(shù)據(jù)壓縮的必要性和可能性。1.2 多媒體通信中的關(guān)鍵技術(shù)第十張,PPT共三百九十三頁,創(chuàng)作于2022年6月多媒體信息的特點(diǎn)1.多媒體信息的類型 文本、圖形、圖像、動(dòng)畫、聲音、視頻2. 常用多媒體處理軟件 CorelDraw Illustrator 圖形類圖像類photoshop ACDSee 第十一張,PPT共三百九十三頁,創(chuàng)
7、作于2022年6月多媒體信息的特點(diǎn) 動(dòng)畫類二維動(dòng)畫Flash ANIMO 三維動(dòng)畫3ds max mayaCooledit pro VEGAS 聲音類影視編輯類交互演示類Authorware director flashPremiere after effect 編程類Vb VC Delphi Java第十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月3. 多媒體信息的特點(diǎn)多媒體數(shù)據(jù)類型復(fù)雜(多樣性) 多媒體數(shù)據(jù)種類繁多也決定了多媒體數(shù)據(jù)表示的復(fù)雜性多媒體數(shù)據(jù)的實(shí)時(shí)性 由于在多媒體技術(shù)中新引入的復(fù)雜媒體類型大部份都含有與時(shí)間有關(guān)的信息,因此在許多場(chǎng)合都要求實(shí)時(shí)處理第十三張,PPT共三百九十三
8、頁,創(chuàng)作于2022年6月3. 多媒體信息的特點(diǎn)多媒體數(shù)據(jù)的同步性 另一由于引入與時(shí)間有關(guān)的媒體而形成的重要特點(diǎn)數(shù)據(jù)量大 多媒體系統(tǒng)需要大量的存儲(chǔ)空間來存放復(fù)雜類型的數(shù)據(jù)多媒體數(shù)據(jù)的交互性碼率可變、突發(fā)性強(qiáng) 人們講話時(shí)的停頓、 所傳場(chǎng)景圖像中物體的運(yùn)動(dòng)等都會(huì)形成碼流速率的波動(dòng), 而且這種波動(dòng)往往呈現(xiàn)出極強(qiáng)的突發(fā)性。第十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的必要性由于多媒體數(shù)據(jù)量非常大,造成計(jì)算機(jī)的存儲(chǔ)和網(wǎng)絡(luò)傳輸負(fù)擔(dān)若幀速率為25幀秒,則1s的數(shù)據(jù)量大約為25MB,一個(gè)640MB的光盤只能存放大約25s的動(dòng)態(tài)圖像一幅640480分辨率的24位真彩色圖像的數(shù)據(jù)量約為900KB;一
9、個(gè)100MB的硬盤只能存儲(chǔ)約100幅靜止圖像畫面解決辦法之一就是進(jìn)行數(shù)據(jù)壓縮,壓縮后再進(jìn)行存儲(chǔ)和傳輸,到需要時(shí)再解壓、還原。第十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月表1 各種信號(hào)的特性和未壓縮速率第十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的必要性 從上圖可以看出: 未進(jìn)行任何形式編碼和壓縮的窄帶語音信號(hào)需要128 kb/s的速率, 即兩倍于普通電話的速率。 信號(hào)未被壓縮的寬帶話音需要256 kb/s的速率, 未壓縮的雙聲道立體聲CD音頻需要1.41 Mb/s的速率。 在保持原始信號(hào)質(zhì)量的前提下, 窄帶語音可以壓縮到4 kb/s(301的壓縮比), 寬帶話音可以壓縮
10、到約16 kb/s(151的壓縮比), CD音頻可以壓縮到64 kb/s(221的壓縮比)。顯然, 多媒體信號(hào)在進(jìn)行有效的存儲(chǔ)和傳輸之前, 必須進(jìn)行處理, 而最關(guān)鍵的處理方法是進(jìn)行數(shù)據(jù)壓縮。第十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性 研究表明,一個(gè)文件所包含的數(shù)據(jù)量并不等于它所包含的信息量,數(shù)據(jù)中通常包含很大的冗余,其關(guān)系如: D=I+r 其中D為數(shù)據(jù)量, I為信息量,r為冗余量。壓縮:在多媒體信息中包含大量冗余的信息,把這些冗余的信息去掉的過程。 第十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性音頻、圖像和視頻數(shù)據(jù)中存在的冗余主要有以下幾種:(1
11、)空間冗余 圖象本身的數(shù)據(jù)冗余 在任何一幅圖像中, 均有許多灰度或顏色都相同的鄰近像素組成的局部區(qū)域, 它們形成了一個(gè)性質(zhì)相同的集合塊, 即它們之間具有空間(或空域)上的強(qiáng)相關(guān)性, 在圖像中就表現(xiàn)為空間冗余??臻g冗余的壓縮方法:把這種局部區(qū)域集合塊當(dāng)作一個(gè)整體, 用極少的數(shù)據(jù)量來表示, 從而節(jié)省存儲(chǔ)空間。 這種壓縮方法叫空間壓縮或幀內(nèi)壓縮, 它的基本點(diǎn)就在于減少鄰近像素之間的空間(或空域)相關(guān)性。第十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性該圖為一張俯視圖, 圖中央的黑色是一塊表面均勻的積木塊, 在圖中, 黑色區(qū)域所有點(diǎn)的表示數(shù)據(jù)差不多都是相同的, 因而黑色區(qū)域的數(shù)據(jù)表
12、達(dá)有很大的冗余。第二十張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性(2)時(shí)間冗余 序列圖像和語音數(shù)據(jù)中包含的冗余。 活動(dòng)圖像(視頻)中的兩幅相鄰圖像之間存在的相關(guān)性或一段時(shí)間內(nèi)連續(xù)音頻存在的相關(guān)性。第二十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性(3)信息熵冗余 信息熵冗余也稱為編碼冗余,它是指一塊數(shù)據(jù)所攜帶的信息量少于數(shù)據(jù)本身所產(chǎn)生的冗余。例如,利用等長(zhǎng)碼表示信息就比不等長(zhǎng)碼如Huffman編碼表示信息量存在冗余。(4)結(jié)構(gòu)冗余 指圖象各部分結(jié)構(gòu)上的類似性所產(chǎn)生的冗余,例如物體表面圖象上的紋理結(jié)構(gòu)。 第二十二張,PPT共三百九十三頁,創(chuàng)作于2022年6
13、月信息壓縮的可行性(5)知識(shí)冗余 指某些圖象的結(jié)構(gòu)可由這些圖象的先驗(yàn)知識(shí)和背景知識(shí)獲得。 例:汽車圖象的結(jié)構(gòu)可由汽車的先驗(yàn)知識(shí)和背景知識(shí)得到。這種冗余稱為知識(shí)冗余。 例: 人臉的圖像有固定的結(jié)構(gòu), 嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻子位于正臉圖像的中線上等等。 這類規(guī)律的結(jié)構(gòu)可由先驗(yàn)知識(shí)和背景知識(shí)得到, 因此這類信息對(duì)一般人來說是冗余信息。第二十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性(6)視覺聽覺冗余 視覺聽覺冗余是指人的視覺、聽覺分辨率低于實(shí)際圖象、音頻的分辨率所產(chǎn)生的冗余。例如,人的視覺對(duì)灰度等級(jí)的分辨率是2個(gè)等級(jí),而一般圖象量化所采用灰度等級(jí)是2等級(jí)。 例
14、如, 人的視覺對(duì)于圖像邊緣的急劇變化不敏感, 對(duì)圖像的亮度信息敏感, 對(duì)顏色的分辨率較弱等。 因此, 如果圖像經(jīng)壓縮或量化發(fā)生的變化(或稱引入了噪聲)不能被視覺所感覺, 則認(rèn)為圖像質(zhì)量是完好的或是夠好的, 即圖像壓縮并恢復(fù)后仍有滿意的主觀圖像質(zhì)量。(7) 其他冗余第二十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月4. 壓縮的種類無損壓縮 也稱為冗余壓縮或無失真壓縮。冗余壓縮法去掉或者減少了數(shù)據(jù)中的冗余,但這些冗余數(shù)據(jù)是用特定的方法重新插入到數(shù)據(jù)中。冗余壓縮是可逆的,它能保證百分之百地恢復(fù)原始數(shù)據(jù)。 在多媒體技術(shù)中,一般用于文本的壓縮。但這種方法壓縮比較低。常用的壓縮編碼方法有LZW編碼、行
15、程編碼、霍夫曼(Huffman)編碼等,壓縮比一般在2:15:1之間。第二十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月有損壓縮 也稱為有失真壓縮或熵壓縮法。壓縮了熵,會(huì)減少信息量,而損失的信息量是不能恢復(fù)的,因此這種壓縮方法是不可逆的。 這種方法適合對(duì)圖像、聲音、動(dòng)態(tài)視頻等數(shù)據(jù)進(jìn)行壓縮,對(duì)動(dòng)態(tài)視頻的壓縮比可達(dá)到50:1200:1。當(dāng)然,對(duì)多媒體數(shù)據(jù)進(jìn)行有損壓縮后,就涉及到壓縮質(zhì)量的問題,一般的要求是壓縮后的內(nèi)容不應(yīng)該影響人們對(duì)信息的理解。第二十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月數(shù)據(jù)壓縮的主要指標(biāo) 有較高的壓縮比、壓縮和解壓縮時(shí)間短、解壓縮后信息恢復(fù)質(zhì)量高是評(píng)價(jià)壓縮好壞的主要
16、方面。1. 有較高的壓縮比 即壓縮前后的數(shù)據(jù)量之比,如果文件的大小為1MB,經(jīng)過壓縮處理后變成0.5MB,那么壓縮比為2:1。高的壓縮比是數(shù)據(jù)壓縮的根本目的,無論從哪個(gè)角度看,在同樣壓縮效果的前提下,數(shù)據(jù)壓縮得越小越好。當(dāng)然還要考慮多媒體數(shù)據(jù)壓縮后的輸入和輸出表示方式。第二十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月數(shù)據(jù)壓縮的主要指標(biāo)2. 解壓縮后信息恢復(fù)質(zhì)量高 對(duì)于文本等文件,特別是是程序文件,是不允許在壓縮和解壓縮過程中丟失信息的。因此需要采用無損壓縮,不存在壓縮后恢復(fù)質(zhì)量的問題。對(duì)于圖像、聲音和視頻影像,數(shù)據(jù)經(jīng)過壓縮后允許信息的部分丟失。在這種情況下,信息經(jīng)解壓縮后不可能完全恢復(fù),
17、壓縮和解壓縮質(zhì)量就不能不考慮。因此,是否具有好的恢復(fù)質(zhì)量是數(shù)據(jù)壓縮的另一個(gè)重要指標(biāo)。第二十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月表2 圖像主觀評(píng)價(jià)性能表 主觀評(píng)價(jià)分 質(zhì)量尺度 妨礙觀看尺度 5 非常好 絲毫看不出圖像質(zhì)量變壞 4 好 能看出圖像質(zhì)量變化,但不妨礙觀看 3 一般 清楚地看出圖像質(zhì)量變壞,對(duì)觀看稍有妨礙 2 差 對(duì)觀看有妨礙 1 非常差 非常嚴(yán)重地妨礙觀看第二十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月數(shù)據(jù)壓縮的主要指標(biāo)3. 壓縮和解壓縮時(shí)間短 數(shù)據(jù)的壓縮和解壓縮是在一定數(shù)學(xué)模型的基礎(chǔ)上,通過一系列數(shù)學(xué)運(yùn)算實(shí)現(xiàn)的。計(jì)算方法的好壞直接關(guān)系到壓縮和解壓縮過程所需要的時(shí)間
18、。第三十張,PPT共三百九十三頁,創(chuàng)作于2022年6月數(shù)據(jù)壓縮的主要指標(biāo) 有較高的壓縮比、壓縮和解壓縮時(shí)間短、解壓縮后信息恢復(fù)質(zhì)量高是評(píng)價(jià)壓縮好壞的主要方面。1. 有較高的壓縮比 即壓縮前后的數(shù)據(jù)量之比,如果文件的大小為1MB,經(jīng)過壓縮處理后變成0.5MB,那么壓縮比為2:1。高的壓縮比是數(shù)據(jù)壓縮的根本目的,無論從哪個(gè)角度看,在同樣壓縮效果的前提下,數(shù)據(jù)壓縮得越小越好。當(dāng)然還要考慮多媒體數(shù)據(jù)壓縮后的輸入和輸出表示方式。第三十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月1.2 多媒體通信中的關(guān)鍵技術(shù)視頻壓縮 從圖像壓縮編碼的發(fā)展過程看,可以分為三個(gè)階段,即第一代、第二代、第三代圖像壓縮編碼方
19、法。第一代圖像壓縮編碼方法以仙農(nóng)信息論為基礎(chǔ),考慮圖像信源的統(tǒng)計(jì)特性,采用預(yù)測(cè)編碼、變換編碼、矢量量化編碼、子帶編碼、小波變換編碼、神經(jīng)網(wǎng)絡(luò)編碼等方法。第一代圖像壓縮編碼方法于80年代初已趨于成熟,目前利用第一代技術(shù)對(duì)視頻圖像的壓縮可以得到848Kb/s的最低碼率。 第二代圖像壓縮編碼方法充分考慮了人眼的視覺特性,從人類的主觀特性出發(fā),采用基于方向?yàn)V波的圖像編碼方法和基于圖像輪廓紋理的編碼方法,利用第二代圖像壓縮編碼方法可以獲得極低碼率的圖像數(shù)據(jù),目前第二代技術(shù)尚未發(fā)展到成熟的階段。 第三代圖像壓縮編碼方法考慮到了圖像傳遞的景物特征,采用分形編碼方法和基于模型的編碼方法,其中基于模型的壓縮編碼
20、方法是目前最活躍的研究領(lǐng)域,代表著新一代的壓縮編碼方向。第三十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月有關(guān)圖像壓縮編碼的國(guó)際標(biāo)準(zhǔn)主要有:JPEG、H.261、H.263、MPEG-1、MPEG-2/H.262、MPEG-4等。MPEG-7和MPEG-21是MPEG系列標(biāo)準(zhǔn)中的新成員,MPEG-7的正式名稱為“多媒體內(nèi)容描述接口”,用于描述多媒體內(nèi)容數(shù)據(jù)。MPEG-21即“多媒體框架”,這一概念是在1999年10月的MPEG會(huì)議上提出的,它是一種用于協(xié)調(diào)處于不同地點(diǎn)、與不同類型的網(wǎng)絡(luò)相聯(lián)接的各種設(shè)備間進(jìn)行多媒體信息交互的綜合性標(biāo)準(zhǔn)。音頻壓縮 基本上與圖像壓縮編碼技術(shù)相同,不同之處在于圖像
21、信號(hào)是二維信號(hào),而音頻信號(hào)是一維信號(hào)。相比較而言,其數(shù)據(jù)壓縮難度較低。涉及的聲音壓縮編碼的國(guó)際標(biāo)準(zhǔn)主要有:G. 711、G. 721、G. 722、G. 728、G. 729、G. 723.1等。第三十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月2多媒體數(shù)據(jù)的獲取與顯示技術(shù) 多媒體數(shù)據(jù)的獲取與顯示主要指人機(jī)交互的界面,它介于用戶和計(jì)算機(jī)系統(tǒng)之間。用戶通過人機(jī)界面向系統(tǒng)提供命令、數(shù)據(jù)等輸入信息,系統(tǒng)則將輸出信息通過人機(jī)界面呈現(xiàn)給用戶。 字符界面,輸入工具是鍵盤 圖形化界面,輸入工具是鼠標(biāo)、跟蹤球、電子筆、觸摸屏、攝像頭和視音頻采集卡等;輸出手段可采用聲音、圖形圖像以及活動(dòng)視頻作為信息的顯示形
22、式。 文字識(shí)別技術(shù) 語音識(shí)別技術(shù)第三十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月3多媒體數(shù)據(jù)庫(kù)及其檢索技術(shù)傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)管理多媒體數(shù)據(jù)的方法的局限性,集中表現(xiàn)在以下三個(gè)方面。 第一,多媒體數(shù)據(jù)所包含的信息量非常大,用人工注釋難以準(zhǔn)確描述; 第二,多媒體數(shù)據(jù)隨時(shí)變化,因而難以統(tǒng)計(jì)及預(yù)測(cè); 第三,多媒體數(shù)據(jù)內(nèi)部有各種復(fù)雜的時(shí)域、空域以及基于內(nèi)容的約束關(guān)系,傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)未曾涉及到這些方面。由此開發(fā)出新的多媒體數(shù)據(jù)庫(kù)系統(tǒng),同時(shí)基于內(nèi)容的多媒體信息檢索研究方案也應(yīng)運(yùn)而生。第三十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月多媒體數(shù)據(jù)的內(nèi)容包括概念級(jí)內(nèi)容、感知特性(例如圖像的顏色、紋理,
23、聲音的音色、音質(zhì)等)、邏輯關(guān)系(例如音視頻對(duì)象的時(shí)空關(guān)系等)、信號(hào)特征(通過信號(hào)處理方法例如小波變換獲得的媒體特征)、特定領(lǐng)域的特征(與應(yīng)用相關(guān),例如人的面部特征、指紋特征)等。4多媒體通信網(wǎng)絡(luò)技術(shù)隨著視頻會(huì)議、視頻點(diǎn)播、遠(yuǎn)程教育等多媒體網(wǎng)絡(luò)應(yīng)用的開展,能夠滿足多媒體應(yīng)用需要的通信網(wǎng)絡(luò)必須具有高帶寬、可提供服務(wù)質(zhì)量的保證、實(shí)現(xiàn)媒體同步等特點(diǎn)。第三十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月目前的多媒體網(wǎng)絡(luò)應(yīng)用主要涉及到網(wǎng)絡(luò)傳輸、服務(wù)質(zhì)量、服務(wù)模式等方面的技術(shù)。因?yàn)閭鹘y(tǒng)的基于分組交換的IP網(wǎng)絡(luò)只提供盡力而為型的服務(wù),要在IP網(wǎng)上得到QoS的保證需要額外的協(xié)議或標(biāo)準(zhǔn),目前有綜合服務(wù)模型(In
24、tServ)/RSVP、區(qū)分服務(wù)模型(DiffServ)、多協(xié)議標(biāo)簽交換MPLS等,而IETF新公布的IPv6協(xié)議則在一定程度上滿足了QoS的服務(wù)質(zhì)量要求。對(duì)于電路交換網(wǎng),則通過已有的ITU-T H.32X和T.120等相關(guān)的系列標(biāo)準(zhǔn)來獲得有保證的服務(wù)質(zhì)量。而ATM網(wǎng)從協(xié)議本身就考慮了對(duì)多媒體應(yīng)用的支持,可以為多媒體應(yīng)用預(yù)留資源。多媒體應(yīng)用還需要組播服務(wù),其發(fā)展是多媒體應(yīng)用的趨勢(shì)。目前,應(yīng)用在傳統(tǒng)IP分組網(wǎng)上的組播技術(shù)正在得到進(jìn)一步的研究和推廣,相關(guān)的協(xié)議有因特網(wǎng)組管理協(xié)議IGMP(Internet Group Management Protocol),組播路由協(xié)議DVMRP、MOSPF、PI
25、M和CBT等。ATM網(wǎng)的組播技術(shù)也是研究的一個(gè)重要內(nèi)容,其信令控制已經(jīng)可以采用組播技術(shù),但是數(shù)據(jù)分發(fā)的組播技術(shù)還沒有成熟。以軟交換為核心的NGN網(wǎng)絡(luò)為多媒體通信開辟了更廣闊的天地。 第三十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月5多媒體信息存儲(chǔ)技術(shù) 既要保證存儲(chǔ)設(shè)備的存儲(chǔ)容量足夠大,還要保證存儲(chǔ)設(shè)備的速度要足夠快,帶寬要足夠?qū)?。滿足上述要求的存儲(chǔ)設(shè)備有多種,包括硬盤、光盤、磁帶、冗余磁盤陣列和存儲(chǔ)區(qū)域網(wǎng)絡(luò)等。6多媒體數(shù)據(jù)的分布式處理技術(shù) 用于分布式多媒體系統(tǒng)的業(yè)務(wù)多種多樣,不同業(yè)務(wù)所用的多媒體終端也各不相同。目前常用的多媒體終端有多媒體計(jì)算機(jī)終端以及針對(duì)某種特定應(yīng)用的專用設(shè)備,如機(jī)頂盒
26、、可視電話終端設(shè)備等。終端的軟件平臺(tái)則包括系統(tǒng)軟件以及各種應(yīng)用軟件,其中操作系統(tǒng)是軟件的核心。 多媒體操作系統(tǒng)有Apple公司的QuickTime、微軟公司的Windows XP等。微軟公司于2004年推出的Windows XP Media Center Edition 2004操作系統(tǒng)是專為多媒體個(gè)人電腦設(shè)計(jì)的。 流媒體技術(shù)也是一種分布式多媒體技術(shù),它主要解決了在多媒體數(shù)據(jù)流傳輸過程中所占帶寬寬,用戶下載數(shù)據(jù)等待時(shí)間長(zhǎng)的問題。 第三十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月1.3 多媒體通信的應(yīng)用多媒體通信系統(tǒng)的應(yīng)用非常廣泛,可以提供VOD視頻點(diǎn)播,遠(yuǎn)程教學(xué)、遠(yuǎn)程辦公、遠(yuǎn)程醫(yī)療、多媒
27、體電子郵件、可視電話、桌面視頻會(huì)議,數(shù)字圖書館、電子百科書等多種多樣的業(yè)務(wù)。第三十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月 多媒體通信的體系結(jié)構(gòu) 傳輸網(wǎng)絡(luò):它是體系結(jié)構(gòu)的最低層,它為多媒體通信的實(shí)現(xiàn)提供了最基本的物理環(huán)境。 網(wǎng)絡(luò)服務(wù)平臺(tái):該層主要提供各類網(wǎng)絡(luò)服務(wù),是用戶能直接使用這些服務(wù)內(nèi)容,而無需知道底層傳輸網(wǎng)絡(luò)是怎么提供這些服務(wù)的,即網(wǎng)絡(luò)服務(wù)平臺(tái)的創(chuàng)建使傳輸網(wǎng)絡(luò)對(duì)用戶來說是透明的。 多媒體通信平臺(tái):該層主要提供其通信支援(如多媒體信息處理),并支持各類多媒體的應(yīng)用。 一般應(yīng)用:指人們常見的一些多媒體應(yīng)用。如多媒體文本檢索。 特殊應(yīng)用:指業(yè)務(wù)性較強(qiáng)的某些多媒體應(yīng)用。如電子郵件。第四十
28、張,PPT共三百九十三頁,創(chuàng)作于2022年6月多媒體通信的體系結(jié)構(gòu) 第四十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月作業(yè)1、什么是媒體?根據(jù)原CCITT的定義,媒體可劃分為哪幾大類?它們是如何描述的?2、多媒體通信系統(tǒng)如何構(gòu)成的?簡(jiǎn)述其主要特征。3、試舉出一兩種多媒體通信系統(tǒng)的具體應(yīng)用,并從中分析多媒體通信技術(shù)對(duì)人類社會(huì)的影響。第四十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月第二章 音頻技術(shù)基礎(chǔ)音頻信息涉及人耳所能聽到的聲音信息,包括語聲和樂聲。據(jù)統(tǒng)計(jì),人類從外界獲得的信息大約有16%是從耳朵得到的,由此可見音頻信息在人類獲得信息方面的重要性。第四十三張,PPT共三百九十三頁,創(chuàng)作
29、于2022年6月2.1 聲學(xué)基礎(chǔ)知識(shí)2.1.1 音頻信號(hào)特性頻域特性是指的聲音信號(hào)是由很多的正弦分量組成的。從頻譜分析來看,大多數(shù)聲音都是由線狀譜和連續(xù)譜組成的。從幅度來看,連續(xù)譜相比于線狀譜來說比較弱,使整個(gè)聲音在人耳的聽覺來看是表現(xiàn)出有明確音高的有調(diào)音的特性。但這些很弱的連續(xù)譜還是不能一概忽略的。正是有了這些連續(xù)頻譜成分,使聲音顯得生動(dòng)、活潑、真實(shí)。常用聲波頻率、聲壓、聲強(qiáng)等參數(shù)來描述聲音。聲波頻率是常用的描述聲音的參量。人耳對(duì)聲波頻率的感覺是有界限的。從人耳的聽覺特性我們知道,人耳所能感受到的聲音的頻率范圍在2020范圍內(nèi)。低于20和高于20的聲音,人耳是聽不到的。 聲壓及聲壓級(jí)SPL(
30、Sound Pressure Level)也是常用的聲音描述參量。簡(jiǎn)單來說,聲壓就是聲音的壓力。聲壓級(jí)SPL是為了很好的描述人耳對(duì)聲音的感覺所使用的物理量。研究人耳對(duì)聲音強(qiáng)弱的感覺是用聲壓及聲壓級(jí)來說明的。它是用來說明當(dāng)聲音的強(qiáng)弱出現(xiàn)線性的變化時(shí),人耳對(duì)這種聲音強(qiáng)弱線性的變化感覺是否也是線性的。第四十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月能引起人耳聽到聲音時(shí)的聲壓稱為聽閾,頻率1kHz時(shí)的聽閾為210-5;將引起人耳疼痛的聲壓稱為痛閾,約為20。人耳對(duì)聲壓強(qiáng)弱變化的感覺并不是呈線性的。大體上來說,人耳對(duì)聲音強(qiáng)弱的感覺是與聲壓有效值的對(duì)數(shù)成比例的。為適應(yīng)人耳的這一特性,就對(duì)聲壓有效值取
31、對(duì)數(shù),用此對(duì)數(shù)值來表示聲音的強(qiáng)弱。這種表示聲音強(qiáng)弱的對(duì)數(shù)值就叫做聲壓級(jí)。人耳的聽閾和痛閾分別對(duì)應(yīng)的聲壓級(jí)為0dB和120dB。 第四十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.1.2 人耳聽覺特性響度、音調(diào)和音色稱為人耳聽覺特性的三要素。一般來說,客觀物理量的聲壓或聲強(qiáng)、頻率、波形(頻譜結(jié)構(gòu))和主觀感覺的三要素響度、音調(diào)、音色相對(duì)應(yīng)。1、人耳對(duì)聲音強(qiáng)弱的感覺特性人耳對(duì)聲音強(qiáng)弱的感覺不是與聲壓成正比,而是與聲壓級(jí)成正比關(guān)系。2、響度、響度級(jí)響度是聽覺判斷聲音強(qiáng)弱的屬性。響度主要與引起聽覺的聲壓有關(guān),也與聲音的頻率和聲音的波形有關(guān)。聲壓(級(jí))是從客觀的角度來描述聲波的強(qiáng)弱的,而響度是從主
32、觀的角度來描述人耳對(duì)聲音強(qiáng)弱的感覺。一般來說,聲壓(級(jí))大的聲音其響度也會(huì)較大,它們之間是有一定的關(guān)系,但并不完全一致。也就是說聲壓(級(jí))大的聲音人耳的感覺不一定響。描述響度、聲壓以及聲音頻率之間關(guān)系的曲線稱為等響度曲線,也叫響度的靈敏度曲線。第四十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月圖2-1 等響曲線第四十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月3、人耳聽覺的掩蔽效應(yīng)一個(gè)頻率聲音的聽閾由于另一個(gè)聲音的存在而上升的現(xiàn)象稱為掩蔽。當(dāng)我們聽兩個(gè)頻率的聲音的時(shí)候,其中一個(gè)頻率的聲音很響,而另一個(gè)頻率的聲音較弱,盡管從聲強(qiáng)來說都超過了聽閾,但此時(shí),我們只能聽到很響的那個(gè)頻率的聲音,
33、不很響的頻率的聲音是聽不到的,也就是說弱聲被強(qiáng)聲掩蔽掉了。對(duì)于純音來說,一般會(huì)有這樣的現(xiàn)象出現(xiàn):頻率低的純音比較容易掩蔽頻率高純音,而頻率高的純音比較來說難掩蔽低頻率的純音。利用人耳對(duì)聲音的掩蔽效應(yīng),可以用有用的聲音信號(hào)去掩蔽那些無用的聲音信號(hào)。第四十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月4、聲音質(zhì)量評(píng)價(jià)在采用等級(jí)法MOS(Mean Opinion Score)進(jìn)行評(píng)價(jià)時(shí),通常設(shè)優(yōu),良,中,差,劣五個(gè)等級(jí):5分表示質(zhì)量極好,十分滿意;4分表示質(zhì)量好,比較滿意;3分表示質(zhì)量一般尚可接受;2分表示質(zhì)量差勉強(qiáng)能聽;1分表示質(zhì)量低劣無法忍受。圖2-3 中心頻率為1200Hz的帶有噪聲的掩蔽譜
34、第四十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.2 音頻信息編碼分類1波形編碼波形編碼是基于對(duì)語音信號(hào)波形的數(shù)字化處理,試圖使處理后重建的語音信號(hào)波形與原語音信號(hào)波形保持一致。優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單、語音質(zhì)量較好、適應(yīng)性強(qiáng)等。缺點(diǎn)是話音信號(hào)的壓縮程度不是很高,實(shí)現(xiàn)的碼速率比較高。 常見的波形壓縮編碼方法有:脈沖編碼調(diào)制PCM、增量調(diào)制編碼DM、差值脈沖編碼調(diào)制DPCM、自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)、子帶編碼(SBC)和矢量量化編碼(VQ)等。 波形編碼的比特率一般在16至64之間,它有較好的話音質(zhì)量與成熟的技術(shù)實(shí)現(xiàn)方法。當(dāng)數(shù)碼率低于32的時(shí)候音質(zhì)明顯降低,16 時(shí)音質(zhì)就非常差了。 編
35、碼速率采樣頻率 編碼比特?cái)?shù) 計(jì)算播放某個(gè)音頻信號(hào)所需要的存儲(chǔ)容量,公式為: 存儲(chǔ)容量播放時(shí)間速率8(字節(jié))第五十張,PPT共三百九十三頁,創(chuàng)作于2022年6月2、參數(shù)編碼參數(shù)編碼又稱聲源編碼,它是通過構(gòu)造一個(gè)人發(fā)聲的模型,以發(fā)音機(jī)制的模型作為基礎(chǔ),用一套模擬聲帶頻譜特性的濾波器系數(shù)和若干聲源參數(shù)來描述這個(gè)模型,在發(fā)送端從模擬語音信號(hào)中提取各個(gè)特征參量并對(duì)這些參量進(jìn)行量化編碼,以實(shí)現(xiàn)語音信息的數(shù)字化。 特點(diǎn)是語音編碼速率較低,基本上在2kbits9.6kbits之間。在模型圖中,周期信號(hào)源表示濁音激勵(lì)源,隨機(jī)信號(hào)表示清音激勵(lì)源;u(n)表示波形產(chǎn)生的激勵(lì)參數(shù),可以用清/濁音判決(u/v)來表示;
36、G是增益控制,代表語聲信號(hào)的強(qiáng)度;線性時(shí)變?yōu)V波器可以看作是聲道特性;ai是線性時(shí)變?yōu)V波器的系統(tǒng)參數(shù);C(n) 是合成的語聲輸出。 第五十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月參數(shù)編碼的典型代表是線性預(yù)測(cè)編碼LPC。第五十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月3、混和編碼混和編碼將波形編碼和參量編碼結(jié)合起來,力圖保持波形編碼話音的高質(zhì)量與參量編碼的低速率。采用混合編碼的編碼器有:多脈沖激勵(lì)線性預(yù)測(cè)編碼器(MPE-LPC),規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼器(RPE-LPC),碼激勵(lì)線性預(yù)測(cè)編碼器(CELP),矢量和激勵(lì)線性預(yù)測(cè)編碼器(VSELP)和多帶激勵(lì)線性預(yù)測(cè)編碼器。以上三種壓縮
37、編碼的性能比較可以用下圖來表示:第五十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月圖2-5 合成分析原理簡(jiǎn)化框圖第五十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月 2.3 常用壓縮編碼方法 速率低于64kb/的語聲數(shù)字化處理方法稱為音頻信息壓縮編碼。2.3.1 差值脈沖編碼調(diào)制DPCM和自適應(yīng)差值脈沖編碼調(diào)制ADPCM差值脈沖編碼調(diào)制(DPCM)的基本出發(fā)點(diǎn)就是對(duì)相鄰樣值的差值進(jìn)行量化編碼。由于此差值比較小,可以為其分配較少的比特?cái)?shù),進(jìn)而起到了壓縮數(shù)碼率的目的。在具體的實(shí)現(xiàn)過程中,是對(duì)樣值與其對(duì)應(yīng)的預(yù)測(cè)值的差值進(jìn)行量化編碼的。對(duì)一個(gè)話音信號(hào)的樣值序列,當(dāng)前樣值的預(yù)測(cè)值可以由其前面的若干
38、個(gè)樣值來進(jìn)行預(yù)測(cè),若樣值序列表示為: 為當(dāng)前值,則對(duì)當(dāng)前樣值完整的預(yù)測(cè)表達(dá)式由下式表示:第五十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月 式中 為當(dāng)前值 的預(yù)測(cè)值, 為當(dāng)前值前面的N-1個(gè)樣值。 為預(yù)測(cè)系數(shù),若預(yù)測(cè)系數(shù)隨輸入信號(hào)而變化時(shí)就是自適應(yīng)預(yù)測(cè)。則當(dāng)前值 與 預(yù)測(cè)值的差值表示為: 可以由一系列預(yù)測(cè)值得到其對(duì)應(yīng)的差值。差分脈沖編碼調(diào)制就是對(duì)上面的一系列差值進(jìn)行量化編碼,再進(jìn)行存儲(chǔ)或傳輸。由于話音信號(hào)相鄰樣值之間有很強(qiáng)的相關(guān)性,所以預(yù)測(cè)值與實(shí)際值是很接近的,其差值也是很小,也就可以用比較少的比特?cái)?shù)來進(jìn)行編碼表示,這樣就減少了編碼的比特?cái)?shù)。在接收端或在對(duì)數(shù)據(jù)進(jìn)行回放時(shí),可用類似的過程重建
39、原始數(shù)據(jù)。 第五十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月實(shí)現(xiàn)差分脈沖編碼調(diào)制的系統(tǒng)方框圖如圖27所示: 第五十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月預(yù)測(cè)系數(shù)的求法是預(yù)測(cè)估值的均方差為最小的預(yù)測(cè)系數(shù) 。為了進(jìn)一步提高編碼的性能,將自適應(yīng)量化技術(shù)和自適應(yīng)預(yù)測(cè)技術(shù)結(jié)合在一起用于差分脈沖編碼調(diào)制DPCM中,從而實(shí)現(xiàn)了自適應(yīng)差分脈沖編碼調(diào)制ADPCM。ADPCM的簡(jiǎn)化原理框圖如圖所示。第五十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月 2.3.2線性預(yù)測(cè)編碼 LPC如下圖所示。在線性預(yù)測(cè)編碼LPC中,將語聲信號(hào)劃分為濁音信號(hào)和清音信號(hào)。清音信號(hào)可以用白色隨機(jī)噪聲激勵(lì)信號(hào)來表示,濁
40、音信號(hào)可以用準(zhǔn)周期脈沖序列激勵(lì)信號(hào)來表示。由于語聲信號(hào)是短時(shí)平穩(wěn)的,根據(jù)語聲信號(hào)的短時(shí)分析和基音提取方法,可以用若干的樣值對(duì)應(yīng)的一幀來表示短時(shí)語聲信號(hào)。這樣,逐幀將語聲信號(hào)用基音周期Tp,清/濁音(u/v)判決,聲道模型參數(shù)ai和增益G來表示。對(duì)這些參進(jìn)數(shù)行量化編碼,在接收端再進(jìn)行語聲的合成。第五十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月在LPC原理框圖的發(fā)送端,原始話音信號(hào)送入A/D變換器,以8kHz速率抽樣變成數(shù)字化語聲信號(hào)。以180個(gè)抽樣樣值為一幀,對(duì)應(yīng)幀周期為22.5ms,以一幀為處理單元進(jìn)行逐幀處理。完成每一幀的線性預(yù)測(cè)系數(shù)分析,并作相應(yīng)的清/濁音(u/v)處理、基音(Tp)
41、提取,再對(duì)這些參量進(jìn)行量化、編碼并送入信道傳送。在接收端,經(jīng)參量譯碼分出參量ai、G、Tp、u/v,以這些參數(shù)作為合成語聲信號(hào)的參量,最后將合成產(chǎn)生的數(shù)字化語聲信號(hào)經(jīng)D/A變換還原為語聲信號(hào)。第六十張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.3.3 矢量量化VQ(Vector Quantization)編碼對(duì)單個(gè)采樣的樣值進(jìn)行量化被稱為標(biāo)量量化。所謂矢量量化VQ,是將輸入的信號(hào)樣值按照某種方式進(jìn)行分組,把每個(gè)分組看作是一個(gè)矢量,并對(duì)該矢量進(jìn)行量化。矢量量化編碼原理:在發(fā)送端,先將語音信號(hào)的樣值數(shù)據(jù)序列按某種方式進(jìn)行分組,每個(gè)組假定有k個(gè)數(shù)據(jù)。這樣的一組數(shù)據(jù)就構(gòu)成了一個(gè)k維矢量。每個(gè)矢量有
42、對(duì)應(yīng)的下標(biāo),下標(biāo)是用二進(jìn)制數(shù)來表示的。把每個(gè)數(shù)據(jù)組所形成的矢量看作是一個(gè)碼字;這樣,語音數(shù)據(jù)所分成的組就形成了各自對(duì)應(yīng)的碼字。把所有這些碼字進(jìn)行排列,可以形成一個(gè)表,這樣的表就叫作碼本或碼書。在矢量量化編碼方法中,所傳輸?shù)牟皇菍?duì)應(yīng)的矢量,而是對(duì)應(yīng)每個(gè)矢量的下標(biāo)。由于下標(biāo)的數(shù)據(jù)相比于矢量本身來說,要小的多,所以這種方式就實(shí)現(xiàn)了數(shù)據(jù)的壓縮。第六十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月在對(duì)碼本的描述中,構(gòu)成碼本的碼字的數(shù)量稱為碼本的長(zhǎng)度,用 來表示這個(gè)長(zhǎng)度,則每個(gè)碼字的位置即其下標(biāo)可以用 的二進(jìn)制位來表示,每個(gè)碼字是由 個(gè)原始數(shù)據(jù)構(gòu)成的。所以,矢量量化編碼的編碼速率可以低到 假設(shè) ,表示是
43、有16個(gè)樣值數(shù)據(jù)構(gòu)成的一個(gè)矢量; ,表示碼本的長(zhǎng)度是256,碼本的下標(biāo)用二進(jìn)制來表示共有 bit,由于對(duì)每組數(shù)據(jù)只需要傳送下標(biāo),假定此時(shí)碼本已經(jīng)構(gòu)造好,則比特率為: 。 實(shí)現(xiàn)矢量量化的關(guān)鍵技術(shù)有兩個(gè):一個(gè)是如何設(shè)計(jì)一個(gè)優(yōu)良的碼本,另一個(gè)是量化編碼準(zhǔn)則。第六十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.3.4 子帶編碼第六十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月圖中發(fā)送端的n個(gè)帶通濾波器將輸入信號(hào)分為n個(gè)子頻帶,對(duì)各個(gè)對(duì)應(yīng)的子帶帶通信號(hào)進(jìn)行調(diào)制,將n個(gè)帶通信號(hào)經(jīng)過頻譜搬移變?yōu)榈屯ㄐ盘?hào);對(duì)低通信號(hào)進(jìn)行采樣、量化和編碼,得到對(duì)應(yīng)各個(gè)子帶的數(shù)字流;再經(jīng)復(fù)接器合成為完整的數(shù)字流。經(jīng)過信
44、道傳輸?shù)竭_(dá)接收端。在接收端,由分配器將各個(gè)子帶的數(shù)字流分開,由譯碼器完成各個(gè)子帶數(shù)字流的譯碼;由解調(diào)器完成信號(hào)的頻移,將個(gè)子帶搬移到原始頻率的位置上。各子帶相加就可以恢復(fù)出原來的語聲信號(hào)。 子帶編碼有幾個(gè)突出的優(yōu)點(diǎn): 對(duì)不同的子帶分配不同的比特?cái)?shù)可以很好控制各個(gè)子帶的量化電平數(shù)及重建信號(hào)時(shí)的量化誤差方差值,進(jìn)而獲得更好的主觀聽音質(zhì)量。 由于各個(gè)子帶相互隔開,使各個(gè)子帶的量化噪聲也相互獨(dú)立,互不影響,量化噪聲被束縛在各自的子帶內(nèi)。這樣,某些輸入電平比較低的子帶信號(hào)不會(huì)被其它子帶的量化噪聲所淹沒。 子帶劃分的結(jié)果,使各個(gè)子帶的采樣頻率大大的降低。第六十四張,PPT共三百九十三頁,創(chuàng)作于2022年6
45、月2.3.5 感知編碼感知編碼(Perceptual Coding)是利用人耳聽覺的心理聲學(xué)特性(包括頻域掩蔽特性和時(shí)域掩蔽特性)。感知編碼是建立在人類聽覺系統(tǒng)的心理聲學(xué)基礎(chǔ)上的,只記錄那些能夠被人耳感覺到的聲音,從而達(dá)到壓縮數(shù)據(jù)量的目的。感知編碼的理論基礎(chǔ)是基于人耳的聞?dòng)?、臨界頻段和掩蔽效應(yīng)。臨界頻段反應(yīng)了人耳對(duì)不同頻段聲音的反應(yīng)靈敏度是有差異的:在低頻段對(duì)幾赫茲的聲音差異都能分辨,而在高頻段的差異要達(dá)到幾百赫茲才能分辨。試驗(yàn)表明,低頻段的臨界頻段寬度有100Hz到200Hz,在大于5kHz后的高頻段的臨界頻段寬度有1000Hz到幾萬Hz。近3/4的臨界頻段低于5kHz。因此在編碼時(shí)要對(duì)低頻
46、段進(jìn)行精細(xì)的劃分,而對(duì)高頻段的劃分不必精細(xì)。掩蔽包括頻域掩蔽和時(shí)域掩蔽。在頻域,一個(gè)強(qiáng)音會(huì)掩蔽掉與之接近的弱音,掩蔽特性與掩蔽音的強(qiáng)弱、掩蔽音的中心頻率以及掩蔽音與被掩蔽音的頻率相對(duì)位置有關(guān)。時(shí)域掩蔽是指掩蔽效應(yīng)發(fā)生在掩蔽音與被掩蔽音不同時(shí)出現(xiàn)時(shí),也稱為異時(shí)掩蔽。在編碼時(shí),對(duì)被掩蔽的弱音不必進(jìn)行編碼,從而達(dá)到數(shù)據(jù)壓縮的目的。在感知編碼中使用了心理模型。第六十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月下圖是感知編碼的MPEG通用音頻編碼系統(tǒng)的結(jié)構(gòu)框架:第六十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月 圖中的時(shí)間/頻率映射完成將輸入的時(shí)間域音頻信號(hào)轉(zhuǎn)變?yōu)閬喨拥念l率分量,使用不同的濾波
47、器組來實(shí)現(xiàn),其輸出的頻率分量也叫做子帶值或者頻率線。 心理聲學(xué)模型利用利用濾波器組的輸出和輸入的數(shù)字聲音信號(hào)計(jì)算出隨輸入信號(hào)而變化的掩蔽門限估值。 量化和編碼按照量化噪聲不超過掩蔽門限的原則對(duì)濾波器組輸出的子帶值(或頻率線)進(jìn)行量化、編碼,目的是使量化的噪聲不會(huì)被人耳感覺到。 按幀打包來完成最后的編碼碼流。編碼碼流中除了要包括量化和編碼映射后的樣值外,還包括如比特分配等信息。 第六十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.4音頻信息壓縮編碼標(biāo)準(zhǔn)2.4.1 波形編碼標(biāo)準(zhǔn)1、G.711標(biāo)準(zhǔn) G.711標(biāo)準(zhǔn)是為脈沖編碼調(diào)制(PCM)制定的標(biāo)準(zhǔn)語音質(zhì)量最好,但壓縮率很有限。2、G.721標(biāo)
48、準(zhǔn) G.721標(biāo)準(zhǔn)是用于速率是64kb/s的PCM語音信號(hào)與速率是32kb/s的ADPCM語音信號(hào)之間的轉(zhuǎn)換。3、G.722標(biāo)準(zhǔn) G.722標(biāo)準(zhǔn)是針對(duì)調(diào)幅廣播質(zhì)量的音頻信號(hào)制定的壓縮標(biāo)準(zhǔn),質(zhì)量高于G.711標(biāo)準(zhǔn)和G.721標(biāo)準(zhǔn)。第六十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.4.2 混和編碼標(biāo)準(zhǔn)1、G.728標(biāo)準(zhǔn) G.728標(biāo)準(zhǔn)所涉及的音頻信息主要是應(yīng)用于公共電話網(wǎng)中。采用的壓縮算法是低延時(shí)碼激勵(lì)線性預(yù)測(cè)(LD-CELP,Code Excitation Linear Prediction)技術(shù)。 G.729標(biāo)準(zhǔn)的碼率只有16kb/s。2、 G.729標(biāo)準(zhǔn) G.729 就是ITU-T為
49、低碼率應(yīng)用而制訂的語音壓縮標(biāo)準(zhǔn)。G.729標(biāo)準(zhǔn)的碼率只有8kb/s,其壓縮算法相比其它算法來說比較復(fù)雜,采用的基本算法仍然是碼激勵(lì)線性預(yù)測(cè)(CELP,Code Excitation Linear Prediction)技術(shù)。 3、G.723.1標(biāo)準(zhǔn) G.723.1標(biāo)準(zhǔn)是ITU-T制定的多媒體通信標(biāo)準(zhǔn)中的一個(gè)組成部分,可應(yīng)用于IP電話、H.623會(huì)議電視系統(tǒng)等通信系統(tǒng)中,碼率較低,分別為5.3kb/s和6.3kb/s。第六十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月G.721 32kbit/s ADPCM原理第七十張,PPT共三百九十三頁,創(chuàng)作于2022年6月圖 2-14 G.728編碼器
50、結(jié)構(gòu)第七十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月G.723.1 標(biāo)準(zhǔn)語音編碼器原理第七十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月G732.1 解碼器原理第七十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.4.3 MPEG音頻編碼標(biāo)準(zhǔn)本章所描述的MPEG音頻是MPEG-1音頻、MPEG-2音頻和MPEG-2AAC音頻。MPEG音頻編碼是國(guó)際上公認(rèn)的高保真立體聲音頻壓縮標(biāo)準(zhǔn)。為了實(shí)現(xiàn)高保真,它的音頻信號(hào)的采樣頻率有了很大的提高,音頻信號(hào)的頻率范圍也大大的增加。MPEG-1聲音標(biāo)準(zhǔn)規(guī)定其音頻信號(hào)采樣頻率可以有32kHz、44.1kHz或48kHz三種,音頻信號(hào)的帶寬可以選擇1
51、5kHz和20kHz。其音頻編碼分為3層:Laer-1、Layer-2和Layer-3。Laer-1的壓縮比為1:4,編碼速率為384kb/s;Layer 2的壓縮比為1:61:8之間,編碼速率為192256kb/s;Layer 3的壓縮比為1:101:12,壓縮碼率可以達(dá)到64kb/s。1MPEG-1聲音標(biāo)準(zhǔn)MPEG-1音頻編碼的信號(hào)頻帶是2020kHz,取樣頻率使用的是32kHz、44.1kHz和48kHz,采用的編碼算法是感知子帶編碼。Laer-1的編碼器最為簡(jiǎn)單,主要用于小型數(shù)字盒式磁帶;Layer-2編碼器的復(fù)雜程度是中等,主要用于數(shù)字廣播音頻、數(shù)字音樂、只讀光盤交互系統(tǒng)和視盤;La
52、yer-3的編碼器最為復(fù)雜,主要用于ISDN上的聲音傳輸。第七十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月MPEG音頻編碼采用了子帶編碼,共分為32個(gè)子帶。MPEG編碼的音頻數(shù)據(jù)是按幀安排的。Layer-1的每幀包含3212384個(gè)樣本數(shù)據(jù),Layer-2和Layer-3每幀包含有323121152個(gè)樣本數(shù)據(jù),是Layer-1的3倍。Layer-1的編碼Layer-1的子帶劃分采用等帶寬劃分,分為32個(gè)子帶,每個(gè)子帶有12個(gè)樣本,心理聲學(xué)模型只使用頻域掩蔽特性。Layer 1和Layer 2編碼器的結(jié)構(gòu)基本類似,其差別在于濾波器子帶的劃分不同和FFT的運(yùn)算點(diǎn)數(shù)不同。第七十五張,PPT共三
53、百九十三頁,創(chuàng)作于2022年6月幀頭:由每幀開始的前32個(gè)比特組成,這32個(gè)比特包含同步信息和狀態(tài)信息,同步碼由12個(gè)全1碼組成。所有的三層音頻信息編碼在這部分都是一樣的。幀校驗(yàn)碼:幀校驗(yàn)碼占16比特,用來檢測(cè)傳輸后比特流的差錯(cuò),其多項(xiàng)式表達(dá)式為:。所有三層的這一部分也都是相同的。音頻數(shù)據(jù):由比特分配表、比例因子選擇信息、比例因子和子帶樣值組成。其中子帶樣值是音頻數(shù)據(jù)的最大部分,不同層的音頻數(shù)據(jù)是不同的。輔助數(shù)據(jù):用來傳輸相關(guān)的輔助信息。Layer-2編碼Layer-2編碼在Layer-1的基礎(chǔ)上作了改進(jìn)。32個(gè)子帶的劃分是不等劃分,其劃分依據(jù)是臨界頻段。每個(gè)子帶分為3個(gè)12樣本組,這樣每幀共
54、有1152個(gè)樣本。在掩蔽特性方面除保留原有的頻域掩蔽外還增加了時(shí)域掩蔽。另外在低頻、中頻和高頻段對(duì)位分配作了重新安排,低頻段使用4位,中頻段使用3位,高頻段使用2位。其幀格式見下圖第七十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月Layer-1和layer-2的編解碼器方框圖第七十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月Layer-3編碼(MP3)Layer-3仍然使用不等長(zhǎng)子帶劃分。心理聲學(xué)模型在使用頻域掩蔽和時(shí)域掩蔽特性之外又考慮到了立體聲信息數(shù)據(jù)的冗余,還增加了霍夫曼編碼器。濾波器組在原有的基礎(chǔ)上增加了改進(jìn)離散余弦MDCT特性,可以部分消除由多相濾波器組引入的混疊效應(yīng)。第七十
55、八張,PPT共三百九十三頁,創(chuàng)作于2022年6月Layer-3編碼器和解碼器結(jié)構(gòu)第七十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月2、MPEG-2 BC聲音壓縮標(biāo)準(zhǔn)MPEG-2 BC聲音標(biāo)準(zhǔn)是在MPEG-1的基礎(chǔ)上發(fā)展來的,是MPEG為多聲道聲音開發(fā)的低碼率編碼方案,并與MPEG-1的聲音標(biāo)準(zhǔn)保持后向兼容。與MPEG-1相比主要增加了下面幾個(gè)方面的內(nèi)容:支持5.1多路環(huán)繞立體聲:可以提供5個(gè)全帶寬聲道,分為左、右、中、和兩個(gè)環(huán)繞聲道,另加一個(gè)低頻效果增強(qiáng)聲道,稱為5.1聲道。擴(kuò)展了編碼器的輸出范圍,從32384kb/s擴(kuò)展到8640kb/s。增加了更低的取樣頻率和低碼率:在保持MPEG-1
56、原有的取樣頻率的基礎(chǔ)上,又增加了三種取樣頻率,新增的取樣頻率為16kHz、22.05kHz和24kHz,是將原有MPEG-1的取樣頻率降低了一半,以便提高碼率低于64kb/s時(shí)的每個(gè)聲道的聲音質(zhì)量。第八十張,PPT共三百九十三頁,創(chuàng)作于2022年6月MPEG-2對(duì)多聲道的擴(kuò)展方式是通過可分級(jí)的方式來實(shí)現(xiàn)的。在編碼器端,5個(gè)輸入的聲道信號(hào)別向下混合為一路兼容立體聲信號(hào),再按照MPEG-1的編碼標(biāo)準(zhǔn)進(jìn)行編碼;用于在解碼端恢復(fù)原來5個(gè)聲道的相關(guān)信息都被安置在MPEG-1的附加數(shù)據(jù)區(qū)里,MPEG-1在進(jìn)行解碼的時(shí)候可忽略此區(qū)的數(shù)據(jù)。這些附加信息在在聲道T2、T3和T4以及在低音效果增強(qiáng)LFE聲道中傳輸
57、。MPEG-2多聲道解碼器除了對(duì)MPEG-1的部分進(jìn)行解碼外,還對(duì)附加的信道T2、T3和T4以及LFE聲道進(jìn)行解碼,根據(jù)這些信息來恢復(fù)原來的5.1聲道,編碼解碼框圖見下圖。第八十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月MPEG-2的數(shù)據(jù)幀結(jié)構(gòu)如下圖所示。 2.4.4 MPEG-2 AAC編碼標(biāo)準(zhǔn)MPEG-2 AAC(Advanced Audio Coding)是MPEG-2標(biāo)準(zhǔn)中一種非常靈活的編碼標(biāo)準(zhǔn),采用感知編碼方法,主要是利用聽覺系統(tǒng)的掩蔽特性來減少聲音編碼的數(shù)據(jù)量;并且通過子帶編碼將量化噪聲分散到各個(gè)子帶中,用全局的聲音信號(hào)將噪聲掩蔽掉。MPEG-2 AAC 采用模塊化的編碼方法
58、,把整個(gè)ACC系統(tǒng)分成一系列模塊,用標(biāo)準(zhǔn)化的ACC工具對(duì)模塊進(jìn)行定義。在文獻(xiàn)資料中是通常將模塊和工具同等對(duì)待。AAC定義的編碼和解碼的基本結(jié)構(gòu)圖如下圖所示。第八十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月AAC的編碼方法與前面介紹的編碼方法不同,AAC采用了模塊化的方法,將整個(gè)AAC系統(tǒng)分解成一系列模塊,用標(biāo)準(zhǔn)化的AAC編碼工具對(duì)模塊進(jìn)行定義。AAC定義了3種配置:基本配置、低復(fù)雜性配置和可變采樣率配置?;九渲迷谌N配置中提供最好的聲音質(zhì)量,除沒有使用增益控制模塊外,其余模塊都使用。低復(fù)雜性配置沒有使用預(yù)測(cè)模塊和預(yù)處理模塊,使用的瞬時(shí)噪聲定形濾波器模塊的級(jí)數(shù)也有限,聲音質(zhì)量低于基本配置
59、??勺儾捎寐逝渲檬褂迷鲆婵刂谱黝A(yù)處理,沒有使用預(yù)測(cè)模塊,對(duì)TNS濾波器的級(jí)數(shù)和帶寬也有限制,是最簡(jiǎn)單的一種配置。第八十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月AAC定義的編碼和界面的基本結(jié)構(gòu)圖第八十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.4.5 MPEG-4音頻標(biāo)準(zhǔn)作為一種新的音頻標(biāo)準(zhǔn),MPEG-4音頻編碼綜合了多種類型的音頻編碼。MPEG-4音頻編碼標(biāo)準(zhǔn)集成了從話音到高質(zhì)量的多聲道聲音,從自然聲音到合成聲音。采用的編碼方法有多種,包括參數(shù)編碼、碼激勵(lì)線性預(yù)測(cè)編碼CELP、時(shí)間/頻率編碼、結(jié)構(gòu)化聲音SA編碼和文-語系統(tǒng)TTS的合成聲音。其編碼方框圖如下圖。第八十五張,PPT
60、共三百九十三頁,創(chuàng)作于2022年6月 參數(shù)編碼器使用參數(shù)編碼技術(shù)。對(duì)于8kHz采樣頻率的話音信號(hào),編碼器輸出的碼流速率是24kb/s;對(duì)于采樣頻率位8kHz或16kHz的話音信號(hào),編碼器的輸出速率為416kb/s。第八十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月使用碼激勵(lì)線性預(yù)測(cè)編碼器,對(duì)于采樣頻率為8kHz或16kHz的話音信號(hào),輸出速率為624kb/s。矢量量化和線性預(yù)測(cè)的編碼器使用了時(shí)間頻率T/S技術(shù),對(duì)于采樣頻率為8kHz的話音信號(hào),編碼輸出速率大于16kb/s。第八十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月25多媒體音頻信號(hào)文件格式自從PC機(jī)可以支持多媒體應(yīng)用以來,很多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 胎兒電子監(jiān)護(hù)的風(fēng)險(xiǎn)評(píng)估與管理
- 護(hù)理社區(qū)健康促進(jìn)
- 蘇教版一年級(jí)《比一比》
- 蘇教版五年級(jí)數(shù)學(xué)上冊(cè)小數(shù)四則混合運(yùn)算
- 五下《分?jǐn)?shù)除法(二)》教學(xué)設(shè)計(jì)
- 銷售心態(tài)培訓(xùn)課件下載
- 原發(fā)性肝癌核心診療與腫瘤血管生成因子課件
- 2025-2030中南歐智能家居系統(tǒng)行業(yè)供需分析及產(chǎn)業(yè)發(fā)展策略
- 2025至2030中國(guó)智慧農(nóng)業(yè)市場(chǎng)現(xiàn)狀供需格局及投資戰(zhàn)略規(guī)劃報(bào)告
- 2026年邵陽市住房公積金管理中心洞口管理部招考工作人員易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 光伏項(xiàng)目后期運(yùn)營(yíng)維護(hù)管理方案
- 材料作文(原卷版)-2026年中考語文復(fù)習(xí)試題(浙江專用)
- 安寧療護(hù)實(shí)踐指南(2025年版)解讀課件
- 衰老標(biāo)志物人工智能數(shù)據(jù)模型建立應(yīng)用指南
- 2025至2030中國(guó)球囊膽管導(dǎo)管行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢(shì)及投資規(guī)劃深度研究報(bào)告
- 生物樣本資源庫(kù)建設(shè)計(jì)劃及管理工作方案
- 消防安全管理人責(zé)任書范文
- 光伏電站安全事故案例
- 2025年山東省濟(jì)寧市中考道德與法治試卷(含答案)
- 重癥肺炎患者護(hù)理要點(diǎn)回顧查房
- 住院醫(yī)師規(guī)范化培訓(xùn)階段考核(年度考核、出科考核)
評(píng)論
0/150
提交評(píng)論