多媒體技術(shù)及其發(fā)展課件_第1頁(yè)
多媒體技術(shù)及其發(fā)展課件_第2頁(yè)
多媒體技術(shù)及其發(fā)展課件_第3頁(yè)
多媒體技術(shù)及其發(fā)展課件_第4頁(yè)
多媒體技術(shù)及其發(fā)展課件_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多媒體技術(shù)及其新發(fā)展華中科技大學(xué)計(jì)算機(jī)學(xué)院魯宏偉第1頁(yè),共58頁(yè)。報(bào)告提綱什么是多媒體 語(yǔ)音處理技術(shù)圖像、視頻處理技術(shù) 多媒體人機(jī)交互技術(shù)多媒體信息檢索多媒體傳輸(流媒體和P2P)未來(lái)的發(fā)展1第2頁(yè),共58頁(yè)。一什么是多媒體 2什么是多媒體第3頁(yè),共58頁(yè)。1人類(lèi)生活發(fā)生的變化什么是多媒體視聽(tīng)電視、電影:形式、渠道音樂(lè):Walkman、CD Player、MP3存儲(chǔ)通信手段電話:固定電話、移動(dòng)電話、網(wǎng)絡(luò)文字:電報(bào)、Email內(nèi)容:文字、話音、視頻 學(xué)習(xí)方式圖書(shū)館、教室電視教學(xué)、遠(yuǎn)程教學(xué)3第4頁(yè),共58頁(yè)。2什么改變了我們的生活什么是多媒體網(wǎng)絡(luò)33.6K Modem、ISDN、ADSLATM、I

2、P有線網(wǎng)絡(luò)、無(wú)線網(wǎng)絡(luò)計(jì)算機(jī)無(wú)硬盤(pán)計(jì)算機(jī)、386、486、586單核處理器、多核處理器CRT顯示器、液晶、等離子體多媒體技術(shù)4第5頁(yè),共58頁(yè)。2什么是多媒體什么是多媒體“多媒體”譯自20世紀(jì)80年代初產(chǎn)生的英文詞“multimedia”,最早出現(xiàn)于美國(guó)麻省理工學(xué)院(MIT)遞交給國(guó)防部的一個(gè)項(xiàng)目計(jì)劃報(bào)告中。 多媒體是指信息表示媒體的多樣化,常見(jiàn)的多媒體有文字、圖形、圖像、聲音、音樂(lè)、視頻、動(dòng)畫(huà)等多種形式。 多媒體技術(shù)是利用計(jì)算機(jī)技術(shù)把文本、聲音、視頻、動(dòng)畫(huà)、圖形和圖像等多種媒體進(jìn)行綜合處理,使多種信息之間建立邏輯連接,集成為一個(gè)完整的系統(tǒng)。第6頁(yè),共58頁(yè)。二語(yǔ)音處理技術(shù)5語(yǔ)音處理技術(shù)語(yǔ)音處理

3、技術(shù)包括語(yǔ)音識(shí)別、說(shuō)話人的鑒別和確認(rèn)、語(yǔ)種的鑒別和確認(rèn)、關(guān)鍵詞檢測(cè)和確認(rèn)、語(yǔ)音合成、語(yǔ)音編碼等,其中最具有挑戰(zhàn)性和最富有應(yīng)用前景的是語(yǔ)音識(shí)別技術(shù)。 第7頁(yè),共58頁(yè)。1聲音的特點(diǎn) 聲音是重要的信息表現(xiàn)手段,自然科學(xué)家們關(guān)于聲音的研究清楚地表明:“聲音是彈性媒質(zhì)中的一種機(jī)械擾動(dòng)、彈性媒質(zhì)包括固體、液體和氣體。機(jī)械擾動(dòng)是指媒質(zhì)的某種性質(zhì)(譬如壓力、質(zhì)點(diǎn)位移或密度)發(fā)生了可以用儀器檢測(cè)出來(lái)或者可被人聽(tīng)到的交替變化?!?語(yǔ)音處理技術(shù)2聲音處理技術(shù)音頻壓縮技術(shù)三維音效技術(shù)語(yǔ)音識(shí)別技術(shù)語(yǔ)音合成技術(shù)第8頁(yè),共58頁(yè)。聲音的特點(diǎn) 聲音是一種彈性波,聲音信號(hào)可以分成周期信號(hào)與非周期信號(hào)兩類(lèi)。 聲音的質(zhì)量與聲音的

4、頻率范圍有關(guān)。 人的聽(tīng)覺(jué)器官能感知的頻率范圍為2020000Hz ,能感知的聲音幅度范圍在0120dB之間,而人的發(fā)音器官能夠發(fā)出的聲音頻率范圍為803,400Hz。語(yǔ)音處理技術(shù)第9頁(yè),共58頁(yè)。1分鐘數(shù)字音頻信號(hào)需要的存儲(chǔ)空間語(yǔ)音處理技術(shù)第10頁(yè),共58頁(yè)。音頻壓縮技術(shù) 音頻文件格式主要用在PC上的以.wav為擴(kuò)展名的文件格式主要用在Unix工作站上的以.au為擴(kuò)展名的文件格式主要用在蘋(píng)果機(jī)和美國(guó)視算科技有限公司的工作站上的以.aiff和.snd為擴(kuò)展名的文件格式目前流行的格式.rm、.mp3、.wma 語(yǔ)音壓縮標(biāo)準(zhǔn)G.711、G.723.1、GSM、MPEG Audio Layer 3(M

5、P3) 語(yǔ)音壓縮技術(shù)語(yǔ)音處理技術(shù)第11頁(yè),共58頁(yè)。音頻壓縮技術(shù)音頻壓縮技術(shù)指的是對(duì)原始數(shù)字音頻信號(hào)流(PCM編碼)運(yùn)用適當(dāng)?shù)臄?shù)字信號(hào)處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱(chēng)為壓縮編碼。它必須具有相應(yīng)的逆變換,稱(chēng)為解壓縮或解碼。音頻信號(hào)在通過(guò)一個(gè)編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。 研究發(fā)現(xiàn),直接采用PCM碼流進(jìn)行存儲(chǔ)和傳輸存在非常大的冗余度。事實(shí)上,在無(wú)損的條件下對(duì)聲音至少可進(jìn)行4:1壓縮,即只用25的數(shù)字量保留所有的信息語(yǔ)音處理技術(shù)第12頁(yè),共58頁(yè)。MP3音頻壓縮編碼 MP3是一種音頻壓縮的國(guó)際技術(shù)標(biāo)準(zhǔn)。MP3格式開(kāi)始于二十世紀(jì)80年代中

6、期,是在德國(guó)夫朗和費(fèi)研究所(Fraunhofer Institute)開(kāi)始的,研究致力于高質(zhì)量、低數(shù)據(jù)率的聲音編碼MP3格式是一個(gè)讓音樂(lè)界產(chǎn)生巨大震動(dòng)的一個(gè)聲音格式。MP3的全稱(chēng)是Moving Picture Experts Group, Audio Layer 3,它所使用的技術(shù)是在VCD(MPEG-1)的音頻壓縮技術(shù)上發(fā)展出的第三代,而不是MPEG-3。 MP3的壓縮率則高達(dá)10:112:1,也就是說(shuō)一分鐘CD音質(zhì)的音樂(lè)未經(jīng)壓縮需要10MB存儲(chǔ)空間,而經(jīng)過(guò)MP3壓縮編碼后只有1MB左右,同時(shí)其音質(zhì)基本保持不失真。 語(yǔ)音處理技術(shù)第13頁(yè),共58頁(yè)。三維音效日常生活中,我們用兩只耳朵來(lái)聽(tīng)東西,

7、從各處音源中獲得信息,再通過(guò)人腦的計(jì)算來(lái)定位聲音。計(jì)算機(jī)模擬人腦的3D(三維)音效計(jì)算,通過(guò)數(shù)字音源播放出來(lái),讓我們感到自己處身于虛擬的世界。 既然在現(xiàn)實(shí)世界中,我們可以用一雙耳朵分辨出3D音場(chǎng),那么僅靠貼近耳朵的兩只耳機(jī)也能實(shí)現(xiàn)近似效果。用兩只揚(yáng)聲器也可以嗎? 語(yǔ)音處理技術(shù)第14頁(yè),共58頁(yè)。三維音效人耳的基本聲音定位原理是IID(兩側(cè)聲音強(qiáng)度差別)和ITD(兩側(cè)聲音時(shí)間延遲差別)。耳廓(外耳)的作用是濾波器,根據(jù)聲音的不同角度,加強(qiáng)/減弱音波能量,過(guò)濾之后傳給大腦,讓我們更準(zhǔn)確地確定聲源的位置。許多時(shí)候,我們聽(tīng)到的聲音并不是直線進(jìn)入耳朵,而是通過(guò)了幾次反射才進(jìn)入大腦。在音波行進(jìn)的過(guò)程中,音

8、波能量會(huì)減弱,再加上反射造成的消音和延遲作用,聲音已經(jīng)有了變化,這種反射混合起來(lái)的效果稱(chēng)為交互混響。 模擬3D音效需要還原以上定位效果:IID、ITD、耳廓、反射,并分析不同角度聲音發(fā)生的變化,通過(guò)計(jì)算機(jī)模擬合成來(lái)建立一種虛擬聲音系統(tǒng)-數(shù)字化音場(chǎng)。 語(yǔ)音處理技術(shù)第15頁(yè),共58頁(yè)。3D音效的分類(lèi) 擴(kuò)展式立體聲它使用聲音延遲技術(shù)對(duì)傳統(tǒng)的立體聲進(jìn)行額外處理,擴(kuò)寬了音場(chǎng)的位置,使聲音延展到音箱以外的空間,讓我們感覺(jué)的3D世界更廣闊。 環(huán)繞立體聲它采用音頻壓縮技術(shù)(如:杜比AC-3)把多通道音源編碼成一段程序,再以一組多揚(yáng)聲器系統(tǒng)來(lái)進(jìn)行解碼,實(shí)現(xiàn)多區(qū)域環(huán)繞效果。這也是一種被動(dòng)播放音軌的技術(shù),最適合于電

9、影播放。 交互式3D音效交互式3D盡量地復(fù)制了人耳在真實(shí)世界中聽(tīng)到的聲音,并使用一定的算法來(lái)播放出來(lái),讓我們感到整個(gè)三維空間的所有地方都可能產(chǎn)生聲音,并隨聽(tīng)者的移動(dòng)而做出相應(yīng)改變。它是最接近實(shí)際生活的3D音效,通常應(yīng)用于第一人稱(chēng)3D游戲。 語(yǔ)音處理技術(shù)第16頁(yè),共58頁(yè)。語(yǔ)音識(shí)別“讓計(jì)算機(jī)能和人類(lèi)自由交流”一直是人們的夢(mèng)想,語(yǔ)言是描述人類(lèi)思維的工具之一,因此將人類(lèi)語(yǔ)言和計(jì)算機(jī)聯(lián)系起來(lái),應(yīng)當(dāng)是實(shí)現(xiàn)這一夢(mèng)想的重要一步。 語(yǔ)音識(shí)別技術(shù)是語(yǔ)音處理技術(shù)中最具有挑戰(zhàn)性和最富有應(yīng)用前景的技術(shù)。 語(yǔ)音識(shí)別是一個(gè)多學(xué)科交叉的領(lǐng)域,它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理理論、信息論、計(jì)算機(jī)科學(xué)等眾多學(xué)科緊密相連。

10、 由于語(yǔ)音信號(hào)的多樣性和復(fù)雜性,目前的語(yǔ)音識(shí)別系統(tǒng)只能在一定的限制條件下獲得滿(mǎn)意的性能,或者說(shuō)只能應(yīng)用于某些特定的場(chǎng)合。語(yǔ)音識(shí)別系統(tǒng)的性能大致取決于4類(lèi)因素:1. 識(shí)別詞匯表的大小和語(yǔ)音的復(fù)雜性;2. 語(yǔ)音信號(hào)的質(zhì)量;3. 單個(gè)說(shuō)話人還是多說(shuō)話人;4. 硬件。 語(yǔ)音處理技術(shù)第17頁(yè),共58頁(yè)。語(yǔ)音識(shí)別系統(tǒng)的原理框圖 語(yǔ)音處理技術(shù)第18頁(yè),共58頁(yè)。IBM語(yǔ)音識(shí)別輸入系統(tǒng) ViaVoice Pro 9.1該系統(tǒng)可用于聲控打字和語(yǔ)音導(dǎo)航。只要對(duì)著微機(jī)講話,不用敲鍵盤(pán)即可打漢字,每分鐘可輸入150個(gè)漢字,是鍵盤(pán)輸入的兩倍,是普通手寫(xiě)輸入的六倍。該系統(tǒng)識(shí)別率可達(dá)95%以上。IBM潛心研究26年,領(lǐng)導(dǎo)了

11、世界的語(yǔ)音識(shí)別技術(shù),其語(yǔ)音識(shí)別產(chǎn)品在全球銷(xiāo)售已達(dá)一百萬(wàn)套以上。語(yǔ)音處理技術(shù)第19頁(yè),共58頁(yè)。自然語(yǔ)言理解 自然語(yǔ)言理解(NLU,Natural Language Understanding)就是研究如何能讓計(jì)算機(jī)理解并生成人們?nèi)粘K褂玫?如漢語(yǔ)、英語(yǔ))語(yǔ)言,使得計(jì)算機(jī)懂得自然語(yǔ)言的含義,并對(duì)人給計(jì)算機(jī)提出的問(wèn)題,通過(guò)對(duì)話的方式,用自然語(yǔ)言進(jìn)行回答。自然語(yǔ)言處理的核心技術(shù)是語(yǔ)言分析技術(shù),即將句子(數(shù)量無(wú)限)變換成由詞語(yǔ)(數(shù)量可控)及其抽象形式(數(shù)量有限)構(gòu)成的用某種數(shù)據(jù)結(jié)構(gòu)(句法樹(shù)、復(fù)雜特征集或語(yǔ)義網(wǎng)絡(luò))表示的內(nèi)部形式(數(shù)量有限)。語(yǔ)言分析可以劃分為詞法析、句法分析、語(yǔ)義分析、篇章分析等步驟

12、。現(xiàn)在,詞法分析和句法分析相對(duì)成熟,語(yǔ)義分析逐漸成為研究重點(diǎn)。 語(yǔ)音處理技術(shù)第20頁(yè),共58頁(yè)。語(yǔ)音合成語(yǔ)音合成是以言語(yǔ)產(chǎn)生模型為基礎(chǔ),分析抽取激勵(lì)源,聲道的特征參數(shù);再利用這些特征參數(shù)重新綜合出語(yǔ)音信號(hào)的過(guò)程。語(yǔ)音合成是通過(guò)一個(gè)聲學(xué)模塊來(lái)具體實(shí)現(xiàn)的。早期的語(yǔ)音合成技術(shù)的研究,往往集中在語(yǔ)音合成算法本身,其研究的方法和手段與語(yǔ)音編碼有很多相似之處。其聲學(xué)模型的構(gòu)筑,也多通過(guò)模擬人的口腔的聲道特性來(lái)產(chǎn)生。 進(jìn)入20世紀(jì)90年代以來(lái),波形拼接(PSOLA,Pitch Synchronous OverLap Add) 算法,越來(lái)越被廣泛地應(yīng)用在語(yǔ)音合成系統(tǒng)中。 近年來(lái),一些新的方法,如人工神經(jīng)網(wǎng)絡(luò)、

13、決策樹(shù)、隱馬爾可夫模型等被廣泛地應(yīng)用于語(yǔ)音合成技術(shù)。這些方法的運(yùn)用,徹底改變了漢語(yǔ)語(yǔ)音合成研究的研究重點(diǎn),使?jié)h語(yǔ)語(yǔ)音合成的研究突破了早期重點(diǎn)對(duì)單純算法的研究,而變成一個(gè)系統(tǒng)工程的研究。 語(yǔ)音處理技術(shù)第21頁(yè),共58頁(yè)。TTSTTS即文本語(yǔ)音轉(zhuǎn)換技術(shù)(Text To Speech),它涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)學(xué)信號(hào)處理技術(shù)、多媒體技術(shù)等多個(gè)學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),實(shí)現(xiàn)把計(jì)算機(jī)中任意出現(xiàn)的文字轉(zhuǎn)換成自然流暢的語(yǔ)音輸出。 語(yǔ)音處理技術(shù)第22頁(yè),共58頁(yè)。視覺(jué)語(yǔ)音視覺(jué)語(yǔ)音是指人們?cè)谟谜Z(yǔ)言交流時(shí)所表達(dá)出的面部表情和動(dòng)作,它能在一定程度上傳達(dá)人們想要表達(dá)的意思,并能幫助人們加深對(duì)語(yǔ)言的理解

14、。研究表明,在環(huán)境噪聲較大或聽(tīng)者有聽(tīng)力障礙的情況下,如果在給出聲音信息的同時(shí)能給出一個(gè)“講話的頭”(talking head),即表現(xiàn)說(shuō)話者面部表情和嘴部、眼部等變化情況,則會(huì)大大改善人們對(duì)聲音的理解。 語(yǔ)音處理技術(shù)第23頁(yè),共58頁(yè)。三圖像、視頻處理技術(shù) 5圖像、視頻處理技術(shù)第24頁(yè),共58頁(yè)。圖像處理圖像處理根據(jù)處理的程度和目的,可以分為三個(gè)層次:圖像處理、圖像分析識(shí)別和圖像理解 圖像、視頻處理技術(shù)第25頁(yè),共58頁(yè)。圖像處理圖像編碼格式:GIF,JPEG,PNG圖像編碼標(biāo)準(zhǔn):JPEG、JPEG2000圖像、視頻處理技術(shù)第26頁(yè),共58頁(yè)。數(shù)字視頻處理數(shù)字視頻含有豐富的內(nèi)容,結(jié)構(gòu)復(fù)雜,不同

15、于傳統(tǒng)的字符型數(shù)據(jù),主要表現(xiàn)在以下幾個(gè)方面: 視頻數(shù)據(jù)量大:一幅中等分辨率的圖像(640*480),顏色為24bit/象素,數(shù)字視頻圖像的數(shù)據(jù)量大約為1MB,如播放速度每秒30幀,則1秒的數(shù)據(jù)量約為30MB,一個(gè)600MB的硬盤(pán)也只能存放20s的動(dòng)態(tài)圖像。 視頻數(shù)據(jù)內(nèi)容的多樣性 視頻數(shù)據(jù)解釋的多樣性和模糊性視頻數(shù)據(jù)結(jié)構(gòu)復(fù)雜:視頻數(shù)據(jù)既有空間屬性又有時(shí)間屬性。 圖像、視頻處理技術(shù)第27頁(yè),共58頁(yè)。數(shù)字視頻處理數(shù)字視頻是視頻數(shù)據(jù)庫(kù)存儲(chǔ)的對(duì)象,為了從視頻數(shù)據(jù)庫(kù)中方便地檢索視頻對(duì)象,數(shù)字視頻均應(yīng)以一定的結(jié)構(gòu)存儲(chǔ)。如果視頻信息僅以幀圖像和視頻流這兩級(jí)存儲(chǔ),對(duì)視頻內(nèi)容的檢索是十分不便的。因此,通常用幀、

16、鏡頭、場(chǎng)景和幕等描述把視頻序列分層表示。 圖像、視頻處理技術(shù)第28頁(yè),共58頁(yè)。數(shù)字視頻處理數(shù)字視頻處理的主要研究?jī)?nèi)容包括視頻編碼壓縮、鏡頭檢測(cè)與分割、運(yùn)動(dòng)對(duì)象檢測(cè)與分割等等。數(shù)字視頻處理常用的算法:傅里葉變換 小波變換 分形變換人工神經(jīng)網(wǎng)絡(luò) 圖像、視頻處理技術(shù)第29頁(yè),共58頁(yè)。視頻編碼壓縮標(biāo)準(zhǔn)H系列標(biāo)準(zhǔn):H.261、H.263、H.264MPEG系列標(biāo)準(zhǔn):MPEG1、MPEG2、MPEG4圖像、視頻處理技術(shù)第30頁(yè),共58頁(yè)。四多媒體人機(jī)交互 7多媒體人機(jī)交互第31頁(yè),共58頁(yè)。人機(jī)交互的意義傳統(tǒng)的信息處理環(huán)境一直是“人適應(yīng)計(jì)算機(jī)”,而當(dāng)今的目標(biāo)或理念是要逐步使“計(jì)算機(jī)適應(yīng)人”,人們要求通

17、過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué),以及形體、手勢(shì)或口令,參與到信息處理的環(huán)境中去,從而取得身臨其境的體驗(yàn)。這種信息處理系統(tǒng)已不再是建立在單維的數(shù)字化空間上,而是建立在一個(gè)多維的信息空間中。 計(jì)算機(jī)包括了三個(gè)主要部分:人機(jī)信息交互、信息處理和存儲(chǔ)以及信息顯示,其中“信息處理和存儲(chǔ)”和“信息展示”技術(shù)更新和發(fā)展的速度相當(dāng)快。但人機(jī)交互技術(shù)多年來(lái)并未有重大技術(shù)突破。 8多媒體人機(jī)交互第32頁(yè),共58頁(yè)。人機(jī)交互的意義計(jì)算機(jī)缺乏仿生的眼睛和耳朵,也沒(méi)有從外部世界收集信息所需的觸覺(jué)、味覺(jué)和嗅覺(jué)。計(jì)算機(jī)沒(méi)有語(yǔ)言能力,沒(méi)有四肢,沒(méi)有建立各種各樣信息表達(dá)形式的能力,這就限制了人和計(jì)算機(jī)之間的信息溝通。因?yàn)橥ㄟ^(guò)多種渠道

18、來(lái)溝通信息將更有效,例如手勢(shì)和其它的人體動(dòng)作伴隨著語(yǔ)音可增強(qiáng)對(duì)語(yǔ)音的理解, 眼光的接觸在人際信息溝通中帶有意義。 在計(jì)算機(jī)系統(tǒng)中使用音頻、視頻、圖形和動(dòng)畫(huà)等不只是常規(guī)計(jì)算機(jī)的擴(kuò)充,而是試圖將計(jì)算機(jī)開(kāi)發(fā)成一臺(tái)“通用機(jī)器”,使它能完整地理解人的需要,并和人溝通信息,因此一個(gè)易于使用的、形象直觀的用戶(hù)接口將極大地改善系統(tǒng)的可用性。 多媒體人機(jī)交互第33頁(yè),共58頁(yè)。人機(jī)界面人機(jī)界面(HCI, Human-computer Interface)又稱(chēng)用戶(hù)界面、人機(jī)交互人機(jī)接口等是人與計(jì)算機(jī)之間傳遞交換信息的媒介,是用戶(hù)使用計(jì)算機(jī)系統(tǒng)的綜合操作環(huán)境人機(jī)界面的設(shè)計(jì)在計(jì)算機(jī)系統(tǒng)設(shè)計(jì)中占有重要地位。三維用戶(hù)界面

19、多媒體和超媒體界面多通道交互界面虛擬現(xiàn)實(shí)技術(shù) 多媒體人機(jī)交互第34頁(yè),共58頁(yè)。多通道用戶(hù)界面 多通道人機(jī)界面技術(shù)基于視線跟蹤、語(yǔ)音識(shí)別、手勢(shì)輸入、感覺(jué)反饋等新的交互技術(shù),允許用戶(hù)利用自身的內(nèi)在感覺(jué)和認(rèn)知技能,使用多個(gè)交互通道,以并行、非精確方式與計(jì)算機(jī)系統(tǒng)進(jìn)行交互,旨在提高人機(jī)交互的自然性和高效性它代表了人機(jī)交互的一種新范式,與傳統(tǒng)的圖形用戶(hù)界面相比,能將互補(bǔ)的通道進(jìn)行整合來(lái)獲取增強(qiáng)的混合,通道之間可以相互補(bǔ)充,克服彼此的缺陷 多媒體人機(jī)交互第35頁(yè),共58頁(yè)。多通道用戶(hù)界面的主要研究?jī)?nèi)容 認(rèn)知心理學(xué)界面模型及描述方法軟件結(jié)構(gòu)多通道整合多通道的錯(cuò)誤糾正機(jī)制多媒體人機(jī)交互第36頁(yè),共58頁(yè)。三

20、維人機(jī)交互技術(shù) 三維人機(jī)交互技術(shù)與傳統(tǒng)的WIMP(Window,Icon,Menu,Pointer,窗口、圖標(biāo)、菜單和指點(diǎn)裝置)圖形交互技術(shù)不同, 它采用六自由度輸入設(shè)備。所謂六自由度,指X、Y、Z軸平移和繞X、Y、Z軸旋轉(zhuǎn),而現(xiàn)在流行的用于桌面型圖形界面的交互設(shè)備,如鼠標(biāo)、軌跡球、觸摸屏等只有兩個(gè)自由度(沿平面X、Y軸平移)。 多媒體人機(jī)交互第37頁(yè),共58頁(yè)。三維交互設(shè)備 目前三維交互設(shè)備還處于摸索階段,還沒(méi)有一種輸入裝置像二維圖形界面中的鼠標(biāo)那樣處于主流地位?,F(xiàn)有的三維設(shè)備中被廣泛應(yīng)用的主要有以下幾種:浮動(dòng)鼠標(biāo)(Flying Mouse):浮動(dòng)鼠標(biāo)類(lèi)似于標(biāo)準(zhǔn)的計(jì)算機(jī)鼠標(biāo),但當(dāng)離開(kāi)桌面后就

21、成為一個(gè)六自由度探測(cè)器,大多數(shù)浮動(dòng)鼠標(biāo)器內(nèi)部裝有電磁探測(cè)器。數(shù)據(jù)手套手持式操作器(Wand):類(lèi)似于浮動(dòng)鼠標(biāo),但沒(méi)有鼠標(biāo)球,因此不能在桌面上滾動(dòng)。力矩球:安裝在一個(gè)小型的固定平臺(tái)上,可以扭轉(zhuǎn)、壓下的拉出、來(lái)回?fù)u擺等。力矩球通常使用發(fā)光二極管和光接收器進(jìn)行測(cè)量。 多媒體人機(jī)交互第38頁(yè),共58頁(yè)。人機(jī)交互中的視線跟蹤技術(shù)視線跟蹤技術(shù)早期主要應(yīng)用于心理學(xué)研究(如閱讀研究)、助殘等領(lǐng)域,后來(lái)才被應(yīng)用于圖像壓縮及人機(jī)交互技術(shù)。從理論上說(shuō),由于幾乎所有的人機(jī)交互形式都離不開(kāi)視覺(jué)介入,因此,當(dāng)用戶(hù)凝視其感興趣的目標(biāo)時(shí),如果系統(tǒng)能“自動(dòng)”將光標(biāo)置于其上或觸發(fā)必要的動(dòng)作,則比利用鼠標(biāo)器等間接指點(diǎn)設(shè)備甚至觸屏這

22、樣的直接指點(diǎn)設(shè)備更為直接。 多媒體人機(jī)交互第39頁(yè),共58頁(yè)。人機(jī)交互中的視線跟蹤技術(shù) 伺服機(jī)構(gòu)半反射鏡瞳孔攝像機(jī)光源紅外濾光鏡一種遠(yuǎn)距離視線跟蹤系統(tǒng)原理圖多媒體人機(jī)交互第40頁(yè),共58頁(yè)?;谑謩?shì)的人機(jī)交互技術(shù) 手勢(shì)是人手或者手和臂結(jié)合所產(chǎn)生的各種姿勢(shì)和動(dòng)作,它包括靜態(tài)手勢(shì)(指姿態(tài),單個(gè)手形)和動(dòng)態(tài)手勢(shì)(指動(dòng)作,由一系列姿態(tài)組成)。靜態(tài)手勢(shì)對(duì)應(yīng)空間里的一個(gè)點(diǎn),而動(dòng)態(tài)手勢(shì)對(duì)應(yīng)著模型參數(shù)空間里的一條軌跡,需要使用隨時(shí)間變化的空間特征來(lái)表述。手勢(shì)和姿勢(shì)(Posture)的主要區(qū)別在于,姿勢(shì)更為強(qiáng)調(diào)手和身體的形態(tài)和狀態(tài),而手勢(shì)更為強(qiáng)調(diào)手的運(yùn)動(dòng)。 多媒體人機(jī)交互第41頁(yè),共58頁(yè)。基于手勢(shì)的人機(jī)交互技

23、術(shù)手勢(shì)逐漸成為人機(jī)界面中一種新穎的交互手段,研究手勢(shì)識(shí)別的主要目的就是把手勢(shì)這種既自然又直觀的交流方式引入人機(jī)接口中,實(shí)現(xiàn)更符合人類(lèi)行為習(xí)慣的人機(jī)接口。手勢(shì)識(shí)別還可用于虛擬現(xiàn)實(shí)、三維設(shè)計(jì)、臨場(chǎng)感、可視化、醫(yī)學(xué)研究、手語(yǔ)理解等領(lǐng)域手勢(shì)識(shí)別問(wèn)題的解決方法對(duì)于表情識(shí)別、唇讀、步態(tài)識(shí)別、時(shí)空紋理分類(lèi)、視覺(jué)導(dǎo)航、圖像拼接和基于內(nèi)容的視頻檢索等研究都有直接推廣的意義。 多媒體人機(jī)交互第42頁(yè),共58頁(yè)。基于手勢(shì)的人機(jī)交互技術(shù)多媒體人機(jī)交互第43頁(yè),共58頁(yè)。五多媒體信息檢索10多媒體信息檢索第44頁(yè),共58頁(yè)。查詢(xún)語(yǔ)言查詢(xún)語(yǔ)言是數(shù)據(jù)庫(kù)系統(tǒng)極其重要的特性之一,是鑒別一個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng)成功與否的重要依據(jù)關(guān)鍵字

24、查詢(xún)可視化查詢(xún)語(yǔ)義查詢(xún) 多媒體信息檢索第45頁(yè),共58頁(yè)。全文檢索技術(shù)所謂全文檢索技術(shù)就是給定一個(gè)字符串或字符串的邏輯表達(dá)式,在全文數(shù)據(jù)庫(kù)中進(jìn)行相應(yīng)的檢索,查出與指定表達(dá)式相匹配的出現(xiàn),并將這些出現(xiàn)的原文件作為檢索結(jié)果返回給用戶(hù)。 當(dāng)數(shù)據(jù)庫(kù)數(shù)據(jù)量巨大時(shí),實(shí)現(xiàn)快速的全文檢索包括以下幾個(gè)方面的技術(shù)問(wèn)題: 檢索的快速響應(yīng)如何建立索引庫(kù)如何壓縮索引數(shù)據(jù)提供完整、豐富的檢索操作手段超文本處理分布式網(wǎng)絡(luò)文檔的檢索處理 多媒體信息檢索第46頁(yè),共58頁(yè)。Web信息檢索 目前許多搜索引擎一般都使用傳統(tǒng)信息檢索算法和技術(shù)。傳統(tǒng)的信息檢索算法主要是從相對(duì)少量和同構(gòu)的文獻(xiàn)集合(如新聞、書(shū)目等) 發(fā)展過(guò)來(lái)的。然而,W

25、eb上的信息具有巨量的、異構(gòu)的、非結(jié)構(gòu)或半結(jié)構(gòu)的、動(dòng)態(tài)的、分布的等特點(diǎn),對(duì)傳統(tǒng)的信息檢索技術(shù)提出了挑戰(zhàn)。 典型的搜索引擎由以下幾個(gè)部分組成:爬行器(或稱(chēng)為機(jī)器人、蜘蛛等)、索引生成器、查詢(xún)檢索器等三大模塊。 11多媒體信息檢索第47頁(yè),共58頁(yè)?;趦?nèi)容的圖像檢索 在圖像檢索系統(tǒng)中,傳統(tǒng)的方法是基于文字或數(shù)值的信息檢索技術(shù)。在檢索之前,人們要對(duì)圖像數(shù)據(jù)庫(kù)中的每幅圖像進(jìn)行人工標(biāo)注,用文字描述圖像的內(nèi)容,形成圖像描述數(shù)據(jù)庫(kù),并使用圖像編號(hào)的方式與圖像數(shù)據(jù)庫(kù)聯(lián)系起來(lái)?;趦?nèi)容的圖像檢索技術(shù)就是對(duì)圖像內(nèi)容進(jìn)行標(biāo)注或索引,并據(jù)此實(shí)現(xiàn)圖像檢索的一項(xiàng)綜合性技術(shù)。通過(guò)對(duì)圖像內(nèi)容的語(yǔ)義分析,從中抽取其顏色、紋理

26、、形狀、對(duì)象空間關(guān)系以及對(duì)象語(yǔ)義等特征,在此基礎(chǔ)之上,利用圖像相似性度量函數(shù)計(jì)算或評(píng)估圖像之間的相似性(評(píng)價(jià)的準(zhǔn)則是預(yù)先定義的),并將最相似的一些圖像作為檢索結(jié)果返回給用戶(hù)。 多媒體信息檢索第48頁(yè),共58頁(yè)。六多媒體傳輸17多媒體傳輸?shù)?9頁(yè),共58頁(yè)。流媒體技術(shù) 18流媒體是指在網(wǎng)絡(luò)中使用流式傳輸技術(shù)的連續(xù)時(shí)基媒體,例如:音頻、視頻、動(dòng)畫(huà)或其他多媒體文件。流媒體技術(shù)(或稱(chēng)為流式媒體技術(shù))就是把連續(xù)的影像和聲音信息經(jīng)過(guò)壓縮處理后放到網(wǎng)絡(luò)服務(wù)器上,讓瀏覽者一邊下載一邊觀看、收聽(tīng),而不需要等到整個(gè)多媒體文件下載完成就可以即時(shí)觀看的技術(shù)。 多媒體傳輸?shù)?0頁(yè),共58頁(yè)。流式傳輸 流媒體實(shí)現(xiàn)的關(guān)鍵技術(shù)就是流式傳輸。實(shí)現(xiàn)流式傳輸有兩種方法:實(shí)時(shí)流式傳輸和順序流式傳輸。一般說(shuō)來(lái),如視頻為實(shí)時(shí)廣播,或使用流式傳輸媒體服務(wù)器,或應(yīng)用如RTSP的實(shí)時(shí)協(xié)議,即為實(shí)時(shí)流式傳輸。如使用HTTP服務(wù)器,文件即通過(guò)順序流發(fā)送。采用哪種傳輸方法依賴(lài)用戶(hù)的需求。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論