版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
季怡多媒體技術(shù)應(yīng)用多媒體技術(shù)應(yīng)用國家級(jí)“十一五”規(guī)劃教材國家級(jí)“十一五”規(guī)劃教材第0章課程簡介.ppt第0章課程簡介-公選.ppt第0章實(shí)驗(yàn).ppt第1章多媒體技術(shù)概述.ppt第2章數(shù)字音頻處理.ppt第3章視覺信息處理.ppt第4章多媒體數(shù)據(jù)壓縮與編碼技術(shù).ppt第5章多媒體數(shù)據(jù)處理的技術(shù)標(biāo)準(zhǔn).ppt第6章多媒體系統(tǒng)結(jié)構(gòu).ppt第7章超文本與超媒體技術(shù).ppt第8章多媒體數(shù)據(jù)庫.ppt第9章虛擬現(xiàn)實(shí)技術(shù).ppt第10章流媒體技術(shù).ppt第11章多媒體信息安全.ppt課程總學(xué)時(shí):
51學(xué)時(shí)理論學(xué)習(xí)(34學(xué)時(shí))+實(shí)驗(yàn)(17學(xué)時(shí))課程實(shí)施
教材
多媒體技術(shù)應(yīng)用人民郵電出版社(第二版)近期的發(fā)展和趨勢(隨時(shí)補(bǔ)充)SIGCOMMACMMultimediaICMECVPRINFOCOM課程內(nèi)容第1章多媒體技術(shù)概述第2章數(shù)字音頻處理第3章視覺信息處理第4章多媒體數(shù)據(jù)壓縮與編碼技術(shù)第5章多媒體數(shù)據(jù)處理的技術(shù)標(biāo)準(zhǔn)第6章多媒體系統(tǒng)結(jié)構(gòu)第7章超文本與超媒體技術(shù)第8章多媒體數(shù)據(jù)庫技術(shù)第9章虛擬現(xiàn)實(shí)技術(shù)第10章流媒體技術(shù)第11章多媒體信息安全技術(shù)第12章Java多媒體程序設(shè)計(jì)考核形式考試——70%實(shí)驗(yàn)——20%平時(shí)
——10%季怡jiyi@多媒體技術(shù)應(yīng)用多媒體技術(shù)應(yīng)用國家級(jí)“十一五”規(guī)劃教材國家級(jí)“十一五”規(guī)劃教材課程總學(xué)時(shí):
36學(xué)時(shí)理論學(xué)習(xí)+演示實(shí)驗(yàn)課程實(shí)施
教材
多媒體技術(shù)應(yīng)用人民郵電出版社(第二版)近期的發(fā)展和趨勢(隨時(shí)補(bǔ)充)SIGCOMMACMMultimediaICMECVPRINFOCOM課程內(nèi)容第1章多媒體技術(shù)概述第2章數(shù)字音頻處理第3章視覺信息處理第4章多媒體數(shù)據(jù)壓縮與編碼技術(shù)第5章多媒體數(shù)據(jù)處理的技術(shù)標(biāo)準(zhǔn)第6章多媒體系統(tǒng)結(jié)構(gòu)第7章超文本與超媒體技術(shù)第8章多媒體數(shù)據(jù)庫技術(shù)第9章虛擬現(xiàn)實(shí)技術(shù)第10章流媒體技術(shù)第11章多媒體信息安全技術(shù)第12章Java多媒體程序設(shè)計(jì)考核形式考試(開卷)
——
80%平時(shí)
(問答等)——
20%季怡jiyi@多媒體技術(shù)應(yīng)用多媒體技術(shù)應(yīng)用國家級(jí)“十一五”規(guī)劃教材國家級(jí)“十一五”規(guī)劃教材總目實(shí)驗(yàn)1:聲音信號(hào)的獲取與處理:Audition實(shí)驗(yàn)2:圖象處理軟件:Photoshop實(shí)驗(yàn)3:二維動(dòng)畫制作:GIFAnimator實(shí)驗(yàn)4:視頻信號(hào)的采集與處理:Premiere實(shí)驗(yàn)5:三維動(dòng)畫制作:3DStudioMAX實(shí)驗(yàn)6:多媒體著作工具:Authorware實(shí)驗(yàn)7:用Flash制作賀卡1.聲音信號(hào)的獲取與處理所需軟件錄音機(jī)Audition實(shí)驗(yàn)?zāi)康闹谱饕欢螏П尘耙魳返慕庹f詞1.聲音信號(hào)的獲取與處理錄制解說詞包含自己的姓名,學(xué)號(hào)處理背景音樂加入回聲設(shè)置淡入,淡出混音加入解說詞平衡前景和背景聲音2:圖象處理軟件:Photoshop所需軟件AdobePhotoshop實(shí)驗(yàn)?zāi)康闹谱鞯貓D和實(shí)景相結(jié)合的展示實(shí)驗(yàn)要求地圖(世界地圖,某國或者某地)用噴槍工具制作成立體山脈效果多個(gè)當(dāng)?shù)刂木坝^或者特產(chǎn)圖片使用套索工具截取使用藝術(shù)字處理自己的姓名,學(xué)號(hào)以上使用多圖層合成在一個(gè)PSD文件中并存儲(chǔ)3.二維動(dòng)畫制作:GIFAnimator所需軟件UleadGIFAnimator實(shí)驗(yàn)?zāi)康睦L制簡單的二維動(dòng)畫實(shí)驗(yàn)要求建立主題投籃?射門?扔香蕉?打醬油?繪制幀有細(xì)微差別的連續(xù)幀(》5)添加入GIFAnimator調(diào)整速度等參數(shù)加入文字效果4.視頻信號(hào)的采集與處理:所需軟件AdobePremiere實(shí)驗(yàn)?zāi)康木庉嬕曨l,制作簡單的效果實(shí)驗(yàn)要求選取素材,自選或拍攝2-3段短視頻引入素材,Timeline使用濾鏡過渡效果:關(guān)門疊加操作,加入半透明和畫中畫效果加入字幕,輸出完成編輯制作6.Flash制作所需軟件Flash實(shí)驗(yàn)?zāi)康闹谱鹘换ナ缴召R卡實(shí)驗(yàn)要求加入文本,祝賀詞建立導(dǎo)向?qū)樱刮谋景窜壽E運(yùn)動(dòng)加入音樂層加入圖形按鈕,交互式動(dòng)作控制音樂開啟?展示祝福?打開禮物?輸出完成編輯制作7.Authorware制作所需軟件AdobeAuthorware實(shí)驗(yàn)?zāi)康牧鞒膛c交互響應(yīng)實(shí)驗(yàn)要求建立基本流程開始-密碼檢測-歡迎畫面-主內(nèi)容介紹交互響應(yīng)輸入文字響應(yīng)熱區(qū)響應(yīng)等等多媒體技術(shù)應(yīng)用國家級(jí)“十一五”規(guī)劃教材國家級(jí)“十一五”規(guī)劃教材第1章多媒體技術(shù)概述本章重點(diǎn):多媒體技術(shù)的概念及其特點(diǎn)多媒體技術(shù)的應(yīng)用領(lǐng)域多媒體研究的主要內(nèi)容與涉及的核心技術(shù)
本章概要:1.1多媒體技術(shù)的相關(guān)概念1.2多媒體技術(shù)的發(fā)展1.3多媒體技術(shù)的應(yīng)用領(lǐng)域1.4多媒體研究的主要內(nèi)容與核心技術(shù)1.5本章小結(jié)1.1多媒體技術(shù)的相關(guān)概念1.1.1媒體1.1.2多媒體1.1.3多媒體技術(shù)的基本特征1.1多媒體技術(shù)的相關(guān)概念任何系統(tǒng)理論的產(chǎn)生,都是為了滿足人們的需求或需要。計(jì)算機(jī)科學(xué)技術(shù)與其所屬的各個(gè)分支學(xué)科也是如此。人們利用計(jì)算機(jī)進(jìn)行了各種各樣的探索和嘗試,逐漸發(fā)展起來圖形處理技術(shù)、動(dòng)畫技術(shù)、視頻捕捉技術(shù)與編輯回放技術(shù)、虛擬現(xiàn)實(shí)技術(shù)等。
伴隨著這些技術(shù)不斷進(jìn)步,誕生了計(jì)算機(jī)科學(xué)技術(shù)的一個(gè)非常具有活力的分支——多媒體技術(shù)。
1.1.1媒體“媒體”即媒介、媒質(zhì),它是信息的載體,是一種傳播和表達(dá)信息的方法和手段。國際電信聯(lián)盟根據(jù)信息被人們感覺、表示以及實(shí)現(xiàn)存儲(chǔ)或進(jìn)行傳輸?shù)妮d體不同,將媒體分為了如下六個(gè)大類:1.1.1媒體1.感知媒體(PerceptionMedium)
指人們的感覺器官(眼、耳、鼻等)所能感覺到的信息的自然種類。如人類的各種語言、音樂,自然界的各種聲音、圖形、圖像,計(jì)算機(jī)系統(tǒng)內(nèi)的數(shù)據(jù)、文本等均可屬于感知媒體。1.1.1媒體2.表達(dá)媒體(RepresentationMedium)為了加工、處理和傳輸感知媒體而通過人工研究、構(gòu)造出來的媒體,主要用以定義信息的特性。表達(dá)媒體以語音編碼、圖像編碼和文本編碼等形式來描述。1.1.1媒體3.呈現(xiàn)媒體(PresentationMedium)指感知媒體與電信號(hào)間相互轉(zhuǎn)換用的那類媒體,即呈現(xiàn)信息或獲取信息的物理設(shè)備。呈現(xiàn)媒體有顯示器、揚(yáng)聲器、打印機(jī)等輸出類以及鍵盤、鼠標(biāo)器、掃描器、話筒和攝像機(jī)等輸入類設(shè)備。1.1.1媒體4.存儲(chǔ)媒體(StorageMedium)
指存儲(chǔ)表達(dá)媒體數(shù)據(jù)(感知媒體數(shù)字化后的代碼)的物理設(shè)備,如光盤、磁盤、磁帶等。5.傳輸媒體(TransmissionMedium)
指媒體傳輸用的一類物理載體,如同軸電纜、光纜、雙絞線、無線電鏈路等。6.交換媒體(ExchangeMedium)
指在系統(tǒng)之間交換數(shù)據(jù)的方法,它們可以是存儲(chǔ)媒體、傳輸媒體或者兩者的結(jié)合使用。1.1.1媒體這些不同層次的“媒體”為多媒體技術(shù)的誕生和發(fā)展提供了基本的空間和舞臺(tái)。在以上六種媒體中,感覺媒體是在多媒體應(yīng)用中呈現(xiàn)給用戶的媒體元素,它主要包括:文本、圖形、圖像、視頻、音頻、動(dòng)畫等。1.1.1媒體1.文本(Text):包含字母、數(shù)字、字、詞語等基本元素。2.圖形(Graph):是多媒體中的靜態(tài)可視元素之一,一般是以采用算法語言或某些應(yīng)用軟件生成的矢量圖(VectorDrawing)的形式來表達(dá)的。3.圖像(Image):也是多媒體的一種靜態(tài)可視元素,其基本形式為位圖(Bitmap)。1.1.1媒體4.視頻(Video):多媒體技術(shù)中的一類重要媒體,屬于動(dòng)態(tài)可視元素。圖像與視頻是兩個(gè)既有聯(lián)系又有區(qū)別的概念。5.音頻(Audio):是指大約在15Hz~20kHz頻率范圍的連續(xù)變化的波形。6.動(dòng)畫(Animation):是采用計(jì)算機(jī)動(dòng)畫軟件創(chuàng)作并生成的一系列可供實(shí)時(shí)演播的連續(xù)畫面,屬于一種動(dòng)態(tài)可視媒體元素。
1.1.2多媒體在絕大多數(shù)場合,多媒體是指多媒體技術(shù),即指能夠同時(shí)獲取、處理、編輯、存儲(chǔ)和回放兩種或者兩種以上不同類型信息媒體的技術(shù)。這些信息媒體包括文字、聲音、圖形、圖像、動(dòng)畫、視頻等,它一般不是指多種媒體本身,而主要是指處理和應(yīng)用的一整套技術(shù)手段。1.1.2多媒體從技術(shù)角度來說:多媒體是計(jì)算機(jī)綜合處理文本、圖形、圖像、音頻、視頻等多種媒體信息,使之建立邏輯連接,集成為一個(gè)系統(tǒng)并具有交互性和實(shí)時(shí)性的嶄新技術(shù)。它是一種綜合性電子信息技術(shù),已滲透到相關(guān)領(lǐng)域的方方面面,給人們的工作、生活和娛樂帶來了深刻的變革。
1.1.3多媒體技術(shù)的基本特征1.多樣性2.集成性3.交互性4.實(shí)時(shí)性5.非線性總之,多媒體有許多特點(diǎn),但其最顯著的特點(diǎn)是具有媒體的多樣性、集成性和交互性。1.2多媒體技術(shù)的發(fā)展多媒體技術(shù)的發(fā)展是社會(huì)需求和社會(huì)不斷推動(dòng)以及計(jì)算機(jī)技術(shù)不斷成熟和擴(kuò)展的結(jié)果。在多媒體的整個(gè)發(fā)展進(jìn)程中,有幾個(gè)具有代表性的階段:1984年,美國Apple(蘋果)公司開創(chuàng)了用計(jì)算機(jī)進(jìn)行圖像處理的先河,在世界上首次使用Bitmap(位圖)概念對(duì)圖像進(jìn)行描述,從而實(shí)現(xiàn)了對(duì)圖像進(jìn)行簡單的處理、存儲(chǔ)和傳送等。
1.2多媒體技術(shù)的發(fā)展1985年,美國Commodore公司將世界上首臺(tái)多媒體計(jì)算機(jī)系統(tǒng)展現(xiàn)在世人面前,該計(jì)算機(jī)系統(tǒng)被命名為Amiga。并在隨后的Comdex‘89展示會(huì)上,展示了該公司研制的多媒體計(jì)算機(jī)系統(tǒng)Amiga的完整系列產(chǎn)品。1986年3月,荷蘭PHILIPS(飛利浦)公司和日本SONY(索尼)公司共同制定了CD-I(CompactDiscInteractive)交互式激光光盤系統(tǒng)標(biāo)準(zhǔn),使多媒體信息的存儲(chǔ)規(guī)范化和標(biāo)準(zhǔn)化。
1.2多媒體技術(shù)的發(fā)展1987年3月,RCA公司制定了DVI(DigitalVideoInteractive)技術(shù)標(biāo)準(zhǔn),該技術(shù)標(biāo)準(zhǔn)在交互式視頻技術(shù)方面進(jìn)行了規(guī)范化和標(biāo)準(zhǔn)化,使計(jì)算機(jī)能夠利用激光光盤以DVI標(biāo)準(zhǔn)存儲(chǔ)靜止圖像和活動(dòng)圖像,并能存儲(chǔ)聲音等多種信息模式。1990年11月,美國Microsoft(微軟)公司和包括荷蘭PHILIPS(飛利浦)公司在內(nèi)的一些計(jì)算機(jī)技術(shù)公司成立“多媒體個(gè)人計(jì)算機(jī)市場協(xié)會(huì)(MultimediaPCMarketingCouncil)”。
1.2多媒體技術(shù)的發(fā)展1991年,多媒體個(gè)人計(jì)算機(jī)市場協(xié)會(huì)提出MPC1標(biāo)準(zhǔn)。1993年5月,多媒體個(gè)人計(jì)算機(jī)市場協(xié)會(huì)公布了MPC2標(biāo)準(zhǔn)。1995年6月,多媒體個(gè)人計(jì)算機(jī)工作組公布了MPC3標(biāo)準(zhǔn)。目前,多媒體技術(shù)的發(fā)展趨勢是逐漸把計(jì)算機(jī)技術(shù)、通信技術(shù)和大眾傳播技術(shù)融合在一起,建立更廣泛意義上的多媒體平臺(tái),實(shí)現(xiàn)更深層次的技術(shù)支持和應(yīng)用。索尼SonyPlayStation系列任天堂NintendoWii,Switch等微軟Xbox,Xbox360(Kinect)系列1.2多媒體技術(shù)的發(fā)展虛擬現(xiàn)實(shí)(VirtualReality)HTC的VivePreOculus的Rift三星的GearVR索尼的PlayStationVR1.2多媒體技術(shù)的發(fā)展增強(qiáng)顯示(AR)微軟HoloLensDLP,數(shù)字光處理,光投影MagicLeap光纖掃描技術(shù),通過光纖向視網(wǎng)膜直接投射整個(gè)數(shù)字光場在真實(shí)世界中疊加3D虛擬圖像1.2多媒體技術(shù)的發(fā)展1.2多媒體技術(shù)的發(fā)展從多媒體應(yīng)用方面看,有以下幾個(gè)發(fā)展趨勢:從單個(gè)PC用戶環(huán)境轉(zhuǎn)向多用戶環(huán)境和個(gè)性化用戶環(huán)境;從集中式、局部環(huán)境轉(zhuǎn)向分布式、遠(yuǎn)程環(huán)境;從專用平臺(tái)和系統(tǒng)有關(guān)的解決方案轉(zhuǎn)向開放性、可移植的解決方案;多媒體通信從單向通信轉(zhuǎn)向雙向通信;從被動(dòng)的、簡單的交互方式轉(zhuǎn)向主動(dòng)的高級(jí)的交互方式;從改造原有的應(yīng)用轉(zhuǎn)向建立新的應(yīng)用。1.3多媒體技術(shù)的應(yīng)用領(lǐng)域1.3.1娛樂1.3.2教育與培訓(xùn)1.3.3電子出版物1.3.4咨詢、信息服務(wù)與廣告1.3.5工業(yè)控制與科學(xué)研究1.3.6醫(yī)療影像與遠(yuǎn)程診斷1.3.7多媒體辦公系統(tǒng)1.3.8通信系統(tǒng)中的應(yīng)用1.4多媒體研究的主要內(nèi)容與核心技術(shù)要把一臺(tái)普通的計(jì)算機(jī)變成具有多媒體計(jì)算功能的計(jì)算機(jī),要解決多種媒體的數(shù)字化、壓縮、通信傳輸、存儲(chǔ)、同步回放等一系列的關(guān)鍵技術(shù)問題。綜合起來講,多媒體技術(shù)的核心問題是:多媒體信號(hào)數(shù)字化與計(jì)算機(jī)獲取技術(shù);多媒體數(shù)據(jù)壓縮編碼和解碼技術(shù);多媒體數(shù)據(jù)的實(shí)時(shí)處理和特技效果技術(shù);多媒體數(shù)據(jù)的輸出與回放技術(shù)。1.4多媒體研究的主要內(nèi)容與核心技術(shù)如何高效地解決如上問題,是多媒體相關(guān)研究領(lǐng)域的核心問題。多媒體技術(shù)的研究涉及到:媒體數(shù)字化技術(shù)、數(shù)據(jù)壓縮編解碼技術(shù)多媒體存儲(chǔ)技術(shù)、硬件平臺(tái)、軟件平臺(tái)多媒體數(shù)據(jù)庫、超文本和超媒體、虛擬現(xiàn)實(shí)人機(jī)接口、多媒體通信技術(shù)以及分布式多媒體等眾多領(lǐng)域。1.4多媒體研究的主要內(nèi)容與核心技術(shù)1.多媒體數(shù)據(jù)壓縮編解碼技術(shù)在多媒體計(jì)算機(jī)系統(tǒng)中要表示、傳輸和處理大量的聲音、圖像甚至影像視頻信息,其數(shù)據(jù)量之大是非常驚人的,加之信息品種多、實(shí)時(shí)性要求高,給數(shù)據(jù)的存儲(chǔ)和傳輸以及加工處理均帶來了巨大的壓力。因此,在采用新技術(shù)增加CPU處理速度、存儲(chǔ)容量和提高通信帶寬的同時(shí),還須研究高效的數(shù)據(jù)壓縮編解碼技術(shù),加入使用GPU快速處理。多媒體數(shù)據(jù)壓縮編碼和解碼技術(shù)
過去計(jì)算機(jī)企圖綜合處理聲、文、圖,但是不可以,原因在于:文件量過大以一幅彩色靜態(tài)圖像(RGB)為例:BGR設(shè)分辨率為512
512每一種顏色用8bit表示即R用8bit256級(jí)別表示
G用8bit256級(jí)別表示
B用8bit256級(jí)別表示則一幅彩色靜態(tài)圖像的數(shù)據(jù)量為
512
51238bitPAL是通用于中國大陸與西歐大部分國家(除去法國)的彩色電視信號(hào)格式,以交錯(cuò)方式掃描,每秒鐘出25幀畫面,每幀畫面含625條水平掃描線,50Hz。NTSC制式,美國、日本等國采用,每秒鐘出30幀畫面,每幀畫面含525條水平掃描線,60Hz。
SECAM——通用于法國,中東,和多數(shù)東歐國家,25幀/秒,625線/幀,50Hz.PAL,SECAM制式25幀/秒NTSC制式30幀/秒以PAL制25幀/秒為例,視頻每秒鐘的數(shù)據(jù)量512
5123825=180Mbps
陸地衛(wèi)星(Landsat—3)的例子,其水平、垂直分辯率分別為2340和3240,四波段采樣精度7位,它的一幅圖像的數(shù)據(jù)量為2340×3240×7×4=212Mbit,按每天30幅計(jì)每天數(shù)據(jù)為212×30=6.36Gbit,每年的數(shù)據(jù)量高達(dá)2300Gbit。單純擴(kuò)大存儲(chǔ)容量,增加通信干線的傳輸率是不現(xiàn)實(shí)的,數(shù)據(jù)壓縮是行之有效的方法。
現(xiàn)在1080p高清電視
的標(biāo)準(zhǔn)MPEG-2的固定傳輸率為17Mbps
通過MPEG-2可以把這個(gè)視頻流傳輸?shù)接?jì)算機(jī)并存儲(chǔ)。如何壓縮數(shù)據(jù)?
幀內(nèi)壓縮幀間壓縮幀內(nèi)壓縮圖——Bitmap——存儲(chǔ)器——顏色相同的塊——幀內(nèi)壓縮幀間壓縮不變化部分:只傳送一次變化部分:傳送一個(gè)運(yùn)動(dòng)矢量1.4多媒體研究的主要內(nèi)容與核心技術(shù)2.多媒體數(shù)據(jù)存儲(chǔ)技術(shù)隨著多媒體與計(jì)算機(jī)技術(shù)的發(fā)展,多媒體數(shù)據(jù)量越來越大,對(duì)存儲(chǔ)設(shè)備的要求越來越高。因此,高效快速的存儲(chǔ)設(shè)備是多媒體技術(shù)得以應(yīng)用的基本部件之一。1.4多媒體研究的主要內(nèi)容與核心技術(shù)3.多媒體數(shù)據(jù)庫技術(shù)多媒體數(shù)據(jù)庫是一個(gè)由若干多媒體對(duì)象所構(gòu)成的集合,這些數(shù)據(jù)對(duì)象按一定的方式被組織在一起,可為其他的應(yīng)用所共享。多媒體數(shù)據(jù)庫管理系統(tǒng)負(fù)責(zé)完成對(duì)多媒體數(shù)據(jù)庫的各種操作和管理功能,包括對(duì)數(shù)據(jù)庫的定義、操縱和控制等這樣一些傳統(tǒng)數(shù)據(jù)庫功能。此外,還必須解決海量數(shù)據(jù)的存儲(chǔ)、信息提取等一些新的問題。1.4多媒體研究的主要內(nèi)容與核心技術(shù)4.超文本和超媒體技術(shù)超文本和超媒體技術(shù)是一種模擬人腦的聯(lián)想記憶方式,把一些信息塊按照需要,用一定的邏輯順序鏈接成非線性的、網(wǎng)狀結(jié)構(gòu)的信息管理技術(shù)。超文本技術(shù)以節(jié)點(diǎn)作為基本單位,這種節(jié)點(diǎn)要比字符高出一個(gè)層次。由鏈把節(jié)點(diǎn)鏈接成網(wǎng)狀結(jié)構(gòu),即非線性文本結(jié)構(gòu)。這種已組織成網(wǎng)的信息網(wǎng)絡(luò)即是超文本。1.4多媒體研究的主要內(nèi)容與核心技術(shù)5.智能多媒體技術(shù)智能多媒體是一種更加擬人化的高級(jí)智能計(jì)算技術(shù)。多媒體技術(shù)的進(jìn)一步發(fā)展迫切需要引入人工智能,要利用多媒體技術(shù)解決計(jì)算機(jī)視覺和聽覺方面的問題,必須引入知識(shí),這必然要引入人工智能的概念、方法和技術(shù)。
1.4多媒體研究的主要內(nèi)容與核心技術(shù)6.多媒體信息檢索技術(shù)多媒體信息檢索是根據(jù)用戶的要求,對(duì)圖形、圖像、文本、聲音、動(dòng)畫和視頻等多媒體信息進(jìn)行檢索,以得到用戶所需的信息。多媒體信息檢索系統(tǒng)有著廣闊的應(yīng)用前景,將廣泛地應(yīng)用于電子會(huì)議、遠(yuǎn)程教學(xué)、遠(yuǎn)程醫(yī)療、電子圖書館、藝術(shù)收藏和博物館管理、地理信息系統(tǒng)、遙感和地球資源管理、計(jì)算機(jī)支持協(xié)同工作等領(lǐng)域。
1.4多媒體研究的主要內(nèi)容與核心技術(shù)7.虛擬現(xiàn)實(shí)技術(shù)(VR)虛擬現(xiàn)實(shí)技術(shù),也稱“虛擬環(huán)境”或“臨境”技術(shù),就是采用計(jì)算機(jī)多媒體技術(shù)生成一個(gè)逼真的、具有臨場感覺的環(huán)境,是一種全新的人機(jī)交互系統(tǒng)。它可廣泛地應(yīng)用于模擬訓(xùn)練、科學(xué)可視化、軍事演習(xí)、航天仿真、娛樂、設(shè)計(jì)與規(guī)劃、教育與培訓(xùn)、商業(yè)等領(lǐng)域,是目前和今后若干年中十分活躍的技術(shù)。1.4多媒體研究的主要內(nèi)容與核心技術(shù)8.人機(jī)交互技術(shù)(HCI)人和計(jì)算機(jī)之間的交互是目前研究最多的問題之一。計(jì)算機(jī)能處理和表現(xiàn)越來越多的信息,因此人和計(jì)算機(jī)之間的交互便顯得日益重要。人與計(jì)算機(jī)之間的信息交流有四種不同的形式,即人-人(通過計(jì)算機(jī))、人-機(jī)、機(jī)-人和機(jī)-機(jī)。1.4多媒體研究的主要內(nèi)容與核心技術(shù)9.多媒體網(wǎng)絡(luò)與通信技術(shù)傳統(tǒng)的電信業(yè)務(wù)如電話、傳真等通信方式已不能適應(yīng)社會(huì)的需要,迫切要求通信與多媒體技術(shù)相結(jié)合,為人們提供更加高效和快捷的溝通途徑,如提供多媒體電子郵件、視頻會(huì)議、遠(yuǎn)程交互式教學(xué)系統(tǒng)、視頻點(diǎn)播等新型的服務(wù)。1.4多媒體研究的主要內(nèi)容與核心技術(shù)10.分布式多媒體技術(shù)分布式多媒體技術(shù)是多媒體技術(shù)、網(wǎng)絡(luò)通信技術(shù)、分布式處理技術(shù)、人機(jī)交互技術(shù)、人工智能技術(shù)和社會(huì)學(xué)等多種技術(shù)的集成。1.5本章小結(jié)以往的信息技術(shù)基本上是以單媒體的方式進(jìn)行的,如音樂、廣播、電視等,這種方式難以滿足人們對(duì)信息交流和處理的要求。多媒體方式則能和人們自然交流及處理信息。多媒體技術(shù)并非簡單地將幾個(gè)單媒體技術(shù)加在一起,而是多種技術(shù)的有機(jī)集成而形成的一個(gè)新的多媒體系統(tǒng)。多媒體技術(shù)已成為人們關(guān)注的熱點(diǎn)之一,多媒體技術(shù)將引起信息社會(huì)一場劃時(shí)代的大變革。
第2章數(shù)字音頻處理
本章重點(diǎn):模擬音頻與數(shù)字音頻的概念數(shù)字音頻的獲取音頻信號(hào)壓縮編碼音樂合成和語音識(shí)別
第2章數(shù)字音頻處理2.1概述2.2數(shù)字音頻的獲取2.3音頻信號(hào)壓縮編碼2.4音樂合成和MIDI2.5語音識(shí)別2.6實(shí)例VC++播放聲音的實(shí)現(xiàn)2.7本章小結(jié)2.1概述聲音是攜帶信息的重要媒體。研究表明,人類從外部世界獲取的信息中,10%是通過聽覺獲得的,因此聲音是多媒體技術(shù)研究中的一個(gè)重要內(nèi)容。2.1概述聲音是由物體振動(dòng)產(chǎn)生的,這種振動(dòng)引起周圍空氣壓強(qiáng)的振蕩,從而使耳朵產(chǎn)生聽覺的印象。幅值t一個(gè)周期-+空氣壓強(qiáng)圖2.1空氣壓強(qiáng)振蕩的波形示意圖02.1概述聲音的種類繁多,人的語音是最重要的聲音。此外,還有動(dòng)物、樂器等發(fā)出的聲音,風(fēng)聲、雨聲、雷聲等自然聲音,以及機(jī)器合成產(chǎn)生的聲音等。
人耳能識(shí)別的聲音頻率范圍大約在20~20kHz,通常稱為音頻(audio)信號(hào)。
頻率
次聲0—20Hz
人耳能聽見的聲音20Hz—20kHz
超聲20kHz—1GHz
特超聲1GHz—10THz2.1概述音頻信號(hào)所攜帶的信息大體上可分為語音、音樂和音效三類。語音,指具有語言內(nèi)涵和人類約定俗成的特殊媒體。音樂,指規(guī)范的符號(hào)化了的聲音。音效,指人類熟悉的其他聲音。在多媒體系統(tǒng)中,處理的信號(hào)主要是音頻信號(hào)。
2.1概述
聲音包含三個(gè)要素:音調(diào)、音強(qiáng)和音色。基頻與音調(diào):一個(gè)聲源每秒鐘可產(chǎn)生成百上千個(gè)波,通常把每秒鐘波峰所產(chǎn)生的數(shù)目稱之為信號(hào)的頻率,單位用赫茲(Hz)或千赫茲(kHz)表示。人對(duì)聲音頻率的感覺表現(xiàn)為音調(diào)的高低,在音樂中稱為音高。音調(diào)正是由頻率ω所決定的。
2.1概述
音樂中音階的劃分是在頻率的對(duì)數(shù)坐標(biāo)(20×log)上取等分而得的。如表所示,20×log261=48.3,20×log293=49.3等。音階CDEFGAB簡譜符號(hào)1234567頻率(HZ)261293330349392440494頻率(對(duì)數(shù))48.349.350.350.851.852.853.82.1概述諧波與音色:n×ωo稱為基波ωo的n次諧波分量,也稱為泛音。音色是由混入基音的泛音所決定的
。幅度與音強(qiáng):信號(hào)的幅度是從信號(hào)的基線到當(dāng)前波峰的距離。幅度決定了信號(hào)音量的強(qiáng)弱程度。幅度越大,聲音越強(qiáng)。一般用動(dòng)態(tài)范圍定義相對(duì)強(qiáng)度:
動(dòng)態(tài)范圍=20×log(信號(hào)的最大強(qiáng)度/信號(hào)的最小強(qiáng)度)(dB)
2.1概述音寬與頻帶:頻帶寬度,也稱為帶寬,它是描述組成復(fù)合信號(hào)的頻率范圍。通常用頻帶寬度、動(dòng)態(tài)范圍、信噪比等指標(biāo)衡量音頻信號(hào)的質(zhì)量。音頻信號(hào)的頻帶越寬,所包含的音頻信號(hào)分量越豐富,音質(zhì)越好。動(dòng)態(tài)范圍越大,信號(hào)強(qiáng)度的相對(duì)變化范圍越大,音響效果越好。
2.1概述
聲音的質(zhì)量可以通過信噪比來度量。信噪比(SNR,SignaltoNoiseRatio)是有用信號(hào)與噪聲之比的簡稱,定義為:
信噪比越大,聲音質(zhì)量越好。2.2數(shù)字音頻的獲取2.2.1采樣2.2.2量化2.2.3數(shù)字音頻的技術(shù)指標(biāo)2.2.4數(shù)字音頻的文件格式2.2.1采樣圖2.5模擬信號(hào)的采樣
所謂采樣就是在某些特定的時(shí)刻對(duì)模擬信號(hào)進(jìn)行取值,如上圖所示。采樣的過程是每隔一個(gè)時(shí)間間隔在模擬聲音的波形上取一個(gè)幅值,把時(shí)間上的連續(xù)信號(hào)變成時(shí)間上的離散信號(hào)。2.2.1采樣
采樣時(shí)間間隔稱為采樣周期t,其倒數(shù)為采樣頻率fs=1/t。一般來講,采樣頻率越高,則在單位時(shí)間內(nèi)計(jì)算機(jī)得到的聲音樣本數(shù)據(jù)就越多,對(duì)聲音波形的表示也越精確,聲音失真越小,但用于存儲(chǔ)音頻的數(shù)據(jù)量越大。
采樣定理(奈奎斯特定理)
設(shè)連續(xù)信號(hào)x(t)的頻譜為x(f),
以采樣間隔T采樣得到離散信號(hào)x(nT),若滿足:T≤──(fc是信號(hào)的高端截止頻率)
則可以由離散信號(hào)x(nT)完全確定連續(xù)信號(hào)x(t)。12fc
更通俗地講:只有采樣頻率高于聲音信號(hào)最高頻率的兩倍時(shí),才能把數(shù)字信號(hào)表示的聲音還原為原來的聲音。奈奎斯特采樣定理用公式表示為:,其中,為聲音信號(hào)的最高頻率。舉例:(1)在數(shù)字電話系統(tǒng)中,由于電話語音的最高信號(hào)頻率約為3.4KHz,為將人的聲音變?yōu)閿?shù)字信號(hào),電話語音采樣頻率不低于6.8kHz,通常選為8kHz。(2)要想獲得CD音質(zhì)的效果,則要保證采樣頻率為44.1kHz,也就是能夠捕獲頻率高達(dá)22050Hz的信號(hào)。說明:因?yàn)槿硕軌蚵犚姷淖罡呗曇纛l率為20kHz,為了避免高于20kHz的高頻信號(hào)干擾采樣,在進(jìn)行采樣之前,需要對(duì)輸入的聲音信號(hào)進(jìn)行濾波。考慮到濾波器在20kHz處大約有10%的衰減,因此再將其提高10%成為22kHz。這個(gè)值再乘以2就得到44kHz的采樣頻率。但是,為了能夠與電視信號(hào)同步,PAL電視的掃描為50Hz,NTSC電視的場掃描為60Hz,所以取50和60的整數(shù)倍,選用了44100Hz作為激光唱盤聲音的采樣標(biāo)準(zhǔn)。2.2.2量化
每個(gè)采樣值在幅度上進(jìn)行離散化處理的過程稱為量化。量化可分為均勻量化和非均勻量化。均勻量化是把將采樣后的信號(hào)按整個(gè)聲波的幅度等間隔分成有限個(gè)區(qū)段,把落入某個(gè)區(qū)段內(nèi)的樣值歸為一類,并賦于相同的量化值。以8bit或16bit的方式來劃分縱軸為例,其縱軸將會(huì)被劃分為28個(gè)和216個(gè)量化等級(jí),用以記錄其幅度大小。數(shù)字音頻的獲取2.2.2量化
非均勻量化是根據(jù)信號(hào)的不同區(qū)間來確定量化間隔。對(duì)于信號(hào)值小的區(qū)間,其量化間隔也??;反之,量化間隔就大。
量化會(huì)引入失真,并且量化失真是一種不可逆失真,這就是通常所說的量化噪聲。非均勻量化的實(shí)現(xiàn)方法通常是將抽樣值x通過一個(gè)變換后,再對(duì)y進(jìn)行均勻量化,這個(gè)變換通常叫做壓擴(kuò)。分為μ律(μ-Law)壓擴(kuò)算法和Α律(A-Law)壓擴(kuò)算法。μ律壓擴(kuò)按下面的式子確定量化輸入和輸出的關(guān)系:x為輸入信號(hào)幅度,規(guī)格化成-1≤x≤1;sgn(x)為x的極性;μ為確定壓擴(kuò)量的參數(shù),它反映最大量化間隔和最小量化間隔之比,取100≤μ≤500。μ越大,壓擴(kuò)越厲害。具體計(jì)算時(shí),用μ=255,把對(duì)數(shù)曲線變成8條折線以簡化計(jì)算過程。
A律壓擴(kuò)很明顯,小信號(hào)時(shí)為線性特性,大信號(hào)時(shí)近似為對(duì)數(shù)特性。這種壓擴(kuò)特性常把壓縮、量化和編碼合為一體。A律可用13段折線逼近(相當(dāng)于A=87.6),便于用數(shù)字電路實(shí)現(xiàn)。北美和日本等地區(qū)的采用μ率壓擴(kuò),我國和歐洲各國均采用Α率壓擴(kuò)。3.聲音硬件
采樣量化時(shí):模擬到數(shù)字的轉(zhuǎn)換器(A/D轉(zhuǎn)換器) 如:話筒(A)->聲卡上ADC->數(shù)字音頻(D)
數(shù)字音頻回放時(shí):
數(shù)字到模擬的轉(zhuǎn)換器(D/A轉(zhuǎn)換器) 如:數(shù)字音頻(D)->聲卡上DAC->揚(yáng)聲器(A)2.2.3數(shù)字音頻的技術(shù)指標(biāo)1.采樣頻率(常用頻率:8KHz,11.025KHz,22.05KHz,44.1KHz等)2.
量化位數(shù)(常用:8位,12位,16位)3.通道(聲道)個(gè)數(shù)(Mono–
單聲道,Stereo–
雙聲道,
四聲道環(huán)繞–4.1聲道,DolbyAC-3音效–5.1聲道)
數(shù)字音頻數(shù)據(jù)量計(jì)算
數(shù)據(jù)傳輸率是計(jì)算機(jī)處理時(shí)基本參數(shù)。未經(jīng)壓縮的數(shù)字音頻數(shù)據(jù)傳輸率可按下式計(jì)算:數(shù)據(jù)傳輸率=采樣頻率×量化位數(shù)×聲道數(shù)
數(shù)字音頻數(shù)據(jù)量計(jì)算CD音質(zhì)(20Hz--20KHz):
44.1KHz采樣,16位量化,雙聲道
數(shù)據(jù)量為44100*16*2=1.411Mb/s(2)AMRadio音質(zhì)(50Hz--7KHz):
16KHz采樣,14位量化
數(shù)據(jù)量為16000*14=224Kb/s(3)Telephone音質(zhì)(300Hz--3400Hz):
8KHz采樣,8位量化
數(shù)據(jù)量為8000*8=64Kb/s舉例例:假定語音信號(hào)的帶寬是50Hz—10kHz,而音樂信號(hào)的是15Hz—20kHz。采用奈奎斯特頻率,并用12bit表示語音信號(hào)樣值,用16bit表示音樂信號(hào)樣值,計(jì)算這兩種信號(hào)數(shù)字化以后的比特率以及存儲(chǔ)一段10分鐘的立體聲音樂所需要的存儲(chǔ)器容量。解:語音信號(hào):取樣頻率=2×10kHz=20kHz;比特率=20k×12=240kbit/s
音樂信號(hào):取樣頻率=2×20kHz=40kHz;比特率=40k×l6kbit/s×2=1280kbit/s(立體聲)
所需存儲(chǔ)空間=1280k×600/8=96MBCD播放器和CD—ROM中使用的光盤是存儲(chǔ)立體聲音樂和大多數(shù)多媒體信息的數(shù)字存儲(chǔ)體。與之相關(guān)的標(biāo)準(zhǔn)稱為CD—數(shù)字音頻(CD—DA)標(biāo)準(zhǔn)。音樂的音頻帶寬是15Hz~20kHz,因此,最小采樣頻率為40kHz。實(shí)際采樣率定義為:44.1kHz傳送比特率:CD質(zhì)量的音頻傳送比特率計(jì)算例2.5假定使用CD—DA標(biāo)準(zhǔn),求(1)存儲(chǔ)60分鐘多媒體節(jié)目的光盤存儲(chǔ)容量;(2)當(dāng)傳輸信道的比特率分別為64kbits/s和1.5Mbit/s時(shí),傳輸30秒多媒體節(jié)目的時(shí)間。2.2.4數(shù)字音頻的文件格式
可以將數(shù)字音頻文件格式分為三類:非壓縮格式:WAV,AIFF,AU和PCM;無損壓縮格式:FLAC,APE(Monkey'sAudio),WV(WavPack,TTA,ATRAC(AdvancedLossless),m4a(ALAC),MPEG-4SLS,MPEG-4ALS,MPEG-4DST,WindowsMediaAudioLossless(無損WMA),和SHN(Shorten).有損壓縮格式:Opus,MP3,Vorbis,Musepack,AAC,ATRAC和WindowsMediaAudioLossy(有損WMA).WAV是MicrosoftWindows提供的音頻格式。這個(gè)格式是目前通用音頻格式,它通常用來保存一些沒有壓縮的音頻。目前所有的音頻播放軟件和編輯軟件都支持這一格式??捎密浖篠oundForge,Audition,WaveLab等。WAV文件由三部分組成:文件頭(標(biāo)明是WAV文件、文件結(jié)構(gòu)和數(shù)據(jù)的總字節(jié)數(shù))、數(shù)字化參數(shù)(如采樣頻率、聲道數(shù)、編碼算法等),實(shí)際波形數(shù)據(jù)。一般來說,聲音質(zhì)量與其WAV格式的文件大小成正比。WAV文件格式簡介WAVE(WaveformAudioFileFormat)文件是多媒體中使用的聲音文件格式之一,它以RIFF格式為基礎(chǔ),每個(gè)WAVE文件的頭四個(gè)字節(jié)為“RIFF”。WAVE文件的擴(kuò)展名為“.WAV”。WAVE文件格式WAVE文件格式Format塊Sound數(shù)據(jù)塊RIFFWAVEChunkWAVE文件由文件頭和數(shù)據(jù)兩部分組成。最小的WAVE文件結(jié)構(gòu)
__________________________|RIFFWAVEChunk||groupID='RIFF'||riffType='WAVE‘||__________________|||FormatChunk||||ckID='fmt'||||__________________|||__________________|||SoundDataChunk||||ckID='data‘||||__________________|||_________________________|RIFFWAVE塊頭
塊標(biāo)志‘RIFF’塊大小(32-bits)Wave類型標(biāo)志‘WAVE’TheFormat(fmt)Chunk格式塊(fmt)是WAVE文件必選項(xiàng),描述波形文件的基本參數(shù),如采樣率、位分辨率以及通道數(shù)等。#defineFormatID'fmt'/*chunkIDforFormatChunk.*/typedefstruct{IDchunkID;longchunkSize;shortwFormatTag;/*currentlyPCM*/unsignedshortwChannels;/*numofchannels*/unsignedlongdwSamplesPerSec;/*samplerateinHz*/unsignedlongdwAvgBytesPerSec;/*xxxBytes/s*/unsignedshortwBlockAlign;/*1/2/4-->8/16mono/stereo*/unsignedshortwBitsPerSample;/*bitsinasample*//*根據(jù)wFormatTag不同,可以有附加字段.*/}FormatChunk;DataChunk數(shù)據(jù)塊包含實(shí)際的波形數(shù)據(jù):#defineDataID'data‘/*chunkIDfordataChunk*/typedefstruct{IDchunkID;longchunkSize;unsignedcharwaveformData[];}DataChunk;
OffsetDescription-------------------------------------------------------OffsetContents-------------------------------------------------------0x00chunkid'RIFF‘0x04chunksize(32-bits)0x08wavechunkid'WAVE‘0x0C
formatchunkid'fmt'0x10
formatchunksize(32-bits)0x14formattag(currentlyPCM)0x16numberofchannels1=mono,2=stereo0x18samplerateinHz0x1Caveragebytespersecond------------------------------------------------------------------------------------------------------OffsetContents-------------------------------------------------------
0x20numberofbytespersample 1= 8-bitmono 2= 8-bitstereoor 16-bitmono 4=16-bitstereo0x22numberofbitsinasample
0x24
datachunkid'data'
0x28
lengthofdatachunk(32-bits)0x2CSampledata……-----------------------------------------------2.2.4數(shù)字音頻的文件格式MP3文件格式簡介
MP3是第一個(gè)實(shí)用的有損音頻壓縮編碼技術(shù)。在MP3出現(xiàn)之前,一般的音頻編碼即使以有損方式進(jìn)行壓縮,能達(dá)到4:1的壓縮比例已經(jīng)非常不錯(cuò)了。但是,MP3可以實(shí)現(xiàn)12:1的壓縮比例。衡量MP3文件的壓縮比例通常使用比特率來表示。通常比特率越高,壓縮文件就越大,但音樂中獲得保留的成分就越多,音質(zhì)就越好。
2.2.4數(shù)字音頻的文件格式MIDI文件格式簡介
MIDI最初應(yīng)用在電子樂器上用來記錄樂手的彈奏,以便以后重播。隨著在電腦里面引入了支持MIDI合成的聲音卡之后,MIDI才正式地成為了一種音頻格式。MIDI的內(nèi)容除了樂譜之外還記錄了每個(gè)音符的彈奏方法。2.2.4數(shù)字音頻的文件格式普通的MIDI文件許多播放器都支持,但要達(dá)到好的效果就必須安裝軟波表,比如WinGroove、RolandVirtualSoundCanvas和YAMAHAS-YXGPlayer。如果要對(duì)MIDI文件進(jìn)行編輯,可以使用的比較出名的軟件是AnvilStudio和Sonar。另外還有一些曲譜軟件,比如Sibelius。2.3音頻信號(hào)壓縮編碼2.3.1概述2.3.2編碼方法2.3.3音頻數(shù)據(jù)的標(biāo)準(zhǔn)2.3.1音頻編碼基礎(chǔ)為什么要進(jìn)行語音編碼?為什么能進(jìn)行語音編碼?為什么要進(jìn)行語音編碼?隨著對(duì)音質(zhì)要求的增加,信號(hào)頻率范圍逐漸增加,要求描述信號(hào)的數(shù)據(jù)量也就隨之增加,從而帶來處理這些數(shù)據(jù)的時(shí)間和傳輸、存儲(chǔ)這些數(shù)據(jù)的容量增加,因此多媒體音頻壓縮技術(shù)是多媒體技術(shù)實(shí)用化的關(guān)鍵之一。語音信號(hào)中存在多種冗余度:
時(shí)域信息的冗余度
(1)幅度的非均勻分布
(2)樣本間的相關(guān)
(3)周期之間的相關(guān)
(4)基音之間的相關(guān)
(5)靜止系數(shù)
(6)長時(shí)自相關(guān)函數(shù)‘1’‘2’例:語音的時(shí)域信息的冗余度基音周期(音調(diào)周期)一個(gè)單音‘1’(1)非均勻的長時(shí)功率譜密度
(2)語音特有的短時(shí)功率譜密度人的聽覺感知機(jī)理
(1)人的聽覺具有掩蔽效應(yīng)
(2)人耳對(duì)不同頻段的聲音的敏感程度不同
(3)人耳對(duì)語音信號(hào)的相位變化不敏感2.頻域信息的冗余度在給定的編碼速率下獲得盡可能好的高質(zhì)量語音。
1.主觀評(píng)價(jià)
(1)可懂度評(píng)價(jià)
(2)音質(zhì)評(píng)價(jià):平均意見得分、判斷滿意度測量
2.客觀評(píng)價(jià)語音編碼系統(tǒng)性能評(píng)價(jià)2.3.1概述根據(jù)解壓后數(shù)據(jù)是否有失真可以將音頻壓縮分為無損壓縮(無失真壓縮)和有損壓縮(有失真壓縮)。無損壓縮的壓縮效率低,但是可以無失真地重現(xiàn)原始數(shù)據(jù)。有損壓縮的壓縮效率較高,但有數(shù)據(jù)丟失。2.3.1概述
音頻信息編碼技術(shù)主要可分為三類。波形編碼:這種方法主要基于語音波形預(yù)測,它力圖使重建的語音波形保持原有的波形狀態(tài)。常用的波形編碼技術(shù)有增量調(diào)制(DM)、自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)、子帶編碼(SBC)和矢量量化編碼(VQ)等等。
2.3.1概述
波形編碼的特點(diǎn)是在高碼率的條件下獲得高質(zhì)量的音頻信號(hào),適用于高保真度語音和音樂信號(hào)的壓縮技術(shù)。它的優(yōu)點(diǎn)是編碼方法簡單、易于實(shí)現(xiàn)、適應(yīng)能力強(qiáng)、語音質(zhì)量好等,缺點(diǎn)是壓縮比相對(duì)來說較低,需要較高的編碼速率。2.3.1概述參數(shù)編碼:參數(shù)編碼的方法是將音頻信號(hào)以某種模型表示,再抽出合適的模型參數(shù)和參考激勵(lì)信號(hào)進(jìn)行編碼;聲音重放時(shí),再根據(jù)這些參數(shù)重建即可。顯然參數(shù)編碼壓縮比很高,但計(jì)算量大。它主要用于在窄帶信道上提供4.8kb/s以下的低速語音通信和一些對(duì)延時(shí)要求較寬的應(yīng)用場合(如衛(wèi)星通信等)。最常用的參數(shù)編碼法為線性預(yù)測(LPC)編碼。
2.3.1概述混合編碼:這種方法克服了原有波形編碼與參數(shù)編碼的弱點(diǎn),并且結(jié)合了波形編碼的高質(zhì)量和參數(shù)編碼的低數(shù)據(jù)率。混合編碼是指同時(shí)使用兩種或兩種以上的編碼方法進(jìn)行編碼。由于每種編碼方法都有自己的優(yōu)勢和不足,若是用兩種或兩種以上的編碼方法進(jìn)行編碼,可以優(yōu)勢互補(bǔ),克服各自的不足,從而達(dá)到高效數(shù)據(jù)壓縮的目的。2.3.2編碼方法
常用的音頻編碼壓縮算法有以下幾種。增量調(diào)制
增量調(diào)制(DM)是一種比較簡單的波形編碼方法。在編碼端,由前一個(gè)輸入信號(hào)的編碼值經(jīng)解碼器解碼可得到下一個(gè)信號(hào)的預(yù)測值。輸入的模擬音頻信號(hào)與預(yù)測值在比較器上相減,從而得到差值。差值的極性可以是正也可以是負(fù)。若為正,則編碼輸出為1;若為負(fù),則編碼輸出為0。這樣,在增量調(diào)制的輸出端可以得到一串1位編碼的DM碼。
2.3.2編碼方法譯碼器比較器極性判別信道調(diào)制器輸入信號(hào)脈沖發(fā)生器-+增量調(diào)制的系統(tǒng)結(jié)構(gòu)圖問題1:斜率過載
當(dāng)語音信號(hào)大幅度發(fā)生變化時(shí),階梯波形的上升或下降有可能跟不上信號(hào)的變化,因而產(chǎn)生滯后,這種失真稱為“過載失真”。在斜率過載期間的碼字將是一連串的0或者一連串的1。
當(dāng)話音信號(hào)不發(fā)生變化或者變化很緩慢時(shí),預(yù)測誤差信號(hào)將等于零或具有很小的絕對(duì)值,在這種情況下,編碼為0和1交替出現(xiàn)的序列。這樣,在解碼器中所得到的是等幅脈沖序列,這樣形成的噪聲稱為散粒噪聲。問題2:散粒噪聲
1111111000011000100100U(模擬輸入)輸出碼圖2.8增量調(diào)制編碼過程示意圖
為了減少散粒噪聲,希望使輸出編碼1位所表示的量化階距小一些。但是,減少量化階距會(huì)使在固定采樣速度下產(chǎn)生更嚴(yán)重的斜率過載。為了解決這些矛盾,促使人們研究出了自適應(yīng)增量調(diào)制(ADM)方法。分析2.3.2編碼方法自適應(yīng)增量調(diào)制(ADM)
在ADM中,常用的規(guī)則有兩種:一種是控制可變因子M,使量化階距在一定范圍內(nèi)變化。對(duì)于每一個(gè)新的采樣,其量化階距為其前面數(shù)值的M倍。而M的值則由輸入信號(hào)的變化率來決定。如果出現(xiàn)連續(xù)相同的編碼,則說明有發(fā)生過載的危險(xiǎn),這時(shí)就要加大M。當(dāng)0、1信號(hào)交替出現(xiàn)時(shí),說明信號(hào)變化很慢,會(huì)產(chǎn)生散粒噪聲,這時(shí)就要減少M(fèi)值。2.3.2編碼方法其典型的規(guī)則為:
另一類使用較多的自適應(yīng)增量調(diào)制稱為可變斜率增量調(diào)制。其工作原理如下:如果調(diào)制器連續(xù)輸出三個(gè)相同的碼,則量化階距加上一個(gè)大的增量,也就是說,三個(gè)連續(xù)相同的碼表示有過載發(fā)生。反之,則量化階距增加一個(gè)小的增量。
2.3.2編碼方法
可變斜率增量的自適應(yīng)規(guī)則為:
式中,可在0~1之間取值??梢钥吹?,的大小可以通過調(diào)節(jié)增量調(diào)制來適應(yīng)輸入信號(hào)變化所需時(shí)間的長短。P和Q為增量,而且P要大于等于Q。2.3.2編碼方法脈沖編碼調(diào)制PCM
PCM編碼是對(duì)連續(xù)語音信號(hào)進(jìn)行空間采樣、幅度量化及用適當(dāng)碼字將其編碼的總稱。PCM是一種最通用的無損壓縮編碼,其特點(diǎn)是保真度高,解碼速度快,但編碼后的數(shù)據(jù)量大。CD-DA就是采用的這種編碼方式。PCM方法可以按量化方式的不同,分為均勻量化PCM、非均勻量化PCM和自適應(yīng)量化PCM等幾種。
2.3.2編碼方法差分脈沖編碼調(diào)制DPCM
差分脈沖編碼調(diào)制的中心思想是對(duì)信號(hào)的差值而不是對(duì)信號(hào)本身進(jìn)行編碼。這個(gè)差值是指信號(hào)值與預(yù)測值的差值。預(yù)測值可以由過去的采樣值進(jìn)行預(yù)測,其計(jì)算公式如下所示:2.3.2編碼方法
式中為預(yù)測系數(shù)。因此,利用若干個(gè)前面的采樣值可以預(yù)測當(dāng)前值。當(dāng)前值與預(yù)測值的差為:
差分脈沖編碼調(diào)制就是將上述每個(gè)樣點(diǎn)的差值量化編碼,而后用于存儲(chǔ)或傳遞。2.3.2編碼方法自適應(yīng)差分脈沖編碼調(diào)制ADPCM
將自適應(yīng)量化器和自適應(yīng)預(yù)測器結(jié)合在一起用于DPCM之中,從而實(shí)現(xiàn)了自適應(yīng)差分脈沖編碼。ADPCM是一種有損壓縮編碼,記錄的量化值不是每個(gè)采樣點(diǎn)的幅值,而是該點(diǎn)的幅值與前一個(gè)采樣點(diǎn)幅值之差。2.3.2編碼方法其簡化框圖如下圖所示:圖2.10ADPCM框圖預(yù)測PCM樣本++PCM樣本+差分量化器ADPC“差值”量化階調(diào)整逆量化器預(yù)測器-ADPC“差值”2.3.2編碼方法子帶編碼首先用一組帶通濾波器,將輸入的音頻信號(hào)分成若干個(gè)連續(xù)的頻段,并將這些頻段稱為子帶。然后,再分別對(duì)這些子帶中的音頻分量進(jìn)行采樣和編碼。最后,再將各子帶的編碼信號(hào)組織到一起進(jìn)行存儲(chǔ)或送到信道上傳送。在信道的接收端得到各子帶編碼的混合信號(hào),將各子帶的編碼取出來,對(duì)它們分別進(jìn)行解碼,產(chǎn)生各子帶的音頻分量,再將各子帶的音頻分量組合在一起,恢復(fù)原始的音頻信號(hào)。
2.3.2編碼方法
子帶編碼的原理框如下圖:
2.3.2編碼方法變換域編碼
在子帶編碼中,劃分子帶的方法是通過帶通濾波器來完成的。另一種方法是通過變換域編碼方法,將輸入信號(hào)直接轉(zhuǎn)換到頻域,然后在頻域劃分各頻段,根據(jù)不同的頻段能量大小分配碼字然后編碼,接收端解碼后再用相應(yīng)的反變換轉(zhuǎn)換成時(shí)域信號(hào)。2.3.3音頻數(shù)據(jù)的標(biāo)準(zhǔn)
從數(shù)據(jù)通信的角度,音頻編碼標(biāo)準(zhǔn)主要有三種:在電話傳輸系統(tǒng)中應(yīng)用的電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn),如PCM(ITUG.711)等。在窄帶綜合服務(wù)數(shù)據(jù)網(wǎng)傳送中應(yīng)用的調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn),如G.722等。在電視傳輸系統(tǒng)、視頻點(diǎn)播系統(tǒng)中應(yīng)用的音頻編碼標(biāo)準(zhǔn),如MPEG音頻標(biāo)準(zhǔn)等。
2.3.3音頻數(shù)據(jù)的標(biāo)準(zhǔn)電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)(1)G.711G.711標(biāo)準(zhǔn)是1972年CCITT(現(xiàn)稱為ITU-T)制定的PCM語音標(biāo)準(zhǔn),采樣頻率為8kHz,每個(gè)樣本值用8位二進(jìn)制編碼,因此輸出的數(shù)據(jù)率64kb/s。采用非線性量化μ律或A律,將樣本精度為13位的PCM按A律壓擴(kuò)編碼,14位的PCM按μ律壓擴(kuò)編碼轉(zhuǎn)換為8位編碼,其質(zhì)量相當(dāng)于12bit線性量化的音質(zhì)。2.3.3音頻數(shù)據(jù)的標(biāo)準(zhǔn)(2)G.721
G.721標(biāo)準(zhǔn)是1984年ITU-T制定的,主要目的是用于64kbit/s的A律和μ律PCM與32kbit/s的ADPCM之間的轉(zhuǎn)換。它基于ADPCM技術(shù),采樣頻率為8kHz,每個(gè)樣本與預(yù)測值的差值用4位編碼,其編碼速率為32kbit/s。對(duì)中等電話質(zhì)量要求的信號(hào)能進(jìn)行高效編碼,可在調(diào)幅廣播和交互式激光唱盤音頻信號(hào)壓縮中應(yīng)用。
2.3.3音頻數(shù)據(jù)的標(biāo)準(zhǔn)(3)G.728屬參數(shù)編碼分析音頻波形并提取其中的聽覺特征。將這些特征量化,并傳送出去。在接收端用這些特征值和聲音合成器再生出聲音,其質(zhì)量可以接近原始信號(hào)。用這種方法再生的聲音使人感到是合成的,不過可以獲得很高的壓縮比。G.728標(biāo)準(zhǔn)是一個(gè)追求低比特率的標(biāo)準(zhǔn),其速率為16kbit/s,其質(zhì)量與32kbit/s的G.721標(biāo)準(zhǔn)基本相當(dāng)。它使用了LD-CELP(低延時(shí)碼本激勵(lì)線性預(yù)測)算法。G.729(Jan,2017)G.729是這一系列目前的最新標(biāo)準(zhǔn),因?yàn)槠涞痛a率特性,通常用于VoIP(voiceoverInternetProtocol),大致有6.4k,8k,11.8k三種碼率適應(yīng)不同的網(wǎng)速。它主要采用了激勵(lì)線性預(yù)測code-excitedlinearpredictionspeechcoding(CS-ACELP)算法,較為魯棒。2.3.3音頻數(shù)據(jù)的標(biāo)準(zhǔn)調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn):調(diào)幅廣播質(zhì)量音頻信號(hào)的頻率在50Hz~7kHz范圍。CCITT在1988年制定了G.722標(biāo)準(zhǔn)。G.722標(biāo)準(zhǔn)是采用16kHz采樣,14bit量化,信號(hào)數(shù)據(jù)速率為224kbit/s,采用子帶編碼方法,將輸入音頻信號(hào)經(jīng)濾波器分成高子帶和低子帶兩個(gè)部分,分別進(jìn)行ADPCM編碼,再混合形成輸出碼流,224kbit/s可以被壓縮成64kbit/s,最后進(jìn)行數(shù)據(jù)插入(最高插入速率達(dá)16kbit/s)。2.3.3音頻數(shù)據(jù)的標(biāo)準(zhǔn)
高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn):
高保真立體聲音頻信號(hào)頻率范圍是50Hz~20kHz,采用44.1kHz采樣頻率,16bit量化進(jìn)行數(shù)字化轉(zhuǎn)換,其數(shù)據(jù)速率每聲道705kbit/s。ISO/IEC標(biāo)準(zhǔn)組織:MPEG-1、MPEG-2,MPEG-4、MPEG-7和MPEG-21等2.4音樂合成和MIDI2.4.1概述2.4.2計(jì)算機(jī)上合成音樂的產(chǎn)生過程2.4.3MIDI音樂合成器
2.4.1概述數(shù)字音頻實(shí)際上是一種數(shù)字式錄音/重放的過程,它需要很大的數(shù)據(jù)量。法1:錄音/重放 最簡單的語音生成/輸出方法是用適當(dāng)?shù)乃俣炔シ蓬A(yù)先錄制好的語音。法2:文-語轉(zhuǎn)換基于語音合成技術(shù)的文字-語音轉(zhuǎn)換音樂合成在多媒體系統(tǒng)中,除了用數(shù)字音頻的方式之外,還可以用采樣合成的方式產(chǎn)生音樂。音樂合成的方式是根據(jù)一定的協(xié)議標(biāo)準(zhǔn),采用音樂符號(hào)記錄方法來記錄和解釋樂譜,并合成相應(yīng)的音樂信號(hào),這也就是MIDI(MusicalInstrumentDigitalInterface)方式。2.4.1概述
MIDI是樂器數(shù)字接口的縮寫,泛指數(shù)字音樂的國際標(biāo)準(zhǔn),它是音樂與計(jì)算機(jī)結(jié)合的產(chǎn)物。MIDI不是把音樂的波形進(jìn)行數(shù)字化采樣和編碼,而是將數(shù)字式電子樂器彈奏過程記錄下來,如按了哪一個(gè)鍵、力度多大、時(shí)間多長等。當(dāng)需要播放這首樂曲時(shí),根據(jù)記錄的樂譜指令,通過音樂合成器生成音樂聲波,經(jīng)放大后由揚(yáng)聲器播出。2.4.1概述
音樂合成器生成音樂采用MIDI文件存儲(chǔ)。MIDI文件是用來記錄音樂的一種文件格式,文件后綴是“.mid”或者“.midi”。這種文件格式非常特殊,其中記錄的不是音頻數(shù)據(jù),而是演奏音樂的指令,不同的指令與不同的樂器對(duì)應(yīng),就像樂隊(duì)演奏交響曲一樣,每一種樂器發(fā)出不同的聲音,合在一起組成了聽眾聽到的音樂。2.4.1概述
一個(gè)MIDI文件包括一個(gè)頭塊和若干個(gè)軌跡塊。每個(gè)軌跡塊中可以包含若干個(gè)指令,每個(gè)指令的基本格式是一樣的,在基本格式的基礎(chǔ)上各個(gè)指令有所差別,指令可以用來記錄一個(gè)聲音、一個(gè)系統(tǒng)命令等內(nèi)容。2.4.2計(jì)算機(jī)上合成音樂的產(chǎn)生過程MIDI音樂的產(chǎn)生過程如圖:圖2.12MIDI音樂的產(chǎn)生過程示意圖MIDI指令MIDI樂器MIDI接口合成器揚(yáng)聲器音序器MIDI文件音頻卡PC機(jī)2.4音樂合成和MIDI
把MIDI指令送到合成器,由合成器產(chǎn)生相應(yīng)的聲音。MIDI標(biāo)準(zhǔn)提供了16個(gè)通道。按照所用通道數(shù)的不同,合成器又可分成基本型和擴(kuò)展型兩種,如下表所示。合成器類型旋律樂器通道打擊樂器通道基本合成器13~1516擴(kuò)展合成器1~9102.4音樂合成和MIDI
MIDI合成的產(chǎn)生方式有兩種:FM合成和波形表合成。FM是使高頻振蕩波的頻率按調(diào)制信號(hào)規(guī)律變化的一種調(diào)制方式。FM頻率調(diào)制合成是通過硬件產(chǎn)生正弦信號(hào),再經(jīng)處理合成音樂。合成的方式是將波形組合在一起。
2.4音樂合成和MIDI
目前較高級(jí)的音頻卡一般都采用波形表合成方式。波形表的原理是在ROM中已存儲(chǔ)各種實(shí)際樂器的聲音采樣,當(dāng)需要合成某種樂器的聲音時(shí),調(diào)用相應(yīng)的實(shí)際聲音采樣合成該樂器的樂音。顯然,ROM存儲(chǔ)器的容量越大,合成的效果越好,但價(jià)格也越貴。2.5語音識(shí)別2.5.1文本-語音TTS技術(shù)2.5.2語音識(shí)別系統(tǒng)實(shí)例—深度學(xué)習(xí)2.5.1文本-語音TTS技術(shù)TTS的基本概念文語轉(zhuǎn)換(Text-to-Speech)是將文本形式的信息轉(zhuǎn)換成自然語音的一種技術(shù),其最終目標(biāo)是力圖使計(jì)算機(jī)能夠以清晰自然的聲音,以各種各樣的語言,甚至以各種各樣的情緒來朗讀任意的文本。也就是說,要使計(jì)算機(jī)具有像人一樣、甚至比人更強(qiáng)的說話能力。因而它是一個(gè)十分復(fù)雜的問題,涉及到語言學(xué)、韻律學(xué)、語音學(xué)、自然語言處理、信號(hào)處理、人工智能等諸多的學(xué)科。2.5.1文本-語音TTS技術(shù)TTS分為綜合的和連貫的兩種類型。綜合的語音就是通過分析單詞,由計(jì)算機(jī)確認(rèn)單詞的發(fā)音,然后這些音素就被輸入到一個(gè)復(fù)雜的模仿人聲音并發(fā)聲的算法,這樣就可以讀文本了。通過這種方式,TTS就能讀出任何單詞,甚至自造的詞,但是它發(fā)出的聲音不帶任何感情,帶有明顯的機(jī)器語音味道。2.5.1文本-語音TTS技術(shù)
連貫語音系統(tǒng)分析文本從預(yù)先備好的文庫里抽出單詞和詞組的錄音。數(shù)字化錄音是連貫的,因?yàn)槁曇羰鞘孪蠕浿频恼Z音,聽起來很舒服。遺憾的是,如果文本包含沒有錄的詞和短語,TTS就讀不出來了。連貫TTS可以被看成是一種聲音壓縮形式,因?yàn)閱卧~和常用的短語只能錄一次。連貫TTS會(huì)節(jié)省開發(fā)時(shí)間并減少錯(cuò)誤,使軟件增加相應(yīng)的功能。2.5.1文本-語音TTS技術(shù)TTS系統(tǒng)的主要指標(biāo):
自然度(naturalness)自然度是衡量一個(gè)TTS系統(tǒng)好壞的最重要的指標(biāo)。其描述了理解內(nèi)容之外的信息,如整體容易程度,流暢度,全局的風(fēng)格一致性,地域或者語言層面的微妙差異等。
可理解性(intelligibility)。可理解性指合成語音的清晰度,即聽者對(duì)于原信息的提取和理解程度。2.5.1文本-語音TTS技術(shù)典型的TTS系統(tǒng)(如百度的DeepVoice)包含5個(gè)模塊:
字母到音素(grapheme-to-phoneme)的轉(zhuǎn)換模型; 定位音素邊界的分割模型; 音素時(shí)長預(yù)測模型; 基礎(chǔ)頻率預(yù)測模型; 音頻合成模型。智能計(jì)算機(jī)界面包括兩個(gè)相對(duì)獨(dú)立的部分:“傾聽”部分,即語音識(shí)別;“訴說”部分,即文語轉(zhuǎn)換。隨著這兩方面技術(shù)的不斷發(fā)展,將會(huì)從根本上改善人-機(jī)接口,從而使計(jì)算機(jī)以嶄新的面貌進(jìn)入人類生活,發(fā)揮出更大的作用。End-to-EndProsodyTransferintonation(聲調(diào)),stress(重音),andrhythm(節(jié)奏)TowardsEnd-to-EndProsodyTransferforExpressiveSpeechSynthesiswithTacotron(2018,GoogleBrain)StyleTokensGlobalStyleTokens(GSTs):latent"factors"ofspeechStyleTokens:UnsupervisedStyleModeling,ControlandTransferinEnd-to-EndSpeechSynthesis(2018,GoogleBrain)2.5.2語音識(shí)別系統(tǒng)實(shí)例-深度學(xué)習(xí)
語音識(shí)別是把輸入的語音信號(hào)經(jīng)過數(shù)字信號(hào)處理后得到一組特征參數(shù),然后將這組特征參數(shù)與預(yù)存的模板進(jìn)行比較,從而確定說話者所說內(nèi)容的一門新的聲音識(shí)別技術(shù)。2.5.2語音識(shí)別系統(tǒng)實(shí)例-IBMViaVoice
語音識(shí)別系統(tǒng)可根據(jù)不同的分類方式及依據(jù),分為以下三類:根據(jù)對(duì)說話人說話方式的要求,可以分為孤立字(詞)語音識(shí)別系統(tǒng),連接字語音識(shí)別系統(tǒng)以及連續(xù)語音識(shí)別系統(tǒng)。根據(jù)對(duì)說話人的依賴程度可以分為特定人和非特定人語音識(shí)別系統(tǒng)。2.5.2語音識(shí)別系統(tǒng)實(shí)例-IBMViaVoice根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)。語音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外,還涉及到語音識(shí)別單元的選取。2.5.2語音識(shí)別系統(tǒng)實(shí)例語音識(shí)別已經(jīng)存在數(shù)十年了,但是直到2016年后才有成熟和易用的產(chǎn)品,比如亞馬遜公司的Alexa,微軟開發(fā)的Cortana和蘋果公司的Siri等語音助理產(chǎn)品,原因是深度學(xué)習(xí)的發(fā)展讓語音識(shí)別足夠準(zhǔn)確,能夠讓語音識(shí)別在普適環(huán)境中得到使用。科大訊飛2.5.2語音識(shí)別系統(tǒng)實(shí)例在將音頻進(jìn)行傳統(tǒng)的采樣量化進(jìn)行數(shù)字化后,作為音頻數(shù)據(jù)的預(yù)處理,這里以20毫秒時(shí)間段將取得的幅值數(shù)據(jù)進(jìn)行分組,每組含有320個(gè)樣本(16000Hz)。使用傅里葉變換來分離各個(gè)頻帶,然后通過將每個(gè)頻帶(從低到高,50Hz為一個(gè)頻帶)中的能量相加,為該音頻片段創(chuàng)建了一個(gè)特征圖(圖2.14)。將所有音頻片特征圖拼起來,就得到了圖2.15的人類語音的完整頻譜圖,神經(jīng)網(wǎng)絡(luò)可以更加容易地從頻譜圖重找到規(guī)律。比如低音部分能量較高就可能反應(yīng)了這是來自一男性講者的聲音。在循環(huán)神經(jīng)網(wǎng)絡(luò)中預(yù)測音頻切片完成從音頻片段到詞語的轉(zhuǎn)錄Translatotron直接語音翻譯系統(tǒng)2.6實(shí)例VC++播放聲音的實(shí)現(xiàn)
實(shí)現(xiàn)音頻分析的基礎(chǔ)是對(duì)音頻文件的解析。盡管音頻文件的存儲(chǔ)格式很多,但基本原理是一致的,因此,本節(jié)以wav文件為例,介紹VC++環(huán)境中如何實(shí)現(xiàn)聲音文件的播放。在VC++中可以根據(jù)不同的應(yīng)用要求,用不同的方法實(shí)現(xiàn)聲音的播放。第一種方法可以直接調(diào)用聲音播放函數(shù)。第二種方法可以把聲音作為資源加入可執(zhí)行文件中。第三種方法是對(duì)聲音播放的高級(jí)處理,這種方法在播放之前可以對(duì)聲音數(shù)據(jù)進(jìn)行處理。2.6實(shí)例VC++播放聲音的實(shí)現(xiàn)直接調(diào)用聲音播放函數(shù)如果只需要簡單的播放聲音文件,在VC++中的多媒體動(dòng)態(tài)鏈接庫中提供了一組與音頻設(shè)備有關(guān)的函數(shù)。利用這些函數(shù)可以方便地播放聲音。最簡單的播放聲音方法就是直接調(diào)用VC++中提供的聲音播放函數(shù):
BOOLsndPlaySound(LPCSTRlpszSound,UINTfuSound)
2.6實(shí)例VC++播放聲音的實(shí)現(xiàn)
或BOOLPlaySound(LPCSTRlpszSound,HMODULEhmod,DWORDfuSound)
其中參數(shù)lpszSound是需要播放聲音的.WAV文件的路徑和文件名,hmod在這里為NULL,fuSound是播放聲音的標(biāo)志。例如播放C:\sound\music.wav可以用:
sndPlaySound(“c:\\sound\\music.wav”,SND_ASYNC)或PlaySound("c:\\sound\\music.wav",NULL,SND_ASYNC|SND_NODEFAULT);如果沒有找到music.wav文件,第一種格式將播放系統(tǒng)默認(rèn)的聲音,第二種格式不會(huì)播放系統(tǒng)默認(rèn)的聲音。2.6實(shí)例VC++播放聲音的實(shí)現(xiàn)
第二種播放方法是把資源讀入內(nèi)存后作為內(nèi)存數(shù)據(jù)播放。具體步驟如下:
(1)獲得包含資源的模塊句柄:
HMODULEhmod=AfxGetResourceHandle();
(2)檢索資源塊信息:
HRSRChSndResource=FindResource(hmod,MAKEINTRESOURCE(IDR_WAVE1),_T("WAVE"));
(3)裝載資源數(shù)據(jù)并加鎖:
HGLOBALhGlobalMem=LoadResource(hmod,hSndResource);LPCTSTRlpMemSound=(LPCSTR)LockResource(hGlobalMem);2.6實(shí)例VC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)二年級(jí)體育教學(xué)工作總結(jié)
- 2025數(shù)字化技術(shù)基礎(chǔ)繼續(xù)教育公需課試題及答案
- 三病母嬰傳播培訓(xùn)試題(附答案)
- 2025年基本公共衛(wèi)生服務(wù)居民健康檔案管理培訓(xùn)班試題(附答案)
- 建筑工程中級(jí)職稱評(píng)定個(gè)人工作總結(jié)
- 銀行客戶經(jīng)理2026年度工作總結(jié)
- 2025年企業(yè)社會(huì)責(zé)任培訓(xùn)考核要點(diǎn)試卷及答案
- 傳染病防控工作實(shí)施方案
- 醫(yī)務(wù)科2025年工作計(jì)劃
- 建設(shè)工程施工合同糾紛要素式起訴狀模板要素精準(zhǔn)無偏差
- 臨床成人失禁相關(guān)性皮炎的預(yù)防與護(hù)理團(tuán)體標(biāo)準(zhǔn)解讀
- 創(chuàng)新創(chuàng)業(yè)教育學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 《最奇妙的蛋》完整版
- 三年級(jí)科學(xué)上冊(cè)蘇教版教學(xué)工作總結(jié)共3篇(蘇教版三年級(jí)科學(xué)上冊(cè)知識(shí)點(diǎn)整理)
- 種子室內(nèi)檢驗(yàn)技術(shù)-種子純度鑒定(種子質(zhì)量檢測技術(shù)課件)
- SEMI S1-1107原版完整文檔
- 心電監(jiān)測技術(shù)操作考核評(píng)分標(biāo)準(zhǔn)
- 2023年中級(jí)財(cái)務(wù)會(huì)計(jì)各章作業(yè)練習(xí)題
- 金屬罐三片罐成型方法與罐型
- 大疆植保無人機(jī)考試試題及答案
- 《LED顯示屏基礎(chǔ)知識(shí)培訓(xùn)》
評(píng)論
0/150
提交評(píng)論