版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多媒體技術及應用第1頁本章內容數字音頻基礎音頻卡工作原理音頻編碼音頻信息處理(核心章節(jié))視覺媒體信息的處理(核心章節(jié))
第2頁2.1數字音頻基礎數字音頻的采樣與量化音頻數字化:模擬音頻信號有限個數字表示的離散序列音頻的采樣:按一定的時間間隔(T)取值,得到x(nT).T稱為采樣周期,1/T稱為采樣頻率。稱x(nT)為離散信號。
常用的采樣頻率:8kHz,11.025kHz,22.050kHz,44.1kHz,8kHz,16kHz,48kHz.第3頁數字音頻的采樣與量化音頻的量化:先將整個幅度劃分為有限個小幅度(量化階距)的集合,把落入某個階距內的樣本值歸為一類,并賦予相同的量化值。如果量化值是均勻分布的,稱為均勻量化。
設Δ為量化階距,Xmax為量化器最大范圍,則:對于樣值s,如果,則其量化值均為。2.1數字音頻基礎第4頁2.1數字音頻基礎音頻信息的采集(錄制)用MicrosoftWindows——錄音機進行錄音,形成.wav格式文件。第5頁2.1數字音頻基礎音頻信息的采集(錄制)用CoolEditPro的錄音功能進行錄音第6頁2.1數字音頻基礎音頻信息的采集(錄制)用Matlab語言實現錄音,存儲,播放(DEMO)%用單聲道錄音,存儲,播放Fs=11025;y=wavrecord(5*Fs,Fs,'double');wavplay(y,Fs);wavwrite(y,Fs,'testlininrecord.wav')%用雙聲道錄音,存儲,播放Fs=11025;y=wavrecord(5*Fs,Fs,2,'double');wavplay(y,Fs);wavwrite(y,Fs,'testlininrecord2.wav')探究式學習audiorecorder();audioplayer;pause();resume();play();stop();第7頁2.1數字音頻基礎音頻信息的顯示與理解聲音是由于空氣振動產生的,其表現形式就是聲波。聲波的振幅決定音量的大小聲波的頻率決定音調第8頁wav文件格式wav文件:Microsoft公司的音頻文件格式。記錄聲音波形。利用該格式記錄的聲音文件能夠和原聲基本一致,質量非常高,但這樣做的代價就是文件太大。wav文件所需存儲空間(byte/sec)采樣頻率(Hz)×量化位數(bit)×聲道數/82.1數字音頻基礎常用音頻文件格式第9頁2.1數字音頻基礎mp3數字音頻的文件格式
MPEG-1,Layer-3,擴展名MP3:現在最流行的聲音文件格式,因其壓縮率大,在網絡可視電話通信方面應用廣泛,但和CD唱片相比,音質不能令人非常滿意。RealAudio數字音頻的文件格式RealAudio,擴展名rm:壓縮比大,失真小。與MP3相同,它也是為了解決網絡傳輸帶寬資源而設計的,因此主要目標是壓縮比和容錯性,其次才是音質。常用音頻文件格式第10頁2.1數字音頻基礎音頻信號的分類語音信號,有復雜的語義和語法信息(<4kHz)非語音信號,分為樂音和雜音(頻帶比較寬20Hz~20kHz)音頻信號處理的特點:時序性要求高,若有25ms延遲,人就會感到斷續(xù)。由于人接受聲音有兩個通道,理想的合成聲音應是立體聲。第11頁2.2音頻卡工作原理音頻卡的功能和分類音頻錄制和播放編輯和合成MIDI和音樂合成文語轉換和語音識別游戲桿接口音頻卡第12頁2.2音頻卡工作原理音頻錄制和播放使用音頻卡錄制和播放聲音的過程常用音頻錄放采用:
數字化音頻采樣頻率范圍:8k~44.1kHz,8000,11025,22050,44100
量化器:8位/16位/24位通道數:立體聲/單聲道基本編碼方法:PCM(脈沖編碼調制)
壓縮編碼方法:ADPCM,CCITT(國際電話電報咨詢委員會)A律,
CCITT律錄音聲源:麥克風、立體聲線路輸入、CD
輸出功放:直接驅動揚聲器,且輸出音量可調
第13頁2.2音頻卡工作原理文語轉換和語音識別文語轉換(texttospeech)語音識別軟件(IBM—Viavoice,MicrosoftSoundSystem—VoicePilot,SoundBlaster—VoiceAssist)游戲棒接口可接一至兩個游戲棒。MIDI(MusicalInstrumentDigitalInterface)接口與音樂合成聲音的編輯與合成第14頁2.2音頻卡工作原理音頻卡的工作原理聲音的合成與處理混合信號處理器及功放計算機總線接口及控制器第15頁2.2音頻卡工作原理音頻卡的工作原理聲音的合成與處理(核心),完成聲波信號的A/D,D/A轉換,利用調頻技術控制聲音的音調、音色和幅度數字聲音處理器FM音樂合成器MIDI控制器混合信號處理器及功放,內置D/A混音器,聲源可以是MIDI信號,線入,CD音頻,MIC,揚聲器等??蛇x擇一或多聲源混合錄音。計算機接口與控制器,總線接口與控制器由數據總線雙向控制器、總線接口控制邏輯、總線中斷邏輯及DMA控制邏輯構成。第16頁2.2音頻卡工作原理音頻卡的接口第17頁時域信息的冗余度語音幅度的非均勻分布(小幅度樣本出現概率高)樣本間的相關性(鄰近樣本之間樣本存在相關性)例:采樣頻率為8kHz時,相鄰取樣值之間相關系數大于0.852.3音頻編碼音頻編碼基礎FFT變換結果小幅度樣本出現概率高DEMOFreq_main.m第18頁時域信息的冗余度靜止系數(話音間隔是一種冗余)周期之間的相關性(某一聲音在特定瞬間內,往往只是該頻帶內的少數頻率成分起作用,且周期之間,存在相關性)2.3音頻編碼音頻編碼基礎第19頁2.3音頻編碼音頻編碼基礎時域信息的冗余度基音之間的相關性(男聲基音周期5~20ms,女聲基音周期2.5~10ms)?濁音:由聲帶振動產生,激勵聲道的各股氣流之間的間隔稱為音調間隔或基音周期。濁音具有周期性(2~20ms)
?清音:分為摩擦音和爆破音兩種。比濁音更具隨機性。濁音段波形清音段波形8ms第20頁2.3音頻編碼音頻編碼基礎人的聽覺感知機理人的聽覺具有掩蔽效應,可分為:
?同時掩蔽:強聲弱聲同時存在,強聲使弱聲難以聽見的現象
?異時掩蔽:聲音在不同時間先后發(fā)生,強聲使其周圍的弱聲難以聽見的現象。人耳對于不同頻段的聲音的敏感程度不同人耳對低頻端較之高頻端敏感人耳對語音信號的相位變化不敏感對于人耳聽不到或感知極不靈敏的聲音分量可以視為冗余第21頁2.3音頻編碼音頻編碼標準由國際電報電話咨詢委員會(CCITT)和國際標準化組織(ISO)提出音頻編碼建議G.711(1972)G.721(1984,1986修訂)G.722G.728(1992)MPEG(MovingPictureExpertGroup)DOLBYAC-3第22頁2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調制PCM(pulsecodemodulation)概念最簡單,理論上最完善,應用最廣泛的編碼系統(tǒng)數據量最大PCM編碼原理?防失真濾波器濾除聲音頻帶以外的信號(20Hz~20kHz);?波形編碼器可理解為“采樣器”?量化器可理解為“量化間隔”生成器或“量化階大小”生成器
第23頁2.3音頻編碼量化的基本方法分為:均勻量化和非均勻量化均勻量化是指采用相等的量化間隔對采樣得到的信號作量化的方法,也稱為線性量化。非均勻量化是指采用不等的量化間隔對采樣得到的信號作量化的方法,也稱為非線性量化。
幾種重要的音頻編碼——PCM第24頁量化箱等寬,量化誤差大2.3音頻編碼幾種重要的音頻編碼——PCM?均勻量化第25頁?非均勻量化(非線性量化)
量化箱不等寬,可以在滿足精度要求的條件下,得到較高的壓縮率!2.3音頻編碼幾種重要的音頻編碼——PCM第26頁?量化特征曲線2.3音頻編碼幾種重要的音頻編碼——PCM非均勻量化特征曲線示意圖均勻量化特征曲線示意圖X(輸入)y(輸出)000001010011000001010011非均勻量化間隔第27頁?對于均勻量化而言量化級數越多,量化誤差越小,而壓縮率也??;量化級數越少,量化誤差越大,而壓縮率越大。矛盾2.3音頻編碼幾種重要的音頻編碼——PCM?采用相同量化級數,均勻量化與非均勻量化比較而言均勻量化——量化誤差大,但易于硬件實現;非均勻量化——量化誤差小,但難于硬件實現。第28頁2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調制PCM(pulsecodemodulation)律(
-law)壓擴(非均勻量化,對數PCM)(G.711)主要用在北美和日本等地區(qū)的數字電話通信中,量化輸入和輸出之間的關系式中:x為輸入信號幅度,規(guī)格化成
為確定壓縮量的參數,它反映最大量化間隔和最小量化間隔之比,取第29頁2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調制PCM(pulsecodemodulation)
A律(A-law)壓擴(另一種非均勻量化方法)(G.711)主要用在歐洲和中國等地區(qū)的數字電話通信中,量化輸入和輸出之間的關系式中:x為輸入信號幅度,規(guī)格化成A律壓擴前一部分是線性的,其余部分與律壓擴相同。A=87.56第30頁2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調制PCM(pulsecodemodulation)對于采樣頻率為8kHz,樣本精度為13bit,14bit,16bit的輸入信號,使用律壓擴編碼,經過PCM編碼器之后,每個樣本的精度為8bit,輸出的數據率為64kb/s.
此數據即為CCITT推薦的G.711標準——
話音頻率脈沖編碼調制(PCMofVoiceFrequencies)第31頁2.3音頻編碼幾種重要的音頻編碼——PCMPCM在通信中的應用頻分多路復用(Frequency-divisionMultiplexing,FDM)
把傳輸信道的頻帶分成幾個窄帶,每個窄帶傳送一路信號。?間隔240Hz,保證信道之間不相互干擾;?每對用戶僅占用一個信道;?模擬載波通信的主要手段。第32頁2.3音頻編碼幾種重要的音頻編碼——PCMPCM在通信中的應用時分多路復用(Time-divisionMultiplexing,TDM)
把傳輸信道按時間分割,每個用戶指定一個時間間隔,每個間隔里傳輸信號的一部分。是數字通信的主要手段。舉例:若采樣頻率f=8000Hz,它的采樣周期=125,稱為1幀,一幀可容納的話路數有兩種規(guī)格:24路制和30路制。第33頁2.3音頻編碼幾種重要的音頻編碼——PCMPCM在通信中的應用24路制的重要參數每秒傳送8000幀,每幀125每幀24個信道和1個同步位每個信道每次傳送8bit代碼,一幀共有8×24+1=193bit數據傳輸率:R=8k×193=1544kb/s每一個電話(每個信道)的數據傳輸率:R=8k×8=64kb/s30路制的重要參數每秒傳送8000幀,每幀12516幀組成1個復幀(用于同步)每幀由32個時間片(信道)組成每個信道每次傳送8bit代碼數據傳輸率:R=8k×32×8=2048kb/s每一個電話(每個信道)的數據傳輸率:R=8k×8=64kb/s第34頁2.3音頻編碼幾種重要的音頻編碼——PCMTDM技術已在數字電話網中廣泛應用,反映PCM信號復用的復雜程度的指標是“群(group)”一次群(基群):30路(24路)(2048kb/s或1544kb/s)二次群:120路(96路)(8448kb/s或6312kb/s)三次群:480路(384路)(……)二次復用示意圖第35頁2.3音頻編碼幾種重要的音頻編碼——APCMAPCM(AdaptivePCM,自適應脈沖編碼調制)
根據輸入信號幅度大小來改變量化階大小的波形編碼技術。分為:前向自適應(ForwardAdaptation)和后向自適應(BackwardAdaptation)?前向自適應是根據未量化的樣本值的均方根值來估算輸入信號的電平,并以此確定量化階大小。并作為邊信息傳送到接收端。?后向自適應是從剛輸出的過去樣本中提取量化階信息。由于收發(fā)兩段可以自動生成量化階,不需傳送邊信息S(k)為發(fā)送端編碼器的輸入信號,Sr(K)為輸出端譯碼器的輸出信號。第36頁2.3音頻編碼幾種重要的音頻編碼——DPCMDPCM(DifferentialPCM,差分脈沖編碼調制)
利用樣本與樣本之間存在的信息冗余度來進行編碼的一種數據壓縮技術。根據過去的樣本去估算下一個樣本信號的幅度的大?。A測值),然后對實際信號值與預測值之差進行量化編碼。?
Se(k-1)是對S(k)的預測值,而不是過去樣本的實際值。對差值d(k)進行量化編碼,用來補償過去編碼中產生的量化誤差。?
DPCM是一個負反饋系統(tǒng),可以避免量化誤差的積累。?
發(fā)送端和接收端使用相同的逆量化器和預測器。重構信號可以從Sr(k)獲得。第37頁2.3音頻編碼幾種重要的音頻編碼——ADPCMADPCM(自適應差分脈沖編碼調制)
綜合了APCM的自適應特性和DPCM系統(tǒng)的差分特性。自適應改變量化階的大小,小的量化階編碼小的差值,大的量化階編碼大的差值。使用過去的樣本值估算下一個輸入的預測值,使實際樣本值與預測值之間差值最小。第38頁2.3音頻編碼幾種重要的音頻編碼——GSM編譯碼器GSM(GlobalSystemforMobileCommunications,全球數字移動通信系統(tǒng))1992年柏林技術大學根據GSM協(xié)議開發(fā)的。
GSM的輸入是幀(Frame)數據每幀20ms,由160個帶符號樣本組成采樣頻率8KHz每個樣本為13bit或16bit的線性PCM碼GSM編碼器把一幀(160×16bit)的數據壓縮成260bit的GSM幀,數據率為260×(1000/20)=13kb/s由于260位不是8位的整數倍,因此,編碼器輸出的GSM幀為264位的線性PCM碼。壓縮率的計算:未壓縮數據率為:8k×16位=128Kb/sGSM壓縮后264×(1000/20)=13.2kb/s壓縮比近似10:1}第39頁2.4音頻信息的處理過去:硬件實現,設備昂貴,功能不靈活?,F在:軟件實現,數字信號處理,功能靈活。倒播(demo:wav_back.m)音量放大縮小(demo:musiclower.m)增加回音(demo:wav_echo.m)濾波(demo:voicefilter.m)聲音合成(demo:musicmerge.m)淡入和淡出(demo:wav_fade_in.m,wav_fade_out.m)交換聲道(demo:wav_exchange.m)第40頁2.4音頻信息的處理倒播(demo:wav_back.m)原聲聲音試聽倒播聲音試聽第41頁2.4音頻信息的處理音量的放大/縮小?用Matlab語言實現音量的縮?。╩usiclower.m)figure(1)origin=wavread('linein.wav');plot(origin)wavplay(origin,22050);figure(2)lower=origin/4;plot(lower)wavplay(lower,22050);
wavwrite(lower,22050,'lineinlower.wav');?音量的大小是和聲音信號幅值的大小有關的,對于相同的聲音信號(頻率相同),幅值越大,音量越大,幅值越小,音量越低。試聽原始聲音信息音量縮小后結果試聽第42頁2.4音頻信息的處理音量縮小后聲音波形的比較原始聲音波形音量縮小后聲音波形第43頁2.4音頻信息的處理聲音的濾波處理?用Matlab語言實現簡單的聲音濾波(d:\chapter2\filter\voicefilter_mainf.m)?DEMO無噪聲有噪聲IIR帶通濾波器濾波后Note:ellip(…),8階橢圓低通數組濾波器,通帶(passband)允許起伏0.05db,阻帶(stopband)衰減最小值80dbIIR:無限沖激響應;FIR有限沖激響應第44頁2.4音頻信息的處理聲音的濾波處理?用Matlab語言實現簡單的聲音濾波(voicefilter_mainf.m)v=wavread('hello2');o=voicefilter(v);wavplay(v,22050);wavplay(o,22050);wavwrite(o,22050,'hello_filtered');subplot(3,1,2);plot(v);xlabel('Time');ylabel('Mag.');subplot(3,1,3);sf=filter(b,a,v);plot(sf);xlabel('Time');ylabel('Mag.');out=sf;?voicefilter.mfunctionout=voicefilter(v)Fs=22050;[b,a]=ellip(8,0.05,80,[1504000]*2/Fs);subplot(3,1,1);[H,w]=freqz(b,a,512);(數字濾波頻率響應函數)plot(w*Fs/(2*pi),abs(H));xlabel('Frequency(Hz)');ylabel('Mag.offrequencyresponse');第45頁2.4音頻信息的處理聲音的濾波處理濾波器頻帶特性原始聲音信號濾波后聲音信號第46頁2.4音頻信息的處理聲音的合成?用Matlab語言實現簡單的聲音合成(musicmerge.m)a=wavread('linein.wav');a=a/4;b=wavread('microphone.wav');a1=a(1:120000);b1=b(1:120000);c=a1+b1;wavplay(c,22050);wavwrite(c,22050,'merge.wav');?DEMO聲音1合成結果+聲音2第47頁2.4音頻信息的處理音頻卡的合成功能——混合信號處理器實驗課后實驗:LineinMP3+WAV第48頁2.4音頻信息的處理增加回音(demo:wav_echo.m)v=wavread('linein.wav');w1=[v;zeros(10000,1)];w2=[zeros(10000,1);v];w3=w1+w2/2;wavplay(w3,22050);第49頁2.4音頻信息的處理聲音的淡入(demo:wav_fade_in.m)v=wavread('linein.wav');len=length(v);w=v;fori=1:(len/2)%淡入過程
w(i)=v(i)*i/(len/2);%線性漸強end%到一半處達到原始音量subplot(2,1,1);plot(v);subplot(2,1,2);plot(w);wavplay(w,22050);wavwrite(w,22050,'linein_grad_in.wav');第50頁2.4音頻信息的處理聲音的淡出(demo:wav_fade_out.m)v=wavread('linein.wav');len=length(v);w=v;fori=1:(len/2)%淡出過程
w(len-i)=v(len-i)*i/(len/2);end%從一半處開始線性衰減subplot(2,1,1);plot(v);subplot(2,1,2);plot(w);wavplay(w,22050);wavwrite(w,22050,'linein_grad_out.wav');
第51頁2.4音頻信息的處理交換聲道(demo:wav_exchange.m)v=wavread('lq.wav');len=length(v);w=v;fori=1:len%交換聲道
w(i,1)=v(i,2);%又不破壞原聲w(i,2)=v(i,1);endsubplot(2,2,1);plot(v(:,1),'r');subplot(2,2,2);plot(v(:,2));subplot(2,2,3)plot(w(:,1));subplot(2,2,4)plot(w(:,2),'r');wavplay(v,2*22050);wavplay(w,2*22050);wavwrite(w,2*22050,'lq_tc.wav');第52頁2.4音頻信息的處理交換聲道(demo:wav_exchange.m)變換之前:左聲道:渴望著血脈相通無限個千萬弟兄….(周杰倫《龍拳》)右聲道:渴望著血脈相通無限個千萬弟兄….
第53頁人機交互手段的變革2.4音頻信息的處理語音識別語音顯示器交互計算機系統(tǒng)音響鍵盤、鼠標顯示器交互計算機系統(tǒng)第54頁人機交互計算機語言學(Computerphonetics)語音編碼(speechcoding)語音合成(speechsynthesis)語音識別(speechrecognition)語種識別(languageidentification)說話人識別(speakerrecognition)說話人確認(speakerverification)2.4音頻信息的處理語音識別第55頁語音識別的發(fā)展和分類發(fā)展1952年,美國Davis等,世界第一套,識別10個英文數字發(fā)音試驗系統(tǒng)50年代后期,我國第一套,識別漢語10個元音1960年,Denes等,第一個計算機語音識別系統(tǒng)70年代后期,小詞匯量、特定人、孤立詞識別研究取得成果,算法上主要有預測分析技術(LPC)、動態(tài)時間規(guī)劃(DTW)、矢量化技術(VQ)2.4音頻信息的處理語音識別第56頁語音識別的發(fā)展和分類(Cont.)發(fā)展80年代開始,沿三個方向開始研究:特定人->非特定人,孤立詞->連續(xù)詞、小詞匯量->大詞匯量算法:聚類、基于動態(tài)規(guī)則的匹配80年代中期,隱馬爾可夫模型(HMM)為基礎的各種系統(tǒng),美國CMU的Sphinx系統(tǒng)IBM的Tangora20和VoiceType3.0系統(tǒng)DRAGON公司的DragonDictate系統(tǒng)現在:關鍵時期,新模型、新方法及實用化系統(tǒng)研究2.4音頻信息的處理語音識別第57頁語音識別的發(fā)展和分類(Cont.)分類按識別詞匯量大小分小詞表語音識別(識別詞匯<100)中詞表語音識別(100<識別詞匯<1000)大詞表語音識別(識別詞匯>1000)按語音的輸入方式分孤立詞:以單音節(jié)或短語為條目,條目內音節(jié)連續(xù),條目間有明顯停頓,如:0~9數字,人名、地名、控制命令、英語單詞、漢語音節(jié)、短語連接詞:多條目,需拆分連續(xù)語音:自然語言2.4音頻信息的處理語音識別第58頁語音識別的發(fā)展和分類(Cont.)分類按發(fā)音人特定人:用特定人聲音訓練后使用限定人:多個特定人訓練非特定人:不需要訓練按實現技術分基于模板匹配的基于概率統(tǒng)計模型2.4音頻信息的處理語音識別第59頁音節(jié)性很強:每個字都是以單音節(jié)為單位,共有400多音節(jié),加上四聲共1340個,識別基元少音節(jié)構成,簡單規(guī)整:聲母+韻母、韻母有調語言:音節(jié)發(fā)音時間長,有穩(wěn)定的有調段音節(jié)偕同發(fā)音與音變少優(yōu)勢難點2.4音頻信息的處理語音識別漢語語音識別漢語特點(相對于英語)同音字多內涵語言,語義與上下文、語氣均關連,語法簡單、變化靈活憑據-評劇-萍聚意義-異議-意譯中國隊大勝(大?。┟绹牭?0頁漢語語音識別漢語語音識別系統(tǒng)工作原理數據采集波形自動切分預處理與特征參數提取聲學模型時間對準組句分析識別結果整句輸出聲學基元模型庫語言模型庫統(tǒng)計信息與規(guī)則分幀后的語言特征矢量集合聲學音節(jié)候選語句候選語音流切分參數提取模板識別2.4音頻信息的處理語音識別第61頁漢語語音識別(Cont.)漢語語音識別系統(tǒng)工作原理連續(xù)語音流預處理:模擬語音數字化信號處理,包括帶通濾波、變換等波形切分:找出語音信號中的各種識別基元(音素、音節(jié)、半音節(jié)、聲韻母、單詞、意群)的起點和終點位置,將連續(xù)語音處理變?yōu)閷Ω鱾€語言單元的處理特征參數提取:表達語音特征又能彼此區(qū)別的參數,是語音識別基礎如:線性預測參數、倒頻譜系數、………(Ref..\..\Chapter2\語音識別\倒頻譜系數.doc)參數模板庫識別判決2.4音頻信息的處理語音識別第62頁漢語語音識別(Cont.)語音識別系統(tǒng)的最終目的不限制說話人,即非特定人不限制詞匯量,即基于大詞匯表不限制發(fā)音方式,即識別連續(xù)自然發(fā)音高識別率,應達到人對自然語言的識別能力2.4音頻信息的處理語音識別第63頁漢語語音識別(Cont.)語音識別系統(tǒng)的困難使用者的差別大,排除差異、保留共性難(口音、年齡、性別、發(fā)音速度、發(fā)音強度、發(fā)音習慣)識別的詞匯量大,將導致系統(tǒng)的識別性能急劇下降而失去可用性,原因是:1)需要的時間和空間開銷多;2)詞與詞之間的差異細微;基元的識別有一定的局限性,而連續(xù)音識別又不能實現實用的系統(tǒng)要求高可靠性,因此參數的魯棒性、抗噪聲能力,環(huán)境適應性等要求高,太復雜2.4音頻信息的處理語音識別第64頁漢語語音識別(Cont.)語音識別技術的應用
作為人機交互的手段,語音識別是為了實現聽寫和命令控制辦公自動化:在多種場合方便文件起草和編輯電話商業(yè)服務:電話和計算機語音識別的結合,將為語音識別開辟一個很大的應用領域。2.4音頻信息的處理語音識別30/downloads/big/2005/01/02/0000033406.html4/pub/software/office/IBM的語音認證系統(tǒng)第65頁漢語語音識別(Cont.)演示(Vista;WindowsPhone7Tellme;iPhone4sSiri)2.4音頻信息的處理語音識別/v_show/id_XMjk1NTcxODA=.html/v_show/id_XMjE0MDcwODQw.html/v_show/id_XMzEzMTk0Mjcy.html第66頁2.4音頻信息的處理說話人識別與語音識別的區(qū)別說話人識別(SpeakerRecognition,SR):從相同的一段語言中,識別出是誰在講話。語音識別:關注說話的內容,把其轉換成對應的文字,主要用于語音信息錄入。而不關注是誰在講。第67頁2.4音頻信息的處理說話人識別技術說話人識別(SpeakerRecognition,SR):以語音對說話人進行區(qū)分,從而進行身份鑒別與認證的技術。SR基本問題:(1)如何選取能夠唯一表征人的有效而可靠的參量,如何對它進行處理(2)如何規(guī)定相似性的測度,使相似性的計算既簡單又可靠;(3)考慮到人的狀況在不斷變化,為使系統(tǒng)能夠可靠工作,如何使它的參考量不斷更新以適應使用者。第68頁2.4音頻信息的處理說話人識別技術說話人識別常用技術(1)模板匹配法(2)概率模型法(如:HMM)(3)矢量量化法(VQ)第69頁2.5視覺媒體信息的采集視頻信息的采集計算機常用圖像及其獲取手段一張用掃描儀掃描的圖像2400dpi(dotperinch)圖形靜態(tài)圖像動態(tài)圖像計算機軟件掃描儀視頻數字化設備數碼相機第70頁2.5視覺媒體信息的采集視頻信息的采集計算機常用圖像及其獲取手段第71頁2.5視覺媒體信息的采集視頻采集卡的分類和特點按輸入信號類型分為:數字視頻輸入卡模擬視頻輸入卡數字視頻卡USB接口:當前最流行,低接口成本,傳輸速度(USB2.0為480Mbps,USB1.1為12Mbps
)1394接口:低接口成本(100-300元),傳輸速度(30-40Mbps)CameraLink接口:接口成本(1萬元),傳輸速度(>600Mbps)視頻信息的采集——視頻采集卡1394第72頁視頻采集卡的分類和特點(Cont.)模擬視頻卡黑白/彩色Video(包括:P制、N制和多制)分量輸入(包括:YUV(亮度和色差),電視臺常用;RBG,醫(yī)學上常用)S-Video輸入:亮度和色度分離壓縮卡、非壓縮卡2.5視覺媒體信息的采集視頻信息的采集——視頻采集卡第73頁視頻采集卡的供應商及特點國外最大廠商:加拿大Matrox其次:比利時Euresys特點:價格高出國內或合資一個數量級,信噪比高,多用于非批量及專業(yè)圖像處理2.5視覺媒體信息的采集視頻信息的采集——視頻采集卡第74頁視頻采集卡的供應商及特點(Cont.)國內最大廠商:大恒圖像
特點:支持多操作系統(tǒng),各特殊需求或行業(yè)的技術支持強,適合中批量的產品開發(fā)合資企業(yè):德加拉、圖碼
特點:低價格,不重視個性服務(或者說技術來源于國外其他企業(yè),技術服務成本高),大量產品(硬盤錄像機)用臺灣:Liseview
特點:分工明確,研發(fā)、生產、銷售由不同的企業(yè)完成,OEM(OriginalEquipmentManufacturer)造成多品牌,單家企業(yè)生產,批量很大成本很低,適合家庭使用2.5視覺媒體信息的采集視頻信息的采集——視頻采集卡第75頁視頻采集卡的工作原理2.5視覺媒體信息的采集視頻信息的采集——視頻采集卡第76頁2.5視覺媒體信息的采集視頻采集卡的硬件安裝與VGA卡連接視頻信息的采集——視頻采集卡第77頁2.5視覺媒體信息的采集視頻采集卡的硬件安裝與VGA顯示器連接視頻信息的采集——視頻采集卡第78頁2.5視覺媒體信息的采集視頻采集卡的硬件安裝與視頻信號源的連接
視頻信息的采集——視頻采集卡視頻線(同軸電纜)第79頁2.5視覺媒體信息的處理圖像類型真彩色圖像(24bit)又稱RGB圖像,用R、G、B三個顏色分量表示一個像素的顏色,通過三基色可以合成出任意顏色。對一個尺寸為m×n的彩色圖像來說,在MATLAB中存儲為一個m×n×3的多維數組。圖像a中任意一點(x,y)處的像素值a(x,y,1:3);真彩色圖像可用“double”型存儲,亮度值的范圍[0,1],(0,0,0)代表黑色,(1,1,1)代表白色真彩色圖像也可用“uint”型存儲,亮度值范圍[0,255]第80頁2.5視覺媒體信息的處理圖像類型索引色圖像不同顏色對應不同序號,各像素存儲的是顏色的序號,而不是顏色本身。索引色圖像包含兩個結構:調色板和圖像數據矩陣。最多64K。調色板是一個m×3的色彩映射矩陣,矩陣的每一行代表一種色彩,通過三基色顏色強度的雙精度數,形成一種特定的顏色。用Matlab的hot(m)產生一個m×3的調色板。顏色從黑經過紅、橘紅、黃到白。第81頁2.5視覺媒體信息的處理圖像類型索引色圖像(Demo)Demo:每個豎線代表一個顏色索引但是具體顯示顏色由colormap決定imagesc(1:63);colormap(bone);colormap(pink);colormap(hot);Colormap有:Autumn,bone,colorcube,cool,copper,flag,gray,hotHsv,jet,lines,pink,prism,summer,white,winter第82頁2.5視覺媒體信息的處理圖像類型Demo:RGB—索引色m1=imread('cyx.JPG');imagesc(dither(m1,bone));imagesc(dither(m1,hot));imagesc(dither(m1,cool));imagesc(dither(m1,pink));imagesc(dither(m1,bone));colormap(bone);DITHERConvertimageusingdithering.X=DITHER(RGB,MAP)createsanindexedimageapproximationoftheRGBimageinthearrayRGBbyditheringthecolorsincolormapMAP.MAPcannothavemorethan65536colors.Demo:RGB—索引色RGB=imread('cyx.jpg');[X,map]=rgb2ind(RGB,16);imshow(X,map);IMAGESCScaledataanddisplayasimage.IMAGESC(...)isthesameasIMAGE(...)exceptthedataisscaledtousethefullcolormap.第83頁2.5視覺媒體信息的處理圖像類型灰度圖像灰度圖像只有強度信息,而沒有顏色信息。存儲灰度圖像只需要一個數據矩陣,每個元素表示對應位置的像素的灰度值。灰度圖像的數據類型可以是double型,也可以是uint型。二值圖像只有黑白兩種值的圖像。每個像素只取0或者1兩個數。第84頁2.5視覺媒體信息的處理彩色空間(review)RGBHSV(HSI):面向用戶的一種符合主觀感覺的色彩模型,比RGB更接近人們對顏色的感知。H(Hue)色度,表示顏色的種類;由0變到1,HSV顏色由紅變?yōu)辄S,綠、青(cyan)、洋紅(magenta)、然后變回紅色。S(Saturation)飽和度;由0變到1,顏色由不飽和變?yōu)轱柡?。V(Value)亮度;由0變到1,顏色越來越亮。第85頁2.5視覺媒體信息的處理彩色空間的理解DEMO:用PHOTOSHOP體會HSV和RGB彩色空間第86頁2.5視覺媒體信息的處理RGB圖像空間的理解DEMO:D:\Chapter2\imrender.m第87頁2.5視覺媒體信息的處理RGB圖像空間的理解如何繪制二次色圖呢?第88頁2.5視覺媒體信息的處理RGB圖像空間的理解RGB第89頁2.5視覺媒體信息的處理靜態(tài)圖像的文件格式圖形變換格式(graphicsinterchangeformat,GIF)由Compu-Serve公司于1987年為制定彩色圖像傳輸協(xié)議而開發(fā)的,它支持64000像素的圖像,256到16M色的調色板
支持一個文件包含多個子圖像(也稱子文件subfiles)圖像文件格式及其轉換GIF格式文件第90頁2.5視覺媒體信息的處理靜態(tài)圖像的文件格式圖形變換格式(graphicsinterchangeformat,GIF)
圖像文件格式及其轉換DEMO:用FLASH制作含多個子圖像的GIF格式文件制作步驟:(1)插入文本(2)右鍵,轉換為圖形元件(3)20幀處插入關鍵幀(4)用變形工具將文字變形(5)插入補間動畫(6)發(fā)布設置,選中GIF(7)在GIF選項卡中將“動畫”選中(8)導出成GIF格式動畫第92頁2.5視覺媒體信息的處理靜態(tài)圖像的文件格式標記圖像文件格式(tagimagefileformat,TIFF),也支持一個文件包含多個子圖像圖像文件格式及其轉換TIFF格式文件第93頁2.5視覺媒體信息的處理靜態(tài)圖像的文件格式目標圖像格式(targetimageformat,TGA)
TIPS軟件使用的文件格式。由描述圖像屬性的文件頭(header)和描述各點像素值的文件體(body)組成圖像文件格式及其轉換TGA圖像文件結構原理圖第94頁2.5視覺媒體信息的處理靜態(tài)圖像的文件格式位圖(bitmap,BMP)與設備無關
Windows推薦使用位映射的存儲形式圖像文件格式及其轉換BMP圖像文件結構原理圖第95頁2.5視覺媒體信息的處理動態(tài)圖像的文件格式AVI格式文件轉換為MPEG格式DEMO(AimOne)DEMO(WinMPG)圖像文件格式及其轉換Drive.aviDrive.mpg第96頁2.5視覺媒體信息的處理動態(tài)圖像的文件格式AVI格式文件轉換為.GIF格式圖像DEMO(AniMake):用WindowsMovieMaker錄像,用AniMake進行文件格式轉換,保存為序列GIF圖,改變播放速度,改變播放順序,改變圖片方向,在某(些)幀增加說明性文字。用Photoshop處理,然后返回保存圖像文件格式及其轉換Drive.aviDrive.gif第97頁用Matlab實現圖像的讀寫和顯示命令1:imread
Imread函數,用于讀入各種圖像文件舉例:img1=imread(‘huangguoshu.jpg’);命令2:imwriteImwrite函數,用于讀入各種圖像文件舉例:img1=imwrite(‘huangguoshu.jpg’);命令3:imageImage函數,用于顯示圖像文件舉例image(img1);2.5視覺媒體信息的處理視頻信息的處理——讀寫和顯示圖像文件第98頁用Matlab實現圖像的疊加效果(DEMO)m1=imread('koala.JPG');m2=imread('penguins.JPG');axes('position',[0011]);image((double(m1)/2+double(m2)/2)/256);colorbar;2.5視覺媒體信息的處理視頻信息的處理——圖像的疊加、二值化、邊緣提取用Matlab實現圖像的二值化m1=imread('koala.JPG');im2bw(m1);第99頁2.5視覺媒體信息的處理圖像信息的處理——邊緣提取與圖像切割用Matlab實現邊緣提取(方法一)m1=imread('cyx.JPG');imshow(bwperim(im2bw(m1)));用Matlab實現邊緣提?。ǚ椒ǘ﹎1=imread('cyx.JPG');imshow(edge(rgb2gray(m1),'canny'));用Matlab實現圖像切割m1=imread('huangguoshu.JPG');subplot(1,2,1);axisequal;image(m1);subplot(1,2,2);axisequal;image(m1(300:1300,200:1200,:));試驗另一種算子:‘prewitt’第100頁用Matlab實現移動目標提取(幀差法)functionimgdiffimg1=imread('i1.bmp');img2=imread('i2.bmp');h=figure(1);set(h,'Position',[1040300*3200]);sub1=subplot(1,3,1);set(sub1,'Position',[001/31]);image(img1);axisoff;sub2=subplot(1,3,2);set(sub2,'Position',[1/301/31]);image(img2);axisoff;sub3=subplot(1,3,3);set(sub3,'Position',[2/301/31]);image(uint8(abs(double(img2)-double(img1))));axisoff;return;2.5視覺媒體信息的處理視頻信息的處理——移動目標提取第101頁2.5視覺媒體信息的處理Demo(D:\Chapter2\imageprocessing\imgdiff.m)視頻信息的處理——移動目標提取背景圖一幀圖像幀差法處理后圖像第102頁2.5視覺媒體信息的處理基于文字本質特征的方法視頻信息的處理——文字提取文字有線段構成每個線段寬度基本相同每個線段長寬比例適中第103頁2.5視覺媒體信息的處理Demo視頻信息的處理——文字提取原始視頻信息文字提取結果第104頁2.5視覺媒體信息的處理視頻信息的處理——文字提取系統(tǒng)構成第105頁2.5視覺媒體信息的處理視頻信息的處理——文字提取系統(tǒng)工作原理OCR(OpticalCharacterRecognition,光學字符識別)中國OCR信息網
第106頁2.5視覺媒體信息的處理視頻信息的處理——文字提取OCR在線識別DEMO原文件。A.ImageCuttingandRotationAfterdetectingthecharacters,weshouldintegratesomesinglecharactersintoone
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 流動人口系統(tǒng)培訓課件
- 活動策劃執(zhí)行培訓課件
- 2024-2025學年遼寧省朝陽市多校高一下學期6月聯(lián)合考試歷史試題(解析版)
- 2026年物流管理專業(yè)認證考試題庫及答案解析
- 2026年機械制造工藝認證試題車削與銑削工藝區(qū)別題庫
- 2026年金融投資基礎課程股票與債券市場分析練習題
- 2026年托??荚嚳谡Z實踐題集
- 2026年化工產品質量檢測與控制技術試題
- 2026年財務成本管理師專業(yè)能力筆試題目
- 2026年英語八級詞匯語法練習題
- 幽門螺桿菌課件
- 室性心動過速課件
- 非法集資知識培訓
- 融資管理辦法國資委
- 第四單元整本書閱讀《林海雪原》讀書筆記統(tǒng)編版語文六年級下冊
- GB/T 45870.1-2025彈簧測量和試驗參數第1部分:冷成形圓柱螺旋壓縮彈簧
- 巨大胎兒分娩期護理查房
- 倉庫物料儲存知識培訓課件
- 質量管理體系內審流程及表單
- 數字化轉型下的人力資源管理創(chuàng)新-洞察及研究
- 門診部醫(yī)保內部管理制度
評論
0/150
提交評論