版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二章統(tǒng)計(jì)推斷與貝葉斯預(yù)測第二章統(tǒng)計(jì)推斷與貝葉斯預(yù)測2023/4/282第二章統(tǒng)計(jì)推斷與貝葉斯預(yù)測2.1引言與導(dǎo)學(xué)2.2貝葉斯估計(jì)基礎(chǔ)---想法2.3貝葉斯估計(jì)---評價(jià)2.4期望-最大方法---算法2.5高斯混合模型的設(shè)計(jì)---算法
2.6貝葉斯分類---應(yīng)用2.7隨機(jī)過程空間的建模---提高2023/4/283本章首先給出一個關(guān)于參數(shù)估計(jì)理論基本概念的介紹。(想法)然后介紹用于定量評價(jià)估計(jì)量性能的統(tǒng)計(jì)測度。我們主要研究貝葉斯估計(jì)方法,考慮在估計(jì)均值與方差中使用先驗(yàn)?zāi)P偷男Ч#ㄔu價(jià))研究從不完整數(shù)據(jù)中估計(jì)一組未知參數(shù)的期望最大(EM)方法,并將其應(yīng)用于連續(xù)隨機(jī)變量的高斯混合模型空間。(算法)本章最后以離散或有限狀態(tài)信號的貝葉斯分類結(jié)束,并介紹K-均值聚類方法。本章思路:想法---算法---評價(jià)---應(yīng)用2.1引言與導(dǎo)學(xué)2023/4/2842023/4/2852023/4/2862023/4/287藍(lán)色為原始含噪語音黃色為譜相減處理的結(jié)果2023/4/288原始含噪語音
自適應(yīng)抗噪與譜相減相結(jié)合后的輸出結(jié)果基本自適應(yīng)抗噪輸出結(jié)果2023/4/289通過語音合成來說話2023/4/2810
男聲“深圳廣州珠海”的短時(shí)幅度統(tǒng)計(jì)。在采樣頻率為22050Hz的情況下,取20ms作為一幀,幀長為441點(diǎn),一共統(tǒng)計(jì)了180幀。短時(shí)平均幅度原始語音2023/4/2811
音樂信號的分離CEG基頻CE基頻C基頻和弦CEG2023/4/2812GMM的例子例:一個班級每個學(xué)生的身高為假設(shè)男生和女生的身高分別服從高斯分布則其中為男生的比例,問題:給定獨(dú)立同分布(independentandidenticallydistributed----IID)的數(shù)據(jù),求參數(shù)混合模型的參數(shù)估計(jì)是EM(ExpectationMaximization)算法最典型的應(yīng)用2023/4/28132023/4/2814估計(jì)理論主要研究從觀測信號中最優(yōu)地估計(jì)出參數(shù)矢量的問題,或者研究從被噪聲污染或退化的信號中恢復(fù)出純凈信號的方法。例如,給定一個正弦信號波形,我們可能需要估計(jì)其基本參數(shù)(如幅度、頻率和相位),或者我們可能希望恢復(fù)信號本身。2.2貝葉斯估計(jì)基礎(chǔ)2023/4/2815估計(jì)量通常以帶噪信號或不完整觀測作為輸入,并且采用動態(tài)模型(如線性預(yù)測模型)和/或過程的概率模型(如高斯模型)來估計(jì)未知的參數(shù),即估計(jì)量是一個系統(tǒng),而被估計(jì)的參數(shù)是此次系統(tǒng)的輸出。估計(jì)的精度取決于可以使用的信息和估計(jì)方法的有效性。本章主要研究平穩(wěn)參數(shù)的貝葉斯估計(jì)問題。關(guān)于非平穩(wěn)有限狀態(tài)過程的建模與估計(jì)問題將在下面的章節(jié)研究。2.2貝葉斯估計(jì)基礎(chǔ)2023/4/28162023/4/28172023/4/2818貝葉斯理論是一個基本的統(tǒng)計(jì)推斷框架。在過程狀態(tài)的估計(jì)與預(yù)測中,貝葉斯方法主要利用兩種信息:其一是包含在觀測信號中的事實(shí);其二是過程分布的先驗(yàn)知識。圖2.1給出了貝葉斯方法作為主要統(tǒng)計(jì)估計(jì)方法的基本框架。2.2貝葉斯估計(jì)基礎(chǔ)2023/4/28192.2貝葉斯估計(jì)基礎(chǔ)
圖2.1貝葉斯推斷包含一個代價(jià)函數(shù),一個先驗(yàn)函數(shù)和一個似然函數(shù)。其他估計(jì)方法可以被認(rèn)為是貝葉斯估計(jì)的特例2023/4/28202023/4/28212.2.1估計(jì)的動態(tài)模型和概率模型最優(yōu)估計(jì)算法常采用觀測信號的動態(tài)模型和概率模型。動態(tài)預(yù)測模型利用信號的相關(guān)結(jié)構(gòu)信息,根據(jù)信號的過去狀態(tài)和輸入激勵對信號當(dāng)前值與將來值的依賴關(guān)系進(jìn)行建模。采用動態(tài)模型進(jìn)行估計(jì)的例子包括線性預(yù)測模型和卡爾曼濾波器。統(tǒng)計(jì)概率模型依據(jù)均值和方差這樣的統(tǒng)計(jì)量來表現(xiàn)信號隨機(jī)波動空間的特性,為了描述得更完整,則需要采用概率模型。條件概率模型除了對信號的隨機(jī)波動建模以外,也用于表示信號對其過去狀態(tài)和其他過程的依賴情況。動態(tài)模型和概率模型可以進(jìn)行組合:例如,一個有限狀態(tài)模型可以通過隱馬爾可夫模型(HMM)和卡爾曼濾波器的組合來構(gòu)造。2023/4/28222.2.1估計(jì)的動態(tài)模型和概率模型
2023/4/2823隨機(jī)過程的預(yù)測模型和概率模型引導(dǎo)估計(jì)結(jié)果朝著與模型參數(shù)和觀測信號的先驗(yàn)分布相一致的方向發(fā)展。一般來說,只要所使用的模型能夠準(zhǔn)確代表觀測數(shù)據(jù)和參數(shù)過程的特征,則估計(jì)中所使用的信息量越多,估計(jì)的結(jié)果會越好。其缺點(diǎn)是,如果模型是不準(zhǔn)確的,則所引起的負(fù)面效應(yīng)要超過其正面效果。2023/4/28242.2.2參數(shù)空間與信號空間
2023/4/28252.2.2參數(shù)空間與信號空間2023/4/28262.2.2參數(shù)空間與信號空間2023/4/28272.2.3參數(shù)估計(jì)和信號恢復(fù)參數(shù)估計(jì)和信號恢復(fù)是密切相關(guān)的兩個問題。二者的主要區(qū)別是大多數(shù)信號往往波動較快,而大多數(shù)參數(shù)則波動較慢。例如,語音信號的波動速率大約為20kHz,而相應(yīng)的元音和諧音參數(shù)的變化速率則僅為100Hz。這個現(xiàn)象表明,在參數(shù)估計(jì)時(shí)可以比信號恢復(fù)時(shí)進(jìn)行更多的平均操作。作為一個簡單的例子,考慮零均值隨機(jī)噪聲中的一個觀測信號。假定我們希望估計(jì):(a)純凈信號的平均值;(b)純凈信號本身。隨著觀測時(shí)間的增長,信號均值的估計(jì)會逐漸逼近純凈信號的均值,而純凈信號樣本的估計(jì)則取決于信號的相關(guān)結(jié)構(gòu)和信噪比,并取決于所采用的估計(jì)方法。2023/4/28282023/4/28292.2.4性能測度與所希望的估計(jì)性能2023/4/28302.2.4性能測度與所希望的估計(jì)性能不同的參數(shù)估計(jì)會得到不同的結(jié)果,這主要取決于所采用的估計(jì)方法、所利用的觀測數(shù)據(jù)和所利用的先驗(yàn)信息。由于觀測所具有的隨機(jī)性,即使是相同的估計(jì)量,如果選用同一過程中不同的觀測數(shù)據(jù),也會產(chǎn)生不同的結(jié)果。因此,估計(jì)結(jié)果本身是一個隨機(jī)變量,也具有均值和方差,也可以用概率密度函數(shù)來描述。然而,在大多數(shù)情況下,根據(jù)估計(jì)誤差的均值和方差來確定一個估計(jì)量的特性就足夠了。對于估計(jì)量最常用的性能測度為:2023/4/28312.2.4性能測度與所希望的估計(jì)性能2023/4/28322.2.4性能測度與所希望的估計(jì)性能最優(yōu)估計(jì)的目標(biāo)是使估計(jì)的偏為零,并使估計(jì)誤差的方差達(dá)到最小。對于估計(jì)量來說,所希望的性質(zhì)可以列于下面:2023/4/28332.2.4性能測度與所希望的估計(jì)性能2023/4/28342023/4/28352023/4/28362023/4/2837高斯混合模型(GMM)與期望最大算法(EM)2023/4/2838頻率學(xué)派的觀點(diǎn)到目前為止我們講述的都是頻率(經(jīng)典的)統(tǒng)計(jì)學(xué)概率指的是相對頻率,是真實(shí)世界的客觀屬性。參數(shù)是固定的未知常數(shù)。由于參數(shù)不會波動,因此不能對其進(jìn)行概率描述。統(tǒng)計(jì)過程應(yīng)該具有定義良好的頻率穩(wěn)定性。如:一個95%的置信區(qū)間應(yīng)覆蓋參數(shù)真實(shí)值至少95%的頻率。統(tǒng)計(jì)學(xué)更多關(guān)注頻率推斷頻率學(xué)派PK貝葉斯學(xué)派2023/4/2839貝葉斯學(xué)派的觀點(diǎn)貝葉斯推斷采取了另外一個不同的立場:概率描述的是主觀信念的程度,而不是頻率。這樣除了對從隨機(jī)變化產(chǎn)生的數(shù)據(jù)進(jìn)行概率描述外,我們還可以對其他事物進(jìn)行概率描述??梢詫Ω鱾€參數(shù)進(jìn)行概率描述,即使它們是固定的常數(shù)。為參數(shù)生成一個概率分布來對它們進(jìn)行推導(dǎo),點(diǎn)估計(jì)和區(qū)間估計(jì)可以從這些分布得到機(jī)器學(xué)習(xí)和信號處理更偏愛貝葉斯推斷2023/4/2840貝葉斯方法貝葉斯推斷的基本步驟如下:選擇一個概率密度函數(shù),用來表示在取得數(shù)據(jù)之前我們對某個參數(shù)的信念。我們稱之為先驗(yàn)分布。選擇一個模型(在參數(shù)推斷記為)來反映在給定參數(shù)情況下我們對x的信念。當(dāng)?shù)玫綌?shù)據(jù)X1,X2,…Xn
后,我們更新我們的信念并且計(jì)算后驗(yàn)分布。從后驗(yàn)分布中得到點(diǎn)估計(jì)和區(qū)間估計(jì)。2023/4/2841回憶貝葉斯規(guī)則亦稱貝葉斯定理?xiàng)l件概率利用貝葉斯規(guī)則將數(shù)據(jù)和參數(shù)的分布聯(lián)合起來2023/4/2842似然函數(shù)假設(shè)我們有n個IID觀測,記為,產(chǎn)生的數(shù)據(jù)為,記為,我們用如下公式替代現(xiàn)在似然函數(shù)真正解釋為給定參數(shù)下數(shù)據(jù)的概率2023/4/2843后驗(yàn)概率因此后驗(yàn)概率為其中被稱為歸一化常數(shù)(normalizingconstant)。該常數(shù)經(jīng)常被忽略,因?yàn)槲覀冴P(guān)心的主要是參數(shù)的不同值之間的比較。所以也就是說,后驗(yàn)和似然函數(shù)與先驗(yàn)的乘積成正比2023/4/2844貝葉斯點(diǎn)估計(jì)后驗(yàn)的均值是一個常用的點(diǎn)估計(jì)L2損失下的貝葉斯規(guī)則極大后驗(yàn)估計(jì)(maximumaposteriori,MAP)是使后驗(yàn)最大的的值:是另一個常用的點(diǎn)估計(jì)0-1損失下的貝葉斯規(guī)則2023/4/2845貝葉斯學(xué)派的觀點(diǎn)先驗(yàn)信息:可以方便的結(jié)合先驗(yàn)信息,而且人們在做推斷時(shí)也確實(shí)利用了先驗(yàn)信息,貝葉斯推斷使得這個過程顯式化提供了更多的結(jié)構(gòu):對小樣本很有效簡練:允許人們對參數(shù)進(jìn)行概率描述,使得似然函數(shù)與其邏輯結(jié)論一致,減小了數(shù)據(jù)和參數(shù)之間的區(qū)別統(tǒng)一:不必對點(diǎn)估計(jì)和區(qū)間估計(jì)各個解析推導(dǎo)2023/4/2846反對貝葉斯學(xué)派的觀點(diǎn)不方便:后驗(yàn)區(qū)間不是真正的置信區(qū)間,估計(jì)通常都是有偏估計(jì)以參數(shù)為中心:在很多非參數(shù)情況下似然很脆弱計(jì)算強(qiáng)度大:積分/仿真或近似很難處理不必要的復(fù)雜:即使沒有先驗(yàn)信息也要有先驗(yàn)函數(shù)假設(shè)檢驗(yàn):貝葉斯假設(shè)檢驗(yàn)對先驗(yàn)的選取很敏感2023/4/2847綜上所述在參數(shù)模型中,當(dāng)樣本數(shù)目很多時(shí),貝葉斯方法和頻率方法得到的近似相同的推理。但通常二者的結(jié)果不同貝葉斯方法和頻率推理是為了解決不同的問題結(jié)合先驗(yàn)知識和數(shù)據(jù):貝葉斯方法構(gòu)造長期穩(wěn)定的性能(如置信區(qū)間):頻率方法2023/4/2848綜上所述當(dāng)參數(shù)空間為高維時(shí),通常采用貝葉斯方法但當(dāng)參數(shù)比數(shù)據(jù)還多時(shí),沒有統(tǒng)計(jì)方法能跨越自然的本質(zhì)約束即使先驗(yàn)知識選擇得當(dāng),也只能對“過去”預(yù)測很好,對將來不一定能預(yù)測很好Youcannotgetsomethingfornothing.Alittlebitofdata,willnothelpyoutolearnaboutamilliondimensional,complexproblem.2023/4/28492.3貝葉斯估計(jì)2023/4/28502023/4/28512.3.1最大后驗(yàn)估計(jì)
2.3.2最大似然估計(jì)2.3.3最小均方誤差估計(jì)2.3.4最小平均絕對誤差估計(jì)2023/4/28522023/4/28532023/4/28542023/4/28552023/4/28562023/4/28572023/4/28582023/4/28592023/4/28602.3.5均勻分布參數(shù)高斯過程條件下MAP,ML,MMSE和MAVE的等價(jià)性2023/4/28612.4期望-最大方法期望-最大(EM)算法是一種迭代實(shí)現(xiàn)的最大似然方法,在盲解卷積、聚類、隱馬爾可夫模型的訓(xùn)練、基于模型的內(nèi)插、帶噪信號的譜估計(jì)、信號恢復(fù)與估計(jì)等領(lǐng)域得到廣泛的應(yīng)用。EM是解決一類問題的一個框架,在這類問題中,由于數(shù)據(jù)的不完整性(圖2.15),例如,當(dāng)數(shù)據(jù)中丟失了一些樣本或標(biāo)志,或問題過于難等原因,往往難于直接得到問題的ML估計(jì)。例如,在聚類應(yīng)用中,通常原始數(shù)據(jù)是沒有聚類標(biāo)記的,因此往往采用迭代的EM方法,其中包括:(a)給數(shù)據(jù)加上標(biāo)記(期望)(b)計(jì)算聚類的均值和方差。2023/4/28622023/4/28632023/4/28642023/4/28652.5高斯混合模型的設(shè)計(jì)對任意信號空間概率密度函數(shù)建模的一種實(shí)際的方法是用多個高斯概率密度函數(shù)來擬合信號空間。因此高斯函數(shù)被用做構(gòu)造pdf的元素。圖2.16給出了一個二維信號空間的聚類模型,其中給出了一些圓的或橢圓形狀的高斯過程。注意到高斯密度是可以重疊的,在重疊區(qū)域的一個數(shù)據(jù)點(diǎn)可以與不同的高斯混合分量有關(guān)。使用高斯混合模型的一個主要優(yōu)點(diǎn)是其可以導(dǎo)致數(shù)學(xué)上解析的信號處理方法。過程的混合高斯pdf模型定義為:2023/4/2866天空、遠(yuǎn)山、樹木、草地、公路(五類信息)2023/4/28672023/4/2868一般來說,存在無窮多個不同的混合高斯密度,可以用來“鋪滿”一個信號空間。因此,一個具有混合pdf空間的信號空間可以被認(rèn)為是一種多對一的映射,而EM算法則可以被用來估計(jì)高斯pdf模型的參數(shù)。2023/4/28692.6貝葉斯分類分類是用M個信號類別對觀測序列y(m)進(jìn)行標(biāo)記的過程。在現(xiàn)代數(shù)字通信技術(shù)中,例如在接收機(jī)中對離散碼進(jìn)行譯碼、語音壓縮、視頻壓縮、語音識別、圖像識別、字符識別、信號或噪聲分類與檢測中,經(jīng)常使用分類器。舉例來說,在一個M進(jìn)制編碼的數(shù)字通信系統(tǒng)中,信道的輸出信號是M個信號編碼中的一個。在語音識別中,語音信號的分段用40個不同的音素對信號進(jìn)行標(biāo)記。在語音和視頻壓縮中,一段語音信號或一塊圖像像素被量化,并在碼書中用原型信號矢量進(jìn)行標(biāo)記。在分類器的設(shè)計(jì)中,最終目標(biāo)是在給定信噪比、可用的訓(xùn)練數(shù)據(jù)量,以及確定的信號帶寬及計(jì)算復(fù)雜等條件下,盡量使分類誤差達(dá)到最小。
2023/4/2870分類誤差主要來源于不同類型信號發(fā)布的重疊。這可以用圖2.17來表示。該圖給出了兩個高斯信號和的二元分類問題。在有陰影的區(qū)域,信號的分布是有重疊的,信號中的一個樣本可能屬于這兩類中的任何一類。因此陰影區(qū)域的大小可以用來測量分類誤差的大小。由圖2.17可以發(fā)現(xiàn),減小分類誤差最明顯的方法是減小信號發(fā)布的重疊區(qū)域??梢圆捎脙煞N方法來減小重疊區(qū)域:(a)增加不同類別信號均值間的距離,(b)減小每一類信號的方差。在通信系統(tǒng)中,通常采用幾種方法的組合來減小不同信號類別之間的重疊,這些方法包括:增加信號的信噪比,通過加上冗余誤差控制碼來增加不同信號模式之間的距離,信號整形以及信號的后置濾波等。在模式識別中,不可能像在語音和圖像識別中那樣控制信號的產(chǎn)生過程,模式特性和模型的選擇會影響分類的誤差。2023/4/2871用于模式識別分類的有效方法取決于許多因素,可以簡單列出如下:(1)對來自信號的一組有意義特征的提取與變換。這些特征能夠適當(dāng)?shù)乇硎久?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年鄉(xiāng)村電商運(yùn)營專員技能考核模擬試題含答案
- 2025 小學(xué)四年級思想品德上冊紅色詩詞朗誦比賽課件
- 2026年劇本殺運(yùn)營公司劇本殺主題活動組織制度
- 2026年量子計(jì)算商業(yè)應(yīng)用報(bào)告及未來五至十年科技行業(yè)創(chuàng)新報(bào)告
- 2026年醫(yī)療納米機(jī)器人技術(shù)應(yīng)用報(bào)告
- 聚焦2025年醫(yī)療廢棄物無害化處理中心建設(shè)可行性報(bào)告:廢棄物處理設(shè)備創(chuàng)新
- 人工智能輔助精神疾病診斷系統(tǒng)2025年研發(fā)可行性研究
- 2026年基因編輯技術(shù)倫理與發(fā)展報(bào)告
- 2026年人工智能醫(yī)療行業(yè)報(bào)告
- 2026及未來5年中國電子地圖行業(yè)市場現(xiàn)狀調(diào)查及前景戰(zhàn)略研判報(bào)告
- 2024-2025學(xué)年山東省濰坊市高一下學(xué)期5月期中考試政治試題(解析版)
- 環(huán)境污染治理設(shè)施運(yùn)營考試試題
- 2025年證監(jiān)會招聘面試高頻考題及解析
- 2025-2030中國溶劑染料行業(yè)消費(fèi)狀況及競爭策略分析報(bào)告
- 急診科腦出血課件
- 安全生產(chǎn)管理機(jī)構(gòu)人員配備表
- smt車間安全操作規(guī)程
- 2.3.2中國第一大河長江
- TCEPPC 25-2024 儲能鋰離子電池?zé)崾Э仡A(yù)警及防護(hù)技術(shù)要求
- 資源土豬出售合同協(xié)議
- (高清版)DB50∕T 867.30-2022 安全生產(chǎn)技術(shù)規(guī)范 第30部分:有色金屬鑄造企業(yè)
評論
0/150
提交評論