版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
最大似然估計和貝葉斯參數(shù)估計貝葉斯分類器學(xué)習(xí)大綱8月25日:1.初識貝葉斯分類器2.最大似然估計和貝葉斯參數(shù)估計9月1日:3.貝葉斯網(wǎng)絡(luò)與樸素貝葉斯分類器實戰(zhàn)9月8日:4.EM算法實戰(zhàn)本節(jié)學(xué)習(xí)目的:掌握最大似然估計和貝葉斯參數(shù)估計的原理;貝葉斯框架下的數(shù)據(jù)收集
在以下條件下我們可以設(shè)計一個可選擇的分類器:P(
i)(先驗)P(x|
i)(類條件密度)
不幸的是,我們極少能夠完整的得到這些信息!從一個傳統(tǒng)的樣本中設(shè)計一個分類器
先驗估計不成問題
對類條件密度的估計存在兩個問題:1)樣本對于類條件估計太少了;2)
特征空間維數(shù)太大了,計算復(fù)雜度太高。1
1引言如果可以將類條件密度參數(shù)化,則可以顯著降低難度。例如:P(x|
i)的正態(tài)性 P(x|
i)~N(
i,
i)用兩個參數(shù)表示
將概率密度估計問題轉(zhuǎn)化為參數(shù)估計問題。估計最大似然估計(ML)和貝葉斯估計;結(jié)果通常很接近,但是方法本質(zhì)是不同的。最大似然估計將參數(shù)看作是確定的量,只是其值是未知!
通過最大化所觀察的樣本概率得到最優(yōu)的參數(shù)—用分析方法。
貝葉斯方法把參數(shù)當(dāng)成服從某種先驗概率分布的隨機變量,對樣本進行觀測的過程,就是把先驗概率密度轉(zhuǎn)化成為后驗概率密度,使得對于每個新樣本,后驗概率密度函數(shù)在待估參數(shù)的真實值附近形成最大尖峰。在參數(shù)估計完后,兩種方法都用后驗概率P(
i|x)表示分類準則!當(dāng)樣本數(shù)目增加時,收斂性質(zhì)會更好;
比其他可選擇的技術(shù)更加簡單。
假設(shè)有c類樣本,并且
1)每個樣本集的樣本都是獨立同分布的隨機變量;2)P(x|
j)形式已知但參數(shù)未知,例如P(x|
j)~N(
j,j);3)記P(x|
j)P(x|
j,
j),其中
2最大似然估計最大似然估計的優(yōu)點:2.1基本原理使用訓(xùn)練樣本提供的信息估計 =(1,2,…,c),每個
i(i=1,2,…,c)只和每一類相關(guān)
。假定D包括n個樣本,x1,x2,…,xn
的最大似然估計是通過定義最大化P(D|)的值
“值與實際觀察中的訓(xùn)練樣本最相符”22最優(yōu)估計
令=(1,2,…,p)t
并令
為梯度算子thegradientoperator我們定義l()為對數(shù)似然函數(shù):l()=lnP(D|)新問題陳述:
求解
為使對數(shù)似然最大的值
對數(shù)似然函數(shù)l()顯然是依賴于樣本集D,有:最優(yōu)求解條件如下:令:來求解.P(xk|)~N(,) (樣本從一組多變量正態(tài)分布中提取)
=,因此:
的最大似然估計必須滿足:
22.3高斯情況:
未知乘
并且重新排序,我們得到:
即訓(xùn)練樣本的算術(shù)平均值!
結(jié)論:
如果P(xk|
j)(j=1,2,…,c)被假定為d維特征空間中的高斯分布;然后我們能夠估計向量
=(1,2,…,c)t
從而得到最優(yōu)分類!2未知
和
,對于單樣本xk
=(1,2)=(,2)
2.3高斯情況:
和
均未知對于全部樣本,最后得到:聯(lián)合公式(1)和(2),得到如下結(jié)果:2模型錯誤會怎么樣?達不到最優(yōu)!在最大似然估計中
被假定為固定值在貝葉斯估計中
是隨機變量目標:
計算P(i|x,D)
假設(shè)樣本為D,貝葉斯方程可以寫成
:
3貝葉斯估計3.1類條件密度因此,核心工作就是要估計先驗概率通常可以事先獲得,因此每個樣本只依賴于所屬的類,有:故:即:只要在每類中,獨立計算就可以確定x的類別。假設(shè)的形式已知,參數(shù)
的值未知,因此條件概率密度的函數(shù)形式是知道的;假設(shè)參數(shù)
是隨機變量,先驗概率密度函數(shù)p(
)已知,利用貝葉斯公式可以計算后驗概率密度函數(shù)p(|D);希望后驗概率密度函數(shù)p(|D)在
的真實值附件有非常顯著的尖峰,則可以使用后驗密度p(|D)估計
;
43.2參數(shù)的分布注意到
43.2參數(shù)的分布如果p(|D)在某個值附件有非常顯著的尖峰,則即:如果條件概率密度具有一個已知的形式,則利用已有的訓(xùn)練樣本,就能夠通過p(|D)對p(x|D)
進行估計。單變量情形的
p(|D)
4貝葉斯參數(shù)估計:高斯過程復(fù)制密度貝葉斯學(xué)習(xí)結(jié)論:單變量情形的
p(x|D)多變量情形:復(fù)制密度多變量學(xué)習(xí)5貝葉斯參數(shù)估計:一般理論p(x|D)的計算可推廣于所有能參數(shù)化未知密度的情況中,基本假設(shè)如下:假定
p(x|)的形式未知,但是
的值未知。
被假定為滿足一個已知的先驗密度P()其余的
的信息
包含在集合D中,其中D是由n維隨機變量x1,x2,…,xn組成的集合,它們服從于概率密度函數(shù)p(x)?;镜膯栴}是:計算先驗密度p(|D),然后
推導(dǎo)出
p(x|D)。問題:p(x|D)是否能收斂到p(x),計算復(fù)雜度如何?遞歸貝葉斯學(xué)習(xí)該過程稱為參數(shù)估計的遞歸貝葉斯方法,一種增量學(xué)習(xí)方法。例1:遞歸貝葉斯學(xué)習(xí)例1:遞歸貝葉斯學(xué)習(xí)例1:Bayesvs.ML唯一性問題p(x|q)
是唯一的:
后驗概率序列
p(q|Dn)
收斂到
delta函數(shù);只要訓(xùn)練樣本足夠多,則
p(x|q)
能唯一確定q
。在某些情況下,不同
q
值會產(chǎn)生同一個
p(x|q)
。
p(q|Dn)
將在
q
附近產(chǎn)生峰值,這時不管p(x|q)
是否唯一,p(x|Dn)總會收斂到p(x)。因此不確定性客觀存在。最大似然估計和貝葉斯參數(shù)估計的區(qū)別最大似然估計貝葉斯參數(shù)估計計算復(fù)雜度微分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋼結(jié)構(gòu)幕墻生產(chǎn)流水線方案
- 稅法試題及答案
- 數(shù)學(xué)中考模擬試卷及答案
- 會計崗位職業(yè)發(fā)展規(guī)劃
- 2026年投資銀行高級顧問工作面題目集
- 2026年人力資源培訓(xùn)師招聘策略及面試題解析
- 醫(yī)療機構(gòu)病歷管理指南(標準版)
- 公共交通服務(wù)與應(yīng)急預(yù)案指南(標準版)
- 企業(yè)人力資源招聘與配置指南手冊
- 2025年企業(yè)客戶服務(wù)規(guī)范與指南
- 大型電站鍋爐空氣預(yù)熱器漏風(fēng)控制細則
- 湖北省襄陽四中2026屆高三年級上學(xué)期質(zhì)量檢測五歷史試卷
- 城市社區(qū)工作者培訓(xùn)課件
- 2026年軍檢心理意志品質(zhì)測試題及詳解
- 供熱生產(chǎn)調(diào)度工崗前教育考核試卷含答案
- 實驗題(專項練習(xí))教科版(2017秋)六年級科學(xué)上冊
- 2025江西南昌市安義縣林業(yè)局招聘專職護林員20人筆試備考題庫及答案解析
- 2026年煤礦礦長證考試題庫及答案
- 危重病人營養(yǎng)支持教案
- 《毛澤東思想概論》與《中國特色社會主義理論體系概論》核心知識點梳理及100個自測題(含答案)
- 分級護理質(zhì)量考核標準
評論
0/150
提交評論