pattern recognition c2-3,4,5模式識(shí)別課件_第1頁
pattern recognition c2-3,4,5模式識(shí)別課件_第2頁
pattern recognition c2-3,4,5模式識(shí)別課件_第3頁
pattern recognition c2-3,4,5模式識(shí)別課件_第4頁
pattern recognition c2-3,4,5模式識(shí)別課件_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1第二章

貝葉斯決策理論

§2.1基于最小錯(cuò)誤率的貝葉斯判別法§2.2基于貝葉斯公式的幾種判別規(guī)則§2.3正態(tài)分布模式的統(tǒng)計(jì)決策§2.4概率密度函數(shù)的估計(jì)§2.5貝葉斯分類器的錯(cuò)誤概率2§2.3正態(tài)分布模式的統(tǒng)計(jì)決策

一、正態(tài)分布判別函數(shù)

1、為什么采用正態(tài)分布:

a、正態(tài)分布在物理上是合理的、廣泛的。

b、正態(tài)分布數(shù)學(xué)上簡(jiǎn)單,N(μ,σ2)只有均值和方差兩個(gè)參數(shù)。

2、單變量正態(tài)分布:

33、(多變量)多維正態(tài)分布(1)函數(shù)形式:456(2)、性質(zhì):

①、μ與∑對(duì)分布起決定作用P(χ)=N(μ,∑),μ由n個(gè)分量組成,∑由n(n+1)/2元素組成(對(duì)稱獨(dú)立元素)?!喽嗑S正態(tài)分布由n+n(n+1)/2個(gè)參數(shù)組成。

②、等密度點(diǎn)的軌跡是一個(gè)超橢球面。區(qū)域中心由μ決定,區(qū)域形狀由∑決定。③、不相關(guān)性等價(jià)于獨(dú)立性。若xi與xj互不相關(guān),則xi與xj一定獨(dú)立。④、線性變換的正態(tài)性Y=AX,A為線性變換矩陣。若X為正態(tài)分布,則Y也是正態(tài)分布。⑤、線性組合的正態(tài)性。74、判別函數(shù):類條件概率密度用正態(tài)來表示:5、決策面方程:8二、最小錯(cuò)誤率(Bayes)分類器:從最小錯(cuò)誤率這個(gè)角度來分析Bayes分類器1.第一種情況:各個(gè)特征統(tǒng)計(jì)獨(dú)立,且同方差情況。(最簡(jiǎn)單情況)判別函數(shù):9

最小距離分類器:未知x與μi相減,找最近的μi把x歸類如果M類先驗(yàn)概率相等:1011討論:二類情況下i=1,212未知x,把x與各類均值相減,把x歸于最近一類。最小距離分類器。2、第二種情況:Σi=

Σ相等,即各類協(xié)方差相等。1314討論:針對(duì)ω1,ω2二類情況,如圖:153、第三種情況(一般情況):Σ?為任意,各類協(xié)方差矩陣不等,二次項(xiàng)xT

Σ?x與i有關(guān)。所以判別函數(shù)為二次型函數(shù)。1617第四節(jié)概率密度函數(shù)的估計(jì)

意義:

貝葉斯決策分類器大都涉及類概率密度函數(shù),對(duì)于正態(tài)分布模式,其概率密度函數(shù)可通過均值向量和協(xié)方差矩陣的估算而確定。在無法用參數(shù)表征概率密度函數(shù)時(shí),則可以通過某些函數(shù)來近似地表示。

概率密度函數(shù)估計(jì)是為貝葉斯決策分類器確定條件.18貝葉斯分類器中只要知道先驗(yàn)概率,條件概率或后驗(yàn)概概率P(ωi),P(x/ωi),P(ωi/x)就可以設(shè)計(jì)分類器了?,F(xiàn)在來研究如何用已知訓(xùn)練樣本的信息去估計(jì)P(ωi),P(x/ωi),P(ωi/x)

參數(shù)估計(jì)與非參數(shù)估計(jì)參數(shù)估計(jì):先假定研究的問題具有某種數(shù)學(xué)模型,如正態(tài)分布,二項(xiàng)分布,再用已知類別的學(xué)習(xí)樣本估計(jì)里面的參數(shù)。非參數(shù)估計(jì):不假定數(shù)學(xué)模型,直接用已知類別的學(xué)習(xí)樣本的先驗(yàn)知識(shí)直接估計(jì)數(shù)學(xué)模型。方法:19

監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí):在已知類別樣本指導(dǎo)下的學(xué)習(xí)和訓(xùn)練,參數(shù)估計(jì)和非參數(shù)估計(jì)都屬于監(jiān)督學(xué)習(xí)。非監(jiān)督學(xué)習(xí):不知道樣本類別,只知道樣本的某些信息去估計(jì),如:聚類分析。20一、均值向量和協(xié)方差矩陣的參數(shù)估計(jì)

將參數(shù)作為隨機(jī)參數(shù)看待時(shí)的估計(jì)量算法一般以模式樣本的平均作為均值向量的近似值。設(shè)某類的模式樣本數(shù)為N,其均值向量估計(jì)量為協(xié)方差矩陣C寫成向量形式為

21其無偏估計(jì)量為

而有偏估計(jì)量為22二、概率密度函數(shù)的函數(shù)近似

當(dāng)無法用參數(shù)表征概率密度函數(shù)時(shí),則需要選取某種基函數(shù)作近似估計(jì)。以P(X)表示以作為的估計(jì),采取最小二乘估計(jì)方法,使估計(jì)函數(shù)與的均方誤差函數(shù)R最小。將寫成m項(xiàng)展開式則:23選擇使誤差函數(shù)R最小,即取偏微分式中右邊為的數(shù)學(xué)期望,可用N個(gè)樣本的均值來近似故:一般選擇正交函數(shù)集作為基函數(shù),故有:24∴系數(shù):當(dāng)基函數(shù)正交歸一時(shí),則對(duì)所有k,有。由于與k無關(guān),且可以認(rèn)為對(duì)所有,,則:求得所有系數(shù)后,根據(jù)得到概率密度函數(shù),作為對(duì)的估計(jì)。25例:如圖所示為兩個(gè)類別的模式分布,現(xiàn)通過這些訓(xùn)練樣本估計(jì)兩類概率密度函數(shù),借以得到貝葉斯分類器。

解:類概率密度函數(shù)以m項(xiàng)基函數(shù)的多項(xiàng)式來近似:

由于基函數(shù)必須在模式定義域內(nèi)正交,故選擇埃爾米特函數(shù),因?yàn)槠湔挥蛟趦?nèi),該函數(shù)一維形式的前幾項(xiàng)為:26對(duì)于類:

27

為類的模式樣本數(shù)目,m=4,K=1時(shí)系數(shù)為:用同樣的方法計(jì)算類概率密度函數(shù)近似展開式系數(shù),有:

28所以:

貝葉斯分類器設(shè)計(jì):判別界面為:

29三、后驗(yàn)概率的函數(shù)估計(jì)

利用后驗(yàn)概率的貝葉斯判別函數(shù):關(guān)鍵是估計(jì)后驗(yàn)概率密度函數(shù):

按照選取基函數(shù)的方法來逼近,則可以建立如下形式的判別函數(shù):目的:用來近似。30采取線性逼近方法,將式簡(jiǎn)化為:定義一個(gè)隨機(jī)變量使其取值作為的帶噪聲的觀察值,即為噪聲因子,其數(shù)學(xué)期望值為零。有用來近似未知的。把它代入準(zhǔn)則函數(shù),即可采取梯度法求解權(quán)向量。31取準(zhǔn)則函數(shù)為:32此方法迭代的每一步都必須校正權(quán)向量,每一步的校正值正比于增量因子故稱為增量校正算法。當(dāng)全部訓(xùn)練模式通過迭代都能被正確分類時(shí),就可以認(rèn)為權(quán)向量收斂于正確的解。M個(gè)類別有M個(gè)權(quán)向量,須分別迭代求解。解算出權(quán)向量之后,就可以將x作為的近似函數(shù),即有:33例:取下圖中的模式樣本,用增量校正算法來迭代求解近似判別函數(shù)中的權(quán)向量,以確定基于后驗(yàn)概率的判別函數(shù)。

解:首先寫出訓(xùn)練樣本的增廣向量:令:于是:3435如此迭代下去,當(dāng)K=15時(shí),利用已能對(duì)全部樣本正確地進(jìn)行分類,說明權(quán)向量的解為:按理,還須對(duì)類判別函數(shù)的權(quán)向量迭代求解,由于是兩類問題,當(dāng)已經(jīng)有了近似函數(shù)式,即的近似函數(shù)式已經(jīng)求得時(shí),即可根據(jù)以下判別規(guī)則對(duì)兩類模式進(jìn)行分類36四、均值向量和協(xié)方差矩陣的貝葉斯估計(jì)將概率密度函數(shù)的參數(shù)估計(jì)量看成是隨機(jī)量,根據(jù)這些估計(jì)量統(tǒng)計(jì)特性的先驗(yàn)知識(shí),先粗略地給出這些估計(jì)量的密度函數(shù),再通過訓(xùn)練模式樣本集,利用貝葉斯公式通過迭代運(yùn)算過程求出參數(shù)的后驗(yàn)概率密度。37設(shè)為N個(gè)用于估計(jì)未知參數(shù)的密度函數(shù)的樣本,利用貝葉斯定理,可以得到在逐一給定了之后的條件密度函數(shù)的迭代公式:對(duì)于,是它的先驗(yàn)概率密度。加入新的樣本后,得到新的概率密度。

應(yīng)是最早的先驗(yàn)概率密度。當(dāng)給出第一個(gè)樣本,按貝葉斯定理計(jì)算,就得到后驗(yàn)率密度。將作為下一步計(jì)算的先驗(yàn)概率密度,讀入樣本,又得到后驗(yàn)概率密度,……依此可以算出最后的值。38單變量正態(tài)密度函數(shù)的均值估計(jì)法若一模式樣本集的類概率密度函數(shù)為單變量正態(tài)分布,其中已知,均值待求,即:給定N個(gè)訓(xùn)練樣本,最初的先驗(yàn)概率密度為,是根據(jù)先驗(yàn)知識(shí)對(duì)的推測(cè),其不確定性由表示。由于均值的估計(jì)量是樣本的線性函數(shù),而樣本是正態(tài)分布,所以應(yīng)為正態(tài)。39由初始條件:根據(jù)貝葉斯法則:40每一次迭代運(yùn)算從樣本子集中逐一給出一個(gè)樣本,N次運(yùn)算獨(dú)立地給出N個(gè)樣本,因此:式中與無關(guān)的因子和均并入常數(shù)項(xiàng)。

41

是平方函數(shù)的指數(shù)函數(shù),仍為正態(tài)密度函數(shù),可將它寫成,即:

42由訓(xùn)練樣本集,求得均值的后驗(yàn)概率密度為。

:根據(jù)N個(gè)樣本對(duì)均值的估計(jì),是先驗(yàn)信息()與訓(xùn)練樣本的信息(上式中的)相結(jié)合的結(jié)果,是利用N個(gè)訓(xùn)練樣本信息對(duì)均值先驗(yàn)估計(jì)的補(bǔ)充。是對(duì)這個(gè)估計(jì)的不確定性的度量。時(shí)→0。是和的線性組合,兩者的系數(shù)非負(fù),其和為1,故值在和之間。只要,當(dāng)時(shí),趨于樣本均值的估計(jì)量。圖2-4-3是一正態(tài)密度的均值學(xué)習(xí)過程,每增加一次樣本,都減小對(duì)的估計(jì)的不確定性,隨著樣本的增加其曲線愈顯“尖銳”,均值與估計(jì)量之間的偏差的絕對(duì)值亦愈來愈小。43上述方法的目的,是為了通過N個(gè)訓(xùn)練樣本來估計(jì)模式樣本的類概率密度函數(shù)。由于上述兩個(gè)正態(tài)密度函數(shù)之積對(duì)的積分結(jié)果也是正態(tài)密度函數(shù),即:在采用訓(xùn)練樣本之前,均值未知,經(jīng)過采用N個(gè)樣本進(jìn)行估計(jì)之后,概率密度函數(shù)為,獲得了均值值的估計(jì),同時(shí)原來的方差也作了修正;成為

44§2.5

貝葉斯分類器的錯(cuò)誤概率

一般來說,任何判別規(guī)則都不能得到完全正確的分類,為了評(píng)價(jià)一種判別規(guī)則,需要計(jì)算將屬于某一類的模式錯(cuò)分到另一類去的概率。

451、一般錯(cuò)誤率分析:46472、正態(tài)分布最小錯(cuò)誤率(在正態(tài)分布情況下求最小錯(cuò)誤率)4849在實(shí)際工作中如果使用數(shù)量有限的訓(xùn)練樣本集,既作為設(shè)計(jì)分類器的訓(xùn)練樣本,又用它來檢驗(yàn)分類器的錯(cuò)誤概率,通常采用兩種方式:一種方式稱為樣本劃分法。將訓(xùn)練樣本分成兩組,用其中一組來設(shè)計(jì)分類器,用另一組檢驗(yàn)分類器,求其錯(cuò)誤概率。再采用不同的樣本分法,可得不同的錯(cuò)誤概率,取其平均值作為錯(cuò)誤概率的估計(jì)。另一種方式是留一個(gè)出來法。每次留下N個(gè)樣本中的一個(gè),用其余N-1個(gè)樣本來設(shè)計(jì)分類器,用留下的那個(gè)樣本進(jìn)行檢驗(yàn),這樣重復(fù)進(jìn)行N次。每次留下的應(yīng)是不同的一個(gè)樣本。根據(jù)N次檢驗(yàn)中判別錯(cuò)誤的樣本數(shù)目,就能得出錯(cuò)誤概率的估計(jì)值。50附:Bayes分類的算法(假定各類樣本服從正態(tài)分布)1.輸入類數(shù)M;特征數(shù)n,待分樣本數(shù)m.2.輸入訓(xùn)練樣本數(shù)N和訓(xùn)練集資料矩陣X(N×n)。并計(jì)算有關(guān)參數(shù)。3.計(jì)算矩陣y中各類的后驗(yàn)概率。4.若按最小錯(cuò)誤率原則分類,則可根據(jù)3的結(jié)果判定y中各類樣本的類別。5.若按最小風(fēng)險(xiǎn)原則分類,則輸入各值,并計(jì)算y中各樣本屬于各類時(shí)的風(fēng)險(xiǎn)并判定各樣本類別。51例1、有訓(xùn)練集資料矩陣如下表所示,現(xiàn)已知,N=9、N1=5、N2=4、n=2、M=2,試問,X=(0,0)T應(yīng)屬于哪一類?訓(xùn)練樣本號(hào)k123451234特征x1特征x2110-1-1

010-1

01110-1-2-2-2類別ω1

ω

252解1、假定二類協(xié)方差矩陣不等(∑1≠∑2)則均值:535455解2、假定兩類協(xié)方差矩陣相等∑=∑1+∑256訓(xùn)練樣本號(hào)k123123123特征x1012-2-1-201-1特征x210-110-1-1-2-2類別ω1ω2ω3解1、假定三類協(xié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論