版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第6章分類預(yù)測貝葉斯分類器詞匯python:蟒蛇or“Python”2單詞dynamic相對較常出現(xiàn)在編程類的文本中單詞constrictor則相對較常出現(xiàn)在生物類的文本中單詞source和單詞long傾向性不強單詞and等一類詞,在各類文檔中出現(xiàn)的概率幾乎一樣,其統(tǒng)計數(shù)據(jù),在這里沒有價值機器學習理論中,這類詞被稱為“停用詞”(stopword),可事先將其去除,不作為特征詞參與樣本訓練,從而減少學習時間。幾乎每個搜索引擎都會維護一份“停用詞表”(stopwordlist))。分類器3訓練假定有一篇新的句子或文檔,包含了long、dynamic和source三個單詞,那么這個句子或單詞是在敘述生物學的蟒蛇還是計算機科學的python程序呢?判定規(guī)則:比較以下兩個概率的大?。撼霈F(xiàn)long、dynamic和source條件下,python的類標號為生物學的概率,記為P(生物學|詞={long,dynamic,source})出現(xiàn)long、dynamic和source條件下,python的類標號為計算機科學的概率,記為P(計算機科學|詞={long,dynamic,source})模式分類器4P(生物學|詞={long,dynamic,source})>P(計算機科學|詞={long,dynamic,source})蟒蛇P(生物學|詞={long,dynamic,source})<P(計算機科學|詞={long,dynamic,source})python程序先驗概率P(生物學|詞={long,dynamic,source})P(Y|X)來表示隨機事件X發(fā)生的前提下,隨機事件Y發(fā)生的概率。也稱為X條件下Y的條件概率。P(計算機科學|詞={long,dynamic,source})后驗概率計算后驗概率怎么計算5要利用貝葉斯定理P(生物學|詞={long,dynamic,source})P(計算機科學|詞={long,dynamic,source})概率論基礎(chǔ)6假設(shè)X,Y是一對隨機變量,其概率分別用P(X)和P(Y)表示。聯(lián)合概率:X,Y的聯(lián)合概率P(X=x,Y=y)是指
X取值
x且
Y取值
y的概率。對于一般情況,對于隨機事件
X和
Y,聯(lián)合概率記為
P(XY)。
【例】盒中混有100只新、舊乒乓球,各有紅、白兩色,各種顏色和新舊程度的乒乓球數(shù)量如表所示。從盒中隨機取出一球,若取得的是紅球,求該紅球是新球的概率。設(shè)A=“從盒中隨機取到紅球”
B=“從盒中隨機取到新球”則:概率論基礎(chǔ)7
紅色白色新球4030舊球2010概率論基礎(chǔ)8獨立事件:對于隨機事件X、Y,若其中任一事件發(fā)生的概率不受另一事件發(fā)生與否的影響,稱事件X、Y是相互獨立的。如果用數(shù)學式來表達,為
概率論基礎(chǔ)9
貝葉斯定理貝葉斯定理:在隨機事件X、Y相互獨立的條件下,X和Y的聯(lián)合概率和條件概率滿足如下關(guān)系:10調(diào)整一下,得:貝葉斯公式在
X和
Y
互相獨立的前提下,事件
X條件下的
Y發(fā)生的概率
P(Y
|X)可以通過事件
Y條件下
X發(fā)生的概率
P(X
|Y)和
X,Y的概率
P(X),P(Y)求得計算后驗概率怎么計算11P(生物學|詞={long,dynamic,source})P(計算機科學|詞={long,dynamic,source})
獨立事件直觀上來講,對于隨機事件X、Y,若其中任一事件發(fā)生的概率不受另一事件發(fā)生與否的影響,稱事件X、Y是相互獨立的。如果用數(shù)學式來表達,為:12從數(shù)學上來定義,對于隨機事件X、Y,若P(XY)=P(X)P(Y),則稱事件X,Y相互獨立。條件獨立13X和Y之間的條件獨立時,有:
計算條件概率假設(shè)條件獨立14P(詞={long,dynamic,source}|生物學)=P(詞=long|生物學)
P(詞=dynamic|生物學)
P(詞=source|生物學)=0.2
0.1
0.1=0.002P(詞={long,dynamic,source}|計算機)=P(詞=long|計算機)
P(詞=dynamic|計算機)
P(詞=source|計算機)=0.1
0.6
0.3=0.018詞匯python:蟒蛇or“Python”15
利用貝葉斯公式(設(shè)生物學、計算機科學和X相互獨立),有:
可得出:包含了包含了long、dynamic和source的句子或文檔屬于計算機科學。貝葉斯分類的基本原理通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。貝葉斯分類器是最小錯誤率意義上的優(yōu)化。當一個貝葉斯分類器經(jīng)過訓練之后,就可以利用它來對新的項目進行自動分類了。16設(shè)每個數(shù)據(jù)樣本用一個n維特征向量X={x1,x2,…,xn}表示,描述由屬性A1,A2,…,An對樣本的n個度量。假定有m個類C1,C2,…,Cm。給定一個未知的(沒有類標號)數(shù)據(jù)樣本X,分類法將預(yù)測X屬于(條件X下)具有最高后驗概率的類,即將未知的樣本分配給類Ci,當且僅當:樸素貝葉斯分類器17最大后驗假設(shè)(MAPmaximumposteriorihypothesis)將X指派到具有最大后驗概率P(cj|X)的類cj也就是:將X指派到P(X|cj)P(cj)
最大的類cj因為根據(jù)貝葉斯定理,有:樸素貝葉斯分類器18
P(X)對于所有類為常數(shù),只需要使P(X|Ci)P(Ci)最大即可。因此,對未知數(shù)據(jù)樣本進行有效地分類,就是將P(Ci|X)最大化。分類屬性和連續(xù)屬性計算P(X|Ci)P(Ci)19
分類屬性和連續(xù)屬性計算P(X|Ci)P(Ci)20如果類的先驗概率P(X|Ci)P(Ci)未知,則通常假定這些類是等概率的,即:
P(C1)=
P(C2)=…=
P(Cm),這時,只需使P(X|Ci)最大化。
分類屬性和連續(xù)屬性【例】根據(jù)顧客消費數(shù)據(jù),估算是否會購買計算機。預(yù)測一個未知樣本X的類標號。21X={年齡=“<=30”,年收入=medium,是否學生=yes,信用狀況=fair}P(Cyes|X)vs.P(Cno|X)【例】根據(jù)顧客消費數(shù)據(jù),估算是否會購買計算機。預(yù)測一個未知樣本X
的類標號。分類屬性和連續(xù)屬性22設(shè):Cyes={購買計算機=yes}Cno={購買計算機=no}P(xi|Ci)CyesCno年齡<=302/93/5年收入medium4/92/5是否學生yes6/91/5信用狀況fair6/92/5P(Cyes)=9/14=0.643P(Cno)=5/14=0.357分類屬性和連續(xù)屬性【例】根據(jù)顧客消費數(shù)據(jù),估算是否會購買計算機。預(yù)測一個未知樣本X的類標號。23P(X|Cyes)=P(年齡=“<=30”|Cyes)
P(年收入=medium|Cyes)
P(是否學生=yes|Cyes)
P(信用狀況=fair|Cyes)=2/9
4/9
6/9
6/9
=0.044P(X
|Cno)=P(年齡=“<=30”|Cno)
P(年收入=medium|Cno)
P(是否學生=yes|Cno)
P(信用狀況=fair|Cno)=3/5
2/5
1/5
2/5=0.019P(X|Cyes)P(Cyes)=0.044
0.643=0.028P(X|Cno)P(Cno)=0.019
0.357=0.007
{購買計算機=yes}連續(xù)屬性的類條件概率兩種方法估計連續(xù)屬性的類條件概率將連續(xù)屬性離散化用相應(yīng)的離散區(qū)間替換連續(xù)屬性值,其實質(zhì)是將連續(xù)屬性轉(zhuǎn)換成序數(shù)屬性。通過計算類
y的訓練記錄中落入
Xi對應(yīng)區(qū)間的比例來估計條件概率
。估計誤差由離散策略和離散區(qū)間的數(shù)據(jù)決定。如果離散區(qū)間的數(shù)目太多,則就會因為每一個區(qū)間中訓練記錄太少而不能做出可靠的估計。如果區(qū)間的數(shù)目太少,有些區(qū)間就會含有來自不同類的記錄,因此失去了正確的決策邊界。24連續(xù)屬性的類條件概率兩種方法估計連續(xù)屬性的類條件概率用概率分布模型來估計類條件概率假設(shè)連續(xù)變量服從某概率分布,并使用訓練數(shù)據(jù)估計分布的參數(shù),構(gòu)建概率分布模型,以此估計類條件概率。25用概率分布模型來估計類條件概率26正態(tài)分布均值
標準差
這是一個連續(xù)函數(shù),而隨機樣本是離散的,某特定樣本的概率為0,因此應(yīng)該計算x落在(xk,xk+ε)區(qū)間的條件概率:[例]用概率分布模型估計類條件概率【例】
預(yù)測貸款拖欠。表中為銀行預(yù)測貸款拖欠問題的訓練集數(shù)據(jù)。現(xiàn)在要根據(jù)表中的數(shù)據(jù),假設(shè)給定一個測試記錄X,預(yù)測該貸款是否會拖欠還款。27X={有房=否,婚姻狀況=已婚,年收入=120K}Tid有房婚姻狀況年收入拖欠貸款12345678910是否否是否否是否否否單身已婚單身已婚離婚已婚離婚單身已婚單身125K100K70K120K95K60K220K85K75K90KNoNoNoNoYesNoNoYesNoYes[例]用概率分布模型估計類條件概率28P(有房=是|no)=3/7P(有房=否|no)=4/7P(有房=是|yes)=0/3P(有房=否
|yes)=3/3P(婚姻狀況=單身|no)=2/7 P(婚姻狀況=離婚|no)=1/7P(婚姻狀況=已婚|no)=4/7 P(婚姻狀況=單身|yes)=2/3P(婚姻狀況=離婚|yes)=1/3 P(婚姻狀況=已婚|yes)=0/3【例】X={有房=否,婚姻狀況=已婚,年收入=120K}Tid有房婚姻狀況年收入拖欠貸款12345678910是否否是否否是否否否單身已婚單身已婚離婚已婚離婚單身已婚單身125K100K70K120K95K60K220K85K75K90KNoNoNoNoYesNoNoYesNoYesTid有房婚姻狀況年收入拖欠貸款12345678910是否否是否否是否否否單身已婚單身已婚離婚已婚離婚單身已婚單身125K100K70K120K95K60K220K85K75K90KNoNoNoNoYesNoNoYesNoYes[例]用概率分布模型估計類條件概率29年收入:均值
μ標準差σ方差σ2類no:11054.542975類yes:90525【例】X={有房=否,婚姻狀況=已婚,年收入=120K}[例]用概率分布模型估計類條件概率30X={有房=否,婚姻狀況=已婚,年收入=120K}【例】
拖欠還款=no條件概率0值問題某條件概率P(X=xi|C=cj)值為0問題m估計Laplace估計:31
誤差率與決策邊界如果知道支配P(X
|Y)的真實概率分布,使用貝葉斯分類方法,則能夠確定分類任務(wù)的理想決策邊界??梢越⒒谪惾~斯定理的分類模型32誤差率【例】
根據(jù)體長區(qū)分美洲鱷(alligator)和普通鱷魚。成年普通鱷魚的平均體長大約15英尺,成年美洲鱷體長大約12英尺。假設(shè)它們的體長
x服從標準差為2英尺的高斯分布,那么二者的類條件概率表示如下:33誤差率【例】普通鱷魚和美洲鱷類條件概率的比較。假設(shè)它們的先驗概率相同,理想決策邊界滿足:34得到:解得
誤差率
35總誤差稱為貝葉斯誤差率(Bayeserrorrate)。決策邊界【例】當先驗概率不同時,決策邊界朝著先驗概率較小的類移動。給定數(shù)據(jù)上的任何分類器所達到的最小誤差率都是可以計算的。36優(yōu)點演算方法速度最快規(guī)則清楚易懂其類條件獨立的假設(shè),在大多數(shù)問題上不會發(fā)生太大的偏誤缺點僅使用于帶有類別屬性的分類問題由于要求類條件獨立假設(shè),需要謹慎分析對于數(shù)據(jù)應(yīng)用該假設(shè)是否能夠成立37貝葉斯分類器的特點38貝葉斯分類器的特點
貝葉斯分類器的特點對孤立的噪聲點的魯棒性個別點對概率估計的影響很小對不相關(guān)屬性的魯棒性各類在不相關(guān)屬性上具有類似分布容易處理缺失值在估計概率時忽略缺失值的訓練實例類條件獨立假設(shè)可能不成立相關(guān)屬性可能會減低樸素貝葉斯分類器的性能,因為對這些屬性,條件獨立的假設(shè)已不成立使用其他技術(shù),如貝葉斯信念網(wǎng)絡(luò)(BayesianBeliefNetworks,BBN)39因為在從數(shù)據(jù)中估計條件概率時,這些點被平均。如果數(shù)據(jù)樣本存在屬性缺失值,在估計概率時忽略缺失值的訓練實例。如果Xi
是無關(guān)屬性,那么P(Xi|Y)幾乎變成了均勻分布。Xi的類條件概率不會對總的后驗概率的計算產(chǎn)生影響。應(yīng)用從經(jīng)驗數(shù)據(jù)來看,在較多的應(yīng)用領(lǐng)域,貝葉斯分類器的效率與如諸如決策樹和人工神經(jīng)網(wǎng)絡(luò)分類器相比,處于同等水平。相較其他分類算法,理論上貝葉斯分類具有最小的錯誤率。但實踐中并非總是如此對其應(yīng)用的假定(如,類條件獨立性)的不準確性造成缺乏可用的概率數(shù)據(jù)造成的對于那些不直接使用貝葉斯定理的其他分類算法,貝葉斯分類器可以為它們提供一個理論判定依據(jù)。例如,某種假定下,可以證明,與樸素貝葉斯分類器一樣,許多人工神經(jīng)網(wǎng)絡(luò)和曲線擬合算法的輸出均為最大后驗假設(shè)。40貝葉斯信念網(wǎng)絡(luò)樸素貝葉斯分類器,為保證準確率,必須假設(shè)樣本屬性的類條件獨立但這個條件獨立的假設(shè)似乎過于嚴苛,無法應(yīng)用于那些屬性之間有一定相關(guān)性的分類問題而實際上在現(xiàn)實應(yīng)用中幾乎不可能做到屬性間的完全獨立41貝葉斯信念網(wǎng)絡(luò)能否找到一種更加靈活的類條件概率P(X|Y)的表示方法,可以說明和表示聯(lián)合條件概率分布,并在變量的子集間定義類條件獨立性,因而建模。該方法不要求給定類的所有屬性都條件獨立,而是允許指定某些屬性條件獨立。42貝葉斯信念網(wǎng)絡(luò)【例】肺部疾病患病因素,以及肺部疾病與癥狀的關(guān)聯(lián)關(guān)系。43條件概率表(CPT)①有家族史,吸煙者,
是否會患肺癌;②有家族史,不吸煙者,是否會患肺癌;③無家族史,吸煙者,
是否會患肺癌;④無家族史,不吸煙者,是否會患肺癌。貝葉斯信念網(wǎng)絡(luò)由兩個部分來定義:一是有向無環(huán)圖,各結(jié)點代表一個隨機變量,弧代表一個概率依賴二是每個屬性一個條件概率表(CPT)貝葉斯信念網(wǎng)絡(luò)貝葉斯信念網(wǎng)絡(luò)貝葉斯信念網(wǎng)絡(luò)允許在變量的子集間定義類條件獨立性:節(jié)點:隨機變量邊:依賴A,B
是C的父節(jié)點(前驅(qū))B
是D的父節(jié)點(前驅(qū))C和D之間沒有依賴關(guān)系圖中沒有環(huán)44ABCD貝葉斯信念網(wǎng)絡(luò)貝葉斯信念網(wǎng)絡(luò)允許在變量的子集間定義類條件獨立性:45如果結(jié)點
A沒有父結(jié)點,則表中只包含先驗概率P(A)。A和B相互獨立,并且都直接影響第三個變量C,CPT中包含條件概率P(C|A,B)如果結(jié)點B只有一個父結(jié)點A,則表中只包含條件概率P(B|A)如果結(jié)點
A有多個子結(jié)點B1,B2,…,Bm,則表中只包含條件概率P(B1|A),P(B2|A),…,P(Bm|A)ABCAABDB3AB1B2Bm…貝葉斯信念網(wǎng)絡(luò)構(gòu)建貝葉斯網(wǎng)絡(luò)的建模包括兩個內(nèi)容:創(chuàng)建網(wǎng)絡(luò)結(jié)構(gòu)估計每一個結(jié)點的概率表中的概率值46【例】變量肺癌的條件概率表(CPT),給出其父結(jié)點有家族史和吸煙者的每個可能值的組合的條件概率47例如,由肺癌的父結(jié)點,分別得到
P(肺癌=“yes”|有家族史=“yes”,吸煙者=“yes”)=0.8 P(肺癌=“no”|有家族史=“no”,吸煙者=“no”)=0.9【例】對應(yīng)于屬性或變量X1,…,Xn的任意元組(x1,…,xn)的聯(lián)合概率由下式計算
其中,P(xi|parents(xi))的值對應(yīng)于
xi的CPT中的表目48訓練貝葉斯信念網(wǎng)絡(luò)若干情況給定網(wǎng)絡(luò)結(jié)構(gòu)和所有可觀測變量只需要學習CPT網(wǎng)絡(luò)結(jié)構(gòu)已知,而某些變量是隱藏的使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年醫(yī)院直線加速器維護合同
- 監(jiān)控設(shè)備拆除合同(標準版)
- 2026年醫(yī)用激光器冷卻系統(tǒng)維護合同
- 2026年社區(qū)電瓶車集中充電樁建設(shè)運營合同
- 低碳經(jīng)濟商業(yè)合作框架協(xié)議
- 2025年食品與健康結(jié)合的創(chuàng)新項目可行性研究報告
- 2025年環(huán)保型公共交通系統(tǒng)可行性研究報告
- 2025年居家養(yǎng)老服務(wù)平臺建設(shè)可行性研究報告
- 2025年深度學習在醫(yī)療影像中的應(yīng)用項目可行性研究報告
- 2025年城市共享停車設(shè)施開發(fā)可行性研究報告
- 餐飲業(yè)安全生產(chǎn)責任制
- 2025年西藏公務(wù)員考試試題真題
- 蛋雞買賣合同(標準版)
- 民航招飛面試常見的面試問題及答案
- 1.3.1細胞通過分裂產(chǎn)生新細胞說課稿-2024-2025學年人教版生物七年級上冊
- 大學生(英語專業(yè))生涯發(fā)展展示 適用于職業(yè)規(guī)劃模板1
- 小學美術(shù)活動策劃方案
- 2025至2030中國醫(yī)用多參數(shù)監(jiān)護儀行業(yè)項目調(diào)研及市場前景預(yù)測評估報告
- 重要客戶開發(fā)匯報
- 2025化工和危險化學品生產(chǎn)經(jīng)營單位重大生產(chǎn)安全事故隱患判定標準解讀
- 2025-2030中國物流園區(qū)陸港型國家物流樞紐申報與建設(shè)指南報告
評論
0/150
提交評論