版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
簡(jiǎn)單貝葉斯分類(lèi)監(jiān)督式的學(xué)習(xí)方式,因此,在進(jìn)行分類(lèi)之前需要先知道分類(lèi)的類(lèi)型。通過(guò)訓(xùn)練樣本的訓(xùn)練學(xué)習(xí)有效的處理未來(lái)要做分類(lèi)的數(shù)據(jù)。例:分類(lèi)垃圾郵件與非垃圾郵件方法:“點(diǎn)擊〞、“此處〞、“取消訂閱〞出現(xiàn)概率,垃圾郵件各位0.9,正常郵件各為0.2,把信息中所有文字的概率相乘,再利用貝葉斯統(tǒng)計(jì)原理,即可估計(jì)出該信息為垃圾郵件的概率。概率:概率在實(shí)質(zhì)上就是無(wú)知。先驗(yàn)概率:對(duì)每種場(chǎng)景的可能性認(rèn)識(shí)就是概率分布P(Ai)。這樣的概率就是先驗(yàn)概率。后驗(yàn)概率:“某某事件發(fā)生了〞情況下某場(chǎng)景的概率,叫做后驗(yàn)概率P(Ai|Y)。概率、先驗(yàn)概率與后驗(yàn)概率定義事件組A1,A2,…,An(n可為),稱為樣本空間S的一個(gè)劃分,假設(shè)滿足:A1A2……………AnB貝葉斯定理回憶定理設(shè)A1,…,An是S的一個(gè)劃分,且P(Ai)>0,(i=1,…,n),那么對(duì)任何事件BS,有式子就稱為貝葉斯公式。貝葉斯定理回憶這一公式最早發(fā)表于1763年,當(dāng)時(shí)貝葉斯已經(jīng)去世,其結(jié)果沒(méi)有受到應(yīng)有的重視.后來(lái),人們才逐漸認(rèn)識(shí)到了這個(gè)著名概率公式的重要性.現(xiàn)在,貝葉斯公式以及根據(jù)它開(kāi)展起來(lái)的貝葉斯統(tǒng)計(jì)已成為機(jī)器學(xué)習(xí)、人工智能、知識(shí)發(fā)現(xiàn)等領(lǐng)域的重要工具.
貝葉斯定理回憶貝葉斯公式給出了‘結(jié)果’事件B已發(fā)生的條件下,‘原因’屬于事件Ai的條件概率.從這個(gè)意義上講,它是一個(gè)“執(zhí)果索因〞的條件概率計(jì)算公式.相對(duì)于事件B而言,概率論中把P(Ai)稱為先驗(yàn)概率〔PriorProbability〕,而把P(Ai|B)稱為后驗(yàn)概率〔PosteriorProbability〕,這是在已有附加信息〔即事件B已發(fā)生〕之后對(duì)事件發(fā)生的可能性做出的重新認(rèn)識(shí),表達(dá)了已有信息帶來(lái)的知識(shí)更新.貝葉斯定理回憶分類(lèi)問(wèn)題1名稱胎生會(huì)飛水中生活有腿類(lèi)別Human是否否是哺乳動(dòng)物python否否否否非哺乳動(dòng)物salmon否否是否非哺乳動(dòng)物whale是否是否哺乳動(dòng)物frog否否有時(shí)是非哺乳動(dòng)物komodo否否否是非哺乳動(dòng)物bat是是否是哺乳動(dòng)物pigeon否是否是非哺乳動(dòng)物cat是否否是哺乳動(dòng)物leopard_shark是否是否非哺乳動(dòng)物turtle否否有時(shí)是非哺乳動(dòng)物penguin否否有時(shí)是非哺乳動(dòng)物porcupine是否否是哺乳動(dòng)物eel否否是否非哺乳動(dòng)物salamander否否有時(shí)是非哺乳動(dòng)物gila_monster否否否是非哺乳動(dòng)物platypus否否否是哺乳動(dòng)物owl否是否是非哺乳動(dòng)物dolphin是否是否哺乳動(dòng)物eagle否是否是非哺乳動(dòng)物胎生會(huì)飛水中生活有腿類(lèi)別是否是否?分類(lèi)問(wèn)題2這個(gè)人會(huì)不會(huì)逃稅?稅號(hào)去年退稅婚姻狀況可征稅收入逃稅1是單身125k否2否婚姻中100k否3否單身70k否4是婚姻中120k否5否離婚95k是6否婚姻中60k否7是離婚220k否8否單身85k是9否婚姻中75k否10否單身90k是貝葉斯分類(lèi)方法把每一個(gè)屬性〔輸入〕和分類(lèi)變量〔輸出〕都看作隨機(jī)變量對(duì)于具有屬性值(A1,A2,…,An)的觀測(cè)記錄目標(biāo)是預(yù)測(cè)類(lèi)別C特別地,我們想找能夠最大化P(C|A1,A2,…,An)的C值能否從直接數(shù)據(jù)中估計(jì)P(C|A1,A2,…,An)?貝葉斯分類(lèi)方法方法:使用貝葉斯定理對(duì)于分類(lèi)變量C的所有值計(jì)算后驗(yàn)概率P(C|A1,A2,…,An),選擇C使得P(C|A1,A2,…,An)最大
等價(jià)于選擇C使得P(A1,A2,…,An|C)P(C)最大如何估計(jì)P(A1,A2,…,An|C)?簡(jiǎn)單貝葉斯假設(shè)在給定的類(lèi)別上屬性變量Ai
相互獨(dú)立:P(A1,A2,…,An|C)=P(A1|Cj)P(A2|Cj)…
P(An|Cj)
對(duì)所有的Ai
和
Cj計(jì)算P(Ai|Cj).如果對(duì)某一個(gè)Cj
,P(Cj)
P(Ai|Cj)最大,新的數(shù)據(jù)點(diǎn)就被分類(lèi)到Cj
。哪個(gè)條件概率更大,這個(gè)新觀測(cè)記錄就歸到那個(gè)類(lèi)。貝葉斯分類(lèi)法:二類(lèi)別問(wèn)題:在數(shù)據(jù)集合中,X
表示多維離散隨機(jī)輸入向量,C0
和C1是輸出變量的兩個(gè)類(lèi)別。對(duì)于新觀測(cè)記錄
,它應(yīng)該屬于哪個(gè)類(lèi)別呢?根據(jù)貝葉斯定理,1.輸入變量為離散時(shí)的貝葉斯分類(lèi)法更大〔續(xù)上頁(yè)〕比較條件概率的方法等價(jià)于找Cj使得貝葉斯分類(lèi)法:二類(lèi)別分類(lèi)問(wèn)題1名稱胎生會(huì)飛水中生活有腿類(lèi)別Human是否否是哺乳動(dòng)物python否否否否非哺乳動(dòng)物salmon否否是否非哺乳動(dòng)物whale是否是否哺乳動(dòng)物frog否否有時(shí)是非哺乳動(dòng)物komodo否否否是非哺乳動(dòng)物bat是是否是哺乳動(dòng)物pigeon否是否是非哺乳動(dòng)物cat是否否是哺乳動(dòng)物leopard_shark是否是否非哺乳動(dòng)物turtle否否有時(shí)是非哺乳動(dòng)物penguin否否有時(shí)是非哺乳動(dòng)物porcupine是否否是哺乳動(dòng)物eel否否是否非哺乳動(dòng)物salamander否否有時(shí)是非哺乳動(dòng)物gila_monster否否否是非哺乳動(dòng)物platypus否否否是哺乳動(dòng)物owl否是否是非哺乳動(dòng)物dolphin是否是否哺乳動(dòng)物eagle否是否是非哺乳動(dòng)物胎生會(huì)飛水中生活有腿類(lèi)別是否是否?P(A|M)=P(胎生=是|M)P(會(huì)飛=否|M)
P(水中生活=是|M)
P(有腿=否|M)
P(A|N)=P(胎生=是|N)
P(會(huì)飛=否|N)
P(水中生活=是|N)
P(有腿=否|N)
分類(lèi)問(wèn)題1A:〔胎生=是,會(huì)飛=否,水中生活=是,有腿=否〕M:哺乳動(dòng)物N:非哺乳動(dòng)物P(A|M)P(M)>P(A|N)P(N)=>哺乳動(dòng)物2.輸入變量為連續(xù)時(shí)的貝葉斯分類(lèi)法f0(x)和f1(x)分別是C0和C1類(lèi)別上的預(yù)測(cè)變量〔或向量〕的概率密度函數(shù)
a貝葉斯分類(lèi)法:二類(lèi)別問(wèn)題:在數(shù)據(jù)集合中,X
表示多維連續(xù)隨機(jī)輸入向量,C0
和C1是輸出變量的兩個(gè)類(lèi)別。對(duì)于新觀測(cè)記錄
,它應(yīng)該屬于哪個(gè)類(lèi)別呢?根據(jù)貝葉斯定理,2.輸入變量為連續(xù)時(shí)的貝葉斯分類(lèi)法貝葉斯分類(lèi)法:二類(lèi)別哪個(gè)條件概率更大,這個(gè)新觀測(cè)記錄就歸到那個(gè)類(lèi)。貝葉斯分類(lèi)法:二類(lèi)別更大〔續(xù)上頁(yè)〕比較條件概率的方法等價(jià)于找Cj使得
a
ab假設(shè)P(C0)=2P(C1),假設(shè)P(C0)=P(C1)=0.5,當(dāng)X>a,觀測(cè)記錄分類(lèi)到C1.當(dāng)X>b,觀測(cè)記錄分類(lèi)到C1.2.輸入變量為連續(xù)時(shí)的貝葉斯分類(lèi)法貝葉斯分類(lèi)法:二類(lèi)別分類(lèi)問(wèn)題2稅號(hào)去年退稅婚姻狀況可征稅收入逃稅1是單身125k否2否婚姻中100k否3否單身70k否4是婚姻中120k否5否離婚95k是6否婚姻中60k否7是離婚220k否8否單身85k是9否婚姻中75k否10否單身90k是類(lèi)別:P(Ck)=Nk/N例如,P(C=否)=7/10,
P(C=是)=3/10Nk
是類(lèi)別C=Ck.的數(shù)量對(duì)離散屬性:
P(Ai|Ck)=|Aik|/Nk
|Aik|是屬性值為Ai
且屬于Ck的記錄數(shù)量例如:
P(婚姻狀況=婚姻中|否)=4/7
P(去年退稅=是|是)=0對(duì)于連續(xù)屬性:離散化
把屬性的范圍劃分為許多段:
每一段設(shè)定一個(gè)有序值
這樣會(huì)違反獨(dú)立性假設(shè)估計(jì)概率密度:
假定屬性服從正態(tài)分布
估計(jì)該屬性分布的參數(shù)
(例如,均值和標(biāo)準(zhǔn)差)
在得到概率密度之后,我們可以使用它估計(jì)條件概率P(Ai|c)分類(lèi)問(wèn)題2分類(lèi)問(wèn)題2稅號(hào)去年退稅婚姻狀況可征稅收入逃稅1是單身125k否2否婚姻中100k否3否單身70k否4是婚姻中120k否5否離婚95k是6否婚姻中60k否7是離婚220k否8否單身85k是9否婚姻中75k否10否單身90k是每一對(duì)(Ai,ci)的正態(tài)分布:例如對(duì)于(收入,逃稅=否):在逃稅=否的情況下,可征稅收入的
樣本均值=110
樣本方差=2975P(X|逃稅=否)=P(去年退稅=否|逃稅=否)
P(婚姻中|逃稅=否)
P(收入=120K|逃稅=否)
=4/74/70.0072=0.0024P(X|逃稅=是)=P(去年退稅=否|逃稅=是)
P(婚姻中|逃稅=是)
P(收入=120K|逃稅=是)
=101.210-9=0因?yàn)椋篜(X|否)P(否)>P(X|是)P(是)所以:P(否|X)>P(是|X)
=>逃稅=否分類(lèi)問(wèn)題2錯(cuò)誤分類(lèi)率的精度定義隨機(jī)變量Xi如果第i個(gè)記錄被錯(cuò)誤分類(lèi),Xi=1;否那么Xi=0.假定Xi獨(dú)立同分布,且P(Xi=1)=p,P(Xi=0)=q.如果我們認(rèn)為真正的錯(cuò)誤分類(lèi)率可能在0.05左右,我們希望有99%的信心誤差在真實(shí)錯(cuò)誤分類(lèi)率的正負(fù)0.01以內(nèi),我們需要的記錄數(shù)為:關(guān)于簡(jiǎn)單貝葉斯盡管有大量的獨(dú)立假設(shè),總的來(lái)說(shuō)分類(lèi)效果還可以。在某些領(lǐng)域的應(yīng)用上,其分類(lèi)效果優(yōu)于類(lèi)神經(jīng)網(wǎng)絡(luò)和決策樹(shù)。實(shí)驗(yàn)說(shuō)明在一些標(biāo)準(zhǔn)數(shù)據(jù)集合上其效果和其它分類(lèi)法差不多。即使獨(dú)立假設(shè)不成立,且概率估計(jì)不精確,還是可以找到最大概率的類(lèi)別。MicrosoftNaiveBayes算法MicrosoftNaiveBayes算法是MicrosoftSQLServer2005AnalysisServices(SSAS)提供的一種分類(lèi)算法,用于預(yù)測(cè)性建模。該算法在假定列互不相關(guān)的前提下計(jì)算輸入列和可預(yù)測(cè)列之間的條件概率。該算法的名稱NaiveBayes即由這一無(wú)關(guān)性假定而來(lái),因?yàn)榛谶@種理想化的假定,該算法未將可能存在的依賴關(guān)系考慮在內(nèi)。與其他Microsoft算法相比,該算法所需的運(yùn)算量小,因而能夠快速生成挖掘模型,以發(fā)現(xiàn)輸入列和可預(yù)測(cè)列之間的關(guān)系。可以使用該算法進(jìn)行初始數(shù)據(jù)探測(cè),然后根據(jù)該算法的結(jié)果使用其他運(yùn)算量較大、更加精確的算法創(chuàng)立其他挖掘模型。實(shí)驗(yàn)五貝葉斯分類(lèi)實(shí)驗(yàn)內(nèi)容:生成目標(biāo)郵件方案,AdventureWorks的市場(chǎng)部希望通過(guò)向特定客戶發(fā)送郵件的方式來(lái)提高銷(xiāo)售量。公司希望通過(guò)調(diào)查客戶的特性來(lái)找到可應(yīng)用于潛在客戶的模式。公司希望使用已發(fā)現(xiàn)的模式來(lái)預(yù)測(cè)哪些潛在客戶最有可能購(gòu)置自己的產(chǎn)品。公司的數(shù)據(jù)庫(kù)AdventureWorksDW包含一個(gè)現(xiàn)有客戶列表和一個(gè)潛在的新客戶列表。創(chuàng)立一個(gè)目標(biāo)郵件方案,包含決策樹(shù)和貝葉斯分類(lèi)挖掘模型,這些模型能夠提供潛在客戶列表中最有可能購(gòu)置產(chǎn)品的客戶的建議。決策樹(shù)模型
(DecisionTree)ID3方法根本思想當(dāng)前國(guó)際上最有影響的例如學(xué)習(xí)方法首推的ID3〔InterativeDicmiserversions3〕.原理:首先找出最有判別力的特征,把數(shù)據(jù)分成多個(gè)子集,每個(gè)子集又選擇最有判別力的特征進(jìn)行劃分,一直進(jìn)行到所有子集僅包含同一類(lèi)型的數(shù)據(jù)為止。最后得到一棵決策樹(shù)。的工作主要是引進(jìn)了信息論中的互信息,他將其稱為信息增益〔informationgain〕,作為特征判別能力的度量,并且將建樹(shù)的方法嵌在一個(gè)迭代的外殼之中。平均互信息I〔U,V〕=H〔U〕H〔U|V〕I〔U,V〕稱為U和V之間的平均互信息.它代表接收到符號(hào)集V后獲得的關(guān)于U的信息量。對(duì)輸入端U只有U1,U2兩類(lèi),互信息的計(jì)算公式為: NO.屬性類(lèi)別天氣氣溫濕度風(fēng)1晴熱高無(wú)風(fēng)N2晴熱高有風(fēng)N3多云熱高無(wú)風(fēng)P4雨適中高無(wú)風(fēng)P5雨冷正常無(wú)風(fēng)P6雨冷正常有風(fēng)N7多云冷正常有風(fēng)P8晴適中高無(wú)風(fēng)N9晴冷正常無(wú)風(fēng)P10雨適中正常無(wú)風(fēng)P11晴適中正常有風(fēng)P12多云適中高有風(fēng)P13多云熱正常無(wú)風(fēng)P14雨適中高有風(fēng)N天
氣濕度風(fēng)晴雨多云高正常有風(fēng)無(wú)風(fēng)PNNPPID3決策樹(shù)某天早晨氣候描述為:
天氣:多云
氣溫:冷
濕度:正常
風(fēng):無(wú)風(fēng)它屬于哪類(lèi)氣候呢?實(shí)例計(jì)算對(duì)于氣候分類(lèi)問(wèn)題進(jìn)行具體計(jì)算有:⒈信息熵的計(jì)算信息熵:類(lèi)別出現(xiàn)概率:|S|表例如子集S的總數(shù),|ui|表示類(lèi)別ui的例子數(shù)。對(duì)9個(gè)正例和5個(gè)反例有:P〔u1〕=9/14 P〔u2〕=5/14H〔U〕=〔9/14〕log〔14/9〕+〔5/14〕log〔14/5〕=0.94bit⒉條件熵計(jì)算條件熵:屬性A1取值vj時(shí),類(lèi)別ui的條件概率:A1=天氣取值v1=晴,v2=多云,v3=雨在A1處取值晴的例子5個(gè),取值多云的例子4個(gè),取值雨的例子5個(gè),故:P〔v1〕=5/14P〔v2〕=4/14P〔v3〕=5/14取值為晴的5個(gè)例子中有2個(gè)正例、3個(gè)反例,故:P〔u1/v1〕=2/5,P〔u2/v1〕=3/5同理有:P〔u1/v2〕=4/4,P〔u2/v2〕=0P〔u1/v3〕=2/5,P〔u2/v3〕=3/5H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)((4/4)log(4/4)+0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3))=0.694bit⒊互信息計(jì)算對(duì)A1=天氣處有:I〔天氣〕=H〔U〕-H〔U|V〕=0.94-0.694=0.246bit類(lèi)似可得:I〔氣溫〕=0.029bitI〔濕度〕=0.151bitI〔風(fēng)〕=0.048bit⒋建決策樹(shù)的樹(shù)根和分枝ID3算法將選擇互信息最大的特征天氣作為樹(shù)根,在14個(gè)例子中對(duì)天氣的3個(gè)取值進(jìn)行分枝,3個(gè)分枝對(duì)應(yīng)3個(gè)子集,分別是:F1={1,2,8,9,11},F(xiàn)2={3,7,12,13},F(xiàn)3={4,5,6,10,14}其中F2中的例子全屬于P類(lèi),因此對(duì)應(yīng)分枝標(biāo)記為P,其余兩個(gè)子集既含有正例又含有反例,將遞歸調(diào)用建樹(shù)算法。⒌遞歸建樹(shù)分別對(duì)F1和F3子集利用ID3算法,在每個(gè)子集中對(duì)各特征〔仍為四個(gè)特征〕求互信息.〔1〕F1中的天氣全取晴值,那么H〔U〕=H〔U|V〕,有I〔U|V〕=0,在余下三個(gè)特征中求出濕度互信息最大,以它為該分枝的根結(jié)點(diǎn),再向下分枝。濕度取高的例子全為N類(lèi),該分枝標(biāo)記N。取值正常的例子全為P類(lèi),該分枝標(biāo)記P?!?〕在F3中,對(duì)四個(gè)特征求互信息,得到風(fēng)特征互信息最大,那么以它為該分枝根結(jié)點(diǎn)。再向下分枝,風(fēng)取有風(fēng)時(shí)全為N類(lèi),該分枝標(biāo)記N。取無(wú)風(fēng)時(shí)全為P類(lèi),該分枝標(biāo)記P。這樣就得到以下圖的決策樹(shù)。天
氣濕度風(fēng)晴雨多云高正常有風(fēng)無(wú)風(fēng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 42513.10-2025鎳合金化學(xué)分析方法第10部分:痕量元素含量的測(cè)定輝光放電質(zhì)譜法
- GB/T 4937.36-2025半導(dǎo)體器件機(jī)械和氣候試驗(yàn)方法第36部分:穩(wěn)態(tài)加速度
- 2026年天津機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)帶答案詳解
- 2026年寧夏工商職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性考試題庫(kù)及答案詳解一套
- 2026年平?jīng)雎殬I(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)及答案詳解一套
- 2026年運(yùn)城師范高等??茖W(xué)校單招職業(yè)適應(yīng)性考試題庫(kù)及完整答案詳解1套
- 2026年云南現(xiàn)代職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)及完整答案詳解1套
- 2026年安徽國(guó)際商務(wù)職業(yè)學(xué)院?jiǎn)握新殬I(yè)傾向性考試題庫(kù)含答案詳解
- 2026年贛西科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試題庫(kù)及答案詳解一套
- 2026年云南商務(wù)職業(yè)學(xué)院?jiǎn)握新殬I(yè)傾向性考試題庫(kù)及完整答案詳解1套
- 高考復(fù)習(xí)專題之李白專練
- 對(duì)建筑工程施工轉(zhuǎn)包違法分包等違法行為認(rèn)定查處管理課件
- 中小學(xué)生勵(lì)志主題班會(huì)課件《我的未來(lái)不是夢(mèng)》
- 幼兒園戶外體育游戲觀察記錄
- 紅色國(guó)潮風(fēng)舌尖上的美食餐飲策劃書(shū)PPT模板
- 套筒窯工藝技術(shù)操作規(guī)程
- 某礦區(qū)采場(chǎng)淺孔爆破施工設(shè)計(jì)
- 果蠅遺傳學(xué)實(shí)驗(yàn)
- 普夯施工方案
- 新飼料和新飼料添加劑審定申請(qǐng)表
- 你看起來(lái)好像很好吃教案
評(píng)論
0/150
提交評(píng)論