第5章 樸素貝葉斯分類器_第1頁(yè)
第5章 樸素貝葉斯分類器_第2頁(yè)
第5章 樸素貝葉斯分類器_第3頁(yè)
第5章 樸素貝葉斯分類器_第4頁(yè)
第5章 樸素貝葉斯分類器_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章樸素貝葉斯分類器

樸素貝葉斯分類器是一種有監(jiān)督的統(tǒng)計(jì)學(xué)過(guò)濾器,在垃圾郵件過(guò)濾、信息檢索等領(lǐng)域十分常用。通過(guò)本章的介紹,讀者將會(huì)看到樸素貝葉斯分類器因何得名、其與貝葉斯公式的聯(lián)系,以及其與極大似然估計(jì)的關(guān)系。5.1極大似然估計(jì)

5.2樸素貝葉斯分類

5.3拉普拉斯平滑

當(dāng)樣本集合不夠大時(shí),可能無(wú)法覆蓋特征的所有可能取值。也就是說(shuō),可能存在某個(gè)ck和xi使

P(Xi=xi|Y=ck)=0

此時(shí),無(wú)論其他特征分量的取值為何,都一定有

P(Y=ck)i=1nP(Xi=xi|Y=ck)=0

為了避免這樣的問(wèn)題,實(shí)際應(yīng)用中常采用平滑處理。典型的平滑處理就是拉普拉斯平滑

P(Y=ck)≈Nk+1m+K

P(Xi=xi|Y=ck)≈j=1mI{xji=xi,yj=ck}+1Nk+Ai

其中Ai表示Xi的所有可能取值的個(gè)數(shù)?;谏鲜鲇懻摚暾臉闼刎惾~斯分類器的算法描述如算法5?1所示算法5?1

樸素貝葉斯分類器

5.4樸素貝葉斯分類器的極大似然估計(jì)解釋

5.5實(shí)例:基于樸素貝葉斯實(shí)現(xiàn)垃圾短信分類

本節(jié)以一個(gè)例子來(lái)闡述樸素貝葉斯分類器在垃圾短信分類中的應(yīng)用。SMSSpamCollectionDataSet是一個(gè)垃圾短信分類數(shù)據(jù)集,包含了5574條短信,其中有747條垃圾短信。數(shù)據(jù)集以純文本的形式存儲(chǔ),其中每行對(duì)應(yīng)于一條短信。每行的第一個(gè)單詞是spam或ham,表示該行的短信是不是垃圾短信。隨后記錄了短信的內(nèi)容,內(nèi)容和標(biāo)簽之間以制表符分隔。該數(shù)據(jù)集沒(méi)有收錄進(jìn)sklearn.datasets,所以我們需要自行加載,如代碼清單5-1所示。

最后就是樸素貝葉斯分類器的構(gòu)造與訓(xùn)練,如代碼清單5?3所示。我們首先基于訓(xùn)練集訓(xùn)練樸素貝葉斯分類器,然后分別在訓(xùn)練集和測(cè)試集上進(jìn)行測(cè)試。測(cè)試結(jié)果顯示,模型在訓(xùn)練集上的分類準(zhǔn)確率達(dá)到0.993,在測(cè)試集上的分類準(zhǔn)確率為0.986。可見(jiàn)樸素貝葉斯分類器達(dá)到了良好的分類效果。樸素貝葉斯分類器假設(shè)樣本特征之間相互獨(dú)立。這一假設(shè)非常強(qiáng),以至于幾乎不

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論