機器學(xué)習(xí)應(yīng)用基礎(chǔ) 課件 第八章 樸素貝葉斯_第1頁
機器學(xué)習(xí)應(yīng)用基礎(chǔ) 課件 第八章 樸素貝葉斯_第2頁
機器學(xué)習(xí)應(yīng)用基礎(chǔ) 課件 第八章 樸素貝葉斯_第3頁
機器學(xué)習(xí)應(yīng)用基礎(chǔ) 課件 第八章 樸素貝葉斯_第4頁
機器學(xué)習(xí)應(yīng)用基礎(chǔ) 課件 第八章 樸素貝葉斯_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第八章樸素貝葉斯機器學(xué)習(xí)應(yīng)用基礎(chǔ)01020304問題引入貝葉斯定理樸素貝葉斯樸素貝葉斯的3種形式及scikit-learn實現(xiàn)目錄CONTENTS05新聞分類問題引入01問題引入樸素貝葉斯(NaiveBayes)是一種基于貝葉斯定理的概率機器學(xué)習(xí)算法,可用于多種分類任務(wù)。天氣溫度濕度有風(fēng)打網(wǎng)球晴熱高有不去晴熱高沒有不去多云熱高有去有雨暖和高有去有雨涼正常有去有雨涼正常沒有不去貝葉斯定理02貝葉斯定理條件概率,一般記作P(A|B),意思是當(dāng)B事件發(fā)生時,A事件發(fā)生的概率。其定義為:其中

意思是A和B共同發(fā)生的概率,稱為聯(lián)合概率。也可以寫作P(A,B)或P(AB)。

注意,定義中A與B之間不一定有因果或者時間序列關(guān)系。貝葉斯定理樣本空間是一個實驗或隨機試驗所有可能結(jié)果的集合,樣本空間的任何一個子集都被稱為一個事件。條件概率P(A|B):貝葉斯定理通過條件概率,我們知道:通過上式,可以得出:從而得出:樸素貝葉斯03樸素貝葉斯貝葉斯定理假設(shè)某個樣本有n個特征,分別為。有m個類別,分別為。我們將貝葉斯定理重寫為對這個分類任務(wù)更為自然的形式,公式如下:貝葉斯分類器就是計算出概率最大的那個分類,也就是求上式的最大值。由于

對所有類別都相同,可以省略,故變?yōu)?/p>

求的最大值。樸素貝葉斯樸素貝葉斯利用后驗概率最大化來判定數(shù)據(jù)所屬的類別,其“樸素”之處在于條件獨立性的引入。條件獨立性假設(shè)保證了所有屬性相互獨立,互不影響,每個屬性獨立地對分類結(jié)果發(fā)生作用,這樣類條件概率就變成了屬性條件概率的乘積。利用樸素貝葉斯的條件獨立性,有:求上式最大值,即求

:樸素貝葉斯的3種形式及scikit-learn實現(xiàn)04

樸素貝葉斯的3種形式及scikit-learn實現(xiàn)根據(jù)假設(shè)的不同,樸素貝葉斯有3種形式,即高斯樸素貝葉斯、多項式樸素貝葉斯和伯努利樸素貝葉斯。scikit-learn提供了3個樸素貝葉斯分類算法。這3種算法適合應(yīng)用在不同的場景下,我們應(yīng)該根據(jù)特征變量的不同選擇不同的算法。

樸素貝葉斯的3種形式及scikit-learn實現(xiàn)假設(shè)特征x的條件概率分布滿足高斯分布:其中:

為第

個特征的條件概率分布的均值,

為第

個特征的條件概率分布的方差。適用場景:適合連續(xù)特征,它假設(shè)每個特征對于每個類都符合正態(tài)分布,比如說人的身高,物體的長度。scikit-learn實現(xiàn)如下:classsklearn.naive_bayes.GaussianNB()

樸素貝葉斯的3種形式及scikit-learn實現(xiàn)假設(shè)特征的條件概率分布滿足多項式分布:其中:

表示屬于類別

的樣本的數(shù)量。

表示屬于類別

且第

個特征取值為

的樣本的數(shù)量。適用場景:適合類別特征,特征變量是離散變量,符合多項分布,如在文檔分類中特征變量體現(xiàn)在一個單詞出現(xiàn)的次數(shù),或者是單詞的TF-IDF值等。scikit-learn實現(xiàn)如下:classsklearn.naive_bayes.MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)

樸素貝葉斯的3種形式及scikit-learn實現(xiàn)假設(shè)特征的條件概率分布滿足二項分布:其中

,且要求特征的取值為

。適用場景:適合于所有特征均為二元值的情形,符合0/1分布,比如在文檔分類中以單詞是否出現(xiàn)為特征。scikit-learn實現(xiàn)如下:classsklearn.naive_bayes.BernoulliNB(alpha=1.0,binarize=0.0,fit_prior=True,class_prior=None)05新聞分類新聞分類樸素貝葉斯算法在自然語言處理領(lǐng)域有廣泛的應(yīng)用,也是最早用于文本分類的算法之一。本節(jié)我們利用樸素貝葉斯算法在數(shù)據(jù)集20Newsgroups演示文本分類-版本。20Newsgroups數(shù)據(jù)集是用于文本分類、文本挖據(jù)和信息檢索研究的國際標準數(shù)據(jù)集之一。20newsgroups數(shù)據(jù)集有三個版本:第一個版本19997是原始的并沒有修改過的版本。第二個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論