版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、作者:阮一峰日期:2011年8月25日一年前的這個(gè)時(shí)候,我正在翻譯Paul Graham的黑客與畫(huà)家。那本書(shū)的第八章,寫(xiě)了一個(gè)非常具體的技術(shù)問(wèn)題-如何使用貝葉斯推斷過(guò)濾垃圾郵件(英文版)。我沒(méi)完全看懂那一章。當(dāng)時(shí)是硬著頭皮,按照字面意思把它譯出來(lái)的。雖然譯文質(zhì)量還可以,但是心里很不舒服,下決心一定要搞懂它。一年過(guò)去了,我讀了一些概率論文獻(xiàn),逐漸發(fā)現(xiàn)貝葉斯推斷并不難。原理的部分相當(dāng)容易理解,不需要用到高等數(shù)學(xué)。下面就是我的學(xué)習(xí)筆記。需要聲明的是,我并不是這方面的專家,數(shù)學(xué)其實(shí)是我的弱項(xiàng)。歡迎大家提出寶貴意見(jiàn),讓我們共同學(xué)習(xí)和提高。=貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用作者:阮一峰一、什么是貝葉斯推斷貝葉斯推
2、斷(Bayesian inference)是一種統(tǒng)計(jì)學(xué)方法,用來(lái)估計(jì)統(tǒng)計(jì)量的某種性質(zhì)。它是貝葉斯定理(Bayes theorem)的應(yīng)用。英國(guó)數(shù)學(xué)家托馬斯貝葉斯(Thomas Bayes)在1763年發(fā)表的一篇論文中,首先提出了這個(gè)定理。貝葉斯推斷與其他統(tǒng)計(jì)學(xué)推斷方法截然不同。它建立在主觀判斷的基礎(chǔ)上,也就是說(shuō),你可以不需要客觀證據(jù),先估計(jì)一個(gè)值,然后根據(jù)實(shí)際結(jié)果不斷修正。正是因?yàn)樗闹饔^性太強(qiáng),曾經(jīng)遭到許多統(tǒng)計(jì)學(xué)家的詬病。貝葉斯推斷需要大量的計(jì)算,因此歷史上很長(zhǎng)一段時(shí)間,無(wú)法得到廣泛應(yīng)用。只有計(jì)算機(jī)誕生以后,它才獲得真正的重視。人們發(fā)現(xiàn),許多統(tǒng)計(jì)量是無(wú)法事先進(jìn)行客觀判斷的,而互聯(lián)網(wǎng)時(shí)代出現(xiàn)的
3、大型數(shù)據(jù)集,再加上高速運(yùn)算能力,為驗(yàn)證這些統(tǒng)計(jì)量提供了方便,也為應(yīng)用貝葉斯推斷創(chuàng)造了條件,它的威力正在日益顯現(xiàn)。二、貝葉斯定理要理解貝葉斯推斷,必須先理解貝葉斯定理。后者實(shí)際上就是計(jì)算條件概率的公式。所謂條件概率(Conditional probability),就是指在事件B發(fā)生的情況下,事件A發(fā)生的概率,用P(A|B)來(lái)表示。根據(jù)文氏圖,可以很清楚地看到在事件B發(fā)生的情況下,事件A發(fā)生的概率就是P(AB)除以P(B)。因此,同理可得,所以,即這就是條件概率的計(jì)算公式。三、全概率公式由于后面要用到,所以除了條件概率以外,這里還要推導(dǎo)全概率公式。假定樣本空間S,是兩個(gè)事件A與A的和。上圖中,紅
4、色部分是事件A,綠色部分是事件A,它們共同構(gòu)成了樣本空間S。在這種情況下,事件B可以劃分成兩個(gè)部分。即在上一節(jié)的推導(dǎo)當(dāng)中,我們已知所以,這就是全概率公式。它的含義是,如果A和A構(gòu)成樣本空間的一個(gè)劃分,那么事件B的概率,就等于A和A的概率分別乘以B對(duì)這兩個(gè)事件的條件概率之和。將這個(gè)公式代入上一節(jié)的條件概率公式,就得到了條件概率的另一種寫(xiě)法:四、貝葉斯推斷的含義對(duì)條件概率公式進(jìn)行變形,可以得到如下形式:我們把P(A)稱為先驗(yàn)概率(Prior probability),即在B事件發(fā)生之前,我們對(duì)A事件概率的一個(gè)判斷。P(A|B)稱為后驗(yàn)概率(Posterior probability),即在B事件發(fā)
5、生之后,我們對(duì)A事件概率的重新評(píng)估。P(B|A)/P(B)稱為可能性函數(shù)(Likelyhood),這是一個(gè)調(diào)整因子,使得預(yù)估概率更接近真實(shí)概率。所以,條件概率可以理解成下面的式子:后驗(yàn)概率先驗(yàn)概率 調(diào)整因子這就是貝葉斯推斷的含義。我們先預(yù)估一個(gè)先驗(yàn)概率,然后加入實(shí)驗(yàn)結(jié)果,看這個(gè)實(shí)驗(yàn)到底是增強(qiáng)還是削弱了先驗(yàn)概率,由此得到更接近事實(shí)的后驗(yàn)概率。在這里,如果可能性函數(shù)P(B|A)/P(B)1,意味著先驗(yàn)概率被增強(qiáng),事件A的發(fā)生的可能性變大;如果可能性函數(shù)=1,意味著B(niǎo)事件無(wú)助于判斷事件A的可能性;如果可能性函數(shù) P(A)如果對(duì)最初的信念堅(jiān)信不疑,對(duì)新證據(jù)的準(zhǔn)確性我有多大的信心?- P(B|A)如果對(duì)
6、最初的信念搖擺不定,對(duì)新證據(jù)的準(zhǔn)確性我有多大的信心?- P(B)Bayesian Inference:P(A|B)=P(A)*P(B|A)/P(B)該文揭示了公式中每一項(xiàng)的現(xiàn)實(shí)含義。謝謝分享,我一直在想公式里的每一項(xiàng)有什么直接樸素的內(nèi)涵,這三個(gè)問(wèn)題回答了我的疑問(wèn)。2011年8月28日 23:54|檔案|引用Chuan說(shuō):請(qǐng)問(wèn)有什么即有趣,又實(shí)用的概率論方面的書(shū)嗎?2011年8月29日 14:31|檔案|引用Michael.Z說(shuō):越來(lái)越多的郵件采取圖片和附件的方式發(fā)送垃圾郵件。這方面的鑒別方法又是如何的?2011年8月29日 16:43|檔案|引用寧?kù)o致遠(yuǎn)說(shuō):在華爾街的高頻交易系統(tǒng),70%的股票
7、交易由計(jì)算機(jī)算法完成,而算法并不總是很可靠。2010年5月算法曾引起股市在短時(shí)間內(nèi)崩盤(pán),它在20分鐘內(nèi)拋出了價(jià)值26億美元的股票,導(dǎo)致其它高頻交易算法跟隨,引發(fā)金融市場(chǎng)混亂。這種算法的推廣的結(jié)果是,下個(gè)5000天會(huì)產(chǎn)生60億個(gè)相當(dāng)于人腦一樣復(fù)雜的機(jī)器在互聯(lián)網(wǎng)上.2011年8月29日 17:04|檔案|引用mw3000說(shuō):Bill:謝謝你的解釋.2011年8月29日 19:54|檔案|引用I believe I can fly說(shuō):不是很明白:P(S)=p(E1)/(P(E1)+P(E2)求解釋2011年9月 1日 21:10|檔案|引用Jin說(shuō):引用Bill的發(fā)言:整個(gè)過(guò)程講的很清晰,謝謝阮大哥
8、分享,不過(guò),推導(dǎo)中有兩個(gè)地方我不太明白:1. P(E1)=P(S|W1)*P(S|W2)*P(S) (why?)2. P=P(E1)/(P(E1)+P(E2) 像樓上Allen說(shuō)的,直覺(jué)是P(E1)+P(E2)=1感覺(jué)推導(dǎo)跳過(guò)了幾步:P(S|W1 W2) = P(W1 W2|S)P(S) / (P(W1 W2|S)P(S) + P(W1 W2|S)P(S)W1,W2獨(dú)立:P(W1 W2) = P(W1)P(W2), P(W1 W2|S) = P(W1|S)P(W2|S) (?)上式 = P(W1|S)P(W2|S)P(S) / (P(W1|S)P(W2|S)P(S) + P(W1|S)P(W2
9、|S)P(S)應(yīng)用Bayesian 原理,將 P(Wi|S) 用 P(S|Wi) 表示:上式 = (P(S|W1)P(S|W2)P(S) * P(W1)P(W2) / P(S)2) / (P(S|W1)P(S|W2)P(S) * P(W1)P(W2) / P(S)2) + (P(S|W1)P(S|W2)P(S) * P(W1)P(W2) / P(S)2)在 P(S) = P(S) = 50% 的條件下:上式 = P(S|W1)P(S|W2) / (P(S|W1)P(S|W2) + P(S|W1)P(S|W2)= P1P2 / (P1P2 + (1-P1)(1-P2);2011年9月 7日 15
10、:26|檔案|引用fly說(shuō):根據(jù) Jin 的方法,得到的結(jié)果是p(S|W1W2) = P(S)P1P2/(P(S)P1P2 + P(S)(1-P1)(1-P2)我覺(jué)得Jin是正確的。2011年9月16日 00:13|檔案|引用ttldreams說(shuō):現(xiàn)在垃圾留言的干擾符號(hào)/文字/異形字越來(lái)越多,變種也很多,這種算法奏效嗎2011年9月18日 18:08|檔案|引用C楠R諾說(shuō):實(shí)在很佩服作者!您的文章給了我學(xué)習(xí)很大的幫助!非常感謝。2011年9月24日 19:29|檔案|引用rrandom說(shuō):最近在看斯坦福的在線課程..對(duì)比著這篇文章.收獲蠻大.2011年11月19日 21:12|檔案|引用fafa說(shuō):學(xué)習(xí)了 不過(guò)后面的聯(lián)合概率部分有點(diǎn)懵2011年11月30日 11:30|檔案|引用liput說(shuō):非常感謝你的文章,看了受益匪淺!2012年2月15日 10:56|檔案|引用Quady說(shuō):又由于在W1和W2已經(jīng)發(fā)生的情況下,垃圾郵件的概率等于下面的式子:P=P(E1)/(P(E1)+P(E2)我來(lái)嘗試解釋一下,呵呵在上面已經(jīng)說(shuō)明了,E1是在W1和W2同時(shí)出現(xiàn)的情況下垃圾郵件的事件,E2是W1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高一語(yǔ)文期末復(fù)習(xí)專題試卷及答案解析
- 物流倉(cāng)庫(kù)作業(yè)流程優(yōu)化方案
- 小學(xué)語(yǔ)文核心素養(yǎng)培養(yǎng)方案設(shè)計(jì)
- 制造企業(yè)精益生產(chǎn)實(shí)施方案模板
- 護(hù)士長(zhǎng)年度工作總結(jié)與績(jī)效提升方案
- 企業(yè)品牌管理與市場(chǎng)推廣方案
- 安全員A證考試考前沖刺試卷及完整答案詳解(名師系列)
- 安全員A證考試能力提升打印大全及完整答案詳解(奪冠)
- 城市燃?xì)夤芫W(wǎng)改造工程項(xiàng)目方案書(shū)
- 大客戶考核指標(biāo)設(shè)計(jì)及實(shí)施方案
- 2026年春蘇教版新教材小學(xué)科學(xué)二年級(jí)下冊(cè)(全冊(cè))教學(xué)設(shè)計(jì)(附教材目錄P97)
- 2026年基因測(cè)序技術(shù)臨床應(yīng)用報(bào)告及未來(lái)五至十年生物科技報(bào)告
- 服裝銷售年底總結(jié)
- 文物安全保護(hù)責(zé)任書(shū)范本
- 2025公文寫(xiě)作考試真題及答案
- DB64∕T 1279-2025 鹽堿地綜合改良技術(shù)規(guī)程
- 五金件外觀檢驗(yàn)標(biāo)準(zhǔn)
- 香精概論第四章-芳香療法課件
- 車輛考核制度6篇
- JJF 1487-2014超聲波探傷試塊校準(zhǔn)規(guī)范
- GB/T 39253-2020增材制造金屬材料定向能量沉積工藝規(guī)范
評(píng)論
0/150
提交評(píng)論