版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、裝訂線數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)講稿 主講:劉以安PAGE PAGE 6第11章章 貝貝葉斯網(wǎng)網(wǎng)絡(luò)貝葉斯網(wǎng)網(wǎng)絡(luò)是119866年由PPearrl提出出的,根根據(jù)各個(gè)個(gè)變量之之間的概概率關(guān)系系,使用用圖論方方法表示示變量集集合的聯(lián)聯(lián)合概率率分布的的圖形模模型。它它提供了了一種自自然的表表示因果果信息的的方法,用來(lái)發(fā)發(fā)現(xiàn)數(shù)據(jù)據(jù)間的潛潛在關(guān)系系。在這個(gè)網(wǎng)網(wǎng)絡(luò)中,用節(jié)點(diǎn)點(diǎn)表示變變量,有有向邊表表示變量量間的依依賴(lài)關(guān)系系。其特特點(diǎn)有:貝葉斯理理論給出出了信任任函數(shù)在在數(shù)學(xué)上上的計(jì)算算方法,具有穩(wěn)穩(wěn)固的數(shù)數(shù)學(xué)基礎(chǔ)礎(chǔ),同時(shí)時(shí)刻畫(huà)了了信任度度與證據(jù)據(jù)的一致致性以及及信任度度隨證據(jù)據(jù)而變化化的增量量學(xué)習(xí)特特性;在數(shù)據(jù)挖挖
2、掘中,貝葉斯斯網(wǎng)絡(luò)可可以處理理不完整整和帶有有噪聲的的數(shù)據(jù)集集,它用用概率測(cè)測(cè)度的權(quán)權(quán)重來(lái)描描述數(shù)據(jù)據(jù)間的相相關(guān)性,從而解解決了數(shù)數(shù)據(jù)間的的不一致致性,甚甚至是相相互獨(dú)立立的問(wèn)題題;用圖形的的方法描描述數(shù)據(jù)據(jù)間的相相互關(guān)系系,語(yǔ)義義清晰、可理解解性強(qiáng),這有助助于利用用數(shù)據(jù)間間的因果果關(guān)系進(jìn)進(jìn)行預(yù)測(cè)測(cè)分析;11.11 貝葉葉斯方法法的基本本觀點(diǎn)貝葉斯分分析方法法的特點(diǎn)點(diǎn)是使用用概率去表表示所有有形式的的不確定定性。學(xué)學(xué)習(xí)或其其他形式式的推理理都是用用概率規(guī)規(guī)則來(lái)實(shí)實(shí)現(xiàn)的。貝葉斯斯學(xué)習(xí)的的結(jié)果表表示為隨隨機(jī)變量量的概率率分布,它可以以解釋為為我們對(duì)對(duì)不同可可能性的的信任程程度。貝貝葉斯學(xué)學(xué)派的起起
3、點(diǎn)是貝貝葉斯的的兩項(xiàng)工工作:貝貝葉斯定定理和貝貝葉斯假假設(shè)。假設(shè)隨機(jī)機(jī)變量的的聯(lián)合分分布密度度是,它它們的邊邊際密度度分別為為。設(shè)是觀觀測(cè)向量量,是末末知參數(shù)數(shù)向量,則可通通過(guò)觀測(cè)測(cè)向量來(lái)來(lái)獲得末末知參數(shù)數(shù)向量的的估計(jì)。貝葉斯斯定理為為:這里,是是的先驗(yàn)驗(yàn)分布。上式可以以看出,對(duì)末知知參數(shù)向向量的估估計(jì)綜合合了它的的先驗(yàn)信信息和樣本信信息。而而傳統(tǒng)的的參數(shù)估估計(jì)方法法只從樣樣本數(shù)據(jù)據(jù)獲取信信息,如如最大似似然估計(jì)計(jì)。Bayeesiaan方法法對(duì)末知知參數(shù)向向量估計(jì)計(jì)的一般般過(guò)程為為:將末知參參數(shù)看成成是隨機(jī)機(jī)變量;根據(jù)以往往末知參參數(shù)的知知識(shí),確確定先驗(yàn)驗(yàn)分布;計(jì)算后驗(yàn)驗(yàn)分布密密度,做做出對(duì)末
4、末知參數(shù)數(shù)的推斷斷。貝葉斯假假設(shè):如如果沒(méi)有有任何以以往的知知識(shí)來(lái)幫幫助確定定,貝葉葉斯提出出可以采采用均勻勻分布作作為其分分布,即即參數(shù)在在它的變變化范圍圍內(nèi),取取到各個(gè)個(gè)值的機(jī)機(jī)會(huì)是相相同的。11.22 貝葉葉斯網(wǎng)絡(luò)絡(luò)的構(gòu)造造原理定義:貝貝葉斯網(wǎng)網(wǎng)絡(luò)是一一個(gè)二元元組B=,其中 網(wǎng)絡(luò)絡(luò)結(jié)構(gòu)GG=是一個(gè)個(gè)有向無(wú)無(wú)環(huán)圖,為結(jié)點(diǎn)點(diǎn)集;AA為弧的的集合; 網(wǎng)絡(luò)絡(luò)參數(shù)PP中的每每一個(gè)元元素代表表結(jié)點(diǎn)的的條件概概率密度度; 則由概概率的鏈鏈規(guī)則得得對(duì)于n個(gè)個(gè)離散二二值隨機(jī)機(jī)變量,要確定定它們的的聯(lián)合分分布,需需要給出出個(gè)概率率值。這這當(dāng)n較較大時(shí),巨大的的存儲(chǔ)要要求往往往難以滿滿足。因因此,一一定的假假
5、設(shè)獨(dú)立立性是必必要的。隨機(jī)變變量間的的假設(shè)獨(dú)獨(dú)立性原原則使得得貝葉斯斯網(wǎng)絡(luò)所所需定義義的先驗(yàn)驗(yàn)概率大大為減少少。聯(lián)合合概率分分布由隨隨機(jī)變量量各自的的分布的的乘積所所唯一確確定。對(duì)于網(wǎng)絡(luò)絡(luò)結(jié)構(gòu)中中的任一一結(jié)點(diǎn),必可找找到一個(gè)個(gè)與條件件都不獨(dú)獨(dú)立的最最小子集集,使得得貝葉斯網(wǎng)網(wǎng)絡(luò)是一一種用圖圖表示知知識(shí)的方方法,并并且是可可以計(jì)算算的概率率模型。通過(guò)這這種網(wǎng)絡(luò)絡(luò),可以以綜合各各種來(lái)源源的數(shù)據(jù)據(jù),并對(duì)對(duì)這些數(shù)數(shù)據(jù)進(jìn)行行綜合和和推理。給定一個(gè)個(gè)聯(lián)合概概率分布布以及變變量的一一個(gè)排序序。將作為為根結(jié)點(diǎn)點(diǎn)開(kāi)始,并賦予予以先驗(yàn)驗(yàn)概率分分布,然然后用一一結(jié)點(diǎn)表表示,如如果與有關(guān),則從到到建立一一聯(lián)結(jié),并用表
6、表示聯(lián)結(jié)結(jié)強(qiáng)度。如果與與無(wú)關(guān),則賦予予以先驗(yàn)驗(yàn)概率分分布。在在第級(jí)從從的父結(jié)結(jié)點(diǎn)集合合,(),畫(huà)一組組方向線線聯(lián)結(jié)到到,并用用條件概概率定量量表示,結(jié)果可可以得到到一個(gè)有有向非循循環(huán)圖,可用于于表示中中所體現(xiàn)現(xiàn)的許多多獨(dú)立關(guān)關(guān)系,該該圖就稱(chēng)稱(chēng)作貝葉葉斯網(wǎng)絡(luò)絡(luò)。反過(guò)來(lái),包含有有重構(gòu)原原始分布布函數(shù)所所必需的的所有信信息,在在排序下下,有如如下關(guān)系系:例如 下下圖是一一個(gè)典型型的貝葉葉斯網(wǎng)絡(luò)絡(luò),它的的聯(lián)合概概率分布布函數(shù)為為11.33 貝葉葉斯網(wǎng)絡(luò)絡(luò)在數(shù)據(jù)據(jù)挖掘中中的應(yīng)用用 1)貝貝葉斯方方法用于于分類(lèi)及及回歸分分析分類(lèi)規(guī)則則發(fā)現(xiàn)是是根據(jù)客客體的特特征向量量值及其其他約束束條件,將其分分到某個(gè)個(gè)類(lèi)
7、別中中。在數(shù)數(shù)據(jù)挖掘掘中,主主要研究究如何從從數(shù)據(jù)或或經(jīng)驗(yàn)中中學(xué)習(xí)這這些分類(lèi)類(lèi)規(guī)則。對(duì)于分類(lèi)類(lèi)問(wèn)題,有些情情況,輸輸入特征征向量唯唯一對(duì)應(yīng)應(yīng)著一個(gè)個(gè)類(lèi)別,這種問(wèn)問(wèn)題稱(chēng)為為確定性性的分類(lèi)類(lèi)問(wèn)題;而有些些情況,會(huì)出現(xiàn)現(xiàn)類(lèi)別重重疊現(xiàn)象象,也就就是說(shuō),來(lái)自于于不同類(lèi)類(lèi)別的樣樣本從外外觀特征征上具有有極大的的相似性性,這時(shí)時(shí)我們只只能說(shuō)某某一類(lèi)別別的概率率是多大大,但我我們必須須為它選選擇一個(gè)個(gè)類(lèi)別。Bayeesiaan學(xué)派派采用兩兩種處理理方法: 選擇擇后驗(yàn)概概率最大大的類(lèi)別別假設(shè)特征征向量,類(lèi)別向向量。分類(lèi)的的目的就就是把特特征向量量X,歸入入到某個(gè)個(gè)類(lèi)別中中。方法法是:如果,則則。此時(shí)時(shí)取判別別函
8、數(shù)。可以證證明,這這種分類(lèi)類(lèi)方法能能夠保證證分類(lèi)誤誤差最小小。 選擇擇效用函函數(shù)最大大(或損損失最小小)的類(lèi)類(lèi)別在決策理理論中,經(jīng)常采采用平均均效益的的大小來(lái)來(lái)衡量決決策風(fēng)險(xiǎn)險(xiǎn)的大小小,這實(shí)實(shí)際上與與不確定定性的程程度密切切相關(guān)。假設(shè)為把把屬于類(lèi)類(lèi)別的特特征向量量X錯(cuò)誤地地劃分到到類(lèi)別中中所產(chǎn)生生的損失失,則可可選擇損損失最小小的類(lèi)別別,即此時(shí)的判判別函數(shù)數(shù):。 2)貝貝葉斯分分類(lèi)的應(yīng)應(yīng)用文本過(guò)濾濾是一種種重要的的信息安安全領(lǐng)域域的應(yīng)用用。過(guò)濾濾的實(shí)質(zhì)質(zhì)就是一一種分類(lèi)類(lèi),現(xiàn)討討論貝葉葉斯方法法的文本本過(guò)濾。用下式式所示的的矢量來(lái)來(lái)表示文文本內(nèi)容容:其中,表表示網(wǎng)頁(yè)頁(yè)文本,文本中中的關(guān)鍵鍵詞,關(guān)
9、關(guān)鍵詞在在網(wǎng)頁(yè)文文本中的的權(quán)重,即為文文本所對(duì)對(duì)應(yīng)的矢矢量表示示。令為合法法網(wǎng)頁(yè)集集,非合合法網(wǎng)頁(yè)頁(yè)集。如如果網(wǎng)頁(yè)頁(yè)屬于的概概率為,屬于的的概率為為,則顯顯然有+=1由此,下下列任一一種計(jì)算算結(jié)果都都可以判判斷網(wǎng)頁(yè)頁(yè)是否為為非法網(wǎng)網(wǎng)頁(yè): (1)但有時(shí),如果將將合法網(wǎng)網(wǎng)頁(yè)誤判判為非法法網(wǎng)頁(yè)的的話,其其嚴(yán)重性性遠(yuǎn)大于于非法網(wǎng)網(wǎng)頁(yè)的漏漏判。因因此,上上式需要要加上一一個(gè)調(diào)整整量00。即 (22)顯然,在在過(guò)濾計(jì)計(jì)算的臨臨界值附附近的文文本是自自學(xué)習(xí)的的重要樣樣本,因因此可將將臨界值值附近的的文本過(guò)過(guò)濾結(jié)果果根據(jù)領(lǐng)領(lǐng)域?qū)<壹业娜斯すご_認(rèn)作作為訓(xùn)練練樣本的的正例集集和反例例集,并并通過(guò)更更正算法法修改過(guò)過(guò)濾模型型和參數(shù)數(shù)。另外,可可根據(jù)貝貝葉斯定定理,通通過(guò)訓(xùn)練練樣本集集預(yù)測(cè)未未知樣本本的類(lèi)別別。 (33)在上式(3)中中,分別別是文本本屬于非非法文本本集和合合法文本本集的先先驗(yàn)概率率,可通通過(guò)下式式(4)計(jì)算 (44)矢量中的的關(guān)鍵詞詞,可以以看成文文本的屬屬性。因因此,基基于樸素素貝葉斯斯方法的的文本內(nèi)內(nèi)容過(guò)濾濾的技術(shù)術(shù)實(shí)質(zhì)上上是將文文本進(jìn)行行貝葉斯斯分類(lèi)(合法類(lèi)類(lèi)和非合合法類(lèi))。計(jì)算算和的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/Z 10062.32-2025錐齒輪承載能力計(jì)算方法第32部分:錐齒輪和準(zhǔn)雙曲面齒輪的ISO評(píng)價(jià)體系膠合承載能力算例
- 2026北京印鈔有限公司招聘26人考試參考試題及答案解析
- 2026傳奇騰芳幼兒園公開(kāi)招聘5人考試參考題庫(kù)及答案解析
- 2026年1月廣西百色市田陽(yáng)區(qū)城鎮(zhèn)公益性崗位工作人員招聘1人考試備考試題及答案解析
- 2026重慶醫(yī)科大學(xué)編外聘用人員招聘(第2輪)考試備考試題及答案解析
- 2026江西吉安市井岡山墾殖場(chǎng)農(nóng)產(chǎn)品開(kāi)發(fā)有限責(zé)任公司面向社會(huì)招聘3人考試參考試題及答案解析
- 2026廣西南寧馬山縣人民法院招聘1人考試備考題庫(kù)及答案解析
- 胺碘酮的兒科應(yīng)用
- 2025浙江杭州余杭水務(wù)有限公司招聘36人考試備考題庫(kù)及答案解析
- 2026江西晶昊鹽化有限公司專(zhuān)業(yè)技術(shù)技能人才(第二次)招聘6人考試備考試題及答案解析
- 蜜雪冰城轉(zhuǎn)讓合同
- CT及MR對(duì)比劑種類(lèi)、臨床應(yīng)用及常見(jiàn)副反應(yīng)
- 《老年人輔助器具應(yīng)用( 第2版)》高職全套教學(xué)課件
- 北斗衛(wèi)星導(dǎo)航系統(tǒng)在交通運(yùn)輸行業(yè)的應(yīng)用(每日一練)
- DL-T5191-2004風(fēng)力發(fā)電場(chǎng)項(xiàng)目建設(shè)工程驗(yàn)收規(guī)程
- 酒店樓層管理制度
- 葫蘆巴堿在中藥藥理研究
- 晶體滲透壓與膠體滲透壓講解
- 年項(xiàng)目經(jīng)理講安全課
- 部編人教版四年級(jí)下冊(cè)小學(xué)語(yǔ)文全冊(cè)教案(教學(xué)設(shè)計(jì))(新課標(biāo)核心素養(yǎng)教案)
- 住院病歷質(zhì)量考核評(píng)分表
評(píng)論
0/150
提交評(píng)論