版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
貝葉斯網(wǎng)絡(luò)與樸素貝葉斯貝葉斯分類器學(xué)習(xí)大綱8月25日:1.初識貝葉斯分類器2.最大似然估計和貝葉斯參數(shù)估計9月1日:3.貝葉斯網(wǎng)絡(luò)與樸素貝葉斯分類器實戰(zhàn)9月8日:4.EM算法實戰(zhàn)一、貝葉斯法則問題如何判定一個人是好人還是壞人?好人總做一些好事?……壞人總做一些壞事?……人的主觀認識一、貝葉斯法則引言當你無法準確的熟悉一個事物的本質(zhì)時,你可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的次數(shù)來判斷其本質(zhì)屬性的概率。如果你看到一個人總是做一些好事,那這個人就越可能是一個好人。數(shù)學(xué)語言表達就是:支持某項屬性的事件發(fā)生得越多,則該屬性成立的可能性就愈大貝葉斯法則4一、貝葉斯法則起源貝葉斯法則來源于英國數(shù)學(xué)家貝葉斯(ThomasBayes)在1763年發(fā)表的著作《論有關(guān)機遇問題的求解》。5貝葉斯法則最初是一種用于概率論基礎(chǔ)理論的歸納推理方法,但隨后被一些統(tǒng)計學(xué)學(xué)者發(fā)展為一種系統(tǒng)的統(tǒng)計推斷方法,運用到統(tǒng)計決策、統(tǒng)計推斷、統(tǒng)計估算等諸多領(lǐng)域。一、貝葉斯法則貝葉斯公式貝葉斯公式定義一假定某個過程有若干可能的前提條件
,則表示人們事先對前提條件Xi出現(xiàn)的可能性大小的估計,即先驗概率。定義二假定某個過程得到了結(jié)果A,則
表示在出現(xiàn)結(jié)果A的前提下,對前提條件Xi出現(xiàn)的可能性大小的估計,即后驗概率。6一、貝葉斯法則算例
全壟斷市場條件下,只有一家企業(yè)M提供產(chǎn)品和服務(wù)。企業(yè)K考慮是否進入該市場。同時,企業(yè)M為阻止K進入該市場采取了相應(yīng)的投資行為,而K能否進入該市場完全取決于M為阻止其進入所花費的成本大小。
假設(shè)K并不知道原壟斷者M是屬于高阻撓成本類型還是低阻撓成本類型,但能確定,如果M屬于高阻撓成本類型,K進入市場時M進行阻撓的概率是20%;如果M屬于低阻撓成本類型,K進入市場時M進行阻撓的概率是100%。
現(xiàn)設(shè)K認為M屬于高阻撓成本企業(yè)的概率為70%,而在K進入市場后,M確實進行了商業(yè)阻撓。試以企業(yè)K的角度,判斷企業(yè)M為高阻撓成本類型的概率。7一、貝葉斯法則算例利用貝葉斯公式建模:前提條件:設(shè)M是高阻撓成本類型為X1,低阻撓成本類型為X2;結(jié)果:M對K進行阻撓為A;所求概率即為在已知結(jié)果A的情況下,推斷條件為X1的后驗概率;已知為0.2,為1,P(X1)為0.7,P(X2)為0.3。8一、貝葉斯法則算例即,根據(jù)實際市場的運作情況,企業(yè)K可判斷企業(yè)M為高阻撓成本類型的概率為0.32,換句話說,企業(yè)M更可能屬于低阻撓成本類型。9根據(jù)貝葉斯公式可計算:二、貝葉斯網(wǎng)絡(luò)引言貝葉斯網(wǎng)絡(luò)又稱為信度網(wǎng)絡(luò),是基于概率推理的圖形化網(wǎng)絡(luò)。它是貝葉斯法則的擴展,而貝葉斯公式則是這個概率網(wǎng)絡(luò)的基礎(chǔ)。貝葉斯網(wǎng)絡(luò)適用于表達和分析不確定性和概率性事件,應(yīng)用于有條件地依賴多種控制因素的決策過程,可以從不完全、不精確或不確定的知識或信息中做出推理。10二、貝葉斯網(wǎng)絡(luò)引言貝葉斯網(wǎng)絡(luò)由JudeaPearl于1988年提出,最初主要用于處理人工智能中的不確定信息。隨后,逐步成為處理不確定性信息技術(shù)的主流,并在文本分類、字母識別、經(jīng)濟預(yù)測、醫(yī)療診斷、工業(yè)控制等領(lǐng)域得到了廣泛的應(yīng)用。目前,貝葉斯網(wǎng)絡(luò)是不確定知識表達和推理領(lǐng)域最有效的理論模型之一。11二、貝葉斯網(wǎng)絡(luò)定義符號B(D,G)表示一個貝葉斯網(wǎng)絡(luò),包括兩個部分:一個有向無環(huán)圖(DirectedAcyclicGraph,DAG)。它由代表變量的節(jié)點及連接這些節(jié)點的有向邊構(gòu)成。其中,節(jié)點代表隨機變量,可以是任何問題的抽象,如:測試值、觀測現(xiàn)象、意見征詢等;節(jié)點間的有向邊代表了節(jié)點間的互相關(guān)系(由父節(jié)點指向其后代節(jié)點)。12ABC二、貝葉斯網(wǎng)絡(luò)定義一個節(jié)點與節(jié)點之間的條件概率表(ConditionalProbabilityTable,CPT)。如果節(jié)點沒有任何父節(jié)點,則該節(jié)點概率為其先驗概率。否則,該節(jié)點概率為其在父節(jié)點條件下的后驗概率。13實際類型
ABCDA0.80.10.050.05B0.20.650.10.05C0.250.10.600.05D0.050.10.150.7目標類型二、貝葉斯網(wǎng)絡(luò)定義數(shù)學(xué)定義:貝葉斯網(wǎng)絡(luò)B(D,P),D表示一個有向無環(huán)圖,
是條件概率分布的集合,其中
是D中節(jié)點Xi的父節(jié)點集合。在一個貝葉斯網(wǎng)絡(luò)中,節(jié)點集合,則其聯(lián)合概率分布P(X)是此貝葉斯網(wǎng)絡(luò)中所有條件分布的乘積:14二、貝葉斯網(wǎng)絡(luò)定義這是一個最簡單的包含3個節(jié)點的貝葉斯網(wǎng)絡(luò)。其中,是節(jié)點A的概率分布(先驗概率),
與
為節(jié)點B,C的概率分布(后驗概率)15ABC二、貝葉斯網(wǎng)絡(luò)研究前景貝葉斯網(wǎng)絡(luò)的特性:貝葉斯網(wǎng)絡(luò)本身是一種不定性因果關(guān)聯(lián)模型,它將多元知識圖解可視化,貼切的蘊含了網(wǎng)絡(luò)節(jié)點變量之間的因果關(guān)系及條件相關(guān)關(guān)系;貝葉斯網(wǎng)絡(luò)具有強大的不確定性問題的處理能力,它用條件概率表達各個信息要素之間的相關(guān)關(guān)系,能在有限的、不完整的、不確定的信息條件下進行知識學(xué)習(xí)和推理;貝葉斯網(wǎng)絡(luò)能有效的進行多源信息表達與融合,可將故障診斷與維修決策相關(guān)的各種信息納入到網(wǎng)絡(luò)結(jié)構(gòu)中,并按節(jié)點的方式統(tǒng)一進行處理與信息融合。16二、貝葉斯網(wǎng)絡(luò)研究前景貝葉斯網(wǎng)絡(luò)的缺陷研究如何根據(jù)數(shù)據(jù)和專家知識高效、準確的建立貝葉斯網(wǎng)絡(luò),是十多年來研究的熱點之一,也是貝葉斯網(wǎng)絡(luò)更加廣泛、有效地用于實際問題領(lǐng)域的關(guān)鍵和焦點之一。目前對于這一類學(xué)習(xí)問題,主要有基于打分—搜索的學(xué)習(xí)方法和基于依賴分析的學(xué)習(xí)方法,但前者存在搜索空間巨大,可能收斂于局部最優(yōu)解等問題,后者則存在節(jié)點之間的獨立性或條件獨立性判斷困難,高階條件獨立性檢驗的結(jié)果不夠可靠等問題。17二、貝葉斯網(wǎng)絡(luò)研究前景貝葉斯網(wǎng)絡(luò)與馬爾科夫鏈馬爾科夫鏈蒙特卡羅(MarkovChainMonteCarlo,MCMC)方法是源于統(tǒng)計物理學(xué)和生物學(xué)的一類重要的隨機抽樣方法,該方法廣泛應(yīng)用于機器學(xué)習(xí)、統(tǒng)計和決策分析等領(lǐng)域的高維問題的推理和求積運算。MHS(Metropolis-HastingSampler)抽樣算法作為MCMC方法中常用的抽樣方法之一,通過構(gòu)建一條馬爾科夫鏈,模擬一個收斂于Boltzmann分布的系統(tǒng)。將MHS抽樣算法引入貝葉斯網(wǎng)絡(luò),能夠較好的解決進化學(xué)習(xí)方法中由于個體趨同而產(chǎn)生的早熟問題,保證算法的學(xué)習(xí)精度。18二、貝葉斯網(wǎng)絡(luò)研究前景貝葉斯網(wǎng)絡(luò)與馬爾科夫鏈此外,針對其計算精度低、收斂速度較慢的不足,隨機擬MCMC方法也具有一定的優(yōu)越性。不過,該算法存在的收斂速度慢和收斂性判斷困難等問題仍未能得到有效解決。因此,如何更有效地將MCMC方法用于貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)與推理學(xué)習(xí)成為近年來重要的研究方向之一。19三、樸素貝葉斯引言貝葉斯網(wǎng)絡(luò)與樸素貝葉斯20貝葉斯法則數(shù)學(xué)基礎(chǔ)貝葉斯網(wǎng)絡(luò)模型樸素貝葉斯具體方法三、樸素貝葉斯貝葉斯分類器貝葉斯分類器是用于分類的貝葉斯網(wǎng)絡(luò)。該網(wǎng)絡(luò)中通常包含類節(jié)點C,其取值來自類集合;還包含一組節(jié)點
,表示用于進行分類的特征屬性。對于貝葉斯網(wǎng)絡(luò)分類器,若某一待分類的樣本D,其分類特征值為,則樣本D屬于類別Ci的概率,應(yīng)滿足:21三、樸素貝葉斯貝葉斯分類器由貝葉斯公式可以得到:其中,
可由領(lǐng)域?qū)<业慕?jīng)驗獲得,而和
的計算較為困難。22貝葉斯分類器的進一步簡化如何進行?三、樸素貝葉斯貝葉斯分類器貝葉斯網(wǎng)絡(luò)分類器進行分類的兩個階段23階段一貝葉斯網(wǎng)絡(luò)分類器的學(xué)習(xí)(結(jié)構(gòu)學(xué)習(xí)和CPT學(xué)習(xí))階段二貝葉斯網(wǎng)絡(luò)分類器的推理(計算類節(jié)點的條件概率,對數(shù)據(jù)進行分類)兩個階段的時間復(fù)雜度均取決于特征值間的依賴程度三、樸素貝葉斯貝葉斯分類器根據(jù)對特征值間不同關(guān)聯(lián)程度的假設(shè),可以得出各種貝葉斯分類器,其中較典型、研究較深入的貝葉斯分類器主要有四種,分別是:NB(Na?veBayes)TAN(
TreeAugmentedNa?ve-Bayes)BAN(BNAugmentedNa?ve-Bayes)GBN(GlobalBayesianNetworks)24三、樸素貝葉斯引入樸素貝葉斯(Na?veBayes)算法是貝葉斯分類器中研究較多,使用較廣的一種,在許多場合,樸素貝葉斯的分類算法可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美。樸素貝葉斯分類器的基礎(chǔ):假設(shè)一個指定類別中各個屬性的取值是相互獨立的,即在給定目標值的情況下,觀察到聯(lián)合的
的概率正好是對每個單獨屬性的概率乘積。25三、樸素貝葉斯方法26考慮到是一個取大的過程,則對于結(jié)果不產(chǎn)生影響,故可以看作系數(shù)a。則,原公式可以簡化。貝葉斯分類器樸素貝葉斯簡化三、樸素貝葉斯研究現(xiàn)狀樸素貝葉斯分類器由Duda和Hart于1937年提出,它是一個簡單有效而且在實際使用中比較成功的分類器。現(xiàn)在,被廣泛的運用在數(shù)據(jù)挖掘、模式識別、故障診斷等眾多領(lǐng)域。樸素貝葉斯算法有很多優(yōu)點:應(yīng)用范圍廣泛;可以很好的擴展到超大規(guī)模問題,并且不需要通過搜索來尋找最大后驗概率的樸素貝葉斯假設(shè);可以輕松地應(yīng)付有噪聲的訓(xùn)練數(shù)據(jù),并在適當?shù)臅r候給出概率預(yù)測。27三、樸素貝葉斯研究現(xiàn)狀樸素貝葉斯分類器假設(shè)一個指定類別中各屬性的取值是相互獨立的。這一假設(shè)可以幫助有效減少在構(gòu)造貝葉斯分類器時所需要進行的計算量。不過,實際的應(yīng)用領(lǐng)域中,各個屬性相互獨立的假設(shè)很難成立,這也從很大程度上影響了樸素貝葉斯分類器的分類能力。當前,半樸素貝葉斯分類器、相關(guān)屬性刪除、概率值條件、貝葉斯樹以及懶惰貝葉斯規(guī)則方法,都是對樸素貝葉斯算法的改進與推廣,并在不同的領(lǐng)域取得了顯著的成果。28四、算例系統(tǒng)控制中的應(yīng)用在信息技術(shù)迅速發(fā)展及其在軍事領(lǐng)域廣泛應(yīng)用的條件下,防空作戰(zhàn)環(huán)境變得愈加復(fù)雜,也給現(xiàn)代防空作戰(zhàn)中的空情探測帶來了嚴峻的挑戰(zhàn)。由于受到自身性能、電子干擾等因素的影響,不同的空情雷達對同一空中目標的探測的準確度不同,從而影響了防控偵察預(yù)警信息的準確性,應(yīng)用貝葉斯網(wǎng)絡(luò)算法探討計算不同雷達在探測同一目標的可信度,通過數(shù)據(jù)融合推斷出空中目標的類型,是貝葉斯網(wǎng)絡(luò)算法在系統(tǒng)可靠性領(lǐng)域的重要應(yīng)用之一。29四、算例系統(tǒng)控制中的應(yīng)用例4.1假設(shè)兩個空情雷達探測同一目標,目標可能的類型:A.大型戰(zhàn)機、B.小型機密密集編隊、C.小型戰(zhàn)績、D.巡航導(dǎo)彈。在時刻t,一號空情雷達報告的條件概率表如表所示。30
雷達報告
ABCDA0.80.10.050.05B0.20.650.10.05C0.250.10.600.05D0.050.10.150.7實際類型四、算例系統(tǒng)控制中的應(yīng)用根據(jù)戰(zhàn)前分析,假定權(quán)威人員預(yù)測戰(zhàn)場中在某個作戰(zhàn)階段各種空襲兵器運用的概率為:那么在一號空情雷達報告信息中,報告目標類型大型戰(zhàn)機、小型機密集編隊、小型戰(zhàn)機、巡航導(dǎo)彈的概率分別為:P(A)、P(B)、P(C)、P(D)。
31四、算例系統(tǒng)控制中的應(yīng)用根據(jù)貝葉斯公式,則一號空情雷達報告目標類型為A的條件下,實際目標類型為A、B、C、D的條件概率分別為:32表示傳感器報告目標為類型A的條件下,實際目標為A的概率;表示實際目標類型為A的條件下,傳感器報告目標類型為A的概率;P(A)表示存在類型為A的目標的先驗概率;表示所有傳感器報告目標類型為A的概率之和,即。四、算例系統(tǒng)控制中的應(yīng)用同樣可以計算出一號空情雷達報告類型分別為B、C、D的條件下,實際目標類型的條件概率,如下表所示:33
雷達報告
ABCDA0.4600.3800.0960.048B0.0390.8600.0260.066C0.0200.3130.3750.099D0.0360.1190.2380.833實際類型四、算例系統(tǒng)控制中的應(yīng)用于是,一號空情雷達報告假設(shè)目標類型為A的可信度為:同理可以得到第一號傳感器報告假設(shè)目標類型為B、C、D的可信度,即
:34為了提高探測的準確性,一般要設(shè)置一個可信度閾值,將計算出的可信度值與可信度閾值比較,看目標識別的可信度是否達到要求。假設(shè),則以上的可信度值沒有一個達到要求,因此需要重新進行識別,將以上計算的可信度值作為下一次計算的先驗概率。四、算例系統(tǒng)控制中的應(yīng)用現(xiàn)略去計算步驟,可得到基于兩個傳感器報告的目標類型為A、B、C、D的可信度為:。同樣假設(shè),則可以知道B的可信度大于閾值,則可判定,空中目標類型為B。35四、算例信息檢索中的應(yīng)用貝葉斯網(wǎng)絡(luò)檢索模型可以計算術(shù)語與術(shù)語,術(shù)語與文檔之間的條件概率。下圖給出了一種貝葉斯網(wǎng)絡(luò)檢索模型,利用同義詞對查詢術(shù)語進行擴展,用于信息檢索領(lǐng)域。36QT2T3T4T5R1R2R3R4R5D1T1D2四、算例信息檢索中的應(yīng)用假設(shè)有文檔集合d表示為;這些文檔的索引術(shù)語集合r表示為。右圖即為貝葉斯網(wǎng)絡(luò)模型擴展的拓撲結(jié)構(gòu),其中Q被定義為查詢術(shù)語節(jié)點,定義為文檔節(jié)點,定義為索引術(shù)語節(jié)點,有一條指向被它索引的文檔的弧。37QT2T3T4T5R1R2R3R4R5D1T1D2四、算例信息檢索中的應(yīng)用用兩個術(shù)語層來挖掘文檔索引術(shù)語之間的關(guān)系,完全復(fù)制初始術(shù)語節(jié)點層r,得到另一個屬于節(jié)點層t。對于查詢術(shù)語Q,在索引術(shù)語層t查找他的同義詞,則從Q到有一條??;從指向的弧,就是從指向,其中總有從指向的弧,是在一定衡量方法38QT2T3T4T5R1R2R3R4R5D1T1D2下與最相關(guān)的術(shù)語集合。四、算例信息檢索中的應(yīng)用在確定了貝葉斯網(wǎng)絡(luò)模型之后,通過計算索引術(shù)語與術(shù)語之間、索引術(shù)語與文檔之間的條件概率與文檔節(jié)點的后驗概率,就能夠獲得全部文檔節(jié)點的概率,并根據(jù)概率大小排序獲得與查詢節(jié)點最匹配的檢索結(jié)果。39四、算例信息檢索中的應(yīng)用考慮一種更簡單的情況,即在查詢節(jié)點和文檔節(jié)點以外,只有一層術(shù)語節(jié)點的簡單貝葉斯網(wǎng)絡(luò)檢索模型,如右圖所示。40QT2T3T4T5D1T1D2D3T6四、算例信息檢索中的應(yīng)用假設(shè)查詢節(jié)點為Q,術(shù)語節(jié)點集合為
,文檔節(jié)點集合為。根據(jù)圖中弧線所對應(yīng)的關(guān)系,計算查詢節(jié)點Q更接近于文檔節(jié)點集合中的哪一個?要求查詢節(jié)點
更接近哪一個文檔節(jié)點,即分別求
,選擇其中概率值最大的文檔節(jié)點為所求。41四、算例信息檢索中的應(yīng)用根據(jù)樸素貝葉斯算法的原則,所有術(shù)語節(jié)點相互獨立。且由圖可知,除去查詢節(jié)點層,所有術(shù)語節(jié)點均為根節(jié)點。所以定義每一個術(shù)語相關(guān)的先驗概率,則不相關(guān)的概率,其中M為集合中術(shù)語的數(shù)目(本例中M=6)。一般情況下,任意根術(shù)語節(jié)點相關(guān)的先驗概率很小,且與索引術(shù)語節(jié)點集合的規(guī)模成反比。42四、算例信息檢索中的應(yīng)用對于文檔節(jié)點可知,任意文檔節(jié)點的父節(jié)點集合由該文檔的所有索引術(shù)語節(jié)點組成,即。令為
中每個術(shù)語變量取值(相關(guān)或不相關(guān))后的一個組合,利用一般正則模型的概率函數(shù),定義文檔相關(guān)的條件概率為43四、算例信息檢索中的應(yīng)用其中,為文檔的索引術(shù)語的權(quán)重,,且。這意味著
中相關(guān)術(shù)語越多,的相關(guān)概率值就越大。關(guān)于權(quán)重的計算,不作介紹,僅給出相應(yīng)數(shù)值如下表:T1T2T3T4T5T6D10.20.150.050.10.350.15D20.30.050.150.20.150.15D30.050.350.20.050.150.2四、算例信息檢索中的應(yīng)用所以根據(jù)貝葉斯公式,可以得到下式:由于術(shù)語節(jié)點相互獨立,根據(jù)條件獨立性得:如果,則。否則,
。那么,上式可化簡為:四、算例信息檢索中的應(yīng)用四、算例信息檢索中的應(yīng)用則,代入數(shù)值得:四、算例信息檢索中的應(yīng)用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育資源配置優(yōu)化:基于人工智能的區(qū)域教育資源均衡調(diào)配研究教學(xué)研究課題報告
- 春節(jié)前安全培訓(xùn)簡報課件
- 船廠新員工安全培訓(xùn)課件
- 課件圓柱內(nèi)畫半徑
- 2025年保險經(jīng)紀產(chǎn)品風(fēng)險評估五年趨勢報告
- 課件吧教學(xué)課件
- 課件反復(fù)修改
- 民政救助類題庫及答案
- 煤礦從業(yè)題庫及答案
- 六年級語文上冊期中試卷及答案
- 2026年七年級歷史上冊期末考試試卷及答案(共六套)
- 2025年六年級上冊道德與法治期末測試卷附答案(完整版)
- 2025年全載錄丨Xsignal 全球AI應(yīng)用行業(yè)年度報告-
- 資產(chǎn)評估期末試題及答案
- 鄭州大學(xué)《大學(xué)英語》2023-2024學(xué)年第一學(xué)期期末試卷
- 人工智能安全風(fēng)險測評白皮書(2025年)
- 北京工業(yè)大學(xué)《土力學(xué)與地基基礎(chǔ)》2024 - 2025 學(xué)年第一學(xué)期期末試卷
- 2024-2025學(xué)年陜西省漢中市十校聯(lián)盟高一上學(xué)期期末考試歷史試題
- 雨課堂在線學(xué)堂《西方哲學(xué)-從古希臘哲學(xué)到晚近歐陸哲學(xué)》單元考核測試答案
- 學(xué)堂在線 雨課堂 學(xué)堂云 研究生學(xué)術(shù)與職業(yè)素養(yǎng)講座 章節(jié)測試答案
- 合伙人合同協(xié)議書電子版
評論
0/150
提交評論