版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能機(jī)器算法概率模型學(xué)習(xí)目錄TOC\o"1-2"\h\u311681.1統(tǒng)計(jì)學(xué)習(xí) 312471.2完全數(shù)據(jù)學(xué)習(xí) 853891.2.1最大似然參數(shù)學(xué)習(xí):離散模型 8199881.2.2樸素貝葉斯模型 11111921.2.3生成模型和判別模型 13267071.2.4最大似然參數(shù)學(xué)習(xí):連續(xù)模型 1389251.2.5貝葉斯參數(shù)學(xué)習(xí) 1539371.2.6貝葉斯線(xiàn)性回歸 19281241.2.7貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí) 22156251.2.8非參數(shù)模型密度估計(jì) 24193521.3隱變量學(xué)習(xí):EM算法 27142971.3.1無(wú)監(jiān)督聚類(lèi):學(xué)習(xí)混合高斯 28181021.3.2學(xué)習(xí)帶隱變量的貝葉斯網(wǎng)絡(luò)參數(shù)值 3133141.3.3學(xué)習(xí)隱馬爾可夫模型 35227141.3.4EM算法的一般形式 36299801.3.5學(xué)習(xí)帶隱變量的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu) 3720282小結(jié) 39在本文中,我們將學(xué)習(xí)視為一種從觀(guān)測(cè)中進(jìn)行不確定的推理的形式,并設(shè)計(jì)模型來(lái)表示不確定的世界。我們?cè)诘?2章中指出,現(xiàn)實(shí)環(huán)境中的不確定性是普遍存在的。智能體可以利用概率論和決策論的方法來(lái)處理不確定性,但它們首先必須從經(jīng)驗(yàn)中學(xué)習(xí)到關(guān)于世界的概率理論。本文將通過(guò)學(xué)習(xí)任務(wù)表述為概率推斷過(guò)程(20.1節(jié))的方式解釋它們?nèi)绾巫龅竭@一點(diǎn)。我們將看到貝葉斯觀(guān)點(diǎn)下的學(xué)習(xí)是非常強(qiáng)大的,它為噪聲、過(guò)擬合和最優(yōu)預(yù)測(cè)問(wèn)題提供了通用的解決方案。本文還考慮這樣一個(gè)事實(shí):一個(gè)非全知全能的智能體永遠(yuǎn)不可能確定哪種描述世界的理論是正確的,但它仍然需要選擇一種理論來(lái)進(jìn)行決策。PAGEPAGE1109統(tǒng)計(jì)學(xué)習(xí)本文的核心概念與第19章的一樣,是數(shù)據(jù)和假設(shè)以看作證據(jù)——描述相關(guān)領(lǐng)域的一部分隨機(jī)變量或所有隨機(jī)變量的實(shí)例;假設(shè)是關(guān)于相關(guān)領(lǐng)域如何運(yùn)作的一些概率理論,邏輯理論是其中的一個(gè)特例??紤]一個(gè)簡(jiǎn)單的例子。我們喜歡的某款驚喜糖果有兩種口味:櫻桃味(好吃)和酸橙味(難吃)。糖果的制造商有一種特殊的幽默感——它對(duì)兩種口味的糖果采用同樣的包裝。這些糖果統(tǒng)一分裝在同樣包裝的大糖果袋里進(jìn)行售賣(mài),因此我們無(wú)法從袋子的外觀(guān)上辨別袋中的糖果口味,只知道它們有5種可能的組合方式:h2:75%+25%h3:50%+50%h4:25%+75%h5:100%酸橙味給定一袋未拆袋的糖果,用隨機(jī)變量H(以代表假設(shè))表示糖果袋類(lèi)型,其可能的值為從h1至h5。當(dāng)然,H不能被直接觀(guān)測(cè)到。但隨著袋中的糖果逐顆被打開(kāi)與辨認(rèn),越來(lái)越多的數(shù)據(jù)也逐漸被揭示——我們記為 ,其中每個(gè)Di是一個(gè)隨機(jī)變量,其可能的值為cherry(櫻桃味)或lime(酸橙味)。智能體要完成的基本任務(wù)是預(yù)測(cè)下一塊糖果的口味。[1]盡管從表面上看這個(gè)情景很簡(jiǎn)單,但它還是引出了許多重要的問(wèn)題。智能體確實(shí)需要推斷出一個(gè)關(guān)于其所在“世界”的理論,盡管這個(gè)問(wèn)題中的理論很簡(jiǎn)單。有一定統(tǒng)計(jì)學(xué)基礎(chǔ)的讀者可以發(fā)現(xiàn)該情境是甕與球(urn-and-ball)貝葉斯學(xué)習(xí)(Bayesianlearning)是指基于給定的數(shù)據(jù)計(jì)算每個(gè)假設(shè)發(fā)生的概率,并在此基礎(chǔ)上進(jìn)行預(yù)測(cè)。也就是說(shuō),這個(gè)預(yù)測(cè)是通過(guò)對(duì)所有假設(shè)按概率加權(quán)求和所得的,而不是僅僅使用了單個(gè)“最佳”假設(shè)。通過(guò)這種方法,學(xué)習(xí)就可以歸約為概率推斷。令D代表所有的數(shù)據(jù),其觀(guān)測(cè)值為d。貝葉斯方法中的關(guān)鍵量是假設(shè)先驗(yàn)P(hi)和在每個(gè)假設(shè)下數(shù)據(jù)的似然。每個(gè)假設(shè)的概率可以通過(guò)貝葉斯法則得到(20-1)現(xiàn)在,假定我們想要對(duì)一個(gè)未知量X做出預(yù)測(cè),那么我們有(20-2)其中每一個(gè)假設(shè)都參與決定了X的分布。這個(gè)式子說(shuō)明預(yù)測(cè)是通過(guò)對(duì)每個(gè)假設(shè)的預(yù)測(cè)進(jìn)行加權(quán)平均得到的,其中根據(jù)式(20-1)可知,權(quán)重與假設(shè)hi的先驗(yàn)概率以及它與數(shù)據(jù)的擬合程度成正比。從本質(zhì)上說(shuō),假設(shè)本身是原始數(shù)據(jù)與預(yù)測(cè)之間的一個(gè)“中間人”。對(duì)于上述糖果示例,我們暫定假設(shè)h1,…,h5的先驗(yàn)分布為〈0.1,0.2,0.4,0.2,0.1〉,正如制造商在廣告中宣傳的那樣。那么在觀(guān)測(cè)是獨(dú)立同分布(見(jiàn)19.4節(jié))的假定下,數(shù)據(jù)的似然可以按如下方式計(jì)算:(20-3)舉個(gè)例子來(lái)說(shuō),假定一個(gè)糖果袋是一個(gè)全為酸橙糖果的糖果袋并且前10顆糖果均為酸橙味,因?yàn)樵趆3糖果袋中只有一半的糖果為酸橙味,所以將為0.510。[2]圖20-1a給出了5種假設(shè)的后驗(yàn)率隨著10顆酸橙味糖果逐顆被觀(guān)測(cè)的變化過(guò)程。注意,每個(gè)概率是以它h3是初始狀態(tài)下可能性最大的選擇,在觀(guān)測(cè)到1顆酸橙味糖果后也是如此。在打開(kāi)2顆酸橙味糖果后,h4是可能性最大的。打開(kāi)3顆后,h5(可怕的全酸橙糖果袋)是可能性最大的。連續(xù)10次之后,我們認(rèn)命了。圖20-1b表示我們對(duì)下一顆糖果為酸橙味的概率預(yù)測(cè),它基于式(20-2)。正如我們所料,它單調(diào)遞增,并漸近于1。(但是更不衛(wèi)生)的做法是在分辨出糖果口味后重新包裝糖果并放回袋中。圖20-1 (a)根據(jù)式(20-1)得到的后驗(yàn)概率。觀(guān)測(cè)數(shù)量N為1~10,且每一測(cè)都是酸橙味的糖果。(b)基于式(20-2)的貝葉斯預(yù)測(cè)這個(gè)例子表明,貝葉斯預(yù)測(cè)最終會(huì)與真實(shí)的假設(shè)吻合。這是貝葉斯學(xué)習(xí)的一個(gè)特點(diǎn)。對(duì)于任何固定的先驗(yàn),如果它沒(méi)有將真實(shí)的假設(shè)排除在外,那么在一定的技術(shù)條件下,錯(cuò)誤假設(shè)的后驗(yàn)概率最終會(huì)消失。有這樣的結(jié)果僅僅是因?yàn)闊o(wú)限地生成“反常的”數(shù)據(jù)的概率非常小。(這一點(diǎn)類(lèi)似于第19章中關(guān)于PAC學(xué)習(xí)的討論。)更重要的是,無(wú)論數(shù)據(jù)集大小,貝葉斯預(yù)測(cè)都是最優(yōu)的。給定了假設(shè)先驗(yàn)之后,任何其他預(yù)測(cè)都不太可能正確。當(dāng)然,貝葉斯學(xué)習(xí)的最優(yōu)性是有代價(jià)的。對(duì)于真實(shí)的學(xué)習(xí)問(wèn)題,如我們?cè)诘?9章中所見(jiàn),假設(shè)空間通常非常大或無(wú)限大。在某些情況下,式(20-2)中的求和(或連續(xù)情況下的積分)可以容易地計(jì)算,但在大多數(shù)情況下,我們必須采用近似或簡(jiǎn)化的方法。一種常見(jiàn)的近似方法(在科學(xué)研究中經(jīng)常采用的)是,基于單個(gè)可能性最大的假設(shè)——使得最大化的hi——進(jìn)行預(yù)測(cè)。這樣的假設(shè)通常被稱(chēng)為最大后驗(yàn)(maximumaposteriori,MAP)假設(shè)。從的意義上來(lái)說(shuō),由MAP假設(shè)hMAP所做出的預(yù)測(cè)近似于貝葉斯方法所做出的預(yù)測(cè)。在我們的糖果例子中,在連續(xù)3次觀(guān)測(cè)到酸橙糖之后有hMAP=h5,因此MAP學(xué)習(xí)器預(yù)測(cè)第四顆糖果是酸橙糖的概率為1.0,這比圖20-1b所示的貝葉斯預(yù)測(cè)概率0.8更有風(fēng)險(xiǎn)。隨著數(shù)據(jù)量越來(lái)越多,MAP預(yù)測(cè)和貝葉斯預(yù)測(cè)將變得越來(lái)越接近,因?yàn)榕cMAP假設(shè)競(jìng)爭(zhēng)的其他假設(shè)的可能性越來(lái)越低。找到MAP假設(shè)通常比貝葉斯學(xué)習(xí)更簡(jiǎn)單(盡管在這個(gè)例子中沒(méi)有體現(xiàn)),因?yàn)樗鼉H要求求解一個(gè)優(yōu)化問(wèn)題,而不是一個(gè)大規(guī)模求和或積分的問(wèn)題。在貝葉斯學(xué)習(xí)和MAP學(xué)習(xí)中,假設(shè)先驗(yàn)P(hi)都起著重要的作用。我們?cè)诘?9章中看到,當(dāng)假設(shè)空間表達(dá)能力過(guò)強(qiáng)時(shí),也就是說(shuō),當(dāng)它包含許多與數(shù)據(jù)集高度一致的假設(shè)時(shí),可能會(huì)出現(xiàn)過(guò)擬合。貝葉斯學(xué)習(xí)和MAP學(xué)習(xí)利用先驗(yàn)知識(shí)來(lái)約束假設(shè)的復(fù)雜性。通常情況下,越復(fù)雜的假設(shè)對(duì)應(yīng)的先驗(yàn)概率越低,其中部分原因是它們數(shù)量太多了。但是,越復(fù)雜的假設(shè)擬合數(shù)據(jù)的能力越強(qiáng)。(一個(gè)極端的例子是,查表法可以精確地?cái)M合數(shù)據(jù)。)因此,假設(shè)的先驗(yàn)體現(xiàn)了假設(shè)的復(fù)雜性與其數(shù)據(jù)擬合程度之間的權(quán)衡。在邏輯函數(shù)的情況下,即H只包含確定性的假設(shè)(例如h1表示所有的糖果都是櫻桃味),我們可以更清楚地看到這種權(quán)衡的效果。在這情況下,如果假設(shè)hi是一致的, 則為1,否則為0。此時(shí)注意式(20-1),我們發(fā)現(xiàn)hMAP將是與數(shù)據(jù)一致的最簡(jiǎn)單的邏輯理論。因此,最大后驗(yàn)學(xué)習(xí)自然體現(xiàn)了奧卡姆剃刀。另一個(gè)看待復(fù)雜性和擬合程度之間權(quán)衡的觀(guān)點(diǎn)通過(guò)對(duì)式(20-1)兩邊取對(duì)數(shù)體現(xiàn)。此時(shí),選擇使 最大化的hMAP等價(jià)于最小化下式:利用我們?cè)?9.3.3節(jié)中介紹的信息編碼和概率之間的聯(lián)系,我們可以看到 等于說(shuō)明假設(shè)hi所需的位數(shù)。此外, 是給定假設(shè)時(shí)說(shuō)明數(shù)據(jù)所需的額外位數(shù)。(為了更好理解,我們可以考慮如果假設(shè)確切地預(yù)測(cè)了數(shù)據(jù),就好像假設(shè)為h5和一連串出現(xiàn)的酸橙味糖果一樣,那么此時(shí)我們不需要任何額外位數(shù),則。)因此,MAP稱(chēng)為最小描述長(zhǎng)度(MDL)的學(xué)習(xí)方法更直接地闡述。MAP學(xué)習(xí)通過(guò)給更簡(jiǎn)單的假設(shè)賦予更高的概率來(lái)體現(xiàn)其簡(jiǎn)單性,而MDL則通過(guò)計(jì)算假設(shè)和數(shù)據(jù)在二進(jìn)制編碼中的位數(shù)來(lái)直接體現(xiàn)簡(jiǎn)單性。最后一個(gè)簡(jiǎn)化是通過(guò)假定假設(shè)空間具有均勻先驗(yàn)分布得出的。在這種情況下,MAP學(xué)習(xí)被簡(jiǎn)化為選擇一個(gè)使 最大的hi。這就是所的最大似然(xukhood)假設(shè),h。最大似然學(xué)習(xí)在統(tǒng)計(jì)學(xué)中非常常用,是許多不相信假設(shè)先驗(yàn)主觀(guān)性質(zhì)的研究者所使用的準(zhǔn)則。當(dāng)沒(méi)有理由采用某個(gè)先驗(yàn)或傾向于某個(gè)假設(shè)(例如所有的假設(shè)都同樣復(fù)雜)時(shí),最大似然是一個(gè)合理的方法。當(dāng)數(shù)據(jù)集很大時(shí),假設(shè)的先驗(yàn)分布就不那么重要了,因?yàn)閬?lái)自數(shù)據(jù)的證據(jù)足夠強(qiáng)大,足以淹沒(méi)假設(shè)的先驗(yàn)分布。這意味著在大數(shù)據(jù)集的情況下,最大似然學(xué)習(xí)是貝葉斯學(xué)習(xí)和MAP學(xué)習(xí)的一個(gè)很好的近似,但在小數(shù)據(jù)集上可能會(huì)出現(xiàn)問(wèn)題(我們將在后面看到)。完全數(shù)據(jù)學(xué)習(xí)假設(shè)我們要學(xué)習(xí)一個(gè)概率模型,給定數(shù)據(jù)是從該概率模型生成的,那么學(xué)習(xí)這個(gè)概率模型的一般性任務(wù)被稱(chēng)為密度估計(jì)(densityestimation)。(密度估計(jì)最初用于連續(xù)變量的概率密度函數(shù),但現(xiàn)在也用于離散分布。)密度估計(jì)是一種無(wú)監(jiān)督學(xué)習(xí)。本節(jié)將介紹其最簡(jiǎn)單的情形,即擁有完全數(shù)據(jù)的情形。當(dāng)每個(gè)數(shù)據(jù)點(diǎn)包含所學(xué)習(xí)的概率模型的每個(gè)變量的值時(shí),我們稱(chēng)數(shù)據(jù)是完全的。對(duì)于結(jié)構(gòu)固定的概率模型,我們注重于參數(shù)學(xué)習(xí)(parameter learning),即尋找其參數(shù)數(shù)值。例如我們可能對(duì)學(xué)習(xí)具有給定結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò)中的條件概率感興趣。我們還將簡(jiǎn)要地探討結(jié)構(gòu)學(xué)習(xí)和非參數(shù)密度估計(jì)問(wèn)題。最大似然參數(shù)學(xué)習(xí):離散模型假設(shè)我們從一個(gè)新的生產(chǎn)商手中買(mǎi)入了一袋可能含有櫻桃味和酸味糖果的糖果袋,其中糖果口味的比例完全未知。櫻桃味糖果所占的例可以是0和1之間的任意一個(gè)數(shù)。在這種情形下,我們將有一個(gè)連續(xù)假設(shè)集。這種情況下的參數(shù)記為,表示櫻桃味糖果所占的比例,其對(duì)應(yīng)的假設(shè)為。(此時(shí)酸橙味糖果所占的比例恰好為 。)如果我們假設(shè)所有的比例有相同的先驗(yàn)可能性,那么采用最大似然估計(jì)是合理的。如果我們使用一個(gè)貝葉斯網(wǎng)絡(luò)對(duì)這種情境建模,則只需要一個(gè)隨變量——flavor(對(duì)應(yīng)于從袋中隨機(jī)選取一顆糖果的口味),它的值為cherry或者lime,其中cherry的概率為(見(jiàn)圖20-2a)?,F(xiàn)在假設(shè)我們已經(jīng)打開(kāi)了N顆糖果,其中有c顆為櫻桃味, 顆為酸橙味。根據(jù)式(20-3),該特定數(shù)據(jù)集的似然為最大似然假設(shè)所需的參數(shù)即為使得上式最大化的參數(shù)。由于log函數(shù)是單調(diào)函數(shù),我們可以通過(guò)最大化對(duì)數(shù)似然(log likelihood)來(lái)得同一個(gè)參數(shù)值:(通過(guò)取對(duì)數(shù),我們把數(shù)據(jù)乘積歸約為數(shù)據(jù)求和,通常這更易于我們將其最大化。)為尋找使得似然最大的,我們對(duì)L關(guān)于進(jìn)行微分并令其微分結(jié)果為0:那么最大似然假設(shè)hML將斷言,糖果袋中櫻桃口味的真實(shí)比例是到目前為止所打開(kāi)觀(guān)測(cè)到的糖果中櫻桃口味的占比!從表面上看,我們做了大量的工作卻得到了一些看上去很顯然的結(jié)果。但實(shí)際上,我們已經(jīng)給出了最大似然參數(shù)學(xué)習(xí)的標(biāo)準(zhǔn)方法,這是一種應(yīng)用范圍廣泛的方法。將數(shù)據(jù)的似然寫(xiě)成關(guān)于參數(shù)的函數(shù)的形式。寫(xiě)下對(duì)數(shù)似然關(guān)于每個(gè)參數(shù)的導(dǎo)數(shù)。解出使得導(dǎo)數(shù)為0的參數(shù)。化方法,正如我們?cè)?.2節(jié)所提到的。(我們將需要驗(yàn)證其黑塞矩陣是負(fù)定的。)這個(gè)例子還說(shuō)明了最大似然學(xué)習(xí)中普遍存在的一個(gè)重要問(wèn)題:當(dāng)數(shù)據(jù)集非常小以至于一些事件還未發(fā)生時(shí)——的糖果被觀(guān)測(cè)到——最大似然假設(shè)將把這些事件的概率置為0。有很多數(shù)初始化為1而不是0。圖20-2 (a)櫻桃味糖果和酸橙味糖果比例未知情況下的貝葉斯網(wǎng)絡(luò)。(b)包裝顏色(依率)與糖果口味相關(guān)情況下的模型讓我們來(lái)看另一個(gè)例子。假設(shè)一個(gè)新的糖果生產(chǎn)商希望通過(guò)使用紅、綠兩種不同顏色的糖果包裝來(lái)給顧客一點(diǎn)關(guān)于口味的小提示。在選定一顆糖果后,其包裝于糖果的口味。圖20-2b給出了對(duì)應(yīng)的概率模型。該模型有3個(gè)參數(shù),即、和。有了這些參數(shù),我們可以從貝葉斯網(wǎng)絡(luò)的標(biāo)準(zhǔn)語(yǔ)義(見(jiàn)節(jié))中得到觀(guān)測(cè)到一顆帶有綠色包裝的櫻桃味糖果的似然:現(xiàn)在假設(shè)我們打開(kāi)了N顆糖果,其中c的。包裝的計(jì)數(shù)如下:顆櫻桃味糖果的包裝為紅色,顆櫻桃味糖果的包裝為綠色,顆酸橙味糖果的包裝為紅色,顆酸橙味糖果的包裝為綠色。則該數(shù)據(jù)的似然為這個(gè)式子看起來(lái)非常糟糕,取對(duì)數(shù)會(huì)有幫助:取對(duì)數(shù)的好處顯而易見(jiàn):對(duì)數(shù)似然的具體形式是3項(xiàng)求和,其中每一項(xiàng)包含單獨(dú)的一個(gè)參數(shù)。當(dāng)我們令對(duì)數(shù)似然對(duì)每個(gè)參數(shù)求導(dǎo)并置為0時(shí),我們得到3個(gè)獨(dú)立的方程,其中每一個(gè)方程只含有一個(gè)參數(shù):其中參數(shù)的結(jié)果與上一個(gè)例子相同。參數(shù)的解,即一個(gè)櫻桃味果有紅色包裝的概率,是觀(guān)測(cè)到的櫻桃味糖果中紅色包裝的比例,參數(shù)的解也與之類(lèi)似。這些結(jié)果看上去非常簡(jiǎn)潔,并且容易發(fā)現(xiàn)我們可以將它推廣到任意的條件概率以表格形式呈現(xiàn)的貝葉斯網(wǎng)絡(luò)。其中一個(gè)最關(guān)鍵的要點(diǎn)在于,一旦我們有了完全數(shù)據(jù),貝葉斯網(wǎng)絡(luò)的最大似然參數(shù)學(xué)習(xí)問(wèn)題將可以被分解為一些分離的學(xué)習(xí)問(wèn)題,每個(gè)問(wèn)題對(duì)應(yīng)一個(gè)參數(shù)。(非表格形式的情形見(jiàn)習(xí)題20.NORX,其中每個(gè)參數(shù)將影響若干個(gè)條件概率。)二個(gè)要點(diǎn)是,給定其父變量,變量的參數(shù)值恰好是該變量值在每一個(gè)父變量值下觀(guān)測(cè)到的頻率。和之前所提到的一樣,當(dāng)數(shù)據(jù)集很小時(shí),我們?nèi)砸⌒牡乇苊獬霈F(xiàn)0次事件的情況。樸素貝葉斯模型機(jī)器學(xué)習(xí)中最常用的貝葉斯網(wǎng)絡(luò)模型是在第13章中介紹過(guò)的樸素貝葉斯模型。在該模型中,“類(lèi)”變量C(將被預(yù)測(cè))稱(chēng)為根,“屬性”變量Xi稱(chēng)為葉。該模型被稱(chēng)為是“樸素的”,因?yàn)樗僭O(shè)屬性在給定類(lèi)的情況下是相互條件獨(dú)立的。(圖20-2b中給出的模型是一個(gè)樸素貝葉斯模型,具有類(lèi)Flavor和唯一屬性Wrapper。)在變量為布爾變量的情況下,其參數(shù)為尋找最大似然參數(shù)值的方法與圖20-2b中使用的方法完全一樣。一旦模型已經(jīng)用該方法訓(xùn)練完成,它就可以被用于給類(lèi)別C還未被觀(guān)測(cè)過(guò)的新樣例分類(lèi)。當(dāng)觀(guān)測(cè)到的屬性值為x1,…,xn時(shí),其屬于某一類(lèi)的概率由下式給出:通過(guò)選擇可能性最大的類(lèi),我們可以獲得一個(gè)確定性的預(yù)測(cè)。圖20-3給出了將該方法用于第19章中的餐廳等待問(wèn)題所得到的學(xué)習(xí)曲線(xiàn)。該方法學(xué)習(xí)得相當(dāng)好,但不及決策樹(shù)學(xué)習(xí);這是合理的,因?yàn)檎鎸?shí)的假設(shè)是一個(gè)決策樹(shù),而決策樹(shù)不能被樸素貝葉斯模型準(zhǔn)確地表達(dá)。樸素貝葉斯在很多實(shí)際應(yīng)用中的表現(xiàn)令人吃驚,它的增強(qiáng)版(習(xí)題20.BNBX)是最有效的通用學(xué)習(xí)算法之一。樸素貝葉斯可以很好地推廣到大規(guī)模的問(wèn)題上:當(dāng)有n個(gè)布爾屬性時(shí),我們只需要2n+1個(gè)參數(shù),且不需要任何的搜索就能找到樸素貝葉斯最大似然假設(shè)hML。最后,樸素貝葉斯學(xué)習(xí)系統(tǒng)可以很好地處理噪聲或缺失數(shù)據(jù),并且能在這類(lèi)情況發(fā)生時(shí)給出適當(dāng)?shù)母怕暑A(yù)測(cè)。它們的主要缺點(diǎn)是,條件獨(dú)立性假設(shè)在實(shí)際中通常不成立;正如我們?cè)诘?3章中所說(shuō),該假設(shè)會(huì)導(dǎo)致對(duì)某些概率做出過(guò)度自信的估計(jì),使得它們接近0或1,尤其是在具有大量屬性的情況下。圖20-3 將樸素貝葉斯學(xué)習(xí)應(yīng)用于第19章餐廳等待問(wèn)題得到的學(xué)習(xí)曲線(xiàn);決策樹(shù)的學(xué)習(xí)曲線(xiàn)在圖中給出,用于比較生成模型和判別模型接下來(lái)我們將區(qū)分兩種不同的作為分類(lèi)器的機(jī)器學(xué)習(xí)模型:生成模型與判別模型。生成模型(generativemodel)對(duì)每一類(lèi)的概率分布進(jìn)行建模,例如,12.6.1節(jié)中提及的樸素貝葉斯文本分類(lèi)器,它為每個(gè)可能的文本類(lèi)型建立一個(gè)單獨(dú)的模型——一個(gè)用于體育,一個(gè)用于天氣,等等。每個(gè)模型包含該模型對(duì)應(yīng)類(lèi)的先驗(yàn),例如,以及對(duì)應(yīng)的條件分布。根據(jù)這些我們可以計(jì)算出聯(lián)合概率,并且我們可以隨機(jī)生成weather類(lèi)別文章中有代表性的單詞。判別模型(discriminative model)直接學(xué)習(xí)類(lèi)別之間的決策邊界即學(xué)習(xí)。給定一個(gè)輸入樣例,一個(gè)判別模型將會(huì)輸出一個(gè)類(lèi)別,但你不能使用判別模型生成某個(gè)類(lèi)別下具有代表性的單詞。邏輯斯諦回歸、決策樹(shù)以及支持向量機(jī)都是判別模型。由于判別模型把所有的精力都放在定義決策邊界上,也就是說(shuō),它們實(shí)際所執(zhí)行的任務(wù)就是我們要求它們執(zhí)行的分類(lèi)任務(wù),因此在訓(xùn)練數(shù)據(jù)集可以任意大的情況下,它們往往在極限情況下表現(xiàn)得更好。然而在數(shù)據(jù)有限的情況下,生成模型有時(shí)會(huì)表現(xiàn)得更好。吳恩達(dá)和喬丹(NgandJordan,2002)在15個(gè)(小)數(shù)據(jù)集上比較了生成模型(樸素貝葉斯分類(lèi)器)和判別模型(邏輯斯諦回歸分類(lèi)器)的表現(xiàn),發(fā)現(xiàn)在使用了全部數(shù)據(jù)的情況下,判別模型在15個(gè)數(shù)據(jù)集中的9個(gè)數(shù)據(jù)集上表現(xiàn)得更好,但在只使用少量數(shù)據(jù)的情況下,生成模型在15個(gè)數(shù)據(jù)集中的14個(gè)上表現(xiàn)更好。最大似然參數(shù)學(xué)習(xí):連續(xù)模型例如我們?cè)诘?3章中介紹的線(xiàn)性高斯模型,它是一種連續(xù)概率模型。由于連續(xù)變量在實(shí)際應(yīng)用中普遍存在,因此了解如何從數(shù)據(jù)中學(xué)習(xí)連續(xù)模型的參數(shù)是非常重要的。最大似然學(xué)習(xí)的原理在連續(xù)和離散情況下是相同的。讓我們從一個(gè)非常簡(jiǎn)單的例子入手:學(xué)習(xí)單變量高斯密度函數(shù)的參數(shù)。也就是說(shuō),我們假設(shè)數(shù)據(jù)按如下分布生成:這個(gè)模型的參數(shù)為均值以及標(biāo)準(zhǔn)差。(注意,歸一化常數(shù)取決于,因此我們不能忽略它。)假設(shè)我們有觀(guān)測(cè)值。那么其對(duì)似然為我們像一般做法所做的那樣令其導(dǎo)數(shù)為0,得到(20-4)也就是說(shuō),均值的最大似然值正是樣本均值,標(biāo)準(zhǔn)差的最大似然值是樣本方差的平方根。同樣,這些結(jié)果證實(shí)了我們的“常識(shí)”?,F(xiàn)在考慮一個(gè)線(xiàn)性高斯模型,它有一個(gè)連續(xù)的父變量X和一個(gè)連續(xù)的子變量Y。如13.2.3節(jié)所述,Y服從高斯分布,其均值線(xiàn)性地依賴(lài)于其標(biāo)準(zhǔn)差是固定的。為了學(xué)習(xí)條件分,我們可以最大化件似然:(20-5)其中參數(shù)為、和。數(shù)據(jù)是(xj, yj)對(duì)的集合,如圖20-4所示。用一般的方法(習(xí)題20.LINR),我們可以找到參數(shù)的最大似然值。但這個(gè)例子的重點(diǎn)在于,如果我們僅考慮定義x和y之間線(xiàn)性關(guān)系的參數(shù)和,那么最大化這些參數(shù)的對(duì)數(shù)似然與最小化式(20-5)中指數(shù)的分子 是等價(jià)的。這恰好是L2損失,即實(shí)際值y和預(yù)測(cè)之間的平方誤差。圖20-4 高斯線(xiàn)性模型,它表述加上固定方差的高斯噪聲。(b)由該模型生成的50個(gè)數(shù)據(jù)點(diǎn),以及它的最佳擬合直線(xiàn)這也恰好是19.6節(jié)中所描述的標(biāo)準(zhǔn)線(xiàn)性回歸過(guò)程要最小化的量?,F(xiàn)在我們得到了更深刻的理解:如果數(shù)據(jù)的生成過(guò)程帶有固定方差的高斯噪聲,那么最小化誤差平方和恰好給出最大似然線(xiàn)性模型。貝葉斯參數(shù)學(xué)習(xí)最大似然學(xué)習(xí)方法雖然過(guò)程簡(jiǎn)單,但在小數(shù)據(jù)集情況下存在嚴(yán)重缺陷。例如,在觀(guān)測(cè)到一顆櫻桃味的糖果后,最大似然假設(shè)認(rèn)為該袋子中100%都是櫻桃味糖果(即,)。除非其假設(shè)先驗(yàn)是糖果袋中要么全為櫻桃味糖果要么全為酸橙味糖果,否則這將是一個(gè)不合理的結(jié)論。而更有可能的情況是,這個(gè)糖果袋混合了酸橙味和櫻桃味的糖果?;谪惾~斯方法的參數(shù)學(xué)習(xí)過(guò)程從一個(gè)關(guān)于假設(shè)的先驗(yàn)分布開(kāi)始,隨著新數(shù)據(jù)出現(xiàn)而不斷更新該分布。圖20-2a個(gè)未知值;假設(shè)的先驗(yàn)是先驗(yàn)分布。因此,是糖果袋中含有比例的櫻桃味糖果的先驗(yàn)概率。如果參數(shù)可以是介于0和1之間的任意一個(gè)值,那么將是一個(gè)連續(xù)的概率密度函數(shù)(見(jiàn)附錄A.3)的信息,那么我們可以采用均勻分布作為先驗(yàn),它意味著任何取值都是等可能的。分布(betadistribution)是一個(gè)更為靈活的概率密度函數(shù)族。每個(gè)分布由兩個(gè)超參數(shù)[3](hyperparameter)a和b定義:它們被稱(chēng)為超參數(shù),是因?yàn)樗鼈儏?shù)化了
的分布,而
本身就是一個(gè)參數(shù)。(20-6)其中的取值范圍為[0, 1]。為歸一化常數(shù),它使得分布的積分1,它取決于a和b。圖20-5給出了在不同的a和b取值下分布的情況。分布的均值為,因此較大的a值表明更靠近1。較大的a+b值導(dǎo)致分布有更突出的尖峰,這也意味著對(duì)估計(jì)更確定。容易發(fā)現(xiàn),均勻分布密度函數(shù)與Beta(1,1)相同:平均值為1/2,且分布平坦。圖20-5 不同(a,b)下Beta(a,b)分布的例子除靈活性以外,分布族還有一個(gè)很好的性質(zhì):如果參數(shù)有先驗(yàn)Beta(a, b),那么在一個(gè)數(shù)據(jù)點(diǎn)被觀(guān)測(cè)之后,其參數(shù)的后驗(yàn)分布仍是個(gè)分布。換句話(huà)說(shuō),分布在這種更新規(guī)則下是封閉的。分布族被稱(chēng)為布爾變量分布族的共軛先驗(yàn)(conjugate prior)。[4]為了弄清楚這點(diǎn),假設(shè)我們觀(guān)測(cè)到了一顆櫻桃味的糖果,那么我們有其他的共軛分布族包括關(guān)于離散多元分布參數(shù)的狄利克雷正態(tài)威沙特分布族。詳見(jiàn)(BernardoandSmith,1994)。因此,在觀(guān)測(cè)完這個(gè)櫻桃味的糖果后,我們簡(jiǎn)單地增大了參數(shù)a的值;同樣,在觀(guān)測(cè)到一顆酸橙味的糖果之后,我們?cè)龃髤?shù)b的值。因此,我們可以將超參數(shù)a和b看作虛擬計(jì)數(shù)(virtualcount),因?yàn)橄闰?yàn)分布Beta(a, b)可被視為是從均勻分布先驗(yàn)Beta(1, 1)出發(fā),并且已經(jīng)“擬”地觀(guān)測(cè)到a?1次櫻桃味糖果和b–1次酸橙味糖果。保持a和b兩者比值不變,不斷增大a和b,通過(guò)觀(guān)測(cè)一系列分布,我們可以清楚地觀(guān)測(cè)到參數(shù)的后驗(yàn)分布隨著數(shù)據(jù)增多的變化情況。如,假設(shè)實(shí)際上一袋糖果中75%是櫻桃味糖果。圖20-5b顯示了序列Beta(3,1)、Beta(6,2)、Beta(30,10)。顯然,該分布正向著以參數(shù)真實(shí)值為中心的窄峰收斂。因此,對(duì)于大數(shù)據(jù)集,貝葉斯學(xué)習(xí)(至少在這種情形下)所收斂到的值與最大似然學(xué)習(xí)相同?,F(xiàn)在讓我們考慮一個(gè)更復(fù)雜的例子。如圖20-2b所示的網(wǎng)絡(luò)有3個(gè)參數(shù),、和,其中代表櫻桃味糖果中包裝為紅色的概率,代表橙味糖果中包裝為紅色的概率。貝葉斯假設(shè)的先驗(yàn)必須包含3個(gè)參數(shù),也就是說(shuō),我們需要確定。一般來(lái)說(shuō),我們會(huì)假定參數(shù)獨(dú)立性:有了這個(gè)假設(shè),每個(gè)參數(shù)就可以有它自己的分布,且當(dāng)新數(shù)據(jù)產(chǎn)生時(shí)可以獨(dú)立地進(jìn)行更新。圖20-6并到貝葉斯網(wǎng)絡(luò)中,其中每個(gè)參數(shù)變量都對(duì)應(yīng)一個(gè)節(jié)點(diǎn)。圖20-6 與貝葉斯學(xué)習(xí)過(guò)程對(duì)應(yīng)的貝葉斯網(wǎng)絡(luò)。后驗(yàn)分布的參數(shù)、和將根據(jù)它們的先分布以及數(shù)據(jù)Flavori和Wrapperi進(jìn)行推斷節(jié)點(diǎn)、和沒(méi)有父節(jié)點(diǎn)。我們加入節(jié)點(diǎn)Wrapperi與Flavori用于表示第i個(gè)被觀(guān)測(cè)到的糖果包裝以及對(duì)應(yīng)的糖果口味。Flavori取決于口味對(duì)應(yīng)的參數(shù):Wrapperi取決于參數(shù)和:現(xiàn)在,圖20-2b中原始貝葉斯網(wǎng)絡(luò)的整個(gè)貝葉斯學(xué)習(xí)過(guò)程就可以按圖20-6所示的方法表示為派生貝葉斯網(wǎng)絡(luò)中的推斷問(wèn)題,其中數(shù)據(jù)和參我們可以開(kāi)始考慮參數(shù)變量(在該例子中即為、和)。在這種表述下我們只需要考慮唯一的學(xué)習(xí)算法——貝葉斯網(wǎng)絡(luò)的推斷算法。當(dāng)然,這樣構(gòu)建出來(lái)的網(wǎng)絡(luò)的性質(zhì)與第13也普遍存在。精確的推斷通常不可能實(shí)現(xiàn),除非是在非常簡(jiǎn)單的情形下,如樸素貝葉斯模型。實(shí)際建模中通常會(huì)使用近似的推斷方法,如MCMC(13.4.2節(jié));為此,許多統(tǒng)計(jì)軟件包也提供了MCMC的高效實(shí)現(xiàn)。貝葉斯線(xiàn)性回歸在本節(jié)中我們將介紹如何將貝葉斯方法應(yīng)用于標(biāo)準(zhǔn)統(tǒng)計(jì)任務(wù):線(xiàn)性回歸。我們?cè)?9.6節(jié)中介紹了最小化誤差平方和的傳統(tǒng)方法,并在20.2.4節(jié)中將其重新解釋為求解帶有高斯誤差的模型的最大似然。這些方法都給出了單獨(dú)的最佳假設(shè):一條具有特定斜率和截距值的直線(xiàn),以及一個(gè)固定的數(shù)據(jù)預(yù)測(cè)誤差的方差。這些方法沒(méi)有提供對(duì)于斜率和截距值的置信度的度量。此外,如果要預(yù)測(cè)一個(gè)離現(xiàn)有數(shù)據(jù)點(diǎn)很遠(yuǎn)的新數(shù)據(jù)點(diǎn)的函數(shù)值,則假設(shè)該點(diǎn)的預(yù)測(cè)誤差與已觀(guān)測(cè)數(shù)據(jù)點(diǎn)附近的數(shù)據(jù)點(diǎn)的預(yù)測(cè)誤差相同似乎是沒(méi)有道理的。一個(gè)更合理的情況應(yīng)該為數(shù)據(jù)點(diǎn)離觀(guān)測(cè)數(shù)據(jù)越遠(yuǎn),則其預(yù)測(cè)誤差越大,因?yàn)樾甭实奈⑿∽兓瘜?dǎo)致較遠(yuǎn)的數(shù)據(jù)點(diǎn)的預(yù)測(cè)值發(fā)生較大變化。貝葉斯方法解決了這兩個(gè)問(wèn)題。如前一節(jié)所述,其總體思路是為模型參數(shù)——線(xiàn)性模型系數(shù)和噪聲方差提供先驗(yàn),然后在給定數(shù)據(jù)的情況下計(jì)算參數(shù)的后驗(yàn)概率值。對(duì)于多元數(shù)據(jù)和噪聲模型未知的情況,這種做法會(huì)導(dǎo)致相當(dāng)復(fù)雜的線(xiàn)性代數(shù)運(yùn)算,所以我們現(xiàn)在將著眼于一個(gè)簡(jiǎn)單的情況:?jiǎn)巫兞繑?shù)據(jù),其模型被約束為必經(jīng)過(guò)原點(diǎn),且噪聲模型已知——一個(gè)方差為的正態(tài)分布。那么我們將只有一個(gè)參數(shù)且模型可表示為(20-7)因?yàn)閷?duì)數(shù)似然中參數(shù)的次數(shù)為二次,因此參數(shù)的一個(gè)合適的共先驗(yàn)將也是高斯分布。這將確保的后驗(yàn)分布也是高斯的。我們給定參數(shù)先驗(yàn)分布的均值和方差,那么其先驗(yàn)為(20-8)基于即將被建模的數(shù)據(jù),人們可能對(duì)參數(shù)應(yīng)當(dāng)選取什么樣的值有一定想法,又或者對(duì)它完全沒(méi)有想法。如果是后一種情況,那么將為0且選擇較大的是一個(gè)比較合理的方法,即所謂的無(wú)信息先驗(yàn)(uninformativeprior)。最后,我們可以為每個(gè)數(shù)據(jù)點(diǎn)的x值設(shè)置一個(gè)先驗(yàn)P(x),但是這對(duì)分析來(lái)說(shuō)是完全無(wú)關(guān)緊要的,因?yàn)樗灰蕾?lài)于參數(shù)?,F(xiàn)在我們已經(jīng)完成了設(shè)定,可以利用式(20-1):計(jì)算參數(shù)的后驗(yàn)分布。如果觀(guān)測(cè)到的數(shù)據(jù)點(diǎn)為,那么該數(shù)據(jù)集的似然可以由式(20-7)得到,如下式所示:其中我們已經(jīng)將數(shù)據(jù)x的先驗(yàn)以及N元高斯的歸一化系數(shù)歸結(jié)為常數(shù),它與參數(shù)獨(dú)立?,F(xiàn)在我們將該式與式(20-8)所給的參數(shù)先驗(yàn)相結(jié)合,得到其后驗(yàn):這看起來(lái)較為復(fù)雜,但實(shí)際上其每一個(gè)指數(shù)部分都是關(guān)于參數(shù)的一個(gè)二次函數(shù),因此對(duì)指數(shù)進(jìn)行求和也將是一個(gè)二次函數(shù)。由此,后驗(yàn)分布也將是一個(gè)高斯分布。利用與14.4以得到其中“更新”后的均值與方差為讓我們進(jìn)一步考慮這些等式的意義。當(dāng)數(shù)據(jù)緊密地集中在x軸上原點(diǎn)附近的某個(gè)小鄰域內(nèi)時(shí),將會(huì)很小,而后驗(yàn)方差將會(huì)較大,本上等于先驗(yàn)方差。這與我們所設(shè)想的相一致:數(shù)據(jù)對(duì)直線(xiàn)圍繞原點(diǎn)的旋轉(zhuǎn)影響較小。相反地,如果數(shù)據(jù)在坐標(biāo)軸上的分布范圍很廣,那么將會(huì)較大,且后驗(yàn)方差將會(huì)較小,近似等于,即數(shù)據(jù)模型的斜率會(huì)有較嚴(yán)格的約束。為了預(yù)測(cè)某個(gè)特定數(shù)據(jù)點(diǎn)的函數(shù)值,我們需要對(duì)所有參數(shù)的可值進(jìn)行積分,正如式(20-2)所示:同樣的,這兩個(gè)指數(shù)的和仍是關(guān)于參數(shù)的二次函數(shù),因此參數(shù)分布仍為高斯分布,且積分為1。剩下的與y相關(guān)的一項(xiàng)來(lái)源與另一個(gè)高斯分布:通過(guò)觀(guān)察這個(gè)表達(dá)式,我們可以發(fā)現(xiàn)y的預(yù)測(cè)的均值為,也就意味著它取決于參數(shù)的后驗(yàn)均值。預(yù)測(cè)的方差等于模型噪聲方差加上與x2成正比的一項(xiàng),這也意味著預(yù)測(cè)的標(biāo)準(zhǔn)差將隨著數(shù)據(jù)與原點(diǎn)距離的增加而漸近線(xiàn)性地增加。圖20-7說(shuō)明了這種現(xiàn)象。正如我們?cè)诒竟?jié)開(kāi)頭依的。圖20-7貝葉斯線(xiàn)性回歸模型,它被約束為經(jīng)過(guò)原點(diǎn)且噪聲方差固定為。誤差為±1、和±3個(gè)標(biāo)準(zhǔn)差的密度預(yù)測(cè)等高線(xiàn)也在圖中給出。(a)其中3個(gè)數(shù)據(jù)點(diǎn)距離原點(diǎn)較近,因此斜率相當(dāng)不確定,其方差。注意,當(dāng)離觀(guān)測(cè)到的數(shù)據(jù)點(diǎn)距離增大時(shí),預(yù)測(cè)的不確定性也逐漸增大。(b)相比前一幅圖多出兩個(gè)距離較遠(yuǎn)的數(shù)據(jù)點(diǎn),此時(shí)斜率被較嚴(yán)格地約束,其方差為。密度預(yù)測(cè)中剩余的方差幾乎完全來(lái)源于噪聲的固定方差貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)到目前為止,我們都假設(shè)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)是事先給定的,我們只試圖學(xué)習(xí)其中的參數(shù)。網(wǎng)絡(luò)結(jié)構(gòu)代表了待解決問(wèn)題的相關(guān)領(lǐng)域的基本因果知識(shí),對(duì)專(zhuān)家或者一些用戶(hù)來(lái)說(shuō),這些因果知識(shí)可能是簡(jiǎn)單的,容易得到的。但在某些情況下,因果模型可能是不可用的或存在爭(zhēng)議的(例如,某些公司長(zhǎng)期以來(lái)一直聲稱(chēng)吸煙不會(huì)導(dǎo)致癌癥;某些公司聲稱(chēng)二氧化碳濃度對(duì)氣候沒(méi)有影響),因此,從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)是非常重要的。本節(jié)將簡(jiǎn)要概述該方面的一些主要思想。最直白的方法是通過(guò)搜索修改,并在每次結(jié)構(gòu)修改后重新調(diào)整參數(shù)。其中結(jié)構(gòu)修改可以包括反中排在該點(diǎn)之前的點(diǎn)(就像第13章中描述的構(gòu)造過(guò)程一樣)般性,我們的搜索還需要遍歷所有可能的序關(guān)系。有兩種方法可用于判斷我們某個(gè)時(shí)刻找到的模型是否有一個(gè)好的結(jié)構(gòu)。第一個(gè)方法是檢驗(yàn)數(shù)據(jù)是否滿(mǎn)足了該結(jié)構(gòu)中所隱含的條件獨(dú)立性。例如,對(duì)餐廳等待問(wèn)題使用樸素貝葉斯模型時(shí),我們假設(shè):我們可以檢驗(yàn)在數(shù)據(jù)中相同的等式在相應(yīng)的條件頻率之間是否成計(jì)波動(dòng)也會(huì)使得等式永遠(yuǎn)不會(huì)精確雜性將取決于此檢驗(yàn)使用的閾值——的鏈接就越多,也就可能導(dǎo)致更高程度的過(guò)擬合。更符合本文思想的方法是評(píng)估所得模型對(duì)數(shù)據(jù)的解釋程度(在概率意義上),但我們必須謹(jǐn)慎地考慮如何度量這一點(diǎn)。如果我們只試圖找到最大似然假設(shè),那么我們最終會(huì)得到一個(gè)完全連通的網(wǎng)絡(luò),因?yàn)橄蛞粋€(gè)節(jié)點(diǎn)添加更多的父節(jié)點(diǎn)并不會(huì)導(dǎo)致似然降低(習(xí)題20.MLPA)我們必須以某種方式對(duì)模型的復(fù)雜性進(jìn)行懲罰。MAP(或MDL)方法只是簡(jiǎn)單地在比較不同結(jié)構(gòu)之前從每個(gè)結(jié)構(gòu)對(duì)應(yīng)的似然中減去一個(gè)懲罰(在參數(shù)估計(jì)之后)這通常會(huì)導(dǎo)致有太多的結(jié)構(gòu)需要進(jìn)行求和(指數(shù)級(jí)的),所以在實(shí)踐中大多數(shù)人采用MCMC的方法對(duì)結(jié)構(gòu)進(jìn)行采樣。復(fù)雜性懲罰(無(wú)論是通過(guò)MAP或貝葉斯方法得到的)表明了網(wǎng)絡(luò)中條件分布的最優(yōu)結(jié)構(gòu)和表示性質(zhì)之間的重要聯(lián)系。對(duì)于表格化的分布,對(duì)節(jié)點(diǎn)分布的復(fù)雜性懲罰將隨著父節(jié)點(diǎn)數(shù)的增加而呈指數(shù)增長(zhǎng),但是對(duì)于噪聲或分布,它的增長(zhǎng)速度只是線(xiàn)性的。這意味著,與使用表格化分布的學(xué)習(xí)相比,使用噪聲或(或其他簡(jiǎn)潔的參數(shù)化)模型的學(xué)習(xí)往往會(huì)學(xué)習(xí)到具有更多父節(jié)點(diǎn)結(jié)構(gòu)。非參數(shù)模型密度估計(jì)通過(guò)采用19.7節(jié)中的非參數(shù)方法,我們可以學(xué)習(xí)到一個(gè)概率模型,而無(wú)須對(duì)其結(jié)構(gòu)和參數(shù)化有任何假設(shè)。非參數(shù)密度估計(jì)(nonparametricdensity 任務(wù)通常需要在連續(xù)域中完成,例如圖20-8a所示。該圖給出了由兩個(gè)連續(xù)變量定義的空間上的概率密度函數(shù)。在圖20-8b中,我們可以看到采樣于該密度函數(shù)的數(shù)據(jù)點(diǎn)。我們要考慮的問(wèn)題是,是否能從樣本中復(fù)原模型。圖20-8 (a)圖20-12a中所給出的混合高斯模型的三維樣貌。(b)從混合高斯模型中采樣的128個(gè)數(shù)據(jù)點(diǎn)、兩個(gè)查詢(xún)點(diǎn)(小方塊)以及它們的10近鄰(大圓圈以及右邊的小圓圈)首先我們將考慮k近鄰模型。(在第19章中我們介紹過(guò)將最近鄰模型用于分類(lèi)與回歸;在這里我們將看到它們?nèi)绾螒?yīng)用于密度估計(jì)。)給定一組數(shù)據(jù)樣本點(diǎn),為估計(jì)某個(gè)查詢(xún)點(diǎn)x的未知概率密度,我們可以簡(jiǎn)單地估計(jì)數(shù)據(jù)點(diǎn)落在查詢(xún)點(diǎn)x附近的密度。圖20-8b中標(biāo)出了兩個(gè)查詢(xún)點(diǎn)(用小方塊標(biāo)記)。對(duì)于每個(gè)查詢(xún)點(diǎn),我們畫(huà)出了以它為圓心且至少包含10個(gè)近鄰的最小圓,即10近鄰。我們可以發(fā)現(xiàn)位于中間的圓較大,意味著對(duì)應(yīng)的密度較小,而位于右邊的圓較小,意味著對(duì)應(yīng)的密度較大。在圖20-9中,我們采用不同的k給出了3種k近鄰密度估計(jì)。直觀(guān)上可以清楚地看出圖20-9b是接近正確模型的,圖20-9a的局部過(guò)于尖銳(k過(guò)?。?,而圖20-9c過(guò)于光滑(k過(guò)大)。另一種可行的方法是使用核函數(shù),正如我們?cè)诰植考訖?quán)回歸中所做的那樣。為了在密度估計(jì)中應(yīng)用核函數(shù),我們假設(shè)每個(gè)數(shù)據(jù)點(diǎn)都將生成一個(gè)與自己相關(guān)的密度函數(shù)。舉個(gè)例子來(lái)說(shuō),我們可以采用在每個(gè)維度上標(biāo)準(zhǔn)差均為w的球形高斯核。那么對(duì)于查詢(xún)點(diǎn)x,我們給出的密度估計(jì)值為數(shù)據(jù)核函數(shù)的均值:,其中其中,d表示數(shù)據(jù)x的維度,D表示歐幾里得距離函數(shù)。我們剩下的問(wèn)題是如何為核寬度w選擇一個(gè)合適的值;圖20-10給出了不同的寬度值對(duì)應(yīng)的結(jié)果,可以發(fā)現(xiàn)它們分別對(duì)應(yīng)著“太小”“正好”“太大”這3種結(jié)果。我們可以通過(guò)交叉驗(yàn)證的方法來(lái)選擇一個(gè)好的w值。圖20-9 應(yīng)用k近鄰進(jìn)行密度估計(jì),所用的數(shù)據(jù)為圖20-8b中的數(shù)據(jù),分別對(duì)應(yīng)k=3、10和40。k=3的結(jié)果過(guò)于尖銳,40的結(jié)果過(guò)于光滑,而10的結(jié)果接近真實(shí)情況。最好的k值可以通過(guò)交叉驗(yàn)證進(jìn)行選擇圖20-10 使用核函數(shù)進(jìn)行密度估計(jì),所用數(shù)據(jù)為圖20-8b中的數(shù)據(jù),分別采用了w=0.02、0.07和0.20的高斯核。其中w=0.07的結(jié)果最接近真實(shí)情況隱變量學(xué)習(xí):EM算法在20.2節(jié)中,我們討論了數(shù)據(jù)完全可觀(guān)測(cè)的情形。而在現(xiàn)實(shí)生活中,許多問(wèn)題存在隱變量(hidden 有時(shí)也稱(chēng)為隱藏變(latent variable),通常包括觀(guān)測(cè)到的癥狀、醫(yī)生的診斷以及采用的治療方法,可能還有治療的結(jié)果,但很少包含對(duì)疾病本身的直接觀(guān)測(cè)?。ㄗ⒁?,診斷區(qū)別于疾??;診斷在因果關(guān)系中是觀(guān)測(cè)到癥狀之后的結(jié)果,而這些癥狀是由疾病引起的。)讀者可能會(huì)問(wèn):“如果沒(méi)有觀(guān)測(cè)到疾病,我們能否僅根據(jù)觀(guān)測(cè)到的變量構(gòu)建一個(gè)模型?”圖20-11給出了該問(wèn)題的答案。它給出了一個(gè)小型的、虛構(gòu)的心臟病診斷模型。它有3個(gè)可觀(guān)測(cè)的易感因素和3個(gè)可觀(guān)測(cè)的癥狀(這些癥狀過(guò)于負(fù)面,這里就不介紹了)。假設(shè)每個(gè)變量有3個(gè)可能的值(分別是none、moderate和severe)。如果我們從圖20-11a所示的網(wǎng)絡(luò)中移除隱變量,使其成為圖20-11b所示的網(wǎng)絡(luò),那么所需參數(shù)的個(gè)數(shù)將從78增加到708。因此,隱變量可以大大減少確定一個(gè)貝葉斯網(wǎng)絡(luò)所需參數(shù)的個(gè)數(shù)。同樣也可以大大減少所需學(xué)習(xí)的參數(shù)的個(gè)數(shù)。隱變量很重要,但它們的存在也確實(shí)使學(xué)習(xí)問(wèn)題復(fù)雜化。在圖20-11a所示的例子中,給定其父變量的值,如何學(xué)習(xí)心臟?。℉eartDisease)的條件分布并不是很明晰,因?yàn)槲覀儾恢烂糠N情況下HeartDisease的具體值,同樣的問(wèn)題也出現(xiàn)在學(xué)習(xí)癥狀的分布時(shí)。本節(jié)將介紹一種被稱(chēng)為期望最大化(expectation-maximization,EM)的算法,它以一種適用范圍廣泛的方式解決了這個(gè)問(wèn)題。我們將給出3個(gè)例子,然后再給出一般性的描述。該算法最初看起來(lái)可能十分神奇,但是一旦我們了解了其思想,我們就可以在大量的學(xué)習(xí)問(wèn)題中應(yīng)用EM。圖20-11 (a)一個(gè)簡(jiǎn)單的心臟病診斷網(wǎng)絡(luò),其中HeartDisease是一個(gè)隱變量。每個(gè)變量有3個(gè)可能的值,并標(biāo)明了每個(gè)變量對(duì)應(yīng)的條件獨(dú)立參數(shù)的個(gè)數(shù),其總數(shù)為78。(b)去除隱變量之后的等效網(wǎng)絡(luò)。注意,給定了父變量值后,癥狀對(duì)應(yīng)的變量不再是條件獨(dú)立的。這個(gè)網(wǎng)絡(luò)有708個(gè)參數(shù)無(wú)監(jiān)督聚類(lèi):學(xué)習(xí)混合高斯無(wú)監(jiān)督聚類(lèi)(unsupervised clustering)是在一個(gè)對(duì)象集合中識(shí)別個(gè)類(lèi)別的問(wèn)題。該問(wèn)題被稱(chēng)為是無(wú)監(jiān)督的,是因?yàn)閿?shù)據(jù)沒(méi)有被賦予類(lèi)別標(biāo)簽。舉個(gè)例子來(lái)說(shuō),假設(shè)我們記錄了十萬(wàn)顆恒星的光譜;我們想知道光譜的數(shù)據(jù)是否告訴我們恒星存在不同的類(lèi)型?如果是,其中有多少種類(lèi)型?它們對(duì)應(yīng)的特征是什么?我們都熟悉諸如“紅巨星”和“白矮星”這樣的術(shù)語(yǔ),但是恒星本身并不附帶這些標(biāo)簽,因此天文學(xué)家不得不使用無(wú)監(jiān)督聚類(lèi)的方法來(lái)區(qū)分恒星的類(lèi)別。還有其他一些例子,如林奈生物分類(lèi)法中對(duì)種、屬、目、門(mén)等的區(qū)分,以及為一般對(duì)象創(chuàng)造自然類(lèi)別(見(jiàn)第10章)。無(wú)監(jiān)督聚類(lèi)以數(shù)據(jù)為出發(fā)點(diǎn)。圖20-12b給出了500個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)指定了兩個(gè)連續(xù)屬性的值。數(shù)據(jù)點(diǎn)可能對(duì)應(yīng)于恒星,而屬性可能對(duì)應(yīng)于兩個(gè)特定頻率下的光譜強(qiáng)度。接下來(lái),我們需要了解什么樣的概率分布可能產(chǎn)生這些數(shù)據(jù)。聚類(lèi)假設(shè)了數(shù)據(jù)是從某個(gè)混合分布P中生成的。該分布由k個(gè)分量組成,每個(gè)分量本身是一個(gè)分布。數(shù)據(jù)點(diǎn)通過(guò)以下方法生成:首先選擇其中一個(gè)分量,然后從該分量采樣一個(gè)樣本,從而生成一個(gè)數(shù)據(jù)點(diǎn)。令隨機(jī)變量C為數(shù)據(jù)對(duì)應(yīng)的分量,其值為1,…,k;那么混合分布將由下式給出:其中x表示數(shù)據(jù)點(diǎn)屬性的值。對(duì)于連續(xù)數(shù)據(jù),多元高斯分布是各個(gè)分量分布的一個(gè)自然選擇,這就是所謂的混合高斯分布族?;旌细咚狗植嫉膮?shù)為(各分量的權(quán)重)、(各分量的均值),以(各分量的協(xié)方差)。圖20-12a給出了由3個(gè)分量組成的混合高斯;事20-12b中數(shù)據(jù)的來(lái)源,也是圖20-8a相應(yīng)的無(wú)監(jiān)督聚類(lèi)問(wèn)題則是從原始數(shù)據(jù)(例如圖20-12b中的數(shù)據(jù))中復(fù)原出高斯混合模型(例如圖20-12a所示的模型)。顯然,如果我們知道每個(gè)數(shù)據(jù)點(diǎn)由哪個(gè)分量生成,那么就很容易復(fù)原對(duì)應(yīng)的高斯分布分量:我們可以選擇所有來(lái)自同一個(gè)給定分量的數(shù)據(jù)點(diǎn),然后應(yīng)用(多元版本的)式(20-4)對(duì)一組數(shù)據(jù)擬合其高斯參數(shù)。另外,如果我們知道每個(gè)分量的參數(shù),那么我們至少可以給出每個(gè)數(shù)據(jù)點(diǎn)屬于某個(gè)分量的概率。圖20-12 (a)由3個(gè)分量組成的混合高斯模型,其權(quán)重(從左到右)分別為0.2、0.3和0.5。采樣于(a)中模型的500個(gè)數(shù)據(jù)點(diǎn)。(c)根據(jù)(b)中的數(shù)據(jù)點(diǎn),使用EM模型的參數(shù)。在這種情況下,EM的基本想法是假設(shè)我們知道模型的參數(shù),收斂。本質(zhì)上,我們所做的事情是基于當(dāng)前的模型推斷隱變量——點(diǎn)屬于某個(gè)分量——的概率分布,進(jìn)而“完善”數(shù)據(jù)。對(duì)于混合高斯模代。E步:計(jì)算概率 ,即數(shù)據(jù)點(diǎn)xj是由分量i生成概率。根據(jù)貝葉斯法則,我們有。其中項(xiàng)是xj在第i個(gè)高斯分量中的概率,P(C = i)項(xiàng)是第i個(gè)高斯量的權(quán)重。定義,即分配至第i個(gè)分量的數(shù)據(jù)點(diǎn)的有效個(gè)數(shù)。M步:按照以下式子計(jì)算新的均值、方差和各分量的權(quán)重。其中,N為數(shù)據(jù)點(diǎn)的總個(gè)數(shù)。E步也稱(chēng)期望步,它可以視為計(jì)算隱指示(hidden 變量Zij的期望值pij的步驟,若數(shù)據(jù)xj由第i個(gè)分量生成,則Zij為1,否則為0。M步也稱(chēng)最大化步,其目標(biāo)是尋找給定隱指示變量的期望情況下,使數(shù)據(jù)的似然最大化的新參數(shù)。將EM算法應(yīng)用于圖20-12a中數(shù)據(jù)所學(xué)習(xí)到的最終模型如圖20-12c所示,它與生成這些數(shù)據(jù)的真實(shí)模型幾乎沒(méi)有差別。圖20-13a給出了當(dāng)前模型下數(shù)據(jù)的對(duì)數(shù)似然隨著EM算法迭代過(guò)程的變化圖。需要注意兩點(diǎn)。第一,最終學(xué)習(xí)到的模型的對(duì)數(shù)似然值略高于用于生成數(shù)據(jù)的真實(shí)模型的對(duì)數(shù)似然值。這可能看起來(lái)有些令人驚訝,但它簡(jiǎn)單地反映了這樣一個(gè)事實(shí):數(shù)據(jù)是隨機(jī)生成的,也許沒(méi)有精確地反映出真實(shí)的模型。第二,在EM算法的進(jìn)行過(guò)程中,數(shù)據(jù)的對(duì)數(shù)似然在每一次迭代后都將提升。通常情況下,這個(gè)現(xiàn)象是可以被證明的。此外,在一些條件下(這些條件在大多數(shù)情況下是成立的),我們還可以證明EM算法將達(dá)到似然函數(shù)的局部極大值。(在極少數(shù)情況下,它可能會(huì)達(dá)到一個(gè)鞍點(diǎn),甚至一個(gè)局部極小值。)從這個(gè)意義上說(shuō),EM類(lèi)似于基于梯度的爬山算法,但需要注意的是它沒(méi)有“步長(zhǎng)”這一參數(shù)。EM算法并不總是如圖20-13a所示那樣順利。舉個(gè)例子來(lái)說(shuō),它可能導(dǎo)致某個(gè)高斯分量發(fā)生退化,使得它僅僅包含一個(gè)數(shù)據(jù)點(diǎn)。那么它的方差將趨向于零,且它的似然將趨向無(wú)窮!如果我們不知道混合模型中有多少個(gè)分量,我們就需要嘗試不同的分量個(gè)數(shù),即嘗試不同的k值,并觀(guān)測(cè)哪個(gè)值的效果最好,但這也可能導(dǎo)致發(fā)生另一些錯(cuò)誤。還有一個(gè)問(wèn)題是,兩個(gè)分量可能會(huì)“合并”,導(dǎo)致它們有相同的均值和方差,且它們共享數(shù)據(jù)點(diǎn)。這種退化的局部極大值是一個(gè)嚴(yán)重的問(wèn)題,特別是在高維情況下。一種解決方案是對(duì)模型參數(shù)賦予先驗(yàn)并采用MAP版本的EM算法。另一種解決方案是,如果某個(gè)分量太小或太接近于另一個(gè)分量,則使用新的隨機(jī)參數(shù)重置該分量。一個(gè)合理的初始化方法對(duì)算法也有幫助。圖20-13 數(shù)據(jù)的對(duì)數(shù)似然L關(guān)于EM算法迭代次數(shù)的函數(shù)關(guān)系。水平線(xiàn)表示真實(shí)模型下數(shù)據(jù)的數(shù)似然。(a)圖20-12中的混合高斯模型對(duì)應(yīng)的變化圖。(b)圖20-14a中的貝葉斯網(wǎng)絡(luò)對(duì)應(yīng)的變化圖學(xué)習(xí)帶隱變量的貝葉斯網(wǎng)絡(luò)參數(shù)值為學(xué)習(xí)帶隱變量的貝葉斯網(wǎng)絡(luò),我們將使用與在混合高斯模型中所使用的方法相同的有效方法。圖20-14a給出了一個(gè)例子:我們有兩袋混合在一起的糖果。糖果有3個(gè)特征:除口味(Flavor)和包裝(Wrapper)外,一些糖果中間還有夾心(Holes),而有些糖果沒(méi)有。糖果在每個(gè)糖果袋中的分布狀況可以用樸素貝葉斯模型進(jìn)行描述:在給定糖果袋的情況下,特征之間是獨(dú)立的,但每個(gè)特征的條件概率取決于這個(gè)糖果袋的狀況。該模型的參數(shù)如下:為糖果取自糖果袋1的先驗(yàn)概率;與分別是給定糖果取自于糖果袋1或糖果袋2后,它是櫻桃口的概率;與是在同樣的給定條件下糖果包裝為紅色的概率;和是在同樣的給定條件下糖果有夾心的概率。圖20-14 (a)關(guān)于糖果的混合模型。不同口味、包裝的比例以及是否有夾心取決于糖果袋,該變量是不可觀(guān)測(cè)的。(b)混合高斯模型的貝葉斯網(wǎng)絡(luò)??捎^(guān)測(cè)變量X的均值和協(xié)方差取決分量C整體的模型是一個(gè)混合模型:它可以表示為兩個(gè)不同分布的加權(quán)和,且每個(gè)分布是獨(dú)立的單變量分布的乘積。(混合高斯建模為一個(gè)貝葉斯網(wǎng)絡(luò),正如圖20-14b所示。)在該圖中,糖來(lái)復(fù)原這兩個(gè)袋子的真實(shí)情況嗎?我們將用EM算法迭代來(lái)求解這個(gè)問(wèn)題。首先,我們考慮數(shù)據(jù)的情況。假設(shè)我們從一個(gè)模型中生成了1000樣本,模型的真實(shí)參數(shù)如下:
(20-9)也就是說(shuō),糖果來(lái)自于兩個(gè)糖果袋的概率相等;第一個(gè)糖果袋中的糖果大部分是櫻桃口味、紅色包裝且有夾心;第二個(gè)糖果袋中的糖果大部分是酸橙口味、綠色包裝且沒(méi)有夾心。所有8種可能的糖果出現(xiàn)的次數(shù)如下:W=red W=greenH=1H=0H=1H=0F=cherry 2739310490F=lime7910094167我們先對(duì)參數(shù)進(jìn)行初始化。為了簡(jiǎn)化計(jì)算,我們?nèi)我獾剡x取初始值如下:[5]在實(shí)際情形中,更好的做法是隨機(jī)地選擇初始參數(shù),以避免由對(duì)稱(chēng)性帶來(lái)的局部極大值。(20-10)首先,我們考慮參數(shù)。在數(shù)據(jù)全部可觀(guān)測(cè)的情況下,我們可以根據(jù)糖果來(lái)自于糖果袋1以及糖果袋2是每個(gè)糖果來(lái)自于糖果袋1的概率之和:這些概率可以使用貝葉斯網(wǎng)絡(luò)的任意一種推斷算法來(lái)計(jì)算。在這個(gè)樸素貝葉斯模型的例子中,我們可以利用貝葉斯法則以及條件獨(dú)立性計(jì)算得到舉例來(lái)說(shuō),對(duì)于273顆紅色包裝、櫻桃味、有夾心的糖果,應(yīng)用該公式我們可以計(jì)算得到其權(quán)重為接著計(jì)算表中其他種類(lèi)糖果對(duì)應(yīng)的權(quán)重,可以得到?,F(xiàn)在讓我們考慮其他的參數(shù),例如。在數(shù)據(jù)完全可觀(guān)測(cè)的情下,我們可以直接通過(guò)觀(guān)測(cè)到糖果袋1估計(jì)該參數(shù)值。糖果袋1同樣的,這些概率值可以通過(guò)貝葉斯網(wǎng)絡(luò)算法計(jì)算得到。通過(guò)這些計(jì)算,我們可以得到參數(shù)新的估計(jì)值:(20-11)數(shù)據(jù)的對(duì)數(shù)似然的初始值約為?2044,在第一次迭代之后達(dá)到了約?2021,如圖20-13b所示。也就是說(shuō),一次參數(shù)更新將似然函數(shù)本身提高了約倍。在10次迭代后,學(xué)習(xí)到的模型相比原始模型擬合得更好(L=?1982.214)。10的現(xiàn)象在EM算法中并不少見(jiàn),實(shí)際中許多系統(tǒng)將EM與基于梯度的算法相結(jié)合,例如牛頓-拉弗森法(見(jiàn)第4章),它可以用于學(xué)習(xí)過(guò)程的最后階段。通過(guò)這個(gè)例子,我們可以總結(jié)出一般性的規(guī)律,即在帶隱變量的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)中,參數(shù)更新可以從每個(gè)樣例的推斷結(jié)果中直接得到。更進(jìn)一步地,每個(gè)參數(shù)的估計(jì)都只需要用到局部的后驗(yàn)概率。這里的“局部”意味著每個(gè)變量Xi的條件概率表(CPT)可以從僅涉及Xi及其父節(jié)點(diǎn)Ui的后驗(yàn)概率中學(xué)習(xí)得到。令為CPT中的參數(shù) ,更新由計(jì)數(shù)期望歸一化后給出,如下:我們可以通過(guò)任意的貝葉斯網(wǎng)絡(luò)推斷算法計(jì)算每個(gè)樣例出現(xiàn)的概率,并通過(guò)對(duì)樣本求和來(lái)獲得計(jì)數(shù)的期望。對(duì)于包含變量消去步驟的特定算法,所有這些概率都可以作為一般推斷過(guò)程的副產(chǎn)品直接獲得,而不需要額外的計(jì)算來(lái)獲得這些概率值。此外,對(duì)于每個(gè)參數(shù),學(xué)習(xí)所需的信息都可以在本地獲得?,F(xiàn)在我們回想一下EM算法在這個(gè)例子中,即從7(23–1)的計(jì)數(shù)數(shù)據(jù)復(fù)原7個(gè)參數(shù)的過(guò)程中發(fā)揮了什么作用。(在給定7個(gè)計(jì)數(shù)后,第8個(gè)計(jì)數(shù)是固定的,因?yàn)橛?jì)數(shù)的總和是1000。)如果刻畫(huà)每個(gè)糖果所需的屬性只有兩個(gè)而不是3個(gè)(例如,沒(méi)有“夾心”這一屬性),我們將有5個(gè)參數(shù),但我們只有3(22–1)合的權(quán)重或者用于混合的兩個(gè)糖果袋的屬性。我們稱(chēng)這樣的兩個(gè)屬性的模型不是可辨識(shí)的。貝葉斯網(wǎng)絡(luò)的可辨識(shí)性是一個(gè)棘手的問(wèn)題??梢宰⒁獾剑词褂?個(gè)屬性和7個(gè)計(jì)數(shù),我們也不能唯一地復(fù)原模型,因?yàn)閷蓚€(gè)糖果袋信息互換后,兩個(gè)模型在觀(guān)測(cè)層面仍是等價(jià)的?;诓煌膮?shù)初始化方式下,EM將收斂到如下兩個(gè)結(jié)果之一:糖果袋1大部分是櫻桃口味,糖果袋2大部分是酸橙口味,或者恰好與之相反。這種不可辨識(shí)性對(duì)從未觀(guān)測(cè)到的變量來(lái)說(shuō)是不可避免的。學(xué)習(xí)隱馬爾可夫模型最后,我們將EM算法應(yīng)用于學(xué)習(xí)隱馬爾可夫模型(HMM)中的轉(zhuǎn)移概率?;仡櫼幌?,我們?cè)?4.3節(jié)中提到,隱馬爾可夫模型可以用一個(gè)帶有單個(gè)離散狀態(tài)變量的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)來(lái)表示,如圖20-15所示。每個(gè)數(shù)據(jù)點(diǎn)為一個(gè)長(zhǎng)度有限的觀(guān)測(cè)序列,因此要解決的問(wèn)題是從一組觀(guān)測(cè)序列(或僅從一個(gè)長(zhǎng)序列)中學(xué)習(xí)轉(zhuǎn)移概率。圖20-15 表示隱馬爾可夫模型的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)展開(kāi)圖(重復(fù)圖14-16)意時(shí)刻t,從狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率是相等的,即對(duì)任意時(shí)刻t有。為了估計(jì)從狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率,我們只需計(jì)算系統(tǒng)在狀態(tài)i經(jīng)過(guò)一次轉(zhuǎn)移后到達(dá)狀態(tài)j的次數(shù)比例的期望:計(jì)數(shù)的期望可以通過(guò)HMM推斷算法進(jìn)行計(jì)算。通過(guò)簡(jiǎn)單修改圖14-4所示的前向-后向算法,我們可以計(jì)算所需的概率。重要的一點(diǎn)在于,所需的概率是通過(guò)平滑而不是濾波給定過(guò)去狀態(tài)下當(dāng)前狀態(tài)的概率分布,而平滑方法給出的是給定所有證據(jù)下的分布,這里的證據(jù)包括特定轉(zhuǎn)移發(fā)生后的事件發(fā)生情況。在謀殺案中,證據(jù)通常是在犯罪發(fā)生之后(即從狀態(tài)i到狀態(tài)j)獲得的。EM算法的一般形式我們已經(jīng)看到了EM算法的幾個(gè)實(shí)例。在每個(gè)實(shí)例中,我們都需要對(duì)每個(gè)樣例計(jì)算其隱變量的期望,然后把該期望看作觀(guān)測(cè)值并用它們重新計(jì)算參數(shù)。令x為所有樣例中的所有觀(guān)測(cè)值,并令Z為所有樣
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025廣西河源市民政局招聘編外人員1人備考題庫(kù)及參考答案詳解1套
- 2025陜西西安交通大學(xué)科技與教育發(fā)展研究院科研人員招聘2人備考題庫(kù)及參考答案詳解1套
- 畜牧醫(yī)學(xué)在線(xiàn)培訓(xùn)課件
- 2025年濟(jì)南市文化和旅游局所屬事業(yè)單位公開(kāi)招聘工作人員備考題庫(kù)(2人)含答案詳解
- DB41T 1107-2015 樹(shù)狀月季培育技術(shù)規(guī)程
- JIS D 9402-2010 自行車(chē).前叉(標(biāo)準(zhǔn)) Bicycles - Front forks
- 2026年注塑成型仿真分析項(xiàng)目可行性研究報(bào)告
- 社區(qū)戒毒和社區(qū)康復(fù)培訓(xùn)課件
- 2026年節(jié)能降碳改造貸項(xiàng)目投資計(jì)劃書(shū)
- 2026年智能水下燈項(xiàng)目可行性研究報(bào)告
- 食品加工廠(chǎng)乳制品設(shè)備安裝方案
- 2025至2030中國(guó)芳綸纖維行業(yè)發(fā)展分析及市場(chǎng)發(fā)展趨勢(shì)分析與未來(lái)投資戰(zhàn)略咨詢(xún)研究報(bào)告
- 尾牙宴活動(dòng)策劃方案(3篇)
- 魯教版(2024)五四制英語(yǔ)七年級(jí)上冊(cè)全冊(cè)綜合復(fù)習(xí)默寫(xiě) (含答案)
- 生蠔課件教學(xué)課件
- 組塔架線(xiàn)安全培訓(xùn)
- 化療神經(jīng)毒性反應(yīng)護(hù)理
- 2025年度運(yùn)營(yíng)數(shù)據(jù)支及決策對(duì)工作總結(jié)
- 2025年《外科學(xué)基礎(chǔ)》知識(shí)考試題庫(kù)及答案解析
- 2025年湖南省公務(wù)員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 粉塵清掃安全管理制度完整版
評(píng)論
0/150
提交評(píng)論