丨基于距離的學(xué)習(xí)聚類與度量_第1頁
丨基于距離的學(xué)習(xí)聚類與度量_第2頁
丨基于距離的學(xué)習(xí)聚類與度量_第3頁
丨基于距離的學(xué)習(xí)聚類與度量_第4頁
丨基于距離的學(xué)習(xí)聚類與度量_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

在“人工智能基礎(chǔ)課”中,我曾介紹過四種主要的聚類算法,你可以結(jié)合下面的要點圖回憶一下。除了以概率分布為基礎(chǔ)的分布聚類以外,其他三類聚類算法都涉及對距離的使用,而其中最典型的就是k均值所代表的原型聚類算法。《機器學(xué)習(xí)|物以類聚,人以群分:聚類理解k均值算法的基礎(chǔ)是理解它對距離的使用方式。前面介紹的k近鄰算法其實也用到了向,讓處于中心的樣本作為原型(prototype),像一個小一樣用萬有引力牽引著周和萬有引力類似,k均值算法中定義的相似度也與距離成負(fù)相關(guān)關(guān)系,樣本離原型的距離越小,兩者之間的引力越大,相似度也會越高。但和天文學(xué)中的星系不同的是,k均值算法中如果一個樣本離原型太遠(yuǎn)的話,那引力就可能會減弱到讓這個樣本被另一個原型吸走,轉(zhuǎn)移到另一個簇當(dāng)中。簇內(nèi)樣本的流入流出會讓簇的中心發(fā)生改變,進(jìn)而影響不同簇之間的動態(tài)結(jié)構(gòu)。好在動態(tài)結(jié)構(gòu)最終會達(dá)到平衡,當(dāng)所有樣本到其所屬簇中心的平方誤差最小時,模型就會達(dá)到穩(wěn)定下來。如果聚類的任務(wù)是將N個數(shù)據(jù)點聚類成為K個簇,那它的目標(biāo)函數(shù)就可以 J=∑∑rnk||xn? n=1其中xn是數(shù)據(jù)點,μk是第k個簇的中心,也就是簇中所有數(shù)據(jù)點的均值,rnk是數(shù)據(jù)點和簇之間的關(guān)系:當(dāng)xn被歸類到第k個簇時為1,否則為0。在μk確定的前提下,將數(shù)據(jù)點值,這時的rnk就是最優(yōu)的

歸類到離它最近的那個中心μk就能讓J取到最確定所有的rnk后,利用求導(dǎo)可以進(jìn)一步確定μk的最優(yōu)值,其表達(dá)kμ=∑nk∑n也就是當(dāng)前簇中所有數(shù)據(jù)點的均值。由于k均值本身是個NP問題,所以上面的算法并根據(jù)上面的流程可以總結(jié)出k均值算法的步驟首先從數(shù)據(jù)集中隨機選取k個樣本作為k個簇各自的中心,接下來對其余樣本分別計算它們到這k個中心的距離,并將樣本劃分到離它最近的中心所對應(yīng)的簇中。當(dāng)所有樣本的聚將所有樣本按照k個新的中心重新聚類。這樣,“取平均-重新計算中心-重新聚類”的k均值算法的運行流程(來自百科下面的例子是利用k均值算法對英超球隊的比賽風(fēng)格進(jìn)行分類。這里使用的數(shù)據(jù)集是20支英超球隊在2017-18季的場均數(shù)據(jù),用來聚類的兩個指標(biāo)分別是長傳數(shù)目與短傳數(shù)目根據(jù)以往對英超球隊的理解,我將聚類的數(shù)目設(shè)為3類,初始聚類中心設(shè)定為阿(Arsenal)、埃弗頓(Everton)和斯托克城(Stoke)三支球隊的指阿爾塞納·溫格治下的阿森納一直以來都是英超中一股細(xì)膩的技術(shù)清流,相比之下稱“天空之城”的斯托克城崇尚高舉高打,稱得上是泥石流了。而埃弗頓作為中游球隊的代表,可以看成是弱化版技術(shù)流和加強版身體流的組合。應(yīng)該說,以這三只球隊作為聚類參考是有足夠的代表性的。利用Scikit-learn中的clusterKmeans可以方便地計算出聚類的結(jié)果,如下面左圖所示。如果你經(jīng)??辞颍蜁l(fā)現(xiàn)聚類的結(jié)果差強人意:近年崛起的托特納姆(TottenhamHotspurs)走的也是傳控路線,卻被劃到了硬橋硬馬的斯托克城一類;類似的情形也發(fā)生在自作孽不可活的典型中游隊斯旺西城(SwanseaCity)身上。圖中右側(cè)顯示的是讓算法隨機選擇3個中心的聚類結(jié)果,它和左側(cè)的結(jié)果幾乎完全一致,只是在水晶宮(CrystalPalace)一隊上存在不同,這說明3個初始的選擇比較準(zhǔn)確從貝葉斯的角度看,k均值算法是高斯混合模型(Gaussianmixturemodel)的一個特顧名思義,混合模型將數(shù)據(jù)總體看作來自若干個高斯分布,也就是若干個(component)的數(shù)據(jù)的集合,k均值算法聚出來的每一個簇都對應(yīng)著一個未知參數(shù)的高Kp(x)=∑πkNkk這個式子里的πk是混合系數(shù)(mixingcoefficient),表示的是每個單獨的高斯分布在總體中的權(quán)重,后面的Nkk則是在被選中的高斯分布中,數(shù)據(jù)x取值的概率。判斷數(shù)據(jù)x屬于哪個簇實際上就是要找到它來自哪個高斯分布,而歸屬于第k個簇,也就是來自于第k個高斯分布的概率可以用貝葉斯定理表示為

) πkNkkK∑jN,K這里的γ(zk)可以形象地解釋成第k個分布在解釋觀測值x時需要承擔(dān)的“責(zé)任”,其中的zk是個隱變量(latentvariable)。不難發(fā)現(xiàn),根據(jù)這個式子計算出的每個γk都不等于0,這體現(xiàn)出混合模型和k均值法的一個區(qū)別:k均值輸出的是非此即彼的聚類結(jié)果,屬于“硬”聚類(hardassignment)是“軟”聚類(softassignment)的結(jié)如果假定混合模型中,所有單個分布的協(xié)方差矩陣都等于?I,那么每個分布對數(shù)據(jù)的“責(zé)任”就可以改寫πkexp?||xn?μγ(znk) ∑K∑

πexp?||xn?

當(dāng)描述方差的參數(shù)?→0時,分布就會越來越窄,最終收縮成一個固定的數(shù)值。在?不斷變小的過程中,上面這個式子里分子分母中所有exp(?k/?)形式的項都會同樣趨近于0,但趨近的速度是不一樣的。既然如此,那衰減最慢的是哪一項呢?是exp(?k/?)中系數(shù)k最小的那一項,也nμj||2最小的這一項。它就像我去參加奧運會百米賽跑,在沖向終點0的跑道上被博爾特們遠(yuǎn)遠(yuǎn)地甩在后面,當(dāng)其它的求和項都等于無窮小時,這一項仍然有非0的取值。根據(jù)上面的分析,|xn?μj||2最小同樣意味著γnj →1。這說明對觀測值x的解釋全部被歸因于第j個分布。這時軟輸出γnj就會為前文中k均值算法中的硬輸出rnk,數(shù)據(jù)x也就被分配到離最近的那個簇中心所對應(yīng)的簇在k均值算法中,扮演角色的是距離的概念。可是距離的求解只是,它的目的是衡量局部范圍內(nèi)的相似程度。將k近鄰算法和k均值算法這些基于距離的方法推廣一步,得到的就是相似性學(xué)習(xí)(similaritylearning)和它的變種度量學(xué)習(xí)(metriclearning),度量學(xué)習(xí)的出現(xiàn)源于“數(shù)據(jù)”概念的擴展。倒推10年,人們觀念中的數(shù)據(jù)還只是狹義上的數(shù)字,只有像、身高、血壓這樣的數(shù)字指標(biāo)才能被稱為數(shù)據(jù)??扇缃衲??任何結(jié)構(gòu)化的文本、圖像、DNA序列,甚至一些非結(jié)構(gòu)化的對象都被納入數(shù)據(jù)的范疇,它們都需要利用度量學(xué)習(xí)就是通過定義合適的距離度量或相似性度量來完成特定的分類或者回歸任務(wù)。(symmetry)和三角不等式 inequality)等一些最基本的要求。馬氏距 distance)就是這樣的一種廣義的距離,它的表達(dá)distmah(xi,xj)=√(xi?xj)TΣ?1(xi? Σ是xi和xi所屬概率分布的協(xié)方差矩陣。馬氏距離的好處在于引入了可調(diào)節(jié)的參因為矩陣Σ?1是個半正定的矩陣,所以它可以寫成GTG的形式,利用這一變換可以將distmah(xi,xj)=||i?j 對馬氏距離的學(xué)習(xí)實際上就是對變換G的學(xué)習(xí)。一般來說,經(jīng)過變換后的Gxi的維度會比xi的原始維度有所降低,因此馬氏距離的學(xué)習(xí)可以看成是一類降維操作,將高中一種是通過核函數(shù)引入非線性的作用,將學(xué)習(xí)的對象變成|Gi?j|,另一種則是直接定義出非線性的距離度量dist(xi,xj)=(i)?j,其作用范圍今天我以k均值算法為例,和你了基于距離的學(xué)習(xí)方法,還簡單地介紹了對基于距離聚類分析是一類描述模型,它將數(shù)據(jù)按照相似度分成不同的k均值算法根據(jù)距離來判定數(shù)據(jù)的聚從概率角度看 均值算法是混合模型的一種特例度量學(xué)習(xí)的任務(wù)是構(gòu)造出適合于給定問題的距離度量或相似度的度 種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論