機(jī)器學(xué)習(xí)試題試卷及答案

上傳人：緣*** IP屬地：河北上傳時(shí)間：2025-08-28 格式：PDF 頁(yè)數(shù)：44 大小：10.72MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩39頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章習(xí)題

第1題

垃圾分類：可回收物、有害垃圾、廚余垃圾和其他垃坡。

重量屬性、濕度屬性、顏色屬性、形狀屬性、名稱屬性等。

第2題

模型性能評(píng)估主要是對(duì)模型性能優(yōu)良進(jìn)行評(píng)價(jià)，測(cè)度模型是否達(dá)到任務(wù)要求，不同任

務(wù)通常設(shè)計(jì)不同評(píng)估函數(shù)；

損失函數(shù)也叫代價(jià)函數(shù)，定義為整個(gè)訓(xùn)練集上所有樣本誤差的平均：

目標(biāo)函數(shù)定義為優(yōu)化函數(shù)，等于代價(jià)函數(shù)+正則化項(xiàng)。

第3題

監(jiān)督學(xué)習(xí)，每個(gè)數(shù)據(jù)都有對(duì)應(yīng)標(biāo)簽。簡(jiǎn)單說(shuō)，通過(guò)數(shù)據(jù)+標(biāo)簽訓(xùn)練模型。

非監(jiān)督學(xué)習(xí)，數(shù)據(jù)沒(méi)有對(duì)應(yīng)標(biāo)簽。簡(jiǎn)單說(shuō)，通過(guò)數(shù)據(jù)，獲得某種潛在函數(shù)。

強(qiáng)化學(xué)習(xí)通過(guò)在智能體與環(huán)境的交互過(guò)程中智能體學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)?/p>

現(xiàn)特定目標(biāo)。

第4題

自適應(yīng)學(xué)習(xí)率、小批量梯度下降、動(dòng)量

第5題

奧卡姆剃刀準(zhǔn)則：如無(wú)必要，勿增實(shí)體。(Entitiesshouldnotbemultipliedunnecessarily)

羅生門現(xiàn)象(LeoBMman)：處理問(wèn)題時(shí)，往往各執(zhí)一詞，從而形成有利于自己的處理

方式。機(jī)器學(xué)習(xí)中的羅生門現(xiàn)象與嶺回歸有關(guān)，沒(méi)有唯一解.

“沒(méi)有免費(fèi)的午鈴”定理(NoFreeLunchTheorem,NFL)：在優(yōu)化算法中任何個(gè)模

型函數(shù)都不能解決所有問(wèn)題。如果在一些訓(xùn)練樣本上表現(xiàn)好，那么在另一些訓(xùn)練樣本上

表現(xiàn)不好。

第6題

0.5166.程序，略。

第1題

高斯分布對(duì)離群點(diǎn)非常敏感，擁擠現(xiàn)象影響明顯。

參考教材圖2.13,采用學(xué)生/分布計(jì)算相似度。實(shí)現(xiàn)同一簇類點(diǎn)（距離較近）聚合更緊密,

不同簇類間點(diǎn)更加疏遠(yuǎn)。

第2題

描述屬性間相關(guān)矩陣。

。。心1占)cov(xxx2)…COU(M產(chǎn)N)

cov{_x2x^cov(x2x2)…cov(x2xN)

(COV{XNXx)cov(xx)???cov(xx)

N2NN

xTx描述樣本間相關(guān)矩陣。

第3題

E[(〃k--Mm)l=-3加c+*外n-區(qū)內(nèi)n-4M)]

=2EKM?-M“)]=2E(或〃。-2E(〃>m)

=2E(〃屈Q-2E(戒)E("Q=2]E(區(qū)-MoMol

E[(〃k-〃O)T(〃K-Mo)]=+gjMo-區(qū)Mo-麗k)l=E(或一尾4o

E[3k-一4n)]=2磯3-〃0)T3k-Mo)]

第4題

模仿例2.4,詳細(xì)過(guò)程略。

第1題

略。

第2題

提示：輸入圖像，計(jì)算直方圖，然后估計(jì)概率分布曲線。

第3題

稀少事件指在有限次試驗(yàn)中很少甚至不出現(xiàn)事件。以至于，稀少事件概率為零，實(shí)際上

并不等于零。為避免這種不準(zhǔn)確的概率計(jì)算出現(xiàn)，可以采用“m-估計(jì)法”。

例如0/事件概率計(jì)算

No+mn0Ni+mnx

Po=N+m；P1=/V+zn

No+M=N

沏和心為專家直覺(jué)概率，即憑先驗(yàn)知識(shí)，出現(xiàn)。和1的概率應(yīng)該為質(zhì)和叼。

第1題

模仿例題4』，詳細(xì)過(guò)程略。

第2題

設(shè)包含N個(gè)樣本的樣本集0=｛（九力）,（無(wú)272），…,（布,%）｝共有C個(gè)類別和樣本%”的k近

鄰樣本集為｛%1，不，…,4｝，采用k近鄰分類的平均錯(cuò)誤率為PkNN（e），

Nrk

PkNN?=WWP（4（元n&））尸（心兄）PM

n=lL?n=l

P（e|（%m，&））=1-WP（c|"m）P（c'）

C=1

PkNN=J$PkNN（e）

第3題

1.ball-tree是對(duì)kd-tree的改進(jìn)，在數(shù)據(jù)維度較大時(shí)，kd-tree性能急劇下降，而

ball-tree在高維數(shù)據(jù)情況卜.具有更好的性能。

2.kd-tree采用二叉樹(shù)思想，最近鄰使用歐式距離（超球體），分割子空間為超方體。

顯然，分割的超方體與搜索的超球體相交可能性大，而相交空間需要檢查；

3.ball-tree,采用兩邊之和與第三邊大小進(jìn)行判斷，分割子空間也是超球體，所以分

割區(qū)與搜索區(qū)相交部分減少。

第1題

略。

第2題

1.優(yōu)化問(wèn)題存在約束條件，

min/(X),s.t.hk(x)=0,k=1,2,...

拉格朗日函數(shù)定義為，

FSB。=/(%)+W6kM(%)

2.優(yōu)化問(wèn)題存在不等式約束條件，

min/(x),s.t.h,k(x)=0,k=1,2,...,m=1,2,...

如果滿足KKT條件：

(])a.(x，6k，'m)|_Q.

dxlx=x"

(2)6k*o；

(3)>0;

(4)Amgm(x^=0,互補(bǔ)松弛條件，

其拉格朗日函數(shù)定義為，

F(x,/?fc,Am)=/(x)+，Bkhk(x)+AmgmM

第3題

%_______（i-yn）"（5；w）

中=-法/On；w）1-f（xn；w）]dw

n=L

___yn_______（l-yn）"（%；W）dz

f（x;W）1-f（x;w）]dz

42nndw

=4S[7(^)-1，君R/&；?)(//6；卬))器

n=l

=一百W帆@-f（&；卬））一（1一W）]%n

n=l

]']N

=一斤W[為一f（%n；W）拉n=]Zh一%n

II—111-1

第4題

刃(W,b)1Y,TfA、]

-^T=NL[x^WXn+b~Zn)]

n=l

=N(wx”

百Q(mào)n-b))]

n=l

1NN

=瓦2必與)2-：＞(4—)媒=0

/VZ-1

n=ln=l

N]N

aj(w,b)_1「2仍一(z〃一w?]=b--^(z-w喘)=0

db一NZ1(Kb句)]-八n

n=ln=ln=l

第5題

8/(w)_1dj(w)[yVcfgcn

n=c]logcwx

dwc~Ndwc|ZJX；n=ieW"n

1刃(w)卜yy況%=c)(wcxn-logy

Ndwc|z

=用￡碼_」yx^ew^\\

n~c}vn與篙…J

N219{yn=c}ewf|

=4Z-(

n=l

「用r春N”(fwx?\1

，…Fc-r)|

ln=l

4[f(p(yn

=c\f(xn;w)}-6(yn=c})xn

第1題

設(shè)X的特征向量和特征值分別是&和九即=

(W0(%)(0區(qū)))7二加(1)

n=l

"=)W((08))‘)6(孫)=W,斯=,((?6))%)⑵

71=171=1

(。區(qū)))山=入(。⑶))V(3)

將(2)代入(3)得，

Mog))%=MO?))'W即081)=4W即(0&))‘奴無(wú)”)

n=ln=l

=4((0(4))70(%1)(0g)y0(%2)…(0(xfc))T0(xiv))(7)

=AXcr

（0（^/c））TZv=（。（4））號(hào)2。（項(xiàng)）（0（范））〉即。區(qū)）

i=ln=l

N/N\

=，W即(0(())[We?)(。?))[

n=l\i=l)

0(xj(0?)))0(%i)…(0(九))[108)(08)))OQN：)(?)

所以有，ANJCa=K2aXNa=OCa

第2題

設(shè)/W”XN,]q=iij=1,2,…，N

/N\//N

無(wú)(項(xiàng)巧)=(0(xf))0(xy)=(奴陽(yáng))-'W*(3))(3(勺)一'W奴4)

女（4勺）=（奴/））”（勺）一，一"2（火距））“（丸）

n=lk=l

+禧W（*g））%g）

fc,n=l

NNN

女（片，巧）="（勺,巧）一，2/i,nK（%n，U）一（WK（巧±Wk,n^（xn,Xk）IkJ

n=lk=lntk=l

=K（x”巧）一卜雙陽(yáng)⑹-%（xl-,x;）//v+lNJC（＜xi,Xj'）IN

第3題

%（xf,x;）=（</>（Xi）f（/）（Xj））=￡（焉/養(yǎng)xj）（焉e一券芍n）

71=0

I區(qū)一”12

exp

2a2

n=0

第4題

K（M，巧）=（1+x]xj）2=（1+WXk』Xk,j）

\k=l）

dd〃一1d

=1+W（伍h）（伍kj）+WW（缶k/m」）（低k,/mj）+W歡咨3

k=lk=2m=lk=l

=<0（Xi）,0（X;））

第5題

核函數(shù)均為正定函數(shù)：VneN,a={alta2...,an]ER,

nnnnnn

2w《a必（量巧）=w2<“°8）嗎。（巧》亢=〈2%0（'）2為@（芍”亢

i=ij=li=lj=li=lj=l

=卜[%0區(qū)）之。

第1題

略。

第2題

略。

第3題

定理：Hoeffding不等式

設(shè)Z1，Z2，…,2?為獨(dú)立有界隨機(jī)變量，且-8<aWbV8,那么，

P(5(ZLE㈤)Nt)vexp(一丹)

PG￡(ZLE閡"-t)<exp(-^7)

第4題

Booting是實(shí)現(xiàn)集成學(xué)習(xí)的?種機(jī)制；而AdaBoost(AdaptiveBoosting)是實(shí)現(xiàn)Boosting

機(jī)制的一種方式。

第5題

CART與ID3和C4.5相同點(diǎn)：特征選擇、樹(shù)的生成和剪枝三個(gè)不揍。

ID3和C4.5用于分類，CART既可用于分類，也可以實(shí)現(xiàn)回歸。

第8章聚類..........................................................................II

一一聚類基本理論...............................................................11

8.1.1聚類的唾...................................................................11

8.1.2相似性測(cè)度...................................................................12

8.1.3類簇中心.....................................................................13

8.1.4聚類算法評(píng)價(jià)書(shū)梟示.............................................................15

一_K均值聚類..................................................................20

―一層次聚類....................................................................21

83.1凝聚糠.....................................................................22

8.3.2平衡雌削減層次聚類........................................................23

__密度聚類....................................................................26

8.4.1DDSCAN..........................................................................................................................................26

8.4.2高斯混合聚類.................................................................28

—_小結(jié)與拓展..................................................................29

實(shí)驗(yàn)八聚類實(shí)驗(yàn)....................................................................29

習(xí)題...............................................................................31

第8章聚類

聚類是無(wú)監(jiān)督學(xué)習(xí)算法，其目的是把相似樣本歸為一類，不相似樣本歸為另一類。例如

將動(dòng)物聚類，可以根據(jù)“腿屬性”聚類成無(wú)足動(dòng)物、兩腿動(dòng)物和四腿動(dòng)物。聚類算法大體可

分為均值區(qū)域劃分聚類、層次聚類、密度聚類和譜聚類算法。層次聚類算法可追溯到1963

年，最著名的k均值聚類算法則于1967年被提出，1995年提出的MeanShift算法于1995

年用于聚類，譜聚類算法誕生于2000年左右。

相似度測(cè)度：歐式距離，殳哈頓距礴，閔可夫斯基距離，值差異

類簇中心：K均值中心、基于密度的中

評(píng)價(jià)指標(biāo)：純度，聚類烯，同質(zhì)性，蘭德指數(shù)，輪廓系

K均值聚類：k-mean,k-mean++

層次聚類：凝聚筑巢，平衡迭代削

鷲度聚類:DBSCAN,高斯混合聚

俗話說(shuō)：物以類聚，人以群分。樹(shù)立正確的人生觀、價(jià)值觀和世界觀。

聚類基本理論

8.1.1聚類的性質(zhì)

對(duì)樣本數(shù)據(jù)集X=口1/2,…，無(wú)N｝聚類成K個(gè)樣本簇：｛的,32,…，網(wǎng)卜滿足二個(gè)住質(zhì):

?非空性：符00,k=1,2,...,K

?不相交：XkCyXi=0,k,l=k*I

?全覆蓋：U￡=i%=%。

聚類簇須中樣本在某個(gè)屬性或某些屬性指導(dǎo)下

彼此“相似”而物以類聚，異簇之間樣本“不相似”

而敬而遠(yuǎn)之。實(shí)際上，聚類結(jié)果未必全滿足上述三個(gè)

條件。如圖8.1所示，如果把圖中黑色點(diǎn)當(dāng)作噪聲樣

本，顯然上述三個(gè)條件全滿足。如果不是噪聲點(diǎn)，1號(hào)

圖8.1聚類示意

黑色樣本點(diǎn)可能同時(shí)被劃歸為無(wú)2和工3,2號(hào)黑色樣本

點(diǎn)不被任何簇吸收。

8.1.2相似性測(cè)度

一相似度測(cè)度的性質(zhì)

在聚類算法，樣本間相似度通常需要采用兩個(gè)樣本之間的“距離測(cè)度(DistanceMetric,

DM)”進(jìn)行衡量。設(shè)兩個(gè)向量％=(與,％2，…,xd),y=(yny2，…,％)丁，則它們之間距離用

表示。距離測(cè)度應(yīng)該具有如下性質(zhì)：

?非負(fù)性，距離不能是負(fù)數(shù)：OM(%,y)NO；

?同一性，具有相同屬性向量的兩個(gè)樣本的距離等于零：OM(%,%)=0；

?無(wú)向性或?qū)ΨQ性，4到y(tǒng)與y到％的距離相等：DM(x,y)=DM(y,x)；

?直遞性，三角不等式:DM(x,y)<DM(x,z)+d(z,y),z-(zltz2,...,zd)o

?常見(jiàn)距離測(cè)度

1)歐氏距離(Euclidean)

0M(4,y)=￡?=信…)(81)

2)曼哈頓距離(Manhattan)

=\氏一

DM(x,y)=^1(8.2)

t=i

3)閔可夫斯基距離(Minkowski)

DM(x,y)=(8.3)

式中，p=l時(shí)，閔氏距離即為曼哈頓距離；

當(dāng)p=2時(shí),閔氏距離則為歐氏距離。

圖8.2顯示了二維空間中樣本點(diǎn)(k1，.2)取不同值

時(shí)，與原點(diǎn)(0,0)的距離為1((=1)的點(diǎn)的圖形。

一不同量綱間距離測(cè)度

計(jì)算上述距離時(shí)，隱含一個(gè)假設(shè)：各屬性分量的量

綱(單位)相同。然而如果屬性分量的單位不相同，則各

分量的分布(期望，方差等特性)可能不同。舉個(gè)例子：

二維樣本(身高，體重)，其中身高范圍是150?190屈米,

體重范圍是50?60公斤?，F(xiàn)有三個(gè)樣本：張三(180,50),李四(190,50),王五(180,60)。那么

張三與李四之間的閔氏距離等于張三與王五之間的閔氏距離，但是身高的10厘米并不一定

等價(jià)于體重的10公斤。

針對(duì)量綱不同的屬性，通常采用兩種方式進(jìn)行標(biāo)準(zhǔn)化:

1)采用每個(gè)屬性值的標(biāo)準(zhǔn)差進(jìn)行歸一

DM{x,y)=(8.4)

式中，s”表示第九維的標(biāo)準(zhǔn)差。

2)標(biāo)準(zhǔn)化屬性尺度是把所有屬性取值縮放到相同區(qū)間[0,1]

x—min(x)

(8.5)

max(x)-min(x)

值差異度量.△T￡_。衿a。.。，。。6一寸△入二

無(wú)序?qū)傩圆捎弥挡町惗攘?VDM)。

在K個(gè)類簇中，設(shè)m。/是屬性a上取值為％的樣本數(shù)，撈**表示在第攵類樣本簇中屬性。

上取值為無(wú)的樣本數(shù)，則屬性a上取值為和外的VDM定義為，

皿%―=￡|暗-等『(“)

設(shè)樣本的d屬性向量中有4個(gè)有序?qū)傩?，d-a個(gè)無(wú)序?qū)傩?，則樣本yy的閔可夫斯基距

離(Minkowski)定義為

DM(x,y)=2(%一方"+WV°Mp(孫力)(8.7)

i=li=dc+lj

當(dāng)不同屬性重要性不同時(shí)，可乘權(quán)重系數(shù)WiNO,Xf=lWt=lo

8.1.3類簇中心

類簇中心，又稱為簇質(zhì)心，定義為簇內(nèi)樣本分布中心，如圖8.1中每簇的中心點(diǎn)。然而，

不同聚類算法定義各有差別，簡(jiǎn)單分為兩種：

…均值聚類簇中心

設(shè)聚類結(jié)果為｛匕,4，…,&｝，第/類的樣本數(shù)量為以，則元=｛4,^，…，如)，K均值

聚類算法將類簇中心定義為各簇中樣本點(diǎn)的平均值，即

=〃(招)=(8.7)

通過(guò)式(8.7)計(jì)算類簇中心符合最優(yōu)理論。

基于密度的類簇中心

AlexRodriguez和AlessandroLaio在Science期刊文章中提出：類簇中心周圍都是密度

比其低的點(diǎn)，同時(shí)這些點(diǎn)歪離該簇中心的距離相比于其他聚類中心最近。

設(shè)樣本集％={/，刈，…，修/中樣本間距離為0時(shí)?！?;^)，樣本索引集〃={1,2，…,N}。

對(duì)于樣本首先計(jì)算其局部密度和距離〃n：

(1)樣本事的局部密度Pn

局部密度定義為以事為中心、￡為半徑的鄰域Ne(Xn)內(nèi)樣本點(diǎn)的數(shù)量(不包括f本身)。

根據(jù)鄰域內(nèi)外分界方式，可分為硬截?cái)?Cut-of「kernel)和高斯平滑截?cái)?GaussianKernel)兩種

模式。

1)硬截?cái)?/p>

Pn=W"DM(%n，/n)-￡)(8.8)

m€/d\{n}

式中，

把鄰域半徑￡稱為截?cái)嗑嚯x。

2)高斯平滑截?cái)?/p>

V/DM(xn.xm)\l

Pn=exp-----E----)(89)

nt€/d\{n}')

計(jì)算局部密度的目的為了依據(jù)密度大小尋找類簇中心，為此希望樣本點(diǎn)的局部密度盡可

能不相等。顯然，高斯平滑截?cái)嗑哂袃蓚€(gè)優(yōu)點(diǎn)：(1)具有相同局部密度的概率?。?2)鄰域MQ”)

內(nèi)樣本點(diǎn)數(shù)越多，局部密度越大。

(2)距離〃n

當(dāng)獲得X={f猾=1的密度集{Pn猾=1后，則f的距離g定義為無(wú)n與密度大于P”的樣本

了集中樣本;1詁的最小距離，

%=min{DM(x,x))J/Id}1*0(8.10)

mG/dJn,n

式中，Id*={rn\pm>pj表示樣本集無(wú)中密度大于Xn的密度pn的樣本％m的索引集。

然而，當(dāng)Pn=max{p?}?=i，則/d9=0,此時(shí)％”的距離心定義為，

m€/dx

d=max[DM(_x,x)},if/吸=0(8.11)

nm€/dxnin

式中，ldx={1,2,…,N}為樣本集匯={右}匕i中每個(gè)樣本的索引集。

圖8.3展示了一個(gè)決策類簇中心的例子，圖中樣本點(diǎn)為二維屬性向量。圖8.3(a)為28個(gè)

樣本點(diǎn)分布。直觀上，容易發(fā)現(xiàn)點(diǎn)1和點(diǎn)10可作為類簇中心。

圖8.3(a)：維樣本空間分布和(b)決策圖(Pn，〃n)

圖8.3(b)是由(局部密度，距離)，即(p,d),構(gòu)建的類^中心決策圖。從圖中，不難發(fā)現(xiàn)，

點(diǎn)1和點(diǎn)10在決策圖中分布在右上角，即不僅局部密度較大，而且距離也較大。

盡管P9和P10相差不大，但是49和。10卻有很大差別：點(diǎn)9屬于點(diǎn)1的類簇(把點(diǎn)1作為

大腿抱著)，在其附近還有幾個(gè)更高的局部密度的點(diǎn)，因此心較小；在點(diǎn)10附近不存在有更

高密度的點(diǎn)，比點(diǎn)10密度更高點(diǎn)卻處于其它類簇。所以，點(diǎn)10是類簇中心而點(diǎn)9不是。

此外，點(diǎn)26、27和2B是孤立的，盡管有相對(duì)較高的距離值，但是它們的局部密度值很

低。這些點(diǎn)稱為異常點(diǎn)，可當(dāng)作噪聲點(diǎn)，也可作為單個(gè)點(diǎn)構(gòu)成的簇。

綜上所述，只有同時(shí)具有較高局部密度和距離的點(diǎn)才是非孤立點(diǎn)的類簇中心。

8.1.4聚類算法評(píng)價(jià)指標(biāo)

如圖8.4所示，假設(shè)兩種聚類算法41和A2,對(duì)％={%1，不，…，必1}聚類結(jié)果分別為，

C={G，C2,C3,CJ

為了表述方便，假設(shè)算法41的聚類結(jié)果是期望結(jié)果，稱每個(gè)聚類為一個(gè)類；聚類算法42

的結(jié)果則需要進(jìn)行評(píng)價(jià)，稱每個(gè)聚類為一個(gè)簇。

聚類算法41

聚類算法A2

圖8.4聚類算法評(píng)價(jià)指標(biāo)

實(shí)際應(yīng)用中存在許多聚類算法的評(píng)價(jià)指標(biāo)，這里主要介紹以下幾種:

純度』一。_-

將每個(gè)簇內(nèi)頻數(shù)最高的樣本類別作為正確的類簇，則每簇純度定義為,

該簇正確樣本數(shù)

Purity(K)=(8.12)

k該族樣本總數(shù)

參考算法力1的聚類結(jié)果，圖8.4聚類算法42每個(gè)簇的純度分別為:

54231

PurityW^=-,Purity(X)=Purity=-.Purity^)=PurityW)=-

62□Z□53

整個(gè)聚類的純度定義為，

頻數(shù)最高類別的樣本數(shù)之和

Purity(K)=(8.13)

樣本總數(shù)

算法42聚類后整體純度為,

5+4+2+3+115

Purity(K)=

2121

▽聚類崎

針對(duì)每一個(gè)聚類簇心，其端定義為,

Entropy^k)=~^Pks，°。3心)=一￡log葭:(8.14)

S=1S=1\/

式中，S表示聚類算法41的類別數(shù)，p人是簇招中樣本屬于類Q的概率。當(dāng)先來(lái)自同一

個(gè)Cs時(shí)，其燧等于0,這只是最理想的聚類。

圖8.4聚類算法42聚類結(jié)果每個(gè)簇的嫡為，

=一前9弓）一%四?,

EntropyEntropy^)

Entropy(^3')EntropyC^^)

Entropy(/)=~\lo9(1)(鄉(xiāng)~\1°9(1)

同質(zhì)性「阡。?。?。%.

同質(zhì)性也叫均一性，一個(gè)類簇中僅有一個(gè)類別的樣本，均一性最高。

相當(dāng)于精確率，即被聚類的類簇中正確分類的樣本數(shù)占該類簇中的樣本數(shù)的比例,

1v正確聚類為第k簇的樣本數(shù)量

Accuracy=—>--------------------------------------(8.15)

KKJ—1聚類為第k族的樣本總數(shù)

假設(shè)火5為噪聲簇，圖84聚類算法力2結(jié)果的均一性為,

-1-P5+一4+一2+一3+一11

51652531

有時(shí)，同質(zhì)性度量還用條件炳定義為力值,

W(%|C)

h=(8.16)

”(C)

式中，”（無(wú)|C）在給定類別條件下聚類簇的條件牖,

“（好）=-￡￡?duì)帯?（箸）

s=lk=l

“?=-￡?duì)?。喏?/p>

S=1

式中，K表示聚類算法42的簇?cái)?shù)。71總是實(shí)例數(shù)，％和以分別表示類G和簇心的實(shí)例

數(shù)，n邛是類Cs中樣本劃分給簇收的實(shí)例數(shù)。

77664444

"（C）=-57/。。（外）一77'°9（外）一7T‘°g（?T）-77，°。（?7）

乙,乙JL乙乙JL4人乙工乙JL4人

5,og

H(X|C)=--log一》?-^

乙X(I)-77logQ)og

Aio8G)-H,og?-Hiog0-H,og@-4,ogG)

osg0一舁。gG)-梟。g(I)-梟。g(I)-舁。gG)

00;3

lug-108,o8

五I組6?@H五叫(l)-A(S

完整性一U阡Y￡O_OEC>.

同類別的樣本被歸類到同一聚類簇中，則滿足完整性。相當(dāng)于召回率，即每個(gè)聚類中正

確分類的樣本數(shù)占該類別樣本的數(shù)量，

“17正確聚類為第S簇的樣本數(shù)量

n(8.17)

SJ第s簇的樣木總數(shù)

0-1

假設(shè)&5為噪聲簇，圖8.4聚類算法42結(jié)果前4簇的完整性為,

1[5423-

了41三7+:6+二4+:4.

有時(shí)，完整性度量也用條件端定義為九值，

H(C|K)

6=1—(8.18)

H(K)

同質(zhì)性和完整性都是基于兩類別劃分間的條件牖：已知某一類別劃分后，計(jì)算另一類別

劃分的不確定性程度，不確定性越小，兩個(gè)類別劃分越接近，力值或c值就越大。

V-Measure,是同質(zhì)性和完整性的調(diào)和平均值（harmcnicmean）,定義為

(1+夕)x九xc

v=(8.19)

Pxh+c

_蘭德指數(shù)和調(diào)整蘭德指數(shù)

考慮％=中任意兩個(gè)互異樣本%n和%m，按照它們?cè)诰垲愃惴?1和力2的聚類結(jié)

果中是否屬于同一個(gè)類簇，存在以下四種關(guān)系：

?SS：f和外在41和42都屬于同類簇，“同類同簇”

SS={(久八，%m)1(*71，%7n6G)A(Xn,XmG長(zhǎng)火)}.

?SD:j和在41屬于同類，但在力2屬于不同簇，“同類但不同簇”

SD={(%,Xm)l("n，WQ)A(%n€,XmEkH/)1?

?DS:曰和在41屬于不同類簇，但在42屬于同類簇，“不同類但同簇”

DS={(xn,xm)|(xnCCi，xmGCj,iH/)n(xn,xmG%Q}.

?DD:f和在Al和A2均屬于不同類簇，“不同類不同簇”

DD={(xn,xm)|(xnwG，feCj,i右力n(xne/,丁wg,k手/)}.

用a、b、c和d分別表示上述四種關(guān)系的數(shù)量。

接下來(lái)，結(jié)合圖8.4給出計(jì)算過(guò)程：

a=琦+C?+C/+廢+C：=21

其中，廉+戲來(lái)自于3。

b、c和d無(wú)法單獨(dú)計(jì)算，需要采用組合方式，

SS+DS：同一簇中任取兩個(gè)樣本點(diǎn)來(lái)自同類和非同類，

a+c=仁+球+弓+球+以=39

SS+SD,任意兩個(gè)同類樣木點(diǎn)被聚類到同簇和非同簇.

Q+b=0+Cf+§+6=48

a+b+c+d=C尹=210

可得a=21,b=27,c=18,d=144。

進(jìn)一步制定混淆矩陣［PairConfusionMatHx),

同簇非同簇同簇非同簇

同類a=\SS\b=\SD\a+b同類212748

非同類c=\DS\d=\DD\c+d非同類18144162

Q+Cb+d39171

基于a、b、c和d,定義如下四種指數(shù):

(I)蘭德指數(shù)(RandIndex,RZ)

a+da+da+d

DI=____________=_________=_____(8.20)

a+b+c+d~以

(2)JaccardCoefficient

JC=——?—(8.21)

a+b+c

(3)FewIkesandMallowsindex

(8.22)

上述三個(gè)系數(shù)的范圍是[0,1],值越大，劃分越好。

然而，即便隨機(jī)劃分，RI值也未必接近于0o于是1985年Hubert和Arabie提出調(diào)整

蘭德指數(shù)：假設(shè)聚類算法.41和42為隨機(jī)劃分，各類別和各簇的樣本數(shù)是固定的。

(4)調(diào)整蘭德指數(shù)(AdjustedRandIndex,ARI)

RI-E[R1]

ADI—_________L」(8.23)

max(R/)—E[Ri]

采用調(diào)整蘭德指數(shù)是為了消除隨機(jī)標(biāo)簽對(duì)于蘭德指數(shù)評(píng)估結(jié)果的影響。

計(jì)算4R/的另一種方法是根據(jù)列聯(lián)表(contingencylable),

Am=—產(chǎn)-以差明/布

(8.24)

|m+工明-9或“工明/④

調(diào)整蘭德指數(shù)范圍是負(fù)數(shù)代表聚類結(jié)果不好，越接近于I越好。

對(duì)任意數(shù)量的聚類中心和樣本數(shù)，隨機(jī)聚類的力R/都非常接近于0。

圖8.4示列的4R/的計(jì)算過(guò)程如下：

Q=WW或人=第+C?+廢+廢+廢=21

Q+C=2球"=仁+球+C2+C2+廢=39

a+b=W吟=以+仁+廢+以=48

AR]_21-(39x48)/210

i[39+48]-(39x48)/210

上述四個(gè)指數(shù)越大表明：41和42聚類結(jié)果吻合程度越高，聚類效果越好。

L輪廓系數(shù)《砒。

的SC定義為，

1-/1,Q(Xn)<b(%n)

b(x)—0.(x)1"九1

SC(%n)=m算/7={Sa(xn)=b(xn)(8.25)

max{b(xn),a(xn)})

-775-I，?U?)>b(x)

Ia("ri)n

式中，

a(f)：為樣本辦到同一簇內(nèi)其它樣本的平均距離，體現(xiàn)了樣本f的簇內(nèi)不相似度,Q(x")

越小，表示％幾越應(yīng)該聚類到該族；

樣本/到簇Kk內(nèi)樣本的平均距離，反映樣本事與此的不相似度，b/Qn)越

大，表示xn越不應(yīng)該聚類到該簇Kk；

匕(今)=血加｛法1(%)，匕%(&)…，岳*(5)｝越大表示越不應(yīng)該屬于其它簇。

SC(馬)接近1,則說(shuō)明樣本f聚類合理；SC?！?接近-1,則說(shuō)明樣本Xn更應(yīng)該分類到其

它簇；若SC(f)近似為0,則說(shuō)明樣本功在兩個(gè)簇的邊界上。

所有樣本的SC的均值稱為聚類結(jié)果的輪廓系數(shù)。

一十K均值聚類

K均值聚類算法(K-maans)的基本思路：依據(jù)距慮相似度將樣本集聚類成K個(gè)簇，致使簇

內(nèi)樣本距離盡可能小，簇間距離盡可能大。

-…

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)試題試卷及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

機(jī)器學(xué)習(xí)試題試卷及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔