版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章習(xí)題
第1題
垃圾分類:可回收物、有害垃圾、廚余垃圾和其他垃坡。
重量屬性、濕度屬性、顏色屬性、形狀屬性、名稱屬性等。
第2題
模型性能評(píng)估主要是對(duì)模型性能優(yōu)良進(jìn)行評(píng)價(jià),測(cè)度模型是否達(dá)到任務(wù)要求,不同任
務(wù)通常設(shè)計(jì)不同評(píng)估函數(shù);
損失函數(shù)也叫代價(jià)函數(shù),定義為整個(gè)訓(xùn)練集上所有樣本誤差的平均:
目標(biāo)函數(shù)定義為優(yōu)化函數(shù),等于代價(jià)函數(shù)+正則化項(xiàng)。
第3題
監(jiān)督學(xué)習(xí),每個(gè)數(shù)據(jù)都有對(duì)應(yīng)標(biāo)簽。簡(jiǎn)單說(shuō),通過(guò)數(shù)據(jù)+標(biāo)簽訓(xùn)練模型。
非監(jiān)督學(xué)習(xí),數(shù)據(jù)沒(méi)有對(duì)應(yīng)標(biāo)簽。簡(jiǎn)單說(shuō),通過(guò)數(shù)據(jù),獲得某種潛在函數(shù)。
強(qiáng)化學(xué)習(xí)通過(guò)在智能體與環(huán)境的交互過(guò)程中智能體學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)?/p>
現(xiàn)特定目標(biāo)。
第4題
自適應(yīng)學(xué)習(xí)率、小批量梯度下降、動(dòng)量
第5題
奧卡姆剃刀準(zhǔn)則:如無(wú)必要,勿增實(shí)體。(Entitiesshouldnotbemultipliedunnecessarily)
羅生門現(xiàn)象(LeoBMman):處理問(wèn)題時(shí),往往各執(zhí)一詞,從而形成有利于自己的處理
方式。機(jī)器學(xué)習(xí)中的羅生門現(xiàn)象與嶺回歸有關(guān),沒(méi)有唯一解.
“沒(méi)有免費(fèi)的午鈴”定理(NoFreeLunchTheorem,NFL):在優(yōu)化算法中任何個(gè)模
型函數(shù)都不能解決所有問(wèn)題。如果在一些訓(xùn)練樣本上表現(xiàn)好,那么在另一些訓(xùn)練樣本上
表現(xiàn)不好。
第6題
0.5166.程序,略。
第1題
高斯分布對(duì)離群點(diǎn)非常敏感,擁擠現(xiàn)象影響明顯。
參考教材圖2.13,采用學(xué)生/分布計(jì)算相似度。實(shí)現(xiàn)同一簇類點(diǎn)(距離較近)聚合更緊密,
不同簇類間點(diǎn)更加疏遠(yuǎn)。
第2題
描述屬性間相關(guān)矩陣。
。。心1占)cov(xxx2)…COU(M產(chǎn)N)
cov{_x2x^cov(x2x2)…cov(x2xN)
:?
(COV{XNXx)cov(xx)???cov(xx)
N2NN
xTx描述樣本間相關(guān)矩陣。
第3題
E[(〃k--Mm)l=-3加c+*外n-區(qū)內(nèi)n-4M)]
=2EKM?-M“)]=2E(或〃。-2E(〃>m)
=2E(〃屈Q-2E(戒)E("Q=2]E(區(qū)-MoMol
E[(〃k-〃O)T(〃K-Mo)]=+gjMo-區(qū)Mo-麗k)l=E(或一尾4o
E[3k-一4n)]=2磯3-〃0)T3k-Mo)]
第4題
模仿例2.4,詳細(xì)過(guò)程略。
第1題
略。
第2題
提示:輸入圖像,計(jì)算直方圖,然后估計(jì)概率分布曲線。
第3題
稀少事件指在有限次試驗(yàn)中很少甚至不出現(xiàn)事件。以至于,稀少事件概率為零,實(shí)際上
并不等于零。為避免這種不準(zhǔn)確的概率計(jì)算出現(xiàn),可以采用“m-估計(jì)法”。
例如0/事件概率計(jì)算
No+mn0Ni+mnx
Po=N+m;P1=/V+zn
No+M=N
沏和心為專家直覺(jué)概率,即憑先驗(yàn)知識(shí),出現(xiàn)。和1的概率應(yīng)該為質(zhì)和叼。
第1題
模仿例題4』,詳細(xì)過(guò)程略。
第2題
設(shè)包含N個(gè)樣本的樣本集0={(九力),(無(wú)272),…,(布,%)}共有C個(gè)類別和樣本%”的k近
鄰樣本集為{%1,不,…,4},采用k近鄰分類的平均錯(cuò)誤率為PkNN(e),
Nrk
PkNN?=WWP(4(元n&))尸(心兄)PM
n=lL?n=l
C
P(e|(%m,&))=1-WP(c|"m)P(c')
C=1
PkNN=J$PkNN(e)
第3題
1.ball-tree是對(duì)kd-tree的改進(jìn),在數(shù)據(jù)維度較大時(shí),kd-tree性能急劇下降,而
ball-tree在高維數(shù)據(jù)情況卜.具有更好的性能。
2.kd-tree采用二叉樹(shù)思想,最近鄰使用歐式距離(超球體),分割子空間為超方體。
顯然,分割的超方體與搜索的超球體相交可能性大,而相交空間需要檢查;
3.ball-tree,采用兩邊之和與第三邊大小進(jìn)行判斷,分割子空間也是超球體,所以分
割區(qū)與搜索區(qū)相交部分減少。
第1題
略。
第2題
1.優(yōu)化問(wèn)題存在約束條件,
min/(X),s.t.hk(x)=0,k=1,2,...
拉格朗日函數(shù)定義為,
FSB。=/(%)+W6kM(%)
2.優(yōu)化問(wèn)題存在不等式約束條件,
min/(x),s.t.h,k(x)=0,k=1,2,...,m=1,2,...
如果滿足KKT條件:
(])a.(x,6k,'m)|_Q.
dxlx=x"
(2)6k*o;
(3)>0;
(4)Amgm(x^=0,互補(bǔ)松弛條件,
其拉格朗日函數(shù)定義為,
F(x,/?fc,Am)=/(x)+,Bkhk(x)+AmgmM
km
第3題
%_______(i-yn)"(5;w)
中=-法/On;w)1-f(xn;w)]dw
n=L
___yn_______(l-yn)"(%;W)dz
f(x;W)1-f(x;w)]dz
42nndw
=4S[7(^)-1,君R/&;?)(//6;卬))器
n=l
]N
=一百W帆@-f(&;卬))一(1一W)]%n
n=l
]']N
=一斤W[為一f(%n;W)拉n=]Zh一%n
II—111-1
第4題
刃(W,b)1Y,TfA、]
-^T=NL[x^WXn+b~Zn)]
n=l
N
=N(wx”
百Q(mào)n-b))]
n=l
1NN
=瓦2必與)2-:>(4—)媒=0
/VZ-1
n=ln=l
N]N
aj(w,b)_1「2仍一(z〃一w?]=b--^(z-w喘)=0
db一NZ1(Kb句)]-八n
n=ln=ln=l
第5題
wx
8/(w)_1dj(w)[yVcfgcn
f
n=c]logcwx
dwc~Ndwc|ZJX;n=ieW"n
1刃(w)卜yy況%=c)(wcxn-logy
Ndwc|z
=用£碼_」yx^ew^\\
n~c}vn與篙…J
N219{yn=c}ewf|
=4Z-(
n=l
「用r春N”(fwx?\1
,…Fc-r)|
ln=l
4[f(p(yn
=c\f(xn;w)}-6(yn=c})xn
第1題
設(shè)X的特征向量和特征值分別是&和九即=
N
(W0(%)(0區(qū)))7二加(1)
n=l
NN
"=)W((08))‘)6(孫)=W,斯=,((?6))%)⑵
71=171=1
TT
(。區(qū)))山=入(。⑶))V(3)
將(2)代入(3)得,
NN
Mog))%=MO?))'W即081)=4W即(0&))‘奴無(wú)”)
n=ln=l
=4((0(4))70(%1)(0g)y0(%2)…(0(xfc))T0(xiv))(7)
=AXcr
NN
(0(^/c))TZv=(。(4))號(hào)2。(項(xiàng))(0(范))〉即。區(qū))
i=ln=l
N/N\
=,W即(0(())[We?)(。?))[
n=l\i=l)
0(xj(0?)))0(%i)…(0(九))[108)(08)))OQN:)(?)
=2
所以有,ANJCa=K2aXNa=OCa
第2題
設(shè)/W”XN,]q=iij=1,2,…,N
/N\//N
T
無(wú)(項(xiàng)巧)=(0(xf))0(xy)=(奴陽(yáng))-'W*(3))(3(勺)一'W奴4)
NN
女(4勺)=(奴/))”(勺)一,一"2(火距))“(丸)
n=lk=l
N
+禧W(*g))%g)
fc,n=l
NNN
女(片,巧)="(勺,巧)一,2/i,nK(%n,U)一(WK(巧±Wk,n^(xn,Xk)IkJ
n=lk=lntk=l
=K(x”巧)一卜雙陽(yáng)⑹-%(xl-,x;)//v+lNJC(<xi,Xj')IN
第3題
%(xf,x;)=(</>(Xi)f(/)(Xj))=£(焉/養(yǎng)xj)(焉e一券芍n)
71=0
I區(qū)一”12
exp
2a2
n=0
第4題
K(M,巧)=(1+x]xj)2=(1+WXk』Xk,j)
\k=l)
dd〃一1d
=1+W(伍h)(伍kj)+WW(缶k/m」)(低k,/mj)+W歡咨3
k=lk=2m=lk=l
=<0(Xi),0(X;))
第5題
1
核函數(shù)均為正定函數(shù):VneN,a={alta2...,an]ER,
nnnnnn
2w《a必(量巧)=w2<“°8)嗎。(巧》亢=〈2%0(')2為@(芍”亢
i=ij=li=lj=li=lj=l
=卜[%0區(qū))之。
第1題
略。
第2題
略。
第3題
定理:Hoeffding不等式
設(shè)Z1,Z2,…,2?為獨(dú)立有界隨機(jī)變量,且-8<aWbV8,那么,
P(5(ZLE㈤)Nt)vexp(一丹)
PG£(ZLE閡"-t)<exp(-^7)
第4題
Booting是實(shí)現(xiàn)集成學(xué)習(xí)的?種機(jī)制;而AdaBoost(AdaptiveBoosting)是實(shí)現(xiàn)Boosting
機(jī)制的一種方式。
第5題
CART與ID3和C4.5相同點(diǎn):特征選擇、樹(shù)的生成和剪枝三個(gè)不揍。
ID3和C4.5用于分類,CART既可用于分類,也可以實(shí)現(xiàn)回歸。
第8章聚類..........................................................................II
一一聚類基本理論...............................................................11
8.1.1聚類的唾...................................................................11
8.1.2相似性測(cè)度...................................................................12
8.1.3類簇中心.....................................................................13
8.1.4聚類算法評(píng)價(jià)書(shū)梟示.............................................................15
一_K均值聚類..................................................................20
―一層次聚類....................................................................21
83.1凝聚糠.....................................................................22
8.3.2平衡雌削減層次聚類........................................................23
__密度聚類....................................................................26
8.4.1DDSCAN..........................................................................................................................................26
8.4.2高斯混合聚類.................................................................28
—_小結(jié)與拓展..................................................................29
實(shí)驗(yàn)八聚類實(shí)驗(yàn)....................................................................29
習(xí)題...............................................................................31
第8章聚類
聚類是無(wú)監(jiān)督學(xué)習(xí)算法,其目的是把相似樣本歸為一類,不相似樣本歸為另一類。例如
將動(dòng)物聚類,可以根據(jù)“腿屬性”聚類成無(wú)足動(dòng)物、兩腿動(dòng)物和四腿動(dòng)物。聚類算法大體可
分為均值區(qū)域劃分聚類、層次聚類、密度聚類和譜聚類算法。層次聚類算法可追溯到1963
年,最著名的k均值聚類算法則于1967年被提出,1995年提出的MeanShift算法于1995
年用于聚類,譜聚類算法誕生于2000年左右。
相似度測(cè)度:歐式距離,殳哈頓距礴,閔可夫斯基距離,值差異
類簇中心:K均值中心、基于密度的中
評(píng)價(jià)指標(biāo):純度,聚類烯,同質(zhì)性,蘭德指數(shù),輪廓系
K均值聚類:k-mean,k-mean++
層次聚類:凝聚筑巢,平衡迭代削
鷲度聚類:DBSCAN,高斯混合聚
俗話說(shuō):物以類聚,人以群分。樹(shù)立正確的人生觀、價(jià)值觀和世界觀。
聚類基本理論
8.1.1聚類的性質(zhì)
對(duì)樣本數(shù)據(jù)集X=口1/2,…,無(wú)N}聚類成K個(gè)樣本簇:{的,32,…,網(wǎng)卜滿足二個(gè)住質(zhì):
?非空性:符00,k=1,2,...,K
?不相交:XkCyXi=0,k,l=k*I
?全覆蓋:U£=i%=%。
聚類簇須中樣本在某個(gè)屬性或某些屬性指導(dǎo)下
彼此“相似”而物以類聚,異簇之間樣本“不相似”
而敬而遠(yuǎn)之。實(shí)際上,聚類結(jié)果未必全滿足上述三個(gè)
條件。如圖8.1所示,如果把圖中黑色點(diǎn)當(dāng)作噪聲樣
本,顯然上述三個(gè)條件全滿足。如果不是噪聲點(diǎn),1號(hào)
圖8.1聚類示意
黑色樣本點(diǎn)可能同時(shí)被劃歸為無(wú)2和工3,2號(hào)黑色樣本
點(diǎn)不被任何簇吸收。
8.1.2相似性測(cè)度
一相似度測(cè)度的性質(zhì)
在聚類算法,樣本間相似度通常需要采用兩個(gè)樣本之間的“距離測(cè)度(DistanceMetric,
T
DM)”進(jìn)行衡量。設(shè)兩個(gè)向量%=(與,%2,…,xd),y=(yny2,…,%)丁,則它們之間距離用
表示。距離測(cè)度應(yīng)該具有如下性質(zhì):
?非負(fù)性,距離不能是負(fù)數(shù):OM(%,y)NO;
?同一性,具有相同屬性向量的兩個(gè)樣本的距離等于零:OM(%,%)=0;
?無(wú)向性或?qū)ΨQ性,4到y(tǒng)與y到%的距離相等:DM(x,y)=DM(y,x);
T
?直遞性,三角不等式:DM(x,y)<DM(x,z)+d(z,y),z-(zltz2,...,zd)o
?常見(jiàn)距離測(cè)度
1)歐氏距離(Euclidean)
0M(4,y)=£?=信…)(81)
2)曼哈頓距離(Manhattan)
d
=\氏一
DM(x,y)=^1(8.2)
t=i
3)閔可夫斯基距離(Minkowski)
1
DM(x,y)=(8.3)
式中,p=l時(shí),閔氏距離即為曼哈頓距離;
當(dāng)p=2時(shí),閔氏距離則為歐氏距離。
圖8.2顯示了二維空間中樣本點(diǎn)(k1,.2)取不同值
時(shí),與原點(diǎn)(0,0)的距離為1((=1)的點(diǎn)的圖形。
一不同量綱間距離測(cè)度
計(jì)算上述距離時(shí),隱含一個(gè)假設(shè):各屬性分量的量
綱(單位)相同。然而如果屬性分量的單位不相同,則各
分量的分布(期望,方差等特性)可能不同。舉個(gè)例子:
二維樣本(身高,體重),其中身高范圍是150?190屈米,
體重范圍是50?60公斤?,F(xiàn)有三個(gè)樣本:張三(180,50),李四(190,50),王五(180,60)。那么
張三與李四之間的閔氏距離等于張三與王五之間的閔氏距離,但是身高的10厘米并不一定
等價(jià)于體重的10公斤。
針對(duì)量綱不同的屬性,通常采用兩種方式進(jìn)行標(biāo)準(zhǔn)化:
1)采用每個(gè)屬性值的標(biāo)準(zhǔn)差進(jìn)行歸一
DM{x,y)=(8.4)
式中,s”表示第九維的標(biāo)準(zhǔn)差。
2)標(biāo)準(zhǔn)化屬性尺度是把所有屬性取值縮放到相同區(qū)間[0,1]
x—min(x)
(8.5)
max(x)-min(x)
值差異度量.△T£_。衿a。.。,。。6一寸△入二
無(wú)序?qū)傩圆捎弥挡町惗攘?VDM)。
在K個(gè)類簇中,設(shè)m。/是屬性a上取值為%的樣本數(shù),撈**表示在第攵類樣本簇中屬性。
上取值為無(wú)的樣本數(shù),則屬性a上取值為和外的VDM定義為,
皿%―=£|暗-等『(“)
設(shè)樣本的d屬性向量中有4個(gè)有序?qū)傩?,d-a個(gè)無(wú)序?qū)傩?,則樣本yy的閔可夫斯基距
離(Minkowski)定義為
DM(x,y)=2(%一方"+WV°Mp(孫力)(8.7)
i=li=dc+lj
當(dāng)不同屬性重要性不同時(shí),可乘權(quán)重系數(shù)WiNO,Xf=lWt=lo
8.1.3類簇中心
類簇中心,又稱為簇質(zhì)心,定義為簇內(nèi)樣本分布中心,如圖8.1中每簇的中心點(diǎn)。然而,
不同聚類算法定義各有差別,簡(jiǎn)單分為兩種:
…均值聚類簇中心
設(shè)聚類結(jié)果為{匕,4,…,&},第/類的樣本數(shù)量為以,則元={4,^,…,如),K均值
聚類算法將類簇中心定義為各簇中樣本點(diǎn)的平均值,即
=〃(招)=(8.7)
通過(guò)式(8.7)計(jì)算類簇中心符合最優(yōu)理論。
基于密度的類簇中心
AlexRodriguez和AlessandroLaio在Science期刊文章中提出:類簇中心周圍都是密度
比其低的點(diǎn),同時(shí)這些點(diǎn)歪離該簇中心的距離相比于其他聚類中心最近。
設(shè)樣本集%={/,刈,…,修/中樣本間距離為0時(shí)?!?;^),樣本索引集〃={1,2,…,N}。
對(duì)于樣本首先計(jì)算其局部密度和距離〃n:
(1)樣本事的局部密度Pn
局部密度定義為以事為中心、£為半徑的鄰域Ne(Xn)內(nèi)樣本點(diǎn)的數(shù)量(不包括f本身)。
根據(jù)鄰域內(nèi)外分界方式,可分為硬截?cái)?Cut-of「kernel)和高斯平滑截?cái)?GaussianKernel)兩種
模式。
1)硬截?cái)?/p>
Pn=W"DM(%n,/n)-£)(8.8)
m€/d\{n}
式中,
把鄰域半徑£稱為截?cái)嗑嚯x。
2)高斯平滑截?cái)?/p>
2
V/DM(xn.xm)\l
Pn=exp-----E----)(89)
nt€/d\{n}')
計(jì)算局部密度的目的為了依據(jù)密度大小尋找類簇中心,為此希望樣本點(diǎn)的局部密度盡可
能不相等。顯然,高斯平滑截?cái)嗑哂袃蓚€(gè)優(yōu)點(diǎn):(1)具有相同局部密度的概率?。?2)鄰域MQ”)
內(nèi)樣本點(diǎn)數(shù)越多,局部密度越大。
(2)距離〃n
當(dāng)獲得X={f猾=1的密度集{Pn猾=1后,則f的距離g定義為無(wú)n與密度大于P”的樣本
了集中樣本;1詁的最小距離,
%=min{DM(x,x))J/Id}1*0(8.10)
mG/dJn,n
式中,Id*={rn\pm>pj表示樣本集無(wú)中密度大于Xn的密度pn的樣本%m的索引集。
然而,當(dāng)Pn=max{p?}?=i,則/d9=0,此時(shí)%”的距離心定義為,
m€/dx
d=max[DM(_x,x)},if/吸=0(8.11)
nm€/dxnin
式中,ldx={1,2,…,N}為樣本集匯={右}匕i中每個(gè)樣本的索引集。
圖8.3展示了一個(gè)決策類簇中心的例子,圖中樣本點(diǎn)為二維屬性向量。圖8.3(a)為28個(gè)
樣本點(diǎn)分布。直觀上,容易發(fā)現(xiàn)點(diǎn)1和點(diǎn)10可作為類簇中心。
圖8.3(a):維樣本空間分布和(b)決策圖(Pn,〃n)
圖8.3(b)是由(局部密度,距離),即(p,d),構(gòu)建的類^中心決策圖。從圖中,不難發(fā)現(xiàn),
點(diǎn)1和點(diǎn)10在決策圖中分布在右上角,即不僅局部密度較大,而且距離也較大。
盡管P9和P10相差不大,但是49和。10卻有很大差別:點(diǎn)9屬于點(diǎn)1的類簇(把點(diǎn)1作為
大腿抱著),在其附近還有幾個(gè)更高的局部密度的點(diǎn),因此心較小;在點(diǎn)10附近不存在有更
高密度的點(diǎn),比點(diǎn)10密度更高點(diǎn)卻處于其它類簇。所以,點(diǎn)10是類簇中心而點(diǎn)9不是。
此外,點(diǎn)26、27和2B是孤立的,盡管有相對(duì)較高的距離值,但是它們的局部密度值很
低。這些點(diǎn)稱為異常點(diǎn),可當(dāng)作噪聲點(diǎn),也可作為單個(gè)點(diǎn)構(gòu)成的簇。
綜上所述,只有同時(shí)具有較高局部密度和距離的點(diǎn)才是非孤立點(diǎn)的類簇中心。
8.1.4聚類算法評(píng)價(jià)指標(biāo)
如圖8.4所示,假設(shè)兩種聚類算法41和A2,對(duì)%={%1,不,…,必1}聚類結(jié)果分別為,
C={G,C2,C3,CJ
為了表述方便,假設(shè)算法41的聚類結(jié)果是期望結(jié)果,稱每個(gè)聚類為一個(gè)類;聚類算法42
的結(jié)果則需要進(jìn)行評(píng)價(jià),稱每個(gè)聚類為一個(gè)簇。
聚類算法41
聚類算法A2
圖8.4聚類算法評(píng)價(jià)指標(biāo)
實(shí)際應(yīng)用中存在許多聚類算法的評(píng)價(jià)指標(biāo),這里主要介紹以下幾種:
純度』一。_-
將每個(gè)簇內(nèi)頻數(shù)最高的樣本類別作為正確的類簇,則每簇純度定義為,
該簇正確樣本數(shù)
Purity(K)=(8.12)
k該族樣本總數(shù)
參考算法力1的聚類結(jié)果,圖8.4聚類算法42每個(gè)簇的純度分別為:
54231
PurityW^=-,Purity(X)=Purity=-.Purity^)=PurityW)=-
62□Z□53
整個(gè)聚類的純度定義為,
頻數(shù)最高類別的樣本數(shù)之和
Purity(K)=(8.13)
樣本總數(shù)
算法42聚類后整體純度為,
5+4+2+3+115
Purity(K)=
2121
▽聚類崎
針對(duì)每一個(gè)聚類簇心,其端定義為,
Entropy^k)=~^Pks,°。3心)=一£log葭:(8.14)
S=1S=1\/
式中,S表示聚類算法41的類別數(shù),p人是簇招中樣本屬于類Q的概率。當(dāng)先來(lái)自同一
個(gè)Cs時(shí),其燧等于0,這只是最理想的聚類。
圖8.4聚類算法42聚類結(jié)果每個(gè)簇的嫡為,
=一前9弓)一%四?,
EntropyEntropy^)
Entropy(^3')EntropyC^^)
Entropy(/)=~\lo9(1)(鄉(xiāng)~\1°9(1)
同質(zhì)性「阡。?。?。%.
同質(zhì)性也叫均一性,一個(gè)類簇中僅有一個(gè)類別的樣本,均一性最高。
相當(dāng)于精確率,即被聚類的類簇中正確分類的樣本數(shù)占該類簇中的樣本數(shù)的比例,
1v正確聚類為第k簇的樣本數(shù)量
Accuracy=—>--------------------------------------(8.15)
KKJ—1聚類為第k族的樣本總數(shù)
假設(shè)火5為噪聲簇,圖84聚類算法力2結(jié)果的均一性為,
-1-P5+一4+一2+一3+一11
51652531
有時(shí),同質(zhì)性度量還用條件炳定義為力值,
W(%|C)
h=(8.16)
”(C)
式中,”(無(wú)|C)在給定類別條件下聚類簇的條件牖,
“(好)=-££?duì)帯?(箸)
s=lk=l
“?=-£?duì)?。喏?/p>
S=1
式中,K表示聚類算法42的簇?cái)?shù)。71總是實(shí)例數(shù),%和以分別表示類G和簇心的實(shí)例
數(shù),n邛是類Cs中樣本劃分給簇收的實(shí)例數(shù)。
77664444
"(C)=-57/。。(外)一77'°9(外)一7T‘°g(?T)-77,°。(?7)
乙,乙JL乙乙JL4人乙工乙JL4人
5,og
H(X|C)=--log一》?-^
乙X(I)-77logQ)og
Aio8G)-H,og?-Hiog0-H,og@-4,ogG)
osg0一舁。gG)-梟。g(I)-梟。g(I)-舁。gG)
21
00;3
lug-108,o8
五I組6?@H五叫(l)-A(S
完整性一U阡Y£O_OEC>.
同類別的樣本被歸類到同一聚類簇中,則滿足完整性。相當(dāng)于召回率,即每個(gè)聚類中正
確分類的樣本數(shù)占該類別樣本的數(shù)量,
“17正確聚類為第S簇的樣本數(shù)量
n(8.17)
SJ第s簇的樣木總數(shù)
0-1
假設(shè)&5為噪聲簇,圖8.4聚類算法42結(jié)果前4簇的完整性為,
1[5423-
了41三7+:6+二4+:4.
有時(shí),完整性度量也用條件端定義為九值,
H(C|K)
6=1—(8.18)
H(K)
同質(zhì)性和完整性都是基于兩類別劃分間的條件牖:已知某一類別劃分后,計(jì)算另一類別
劃分的不確定性程度,不確定性越小,兩個(gè)類別劃分越接近,力值或c值就越大。
V-Measure,是同質(zhì)性和完整性的調(diào)和平均值(harmcnicmean),定義為
(1+夕)x九xc
v=(8.19)
Pxh+c
_蘭德指數(shù)和調(diào)整蘭德指數(shù)
考慮%=中任意兩個(gè)互異樣本%n和%m,按照它們?cè)诰垲愃惴?1和力2的聚類結(jié)
果中是否屬于同一個(gè)類簇,存在以下四種關(guān)系:
?SS:f和外在41和42都屬于同類簇,“同類同簇”
SS={(久八,%m)1(*71,%7n6G)A(Xn,XmG長(zhǎng)火)}.
?SD:j和在41屬于同類,但在力2屬于不同簇,“同類但不同簇”
SD={(%,Xm)l("n,WQ)A(%n€,XmEkH/)1?
?DS:曰和在41屬于不同類簇,但在42屬于同類簇,“不同類但同簇”
DS={(xn,xm)|(xnCCi,xmGCj,iH/)n(xn,xmG%Q}.
?DD:f和在Al和A2均屬于不同類簇,“不同類不同簇”
DD={(xn,xm)|(xnwG,feCj,i右力n(xne/,丁wg,k手/)}.
用a、b、c和d分別表示上述四種關(guān)系的數(shù)量。
接下來(lái),結(jié)合圖8.4給出計(jì)算過(guò)程:
a=琦+C?+C/+廢+C:=21
其中,廉+戲來(lái)自于3。
b、c和d無(wú)法單獨(dú)計(jì)算,需要采用組合方式,
SS+DS:同一簇中任取兩個(gè)樣本點(diǎn)來(lái)自同類和非同類,
a+c=仁+球+弓+球+以=39
SS+SD,任意兩個(gè)同類樣木點(diǎn)被聚類到同簇和非同簇.
Q+b=0+Cf+§+6=48
a+b+c+d=C尹=210
可得a=21,b=27,c=18,d=144。
進(jìn)一步制定混淆矩陣[PairConfusionMatHx),
同簇非同簇同簇非同簇
同類a=\SS\b=\SD\a+b同類212748
非同類c=\DS\d=\DD\c+d非同類18144162
Q+Cb+d39171
基于a、b、c和d,定義如下四種指數(shù):
(I)蘭德指數(shù)(RandIndex,RZ)
a+da+da+d
DI=____________=_________=_____(8.20)
a+b+c+d~以
2
(2)JaccardCoefficient
JC=——?—(8.21)
a+b+c
(3)FewIkesandMallowsindex
(8.22)
上述三個(gè)系數(shù)的范圍是[0,1],值越大,劃分越好。
然而,即便隨機(jī)劃分,RI值也未必接近于0o于是1985年Hubert和Arabie提出調(diào)整
蘭德指數(shù):假設(shè)聚類算法.41和42為隨機(jī)劃分,各類別和各簇的樣本數(shù)是固定的。
(4)調(diào)整蘭德指數(shù)(AdjustedRandIndex,ARI)
RI-E[R1]
ADI—_________L」(8.23)
max(R/)—E[Ri]
采用調(diào)整蘭德指數(shù)是為了消除隨機(jī)標(biāo)簽對(duì)于蘭德指數(shù)評(píng)估結(jié)果的影響。
計(jì)算4R/的另一種方法是根據(jù)列聯(lián)表(contingencylable),
Am=—產(chǎn)-以差明/布
(8.24)
|m+工明-9或“工明/④
調(diào)整蘭德指數(shù)范圍是負(fù)數(shù)代表聚類結(jié)果不好,越接近于I越好。
對(duì)任意數(shù)量的聚類中心和樣本數(shù),隨機(jī)聚類的力R/都非常接近于0。
圖8.4示列的4R/的計(jì)算過(guò)程如下:
Q=WW或人=第+C?+廢+廢+廢=21
ks
Q+C=2球"=仁+球+C2+C2+廢=39
k
a+b=W吟=以+仁+廢+以=48
S
AR]_21-(39x48)/210
i[39+48]-(39x48)/210
上述四個(gè)指數(shù)越大表明:41和42聚類結(jié)果吻合程度越高,聚類效果越好。
L輪廓系數(shù)《砒。
的SC定義為,
1-/1,Q(Xn)<b(%n)
b(x)—0.(x)1"九1
SC(%n)=m算/7={Sa(xn)=b(xn)(8.25)
max{b(xn),a(xn)})
-775-I,?U?)>b(x)
Ia("ri)n
式中,
a(f):為樣本辦到同一簇內(nèi)其它樣本的平均距離,體現(xiàn)了樣本f的簇內(nèi)不相似度,Q(x")
越小,表示%幾越應(yīng)該聚類到該族;
樣本/到簇Kk內(nèi)樣本的平均距離,反映樣本事與此的不相似度,b/Qn)越
大,表示xn越不應(yīng)該聚類到該簇Kk;
匕(今)=血加{法1(%),匕%(&)…,岳*(5)}越大表示越不應(yīng)該屬于其它簇。
SC(馬)接近1,則說(shuō)明樣本f聚類合理;SC?!?接近-1,則說(shuō)明樣本Xn更應(yīng)該分類到其
它簇;若SC(f)近似為0,則說(shuō)明樣本功在兩個(gè)簇的邊界上。
所有樣本的SC的均值稱為聚類結(jié)果的輪廓系數(shù)。
一十K均值聚類
K均值聚類算法(K-maans)的基本思路:依據(jù)距慮相似度將樣本集聚類成K個(gè)簇,致使簇
內(nèi)樣本距離盡可能小,簇間距離盡可能大。
-…
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 交通局各項(xiàng)安全生產(chǎn)制度
- 服裝廠文明生產(chǎn)管理制度
- 殯儀館安全生產(chǎn)例會(huì)制度
- 民警學(xué)法培訓(xùn)制度
- 電梯人員培訓(xùn)考核制度
- 科室工作人員培訓(xùn)制度
- 電氣焊培訓(xùn)班規(guī)章制度
- 工地工人培訓(xùn)教育制度
- 檢察院培訓(xùn)班制度規(guī)定
- 技術(shù)部安全教育培訓(xùn)制度
- 道路應(yīng)急處理培訓(xùn)
- DB4403-T 364-2023 智能網(wǎng)聯(lián)汽車V2x車載信息交互系統(tǒng)技術(shù)要求
- 2024年衛(wèi)生高級(jí)職稱面審答辯(呼吸內(nèi)科)(副高面審)經(jīng)典試題及答案
- 幼兒園流感培訓(xùn)知識(shí)課件
- 蘄春縣國(guó)土空間總體規(guī)劃(2021-2035)
- 一年級(jí)上冊(cè)語(yǔ)文 快樂(lè)讀書(shū)吧《和大人一起讀》必考考點(diǎn)知識(shí)梳理
- 公司出口事務(wù)管理制度
- 保安證考試題庫(kù)及答案2025年
- 車位轉(zhuǎn)讓車位協(xié)議書(shū)
- 2025年中國(guó)液冷項(xiàng)目投資計(jì)劃書(shū)
- 土建施工規(guī)范培訓(xùn)
評(píng)論
0/150
提交評(píng)論