聚類(lèi)分析入門(mén)初級(jí)資料_第1頁(yè)
聚類(lèi)分析入門(mén)初級(jí)資料_第2頁(yè)
聚類(lèi)分析入門(mén)初級(jí)資料_第3頁(yè)
聚類(lèi)分析入門(mén)初級(jí)資料_第4頁(yè)
聚類(lèi)分析入門(mén)初級(jí)資料_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類(lèi)分析,Clusteranalysis,指將物理或抽象對(duì)象的集合分組為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)

的分析過(guò)程。它是一種重要的人類(lèi)行為。

聚類(lèi)分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類(lèi)。聚類(lèi)源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算

機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類(lèi)技術(shù)都得到了發(fā)展,這些

技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類(lèi)到不同的簇中。

區(qū)別

聚類(lèi)與分類(lèi)的不同在于,聚類(lèi)所要求劃分的類(lèi)是未知的。

聚類(lèi)是將數(shù)據(jù)分類(lèi)到不同的類(lèi)或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似

性,而不同簇間的對(duì)象有很大的相異性。

從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類(lèi)分析是通過(guò)數(shù)據(jù)建模簡(jiǎn)化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計(jì)聚類(lèi)分析方

法包括系統(tǒng)聚類(lèi)法、分解法、加入法、動(dòng)態(tài)聚類(lèi)法、有序樣品聚類(lèi)、有重疊聚類(lèi)和模糊聚類(lèi)

等。采用k-均值、k-中心點(diǎn)等算法的聚類(lèi)分析工具已被加入到許多著名的統(tǒng)計(jì)分析軟件包中,

如SPSS、SAS等。

從機(jī)器學(xué)習(xí)的角度講,簇相當(dāng)于隱藏模式。聚類(lèi)是搜索簇的無(wú)監(jiān)督學(xué)習(xí)過(guò)程。與分類(lèi)不同,

無(wú)監(jiān)督學(xué)習(xí)不依賴(lài)預(yù)先定義的類(lèi)或帶類(lèi)標(biāo)記的訓(xùn)練實(shí)例,需要由聚類(lèi)學(xué)習(xí)算法自動(dòng)確定標(biāo)

記,而分類(lèi)學(xué)習(xí)的實(shí)例或數(shù)據(jù)對(duì)象有類(lèi)別標(biāo)記。聚類(lèi)是觀察式學(xué)習(xí),而不是示例式的學(xué)習(xí)。

聚類(lèi)分析是一種探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標(biāo)準(zhǔn),聚類(lèi)

分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類(lèi)。聚類(lèi)分析所使用方法的不同,常常會(huì)得到不同的

結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類(lèi)分析,所得到的聚類(lèi)數(shù)未必一致。

從實(shí)際應(yīng)用的角度看;聚類(lèi)分析是數(shù)據(jù)挖掘的主要任務(wù)之一。而且聚類(lèi)能夠作為一個(gè)獨(dú)立的

工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,集中對(duì)特定的聚簇集合作進(jìn)一步地分析。

聚類(lèi)分析還可以作為其他算法(如分類(lèi)和定性歸納算法)的預(yù)處理步驟。

定義

依據(jù)研究對(duì)象(樣品或指標(biāo))的特征,對(duì)其進(jìn)行分類(lèi)的方法,減少研究對(duì)象的數(shù)目。

各類(lèi)事物缺乏可靠的歷史資料,無(wú)法確定共有多少類(lèi)別,目的是將性質(zhì)相近事物歸入一類(lèi)。

各指標(biāo)之間具有一定的相關(guān)關(guān)系。

聚類(lèi)分析(clusteranalysis)是一組將研究對(duì)象分為相對(duì)同質(zhì)的群組(clusters)的統(tǒng)計(jì)分析技術(shù)。

聚類(lèi)分析區(qū)別于分類(lèi)分析(classificationanalysis),后者是有監(jiān)督的學(xué)習(xí)。

變量類(lèi)型:定類(lèi)變量、定量(離散和連續(xù))變量

聚類(lèi)方法

1,層次聚類(lèi)(HierarchicalClustering)

合并法、分解法、樹(shù)狀圖

2.非層次聚類(lèi)

劃分聚類(lèi)、譜聚類(lèi)

聚類(lèi)方法特征:

聚類(lèi)分析簡(jiǎn)單、直觀。

聚類(lèi)分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個(gè)可能的解,選擇最終的解需

要研究者的主觀判斷和后續(xù)的分析;

不管實(shí)際數(shù)據(jù)中是否真正存在不同的類(lèi)別,利用聚類(lèi)分析都能得到分成若干類(lèi)別的解;

聚類(lèi)分析的解完全依賴(lài)于研究者所選擇的聚類(lèi)變量,增加或刪除一些變量對(duì)最終的解都可能

產(chǎn)生實(shí)質(zhì)性的影響。

研究者在使用聚類(lèi)分析時(shí)應(yīng)特別注意可能影響結(jié)果的各個(gè)因素。

異常值和特殊的變量對(duì)聚類(lèi)有較大影響

當(dāng)分類(lèi)變量的測(cè)量尺度不一致時(shí),需要事先做標(biāo)準(zhǔn)化處理。

當(dāng)然,聚類(lèi)分析不能做的事情是:

自動(dòng)發(fā)現(xiàn)和告訴你應(yīng)該分成多少個(gè)類(lèi)一一屬于非監(jiān)督類(lèi)分析方法

期望能很清楚的找到大致相等的類(lèi)或細(xì)分市場(chǎng)是不現(xiàn)實(shí)的;

樣本聚類(lèi),變量之間的關(guān)系需要研究者決定;

不會(huì)自動(dòng)給出一個(gè)最佳聚類(lèi)結(jié)果;

我這里提到的聚類(lèi)分析主要是譜系聚類(lèi)(hierarchicalclustering)和快速聚類(lèi)(K-means)、兩

階段聚類(lèi)(Two-Step);

根據(jù)聚類(lèi)變量得到的描述兩個(gè)個(gè)體間(或變量間)的對(duì)應(yīng)程度或聯(lián)系緊密程度的度量。

可以用兩種方式來(lái)測(cè)量:

1、采用描述個(gè)體對(duì)(變量對(duì))之間的接近程度的指標(biāo),例如“距離”,“距離”越小的個(gè)體

(變量)越具有相似性。

2、采用表示相似程度的指標(biāo),例如“相關(guān)系數(shù)”,“相關(guān)系數(shù)”越大的個(gè)體(變量)越具有

相似性。

計(jì)算聚類(lèi)一一距離指標(biāo)D(distance)的方法非常多:按照數(shù)據(jù)的不同性質(zhì),可選用不同的距離

指標(biāo)。歐氏距離(Euclideandistance)、歐氏距離的平方(SquaredEuclideandistance)、曼哈頓距

離(Block)、切比雪夫距離(Chebychevdistance)、卡方距離(Chi-Squaremeasure)等;相似性也

有不少,主要是皮爾遜相關(guān)系數(shù)了!

聚類(lèi)變量的測(cè)量尺度不同,需要事先對(duì)變量標(biāo)準(zhǔn)化;

聚類(lèi)變量中如果有些變量非常相關(guān),意味著這個(gè)變量的權(quán)重會(huì)更大

歐式距離的平方是最常用的距離測(cè)量方法;

聚類(lèi)算法要比距離測(cè)量方法對(duì)聚類(lèi)結(jié)果影響更大;

標(biāo)準(zhǔn)化方法影響聚類(lèi)模式:

變量標(biāo)準(zhǔn)化傾向產(chǎn)生基于數(shù)量的聚類(lèi);

樣本標(biāo)準(zhǔn)化傾向產(chǎn)生基于模式的聚類(lèi);

一般聚類(lèi)個(gè)數(shù)在4—6類(lèi),不易太多,或太少;

統(tǒng)計(jì)量

群重心

群中心

群間距離

分層步驟

定義問(wèn)題與選擇分類(lèi)變量

聚類(lèi)方法

確定群組數(shù)目

聚類(lèi)結(jié)果評(píng)估

結(jié)果的描述、解釋

K-means

屬了非層次聚類(lèi)法的一種

(1)執(zhí)行過(guò)程

初始化:選擇(或人為指定)某些記錄作為凝聚點(diǎn)

循環(huán):

按就近原則將其余記錄向凝聚點(diǎn)凝集

計(jì)算出各個(gè)初始分類(lèi)的中心位置(均值)

用計(jì)算出的中心位置重新進(jìn)行聚類(lèi)

如此反復(fù)循環(huán),直到凝聚點(diǎn)位置收斂為止

(2)方法特點(diǎn)

通常要求已知類(lèi)別數(shù)

可人為指定初始位置

節(jié)省運(yùn)算時(shí)間

樣本量大于100時(shí)有必要考慮

只能使用連續(xù)性變量

過(guò)程

特點(diǎn):

處理對(duì)象:分類(lèi)變量和連續(xù)變量

自動(dòng)決定最佳分類(lèi)數(shù)

快速處理大數(shù)據(jù)集

前提假設(shè):

變量間彼此獨(dú)立

分類(lèi)變量服從多項(xiàng)分布,連續(xù)變量服從正態(tài)分布

模型穩(wěn)健

算法原理

第一步:逐個(gè)掃描樣本,每個(gè)樣本依據(jù)其與已掃描過(guò)的樣本的距離,被歸為以前的類(lèi),或生

成一個(gè)新類(lèi)

第二步,對(duì)第一步中各類(lèi)依據(jù)類(lèi)間距離進(jìn)行合并,按一定的標(biāo)準(zhǔn),停止合并

判別分析DiscriminantAnalysis

介紹:判別分析

分類(lèi)學(xué)是人類(lèi)認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。聚類(lèi)分析和判別分析是研究事物分類(lèi)的基本方法,廣泛

地應(yīng)用于自然科學(xué)、社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。

判別分析DA

概述

DA模型

DA有關(guān)的統(tǒng)計(jì)量

兩組DA

案例分析

判別分析

判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類(lèi),求出判別函數(shù)。根據(jù)判別函數(shù)對(duì)未

知所屬類(lèi)別的事物進(jìn)行分類(lèi)的一種分析方法。核心是考察類(lèi)別之間的差異。

判別分析

不同:判別分析和聚類(lèi)分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的

值,并且已知各個(gè)體的分類(lèi)。

DA適用于定類(lèi)變量(因)、任意變量(自)

兩類(lèi):一個(gè)判別函數(shù);

多組:一個(gè)以上判別函數(shù)

DA目的

建立判別函數(shù)

檢查不同組之間在有關(guān)預(yù)測(cè)變量方面是否有顯著差異

決定哪個(gè)預(yù)測(cè)變量對(duì)組間差異的貢獻(xiàn)最大

根據(jù)預(yù)測(cè)變量對(duì)個(gè)體進(jìn)行分類(lèi)

分析模型

要先建立判別函數(shù)Y=a1x1+a2x2+...+anxn,其中:Y為判別分?jǐn)?shù)(判別值),xlx2...xn為反映

研究對(duì)象特征的變量,ala2...an為系數(shù)

有關(guān)統(tǒng)計(jì)

典型相關(guān)系數(shù)

特征值

(0,l)=SSw/SStforXWilk's

組重心

分類(lèi)矩陣

兩組判別

定義問(wèn)題

估計(jì)DA函數(shù)系數(shù)

確定DA函數(shù)的顯著性

解釋結(jié)果

評(píng)估有效性

定義問(wèn)題

判別分析的第一步

第二步就是將樣本分為:

分析樣本

驗(yàn)證樣本

估算判別函數(shù)系數(shù)

直接法(directmethod)就是同時(shí)用所有的預(yù)測(cè)變量估計(jì)判別函數(shù),此時(shí)每個(gè)自變量

都包括在內(nèi),而不考慮其判別能力。這種方法適用于前期研究或理論模型顯示應(yīng)包括哪些自

變量的情況。

逐步判別分析(stepwisediscriminantanalysis),預(yù)測(cè)變量依據(jù)其對(duì)組別的判別能力被

逐步引入。

確定顯著性

零假設(shè):總體中各組所有判別函數(shù)的均值相等。

特征值

典型相關(guān)系數(shù)

(0,1)轉(zhuǎn)換成卡方值檢驗(yàn)九Wilk's

見(jiàn)travel.spo

解釋結(jié)果

系數(shù)的符號(hào)無(wú)關(guān)緊要,但能夠表示每個(gè)變量對(duì)判別函數(shù)值的影響,以及與特定組的聯(lián)系。

我們可以通過(guò)標(biāo)準(zhǔn)化判別函數(shù)系數(shù)的絕對(duì)值初步判斷變量的相對(duì)重要性。

通過(guò)考察結(jié)構(gòu)相關(guān)系數(shù),也可以對(duì)預(yù)測(cè)變量的相對(duì)重要性進(jìn)行判斷。

組重心

評(píng)估判別分析的有效性

根據(jù)分析樣本估計(jì)出的判別權(quán)數(shù),乘以保留樣本中的預(yù)測(cè)變量值,就得出保留樣本中每個(gè)樣

本的判別分。

可以根據(jù)判別分及適當(dāng)?shù)囊?guī)則劃分為不同的組別。

命中率(hitrati。)或稱(chēng)樣本正確分類(lèi)概率,就是分類(lèi)矩陣對(duì)角線元素之和與總樣本數(shù)的比

例。

比較樣本正確分類(lèi)百分比與隨機(jī)正確分類(lèi)百分比。

因子分析模型

因子分析模型(FA)

基本思想

因子分析模型

FA的基本思想

"因子分析"于1931年由Thurstone提出,概念起源于Pearson和Spearmen的統(tǒng)計(jì)分

FA用少數(shù)幾個(gè)因子來(lái)描述多個(gè)變量之間的關(guān)系,相關(guān)性較高的變量歸于同一個(gè)因子;

FA利用潛在變量或本質(zhì)因子(基本特征)去解釋可觀測(cè)變量

FA模型

X1=a11F1+a12F2+...+a1pFp+v1

X2=a21F1+a22F2+...+a2pFp+v2X=AF+V

Xi=ai1F1+ai2F2+...+aipFp+vi

Xm=ap1F1+ap2F2+...+ampFm+vm

Xi—第i個(gè)標(biāo)準(zhǔn)化變量

aip-第i個(gè)變量對(duì)第p個(gè)公因子的標(biāo)準(zhǔn)回歸系數(shù)

F-公因子

Vi-特殊因子

公因子模型

F1=W11X1+W12X2+...+W1mXm

F2=W21X1+W22X2+...+W2mXm

Fi=Wi1X1+Wi2X2+...+WimXm

Fp=Wp1X1+Wp2X2+...+WpmXm

Wi—權(quán)重,因子得分系數(shù)

Fi-第i個(gè)因子的估計(jì)值(因子得分)

有關(guān)統(tǒng)計(jì)量

Bartlett氏球體檢驗(yàn):各變量之間彼此獨(dú)立

KMO值:FA合適性

因子負(fù)荷:相關(guān)系數(shù)

因子負(fù)荷矩陣

公因子方差(共同度)

特征值

方差百分比(方差貢獻(xiàn)率)

累計(jì)方差貢獻(xiàn)率

因子負(fù)荷圖

碎石圖

FA步驟

定義問(wèn)題

檢驗(yàn)FA方法的適用性

確定因子分析方法

因子旋轉(zhuǎn)

解釋因子

計(jì)算因子得分

注意事項(xiàng)

樣本量不能太小

變量相關(guān)性

公因子有實(shí)際意義

主要應(yīng)用

商業(yè)

聚類(lèi)分析被用來(lái)發(fā)現(xiàn)不同的客戶群,并且通過(guò)購(gòu)買(mǎi)模式刻畫(huà)不同的客戶群的特征。

聚類(lèi)分析是細(xì)分市場(chǎng)的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場(chǎng)、選擇

實(shí)驗(yàn)的市場(chǎng),并作為多元分析的預(yù)處理。

生物

聚類(lèi)分析被用來(lái)動(dòng)植物分類(lèi)和對(duì)基因進(jìn)行分類(lèi),獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)

地理

聚類(lèi)能夠幫助在地球中被觀察的數(shù)據(jù)庫(kù)商趨于的相似性

保險(xiǎn)行業(yè)

聚類(lèi)分析通過(guò)一個(gè)高的平均消費(fèi)來(lái)鑒定汽車(chē)保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類(lèi)型,價(jià)值,

地理位置來(lái)鑒定一個(gè)城市的房產(chǎn)分組

因特網(wǎng)

聚類(lèi)分析被用來(lái)在網(wǎng)上進(jìn)行文檔歸類(lèi)來(lái)修復(fù)信息

電子商務(wù)

聚類(lèi)分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個(gè)方面,通過(guò)分組聚類(lèi)出具有相

似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務(wù)的用戶了解自己的客

戶,向客戶提供更合適的服務(wù)。

主要步驟

1.數(shù)據(jù)預(yù)處理,

2.為衡量數(shù)據(jù)點(diǎn)間的相似度定義一個(gè)距離函數(shù),

3.聚類(lèi)或分組,

4.評(píng)估輸出。

數(shù)據(jù)預(yù)處理包括選擇數(shù)量,類(lèi)型和特征的標(biāo)度,它依靠特征選擇和特征抽取,特征選擇選擇

重要的特征,特征抽取把輸入的特征轉(zhuǎn)化為一個(gè)新的顯著特征,它們經(jīng)常被用來(lái)獲取一個(gè)合

適的特征集來(lái)為避免"維數(shù)災(zāi)'’進(jìn)行聚類(lèi),數(shù)據(jù)預(yù)處理還包括將孤立點(diǎn)移出數(shù)據(jù),孤立點(diǎn)是不

依附于一般數(shù)據(jù)行為或模型的數(shù)據(jù),因此孤立點(diǎn)經(jīng)常會(huì)導(dǎo)致有偏差的聚類(lèi)結(jié)果,因此為了得

到正確的聚類(lèi),我們必須將它們剔除。

既然相類(lèi)似性是定義一個(gè)類(lèi)的基礎(chǔ),那么不同數(shù)據(jù)之間在同一個(gè)特征空間相似度的衡量對(duì)于

聚類(lèi)步驟是很重要的,由于特征類(lèi)型和特征標(biāo)度的多樣性,距離度量必須謹(jǐn)慎,它經(jīng)常依賴(lài)

于應(yīng)用,例如,通常通過(guò)定義在特征空間的距離度量來(lái)評(píng)估不同對(duì)象的相異性,很多距離度

都應(yīng)用在一些不同的領(lǐng)域,一個(gè)簡(jiǎn)單的距離度量,如Euclidean距離,經(jīng)常被用作反映不同

數(shù)據(jù)間的相異性,一些有關(guān)相似性的度量,例如PMC和SMC,能夠被用來(lái)特征化不同數(shù)據(jù)

的概念相似性,在圖像聚類(lèi)上,子圖圖像的誤差更正能夠被用來(lái)衡量?jī)蓚€(gè)圖形的相似性。

將數(shù)據(jù)對(duì)象分到不同的類(lèi)中是一個(gè)很重要的步驟,數(shù)據(jù)基于不同的方法被分到不同的類(lèi)中,

劃分方法和層次方法是聚類(lèi)分析的兩個(gè)主要方法,劃分方法一般從初始劃分和最優(yōu)化一個(gè)聚

類(lèi)標(biāo)準(zhǔn)開(kāi)始。CrispClustering,它的每一個(gè)數(shù)據(jù)都屬于單獨(dú)的類(lèi);FuzzyClustering,它的每

個(gè)數(shù)據(jù)可能在任何一個(gè)類(lèi)中,CrispClustering和FuzzyClusterin是劃分方法的兩個(gè)主要技術(shù),

劃分方法聚類(lèi)是基于某個(gè)標(biāo)準(zhǔn)產(chǎn)生一個(gè)嵌套的劃分系列,它可以度量不同類(lèi)之間的相似性或

一個(gè)類(lèi)的可分離性用來(lái)合并和分裂類(lèi),其他的聚類(lèi)方法還包括基于密度的聚類(lèi),基于模型的

聚類(lèi),基于網(wǎng)格的聚類(lèi)。

評(píng)估聚類(lèi)結(jié)果的質(zhì)量是另一個(gè)重要的階段,聚類(lèi)是一個(gè)無(wú)管理的程序,也沒(méi)有客觀的標(biāo)準(zhǔn)來(lái)

評(píng)價(jià)聚類(lèi)結(jié)果,它是通過(guò)一個(gè)類(lèi)有效索引來(lái)評(píng)價(jià),一般來(lái)說(shuō),幾何性質(zhì),包括類(lèi)間的分離和

類(lèi)內(nèi)部的耦合,一般都用來(lái)評(píng)價(jià)聚類(lèi)結(jié)果的質(zhì)量,類(lèi)有效索引在決定類(lèi)的數(shù)目時(shí)經(jīng)常扮演了

一個(gè)重要角色,類(lèi)有效索引的最佳值被期望從真實(shí)的類(lèi)數(shù)目中獲取,一個(gè)通常的決定類(lèi)數(shù)目

的方法是選擇一個(gè)特定的類(lèi)有效索引的最佳值,這個(gè)索引能否真實(shí)的得出類(lèi)的數(shù)目是判斷該

索引是否有效的標(biāo)準(zhǔn),很多已經(jīng)存在的標(biāo)準(zhǔn)對(duì)于相互分離的類(lèi)數(shù)據(jù)集合都能得出很好的結(jié)

果,但是對(duì)于復(fù)雜的數(shù)據(jù)集,卻通常行不通,例如,對(duì)于交疊類(lèi)的集合。

算法

聚類(lèi)分析是數(shù)據(jù)挖掘中的一個(gè)很活躍的研究領(lǐng)域,并提出「許多聚類(lèi)算法。傳統(tǒng)的聚類(lèi)算法

可以被分為五類(lèi):劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和基于模型方法。

1戈吩方法(PAM:PArtitioningmethod)首先創(chuàng)建k個(gè)劃分,k為要?jiǎng)?chuàng)建的劃分個(gè)數(shù);然后利

用一個(gè)循環(huán)定位技術(shù)通過(guò)將對(duì)象從一個(gè)劃分移到另一個(gè)劃分來(lái)幫助改善劃分質(zhì)量。典型的劃

分方法包括:

k-means,k-medoids,CLARA(ClusteringLARgeApplication),

CLARANS(ClusteringLargeApplicationbaseduponRANdomizedSearch).

FCM

2層次方法(hierarchicalmethod)創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上

而下(分解)和自下而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合

并經(jīng)常要與其它聚類(lèi)方法相結(jié)合,如循環(huán)定位。典型的這類(lèi)方法包括:

BIRCH(BalancedIterativeReducingandClusteringusingHierarchies)方法,它首先利用樹(shù)的

結(jié)構(gòu)對(duì)對(duì)象集進(jìn)行劃分;然后再利用其它聚類(lèi)方法對(duì)這些聚類(lèi)進(jìn)行優(yōu)化。

CURE(ClusteringUsingREprisentatives)方法,它利用固定數(shù)目代表對(duì)象來(lái)表示相應(yīng)聚類(lèi);

然后對(duì)各聚類(lèi)按照指定量(向聚類(lèi)中心)進(jìn)行收縮。

ROCK方法,它利用聚類(lèi)間的連接進(jìn)行聚類(lèi)合并。

CHEMALOEN方法,它則是在層次聚類(lèi)時(shí)構(gòu)造動(dòng)態(tài)模型。

3基于密度的方法,根據(jù)密度完成對(duì)象的聚類(lèi)。它根據(jù)對(duì)象周?chē)拿芏?如DBSCAN)不

斷增長(zhǎng)聚類(lèi)。典型的基于密度方法包括:

DBSCAN(Densit-basedSpatialClusteringofApplicationwithNoise):該算法通過(guò)不斷生長(zhǎng)足夠

高密度區(qū)域來(lái)進(jìn)行聚類(lèi);它能從含有噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類(lèi)。此方法將一

個(gè)聚類(lèi)定義為一組“密度連接''的點(diǎn)集。

OPTICS(OrderingPointsToIdentifytheClusteringStructure):并不明確產(chǎn)生一個(gè)聚類(lèi),而是為

自動(dòng)交互的聚類(lèi)分析計(jì)算出一個(gè)增強(qiáng)聚類(lèi)順序。。

4基于網(wǎng)格的方法,首先將對(duì)象空間劃分為有限個(gè)單元以構(gòu)成網(wǎng)格結(jié)構(gòu);然后利用網(wǎng)格結(jié)構(gòu)

完成聚類(lèi)。

STING(STatisticalINformationGrid)就是一個(gè)利用網(wǎng)格單元保存的統(tǒng)計(jì)信息進(jìn)行基于網(wǎng)格

聚類(lèi)的方法。

CLIQUE(ClusteringInQUEst)和Wave-Cluster則是一個(gè)將基于網(wǎng)格與基于密度相結(jié)合的方

法。

5基于模型的方法,它假設(shè)每個(gè)聚類(lèi)的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。典型的基于模型方

法包括:

統(tǒng)計(jì)方法COBWEB:是一個(gè)常用的且簡(jiǎn)單的增量式概念聚類(lèi)方法。它的輸入對(duì)象是采用符號(hào)

量(屬性-值)對(duì)來(lái)加以描述的。采用分類(lèi)樹(shù)的形式來(lái)創(chuàng)建一個(gè)層次聚類(lèi)。

CLASSIT是COBWEB的另一個(gè)版本它可以對(duì)連續(xù)取值屬性進(jìn)行增量式聚類(lèi)。它為每個(gè)

結(jié)點(diǎn)中的每個(gè)屬性保存相應(yīng)的連續(xù)正態(tài)分布(均值與方差);并利用一個(gè)改進(jìn)的分類(lèi)能力描

述方法,即不象COBWEB那樣計(jì)算離散屬性(取值)和而是對(duì)連續(xù)屬性求積分。但是

CLASSIT方法也存在與COBWEB類(lèi)似的問(wèn)題。因此它們都不適合對(duì)大數(shù)據(jù)庫(kù)進(jìn)行聚類(lèi)處

理.

傳統(tǒng)的聚類(lèi)算法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類(lèi)問(wèn)題。但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)

雜性,在處理許多問(wèn)題時(shí),現(xiàn)有的算法經(jīng)常失效,特別是對(duì)于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。

因?yàn)閭鹘y(tǒng)聚類(lèi)方法在高維數(shù)據(jù)集中進(jìn)行聚類(lèi)時(shí),主要遇到兩個(gè)問(wèn)題。①高維數(shù)據(jù)集中存在大

量無(wú)關(guān)的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數(shù)據(jù)較低維空間中數(shù)

據(jù)分布要稀疏,其中數(shù)據(jù)間距離兒乎相等是普遍現(xiàn)象,而傳統(tǒng)聚類(lèi)方法是基于距離進(jìn)行聚類(lèi)

的,因此在高維空間中無(wú)法基于距離來(lái)構(gòu)建簇。

高維聚類(lèi)分析已成為聚類(lèi)分析的一個(gè)重要研究方向。同時(shí)高維數(shù)據(jù)聚類(lèi)也是聚類(lèi)技術(shù)的難

點(diǎn)。隨著技術(shù)的進(jìn)步使得數(shù)據(jù)收集變得越來(lái)越容易,導(dǎo)致數(shù)據(jù)庫(kù)規(guī)模越來(lái)越大、復(fù)雜性越來(lái)

越高,如各種類(lèi)型的貿(mào)易交易數(shù)據(jù)、Web文檔、基因表達(dá)數(shù)據(jù)等,它們的維度(屬性)通

??梢赃_(dá)到成百上千維,甚至更高。但是,受“維度效應(yīng)''的影響,許多在低維數(shù)據(jù)空間表現(xiàn)

良好的聚類(lèi)方法運(yùn)用在高維空間上往往無(wú)法獲得好的聚類(lèi)效果。高維數(shù)據(jù)聚類(lèi)分析是聚類(lèi)分

析中一個(gè)非常活躍的領(lǐng)域,同時(shí)它也是一個(gè)具有挑戰(zhàn)性的工作。高維數(shù)據(jù)聚類(lèi)分析在市場(chǎng)分

析、信息安全、金融、娛樂(lè)、反恐等方面都有很廣泛的應(yīng)用。

讓你看懂聚類(lèi)分析

目錄

1.聚類(lèi)分析概述

2.各種距離的定義

2.1樣本相似性度量

2.2類(lèi)與類(lèi)間的相似性度量

2.3變量間的相似度度量

3.劃分聚類(lèi)

4.層次聚類(lèi)

1.聚類(lèi)分析概述

聚類(lèi)分析是一種定量方法,從數(shù)據(jù)分析的角度看,它是對(duì)多個(gè)樣本進(jìn)行定量分析的多元統(tǒng)計(jì)

分析方法,可以分為兩種:

對(duì)樣本進(jìn)行分類(lèi)稱(chēng)為Q型聚類(lèi)分析

對(duì)指標(biāo)進(jìn)行分類(lèi)稱(chēng)為R型聚類(lèi)分析

從數(shù)據(jù)挖掘的角度看,又可以大致分為四種:

劃分聚類(lèi)

層次聚類(lèi)

基于密度的聚類(lèi)

基于網(wǎng)格的聚類(lèi)

本篇文章將從數(shù)據(jù)挖掘的角度來(lái)攬述,但也會(huì)借鑒數(shù)學(xué)建模的部分思想。

無(wú)論是從那個(gè)角度看,其基本原則都是:

希望族(類(lèi))內(nèi)的相似度盡可能高,族(類(lèi))間的相似度盡可能低(相異度盡可能高X希

望族(類(lèi))內(nèi)的相似度盡可能高,族(類(lèi))間的相似度盡可能低(相異度盡可能高)。

先來(lái)看一下從數(shù)據(jù)挖掘的角度看,這四種聚類(lèi)方法有什么不同。

劃分聚類(lèi):給定一個(gè)n個(gè)對(duì)象的集合,劃分方法構(gòu)建數(shù)據(jù)的k個(gè)分區(qū),其中每個(gè)分區(qū)表示

一個(gè)族(族)。大部分劃分方法是基于距離的,給定要構(gòu)建的k個(gè)分區(qū)數(shù),劃分方法首先創(chuàng)

建一個(gè)初始劃分,然后使用一種迭代的重定位技術(shù)將各個(gè)樣本重定位,直到滿足條件為止。

層次聚類(lèi):層次聚類(lèi)可以分為凝聚和分裂的方法;凝聚也稱(chēng)自底向上法,開(kāi)始便將每個(gè)對(duì)象

單獨(dú)為一個(gè)族,然后逐次合并相近的對(duì)象,直到所有組被合并為一個(gè)族或者達(dá)到迭代停止條

件為止。分裂也稱(chēng)自頂向下,開(kāi)始將所有樣本當(dāng)成一個(gè)族,然后迭代分解成更小的值。

基于密度的聚類(lèi):其主要思想是只要“鄰域”中的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超過(guò)某個(gè)閥值,

就繼續(xù)增長(zhǎng)給定的族.也就是說(shuō),對(duì)給定族中的每個(gè)數(shù)據(jù)點(diǎn),在給定半徑的鄰域中必須包含

最少數(shù)目的點(diǎn)。這樣的主要好處就是過(guò)濾噪聲,剔除離群點(diǎn)。

基于網(wǎng)格的聚類(lèi):它把對(duì)象空間量化為有限個(gè)單元,形成一個(gè)網(wǎng)格結(jié)構(gòu),所有的聚類(lèi)操作都

在這個(gè)網(wǎng)格結(jié)構(gòu)中進(jìn)行,這樣使得處理的時(shí)間獨(dú)立于數(shù)據(jù)對(duì)象的個(gè)數(shù),而僅依賴(lài)于量化空間

中每一維的單元數(shù)。

劃分聚類(lèi)是基于距離的,可以使用均值或者中心點(diǎn)等代表族中心,對(duì)中小規(guī)模的數(shù)據(jù)有效;

而層次聚類(lèi)是一種層次分解,不能糾正錯(cuò)誤的合并或劃分,但可以集成其他的技術(shù);基于密

度的聚類(lèi)可以發(fā)現(xiàn)任意形狀的族,族密度是每個(gè)點(diǎn)的“鄰域”內(nèi)必須具有最少個(gè)數(shù)的點(diǎn),可以

過(guò)濾離群點(diǎn);基于網(wǎng)格的聚類(lèi)使用一種多分辨率網(wǎng)格數(shù)據(jù)結(jié)構(gòu),能快速處理數(shù)據(jù)。

但在目前的工業(yè)應(yīng)用中,主要是劃分聚類(lèi)和層次聚類(lèi)的應(yīng)用,所以接下來(lái)的內(nèi)容主要在這幾

個(gè)方面。

2.各種距離的定義

2.1樣本相似性度量

要用數(shù)量化的方法對(duì)事物進(jìn)行分類(lèi),就要用數(shù)量化的方法來(lái)定義每個(gè)樣本的相似程度,這個(gè)

相似程度在數(shù)學(xué)上可以稱(chēng)之為距離,最常用的閔氏距離:

P1

dP(x,y)=.\xk一物|中

*=1

當(dāng)g=1,2,或者q->+8時(shí),可以分別得到:

絕對(duì)值距離:di(x,y)\x用

=[Vk-y⑴

歐幾里得電離:d2(x,y)=\xk-(2)

切比雷夫距離doo(x.y)=max|a?4-yk\(3)

其中最常用的又是歐式距離,因?yàn)楫?dāng)坐標(biāo)軸進(jìn)行正交旋轉(zhuǎn)的時(shí)候,歐式距離是保持不變的,

而很多算法,都是需要變換坐標(biāo)軸的。

缺點(diǎn)1:閔氏距離沒(méi)有考慮樣本的各指標(biāo)的數(shù)量級(jí)水平。當(dāng)樣本的各指標(biāo)數(shù)量級(jí)相差懸殊時(shí),

該距離不合適。

解決方法:在計(jì)算距離之前,先把所有指標(biāo)都轉(zhuǎn)化為統(tǒng)一的分布內(nèi),即標(biāo)準(zhǔn)化。

缺點(diǎn)2:使用歐式距離要求各坐標(biāo)對(duì)距離的貢獻(xiàn)應(yīng)該是同等的,且變差大小也是相同的,如果

變差不同,則不太適用。

比如在擇偶時(shí)衡量一個(gè)男性的指標(biāo),假如是身高和收入水平,一個(gè)人是1.5米,收入6000,

另一個(gè)人是1.8米,收入5500,這兩個(gè)人的兩個(gè)指標(biāo)的變差差別就很大,不好用歐式距離。

解決方法2:將歐式距離進(jìn)行一定的改寫(xiě):

j.、[J''xik~xjk211

ISkk

其中Skk表示變量k的標(biāo)準(zhǔn)差,其實(shí)就是為了調(diào)整變量的變差.

與閔氏距離相似的還有馬氏距離,它是對(duì)閔氏距離的進(jìn)一步調(diào)優(yōu):

卻M=(乂-匕產(chǎn)11(乂-町

其中£-1表示協(xié)方差矩陣的逆,可以證明它對(duì)一切線性變換是不變的,故不受量綱的影響,

它不僅對(duì)自身的變差做了調(diào)整,還對(duì)指標(biāo)的相關(guān)性也做了考慮,非常適用于兩個(gè)未知樣本集

的相似度計(jì)算。

2.2類(lèi)與類(lèi)間的相似性度量

如果有兩個(gè)樣本類(lèi)G1,G2,可以用下面的一系列方法度量他們之間的距離:

展短距離法:D(G」,G2)={\min{xi\inG1}{yi\inG2}}\{d(xi,yi)\}\tag{221}

直觀理解為兩個(gè)類(lèi)中最近兩點(diǎn)之間的距離。

最長(zhǎng)距離法:D(G1,G2)={\max{xi\inG1}{yi\inG2}}\{d(xi,yi)\}\tag{222}

直觀理解為兩個(gè)類(lèi)中最遠(yuǎn)離兩點(diǎn)間的距離

重心法:D(Gi,G2)=d(x,y)

x"y-分別為兩個(gè)族的重心

類(lèi)平均法:0(GI,G2)=」一££d(叫,町)

它表示兩個(gè)樣本點(diǎn)距離的平均,n1,n2分別為G1,G2中的樣本點(diǎn)個(gè)

數(shù).

離差平方和法C?2)=。12——。2

其中

=£(叫一孤產(chǎn)(叫一五),。2=£(叫一項(xiàng)-而)

xieGixieG-2

T

。12=£(Xi-X)(Xi-X)

xieGiUG2

式中

"1neGi"2HjcGi"1"2Ifc6Gi17Gj

若G1,G2內(nèi)部點(diǎn)與點(diǎn)距離很小,則它們能很好地各自聚為一類(lèi),并且這兩類(lèi)又能充分分離

(D12很大),這是D就很大。

2.3變量間的相似度度量

相關(guān)系數(shù),記變量Xj的取值(Xlj,X2j,…,Xnj)就可以用兩變量的相關(guān)系數(shù)作為他們的相似性

度量:

n

£9.一句)(叫*-?*)

1=1

口A=f---------------------------------------J

E3廣幻)2(叫”詼)2戶

t=l

在監(jiān)督學(xué)習(xí)中,如果特征數(shù)量少,可以使用相關(guān)系數(shù)篩選有用特征,python代碼也很簡(jiǎn)單:

pit.figure(figsize=(12,12))

fromseaborn.linearmodelsimportcorrplot,symmatplot

3

?corrplot(df,annot=False)

5pit.show()

TOO

余弦相似度:也可以利用兩個(gè)變量的夾角余弦作為它們的相似性度量:

n

£XijXjh

i=l

兩者都滿足

,\rjk\W1,對(duì)一切的j,k

力對(duì)一切的

?rjk=r*

其中居k|越接近1,叼,6就越相似,如果越接近0,相似性就越弱。

3.劃分聚類(lèi)

對(duì)于給定的類(lèi)目數(shù)據(jù)k,首先給出初始劃分,通過(guò)迭代改變樣本和族的隸屬關(guān)系,

使得每次劃分都比前一次好,直到隸屬關(guān)系基本穩(wěn)定。

劃分聚類(lèi)的代表是K-Means算法,它需要在一開(kāi)始指定類(lèi)目數(shù),根據(jù)距離最近

的原則,把待分類(lèi)的樣本點(diǎn)劃分到不同的族,然后按照平均法計(jì)算各個(gè)族的質(zhì)心,

重新分配質(zhì)心,直到質(zhì)心的移動(dòng)距離小于某個(gè)值。

3.1k均值聚類(lèi)

K-Means算法也稱(chēng)K-均值聚類(lèi)算法,是一種廣泛使用的聚類(lèi)算法,也是其他聚

類(lèi)算法的基礎(chǔ)。

假定輸入樣本為S=X1,X2,…,Xm,則算法步驟為:

1.選擇初始的k個(gè)類(lèi)別中心懼,p2...pk

2.對(duì)于每個(gè)樣本Xi,將其標(biāo)記為距離類(lèi)別中心最近的類(lèi)別(距離計(jì)算一般采用

歐式距離)

3.將每個(gè)類(lèi)別中心更新為隸屬該類(lèi)別的所有樣本的均值

4.重復(fù)最后兩步,直到類(lèi)別中心的變化小于某閾值。

終止條件一般有迭代次數(shù),族中心變化率,最小平方誤差MSE(Minimum

SquaredError)等。

它的迭代過(guò)程如下:

算法缺陷:k個(gè)族心初始點(diǎn)需要提前設(shè)定好,但現(xiàn)實(shí)情況中,不同場(chǎng)景下的k個(gè)

族質(zhì)心往往相差很大,在k值不會(huì)太大,應(yīng)用場(chǎng)景不明確是,可以通過(guò)迭代求解

損失函數(shù)最小時(shí)對(duì)應(yīng)的k值。不同的隨機(jī)種子點(diǎn)得到的結(jié)果完全不同,

看一下k=3得到的三種不同結(jié)果:

35

25

20

15

10

5

0

1U152025?6

35

30

25

20

15

10

1520303540

30

可以發(fā)現(xiàn),即使k=3相同,但開(kāi)始的情況不同,仍然有可能使得聚

類(lèi)不成功。第二張圖就是聚類(lèi)失敗的例子。

4.層次聚類(lèi)

層次聚類(lèi)不需要指定類(lèi)數(shù),它把每個(gè)點(diǎn)劃分為一族,將最近的兩個(gè)點(diǎn)

劃分為一族,重復(fù)劃分直到只剩下一個(gè)族。

用最短距離法看一下具體是怎么算的;

設(shè)又五個(gè)銷(xiāo)售員,wl,w2,w3,w4,w5wl,w2fw3,w4,w5,他們的銷(xiāo)售業(yè)績(jī)由

二維變量vl,v2描述,見(jiàn)表

?7-1儲(chǔ)售員業(yè)績(jī),

V)(?IM)值件為(回收款璃)加元

10

11

叫32

43

叫25

記銷(xiāo)售員wi(i=l,2,3,4,5)的銷(xiāo)售業(yè)績(jī)?yōu)?51,52),使用絕對(duì)值距離來(lái)測(cè)量點(diǎn)與

點(diǎn)之間的距離,使用最短距離法來(lái)測(cè)量類(lèi)與類(lèi)之間的距離,即

日距離公式可以算出距離矩陣:

第一步,所有的元素自成一類(lèi)每個(gè)類(lèi)的平臺(tái)高度為

Hl={wlfw2,w3,w4,w5}.0,

即f(wi)=0,i=l,2,3,4,5.顯然,這時(shí)D(Gp.Gq)=d(wp,wq)

第二步,取新類(lèi)的平臺(tái)高度為1,把wl,w2合成一個(gè)新類(lèi)h6,此時(shí)的分類(lèi)情況是:

H2={h6,w3,w4,w5)

第三步,取新類(lèi)的平臺(tái)高度為2,把w3,w4合成一個(gè)新類(lèi)h7,此時(shí)的分類(lèi)情況是:

H3={h6,h7fw5)

第四步,取新類(lèi)的平臺(tái)高度為3,h6,h7合成一個(gè)新類(lèi)h&此時(shí)的分類(lèi)情況是:

H4={h8,w5)

第五步,取新類(lèi)的平臺(tái)高度為4,把h8,w5合成一個(gè)新類(lèi)h9,此時(shí)的分類(lèi)情況是:

H5={h9}

如此就把所有的樣本點(diǎn)聚為一類(lèi),如果想要聚成3類(lèi),完全可以在H3處停止迭代就

OK了。用圖可以表示為:

(a)諸系圖(b)二分樹(shù)

由此判斷五個(gè)推銷(xiāo)員中w5工作最佳,w3,w4較好,wl,w2較差。也就是三類(lèi)。

參考

多元統(tǒng)計(jì)分析-何曉群

數(shù)學(xué)建模原理與應(yīng)用

數(shù)據(jù)挖掘概念與技術(shù)

sukiyq

聚類(lèi)是對(duì)無(wú)標(biāo)簽的數(shù)據(jù)進(jìn)行分類(lèi),優(yōu)勢(shì)是無(wú)標(biāo)簽,就是不需要在訓(xùn)練前對(duì)訓(xùn)練

集集中的數(shù)據(jù)點(diǎn)進(jìn)行人為的事先分類(lèi),缺點(diǎn)是聚類(lèi)得到的模型不一定反映數(shù)據(jù)

的真實(shí)模型。

主成分分析是對(duì)高維數(shù)據(jù)進(jìn)行降維的一種方法,數(shù)據(jù)維數(shù)很大時(shí)處理很消耗計(jì)

算資源,可以把數(shù)據(jù)首先投影到一個(gè)子空間內(nèi),優(yōu)點(diǎn)當(dāng)然是能使數(shù)據(jù)易于處理,

缺點(diǎn)是數(shù)據(jù)間的結(jié)構(gòu)和關(guān)系可能隨著降維處理而遺失。

yongyux

這兩個(gè)是很不一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論