第十章-聚類分析_第1頁
第十章-聚類分析_第2頁
第十章-聚類分析_第3頁
第十章-聚類分析_第4頁
第十章-聚類分析_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十章聚類分析10.1聚類分析的一般問題10.2層次聚類10.3K-Means聚類10.1聚類分析的一般問題聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”問題的多元統(tǒng)計(jì)分析方法。聚類分析是一種建立分類的多元統(tǒng)計(jì)分析方法,它能夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度(各變量取值上的總體差異程度)在沒有先驗(yàn)知識(shí)(沒有事先指定的分類標(biāo)準(zhǔn))的情況下進(jìn)行自動(dòng)分類,產(chǎn)生多個(gè)分類結(jié)果。類內(nèi)部的個(gè)體在特征上具有相似性,不同類間個(gè)體特征的差異性較大。10.1.1聚類分析的意義聚類分析的應(yīng)用不同地區(qū)城鎮(zhèn)居民收入和消費(fèi)狀況的分類研究。

區(qū)域經(jīng)濟(jì)及社會(huì)發(fā)展水平的分析及全國(guó)區(qū)域經(jīng)濟(jì)綜合評(píng)價(jià)產(chǎn)品市場(chǎng)細(xì)分:按照消費(fèi)者的需求特征分成不同的細(xì)分市場(chǎng)在兒童生長(zhǎng)發(fā)育研究中,把以形態(tài)學(xué)為主的指標(biāo)歸于一類,以機(jī)能為主的指標(biāo)歸于另一類例如,學(xué)校里有些同學(xué)經(jīng)常在一起,關(guān)系比較密切,而他們與另一些同學(xué)卻很少來往,關(guān)系比較疏遠(yuǎn)。究其原因可能會(huì)發(fā)現(xiàn),經(jīng)常在一起的同學(xué)的家庭情況、性格、學(xué)習(xí)成績(jī)、課余愛好等方面有許多共同之處,而關(guān)系比較疏遠(yuǎn)的同學(xué)在這些方面有較大的差異性。為了研究家庭情況、性格、學(xué)習(xí)成績(jī)、課余愛好等是否會(huì)成為劃分學(xué)生小群體的主要決定因素,可以從有關(guān)這些方面的數(shù)據(jù)入手,進(jìn)行客觀分組,然后比較所得的分組是否與實(shí)際相吻合。對(duì)學(xué)生的客觀分組就可采用聚類分析方法。例:下表是同一批客戶對(duì)經(jīng)常光顧的五座商場(chǎng)在購(gòu)物環(huán)境和服務(wù)質(zhì)量?jī)煞矫娴钠骄梅?,現(xiàn)希望根據(jù)這批數(shù)據(jù)將五座商場(chǎng)分類。聚類分析中,個(gè)體之間的“親疏程度”是極為重要的,它將直接影響最終的聚類結(jié)果。對(duì)“親疏”程度的測(cè)度一般有兩個(gè)角度:第一,個(gè)體間的相似程度;第二,個(gè)體間的差異程度。衡量個(gè)體間的相似程度通??刹捎煤?jiǎn)單相關(guān)系數(shù)或等級(jí)相關(guān)系數(shù)。個(gè)體間的差異程度通常通過某種距離來測(cè)度。為定義個(gè)體間的距離應(yīng)先將每個(gè)樣本數(shù)據(jù)看成k維空間的一個(gè)點(diǎn),通常,點(diǎn)與點(diǎn)之間的距離越小,意味著他們?cè)健坝H密”,越有可能聚成一類,點(diǎn)與點(diǎn)之間的距離越大,意味著他們?cè)健笆柽h(yuǎn)”,越有可能分別屬于不同的類。10.1.2聚類分析中“親疏程度”的度量方法

1、定距型變量個(gè)體間距離的計(jì)算方式

8

9

歐氏(Euclidian

)距離實(shí)例計(jì)算品距離矩陣絕對(duì)值距離品Euclidian距離的平方2Euclidian距離明氏(Minkowski

)距離q=1q=2q=∞當(dāng)q=1,為絕對(duì)值距離,SPSS稱為block當(dāng)q=2,即為歐式距離當(dāng)q=∞,有,稱為切比雪夫(Chebychev)距離明氏距離的缺點(diǎn)各指標(biāo)同等對(duì)待(權(quán)數(shù)相同),不能反映各指標(biāo)變異程度上的差異距離的大小與各指標(biāo)的觀測(cè)單位有關(guān),有時(shí)會(huì)出現(xiàn)不合理結(jié)果沒有考慮指標(biāo)之間的相關(guān)性當(dāng)各指標(biāo)的測(cè)量值相差懸殊時(shí),可以先對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離

2、計(jì)數(shù)變量個(gè)體間距離的計(jì)算方式17

18

3、二值(Binary)變量個(gè)體間距離的計(jì)算方式

所選擇的變量應(yīng)符合聚類的要求:所選變量應(yīng)能夠從不同的側(cè)面反映我們研究的目的;各變量的變量值不應(yīng)有數(shù)量級(jí)上的差異(對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理):聚類分析是以各種距離來度量個(gè)體間的“親疏”程度的,從上述各種距離的定義看,數(shù)量級(jí)將對(duì)距離產(chǎn)生較大的影響,并影響最終的聚類結(jié)果。對(duì)投入經(jīng)費(fèi)分別以“元”和“十萬元”為計(jì)量單位,計(jì)算兩兩學(xué)校之間的歐式距離:10.1.3聚類分析的幾點(diǎn)說明20當(dāng)以“元”為單位時(shí),(2,3)距離最小,其次(1,2),最后(1,3)當(dāng)以“十萬元”為單位時(shí),(1,2)距離最小,其次(1,3),最后(2,3)因此,聚類分析之前首先消除數(shù)量級(jí)對(duì)聚類的影響,常用方法是標(biāo)準(zhǔn)化處理各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系10.2層次聚類層次聚類又稱系統(tǒng)聚類,簡(jiǎn)單地講是指聚類過程是按照一定層次進(jìn)行的。層次聚類有兩種類型,分別是Q型聚類和R型聚類;層次聚類的聚類方式又有兩種,分別是凝聚方式聚類和分解方式聚類。Q型聚類:對(duì)樣本進(jìn)行聚類,使具有相似特征的樣本聚集在一起,差異性大的樣本分離開來。R型聚類:對(duì)變量進(jìn)行聚類,使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)到變量降維的目的。10.2.1層次聚類的兩種類型和兩種方式凝聚方式聚類:其過程是,首先,每個(gè)個(gè)體自成一類;然后,按照某種方法度量所有個(gè)體間的親疏程度,并將其中最“親密”的個(gè)體聚成一小類,形成n-1個(gè)類;接下來,再次度量剩余個(gè)體和小類間的親疏程度,并將當(dāng)前最親密的個(gè)體或小類再聚到一類;重復(fù)上述過程,直到所有個(gè)體聚成一個(gè)大類為止。這種聚類方式對(duì)n個(gè)個(gè)體通過n-1步可凝聚成一大類。分解方式聚類:其過程是,首先,所有個(gè)體都屬一大類;然后,按照某種方法度量所有個(gè)體間的親疏程度,將大類中彼此間最“疏遠(yuǎn)”的個(gè)體分離出去,形成兩類(其中一類只有一個(gè)個(gè)體);接下來,再次度量類中剩余個(gè)體間的親疏程度,并將最疏遠(yuǎn)的個(gè)體再分離出去;重復(fù)上述過程,不斷進(jìn)行類分解,直到所有個(gè)體自成一類為止。這種聚類方式對(duì)包含n個(gè)個(gè)體的大類通過n-1步可分解成n個(gè)個(gè)體。SPSS中提供了多種度量個(gè)體與小類、小類與小類間“親疏程度”的方法。與個(gè)體間“親疏程度”的測(cè)度方法類似,應(yīng)首先定義個(gè)體與小類、小類與小類的距離。距離小的關(guān)系親密,距離大的關(guān)系疏遠(yuǎn)。這里的距離是在個(gè)體間距離的基礎(chǔ)上定義的,常見的距離有:10.2.2個(gè)體與小類、小類與小類間“親疏程度”的度量方法最近鄰居(NearestNeighbor)距離:個(gè)體與小類中每個(gè)個(gè)體距離的最小值。最遠(yuǎn)鄰居(FurthestNeighbor)距離:個(gè)體與小類中每個(gè)個(gè)體距離的最大值。組間平均鏈鎖(Between-groupslinkage)距離:個(gè)體與小類中每個(gè)個(gè)體距離的平均值。組內(nèi)平均鏈鎖(Within-groupslinkage)距離:個(gè)體與小類中每個(gè)個(gè)體距離以及小類內(nèi)各個(gè)體間距離的平均值。5個(gè)商廈,D和E的距離最小,現(xiàn)將它們聚為一個(gè)小類O={D,E}A、B、C與O的最近鄰居距離:26.907、34.655、9.22A、B、C與O的最遠(yuǎn)鄰居距離:30.414、38.21、12.806A、B、C與O的組間平均鏈鎖距離:(26.907+30.414)/2、(34.655+38.21)/2、(9.22+12.806)/2A、B、C與O的組內(nèi)平均鏈鎖距離:(26.907+30.414+3.606)/3、(34.655+38.21+3.606)/3、(9.22+12.806+3.606)/36個(gè)民族的粗死亡率與期望壽命哈薩克與藏族的距離最短,最先合并形成新類CL7新類CL7和其余四類的距離第二次合并新類和各類的距離第三次合并第四次合并最后合并成一類譜系圖不顯示實(shí)際距離,顯示0-25的比例距離樹狀圖3310.2.3層次聚類的基本操作商廈評(píng)分.sav

【分析】-【分類】-【系統(tǒng)聚類】35變量:購(gòu)物環(huán)境、服務(wù)質(zhì)量個(gè)案標(biāo)注依據(jù):商廈編號(hào)

2、把參與層次聚類分析的變量選到【變量】框中。

3、把一個(gè)字符型變量作為標(biāo)記變量選到【個(gè)案標(biāo)注依據(jù)】框中,它將大大增強(qiáng)聚類分析結(jié)果的可讀性。

4、在【聚類】框中選擇聚類類型。其中【個(gè)案】表示進(jìn)行Q型聚類(默認(rèn)類型);【變量】表示進(jìn)行R型聚類。

5、在【顯示】框中選擇輸出內(nèi)容。其中【統(tǒng)計(jì)】表示輸出聚類分析的相關(guān)統(tǒng)計(jì)量;【圖】表示輸出聚類分析的相關(guān)圖形。

6、單擊【方法】按鈕指定距離的計(jì)算方法?!緶y(cè)量】框中給出的是不同變量類型下的個(gè)體距離的計(jì)算方法。其中【區(qū)間】框中的方法適用于連續(xù)型定距變量;【計(jì)數(shù)】框中的方法適用于品質(zhì)型變量;【二元】框中的方法適用于二值變量?!揪垲惙椒ā靠蛑薪o出的是計(jì)算個(gè)體與小類、小類與小類間距離的方法。7、如果參與聚類分析的變量存在數(shù)量級(jí)上的差異,應(yīng)在【轉(zhuǎn)換值】框中的【標(biāo)準(zhǔn)化】選項(xiàng)中選擇消除數(shù)量級(jí)差的方法。并指定處理是針對(duì)變量的還是針對(duì)樣本的?!景醋兞俊勘硎踞槍?duì)變量,適于Q型聚類分析;【按個(gè)案】表示針對(duì)樣本,適于R型聚類分析。

8、單擊【統(tǒng)計(jì)】按鈕指定輸出哪些統(tǒng)計(jì)量【集中計(jì)劃】表示輸出聚類分析的凝聚狀態(tài)表;【近似值矩陣】表示輸出個(gè)體間的距離矩陣;【聚類成員】框中,【無】表示不輸出樣本所屬類,【單個(gè)解】表示指定輸出當(dāng)分成n類時(shí)各樣本所屬類,是單一解?!窘獾姆秶勘硎局付ㄝ敵霎?dāng)分成m至n類(m小于等于n)時(shí)各樣本所屬類,是多個(gè)解。上表中,第一列表示聚類分析的第幾步;第二、三列表示本步聚類中哪兩個(gè)樣本或小類聚成一類;第四列式個(gè)體距離或小類距離;第五、六列表示本步聚類中參與聚類的是個(gè)體還是小類,0表示樣本,非0表示由第n步聚類生成的小類參與本步聚類;第七列表示本步聚類的結(jié)果將在以下第幾步中用到。聚成3類時(shí):A、B為一類;C為一類;D、E為一類聚成2類時(shí):A、B為一類;C、D、E為一類

9、單擊【圖】按鈕指定輸出哪種聚類分析圖?!咀V系圖】選項(xiàng)表示輸出聚類分析樹形圖;在【冰柱圖】框中指定輸出冰掛圖,其中,【全部聚類】表示輸出聚類分析每個(gè)階段的冰掛圖,【指定范圍內(nèi)的聚類】表示只輸出某個(gè)階段的冰掛圖,輸入從第幾步開始,到第幾步結(jié)束,中間間隔幾步;在【方向】框中指定如何顯示冰掛圖,其中,【垂直】表示縱向顯示,【水平】表示橫向水平顯示。45首先:D、E聚在一類,其次:A、B聚在一類;然后:C和{D、E}聚在一類;最后:{A、B}和{C、D、E}聚在一類。因此,聚成2類時(shí):{A、B}和{C、D、E}兩類;聚成3類時(shí):{A、B}、{D、E}、{C}三類冰掛圖:聚成4類時(shí):{A}、{B}{C}、{D、E}四類聚成3類時(shí):{A、B}、{D、E}、{C}三類聚成2類時(shí):{A、B}和{C、D、E}兩類;10.2.3層次聚類的應(yīng)用舉例48

1、利用31個(gè)省市自治區(qū)小康和現(xiàn)代化指數(shù)數(shù)據(jù)進(jìn)行層次聚類分析。利用SPSS層次聚類Q型聚類對(duì)31個(gè)省市自治區(qū)進(jìn)行分類分析。其中個(gè)體距離采用平方歐式距離,類間距離采用平均組間鏈鎖距離,由于數(shù)據(jù)不存在數(shù)量級(jí)上的差異,因此無需進(jìn)行進(jìn)行標(biāo)準(zhǔn)化處理。4950較早聚為一類省份有:甘肅、江西、貴州一類;安徽、廣西、河南、云南一類;黑龍江、吉林一類;河南、四川一類;湖北、陜西、內(nèi)蒙古、山西、重慶一類;北京、上海一類;浙江、廣東一類;5152將所有省份聚為3類,統(tǒng)計(jì)它們各個(gè)指數(shù)的均值、標(biāo)準(zhǔn)差、最大值和最小值532、利用裁判打分?jǐn)?shù)據(jù)進(jìn)行聚類分析。

利用SPSS層次聚類R型聚類進(jìn)行分類分析。其中變量個(gè)體距離采用平方歐式距離,類間距離采用平均組間鏈鎖距離,由于數(shù)據(jù)不存在數(shù)量級(jí)上的差異,因此無需進(jìn)行進(jìn)行標(biāo)準(zhǔn)化處理。5455如果將裁判聚為3類:熱心觀眾為一類;美國(guó)、法國(guó)、韓國(guó)為一類;俄羅斯、中國(guó)、羅馬尼亞、意大利為一類如果將裁判聚為4類:熱心觀眾為一類;美國(guó)、法國(guó)、韓國(guó)為一類;俄羅斯、中國(guó)、羅馬尼亞為一類;意大利為一類;10.3K-Means聚類K-Means聚類也稱快速聚類,仍將數(shù)據(jù)看成k維空間上的點(diǎn),仍以距離作為測(cè)度個(gè)體“親疏程度”的指標(biāo),并通過犧牲多個(gè)解為代價(jià)換得高的執(zhí)行效率,其核心步驟是:第一,指定聚類數(shù)目K第二,確定K個(gè)初始類中心。SPSS中初始類中心的指定方式有兩種:一是用戶指定方式;二是系統(tǒng)指定方式。10.3.1K-Means聚類分析的核心步驟第三,根據(jù)距離最近原則進(jìn)行分類。依次計(jì)算每個(gè)樣本數(shù)據(jù)點(diǎn)到K個(gè)類中心點(diǎn)的歐式距離,并按距K個(gè)類中心點(diǎn)距離最短的原則將所有樣本分成K類。第四,重新確定K個(gè)類中心。中心點(diǎn)的確定原則是,依次計(jì)算各類中k個(gè)變量的均值,并以均值點(diǎn)作為K個(gè)類的中心點(diǎn)。第五,判斷是否已滿足中止聚類分析的條件。條件有兩個(gè):一是迭代次數(shù)(SPSS默認(rèn)為10);二是類中心點(diǎn)偏移程度,即新確定的類中心點(diǎn)距上個(gè)類中心點(diǎn)的最大偏移量小于指定的量(SPSS默認(rèn)為0.02)時(shí)中止聚類。58596010.3.2K-Means聚類分析的應(yīng)用舉例31個(gè)省市自治區(qū)小康和現(xiàn)代化指數(shù)的K-Means聚類分析10.3.2K-Means聚類分析的應(yīng)用舉例【分析】-【分類】-【K-均值聚類】622.選定參與K-Means聚類的變量放入【變量】框中。3.選擇一個(gè)字符型變量作為標(biāo)記變量放入【個(gè)案標(biāo)注依據(jù)】框中,增加分析結(jié)果的可讀性。4.在【聚類數(shù)】框中輸入聚類數(shù)目,該數(shù)應(yīng)小于樣本數(shù)。5.如果用戶自行指定初始類中心點(diǎn),則單擊【讀取初始聚類中心】按鈕,并給出存放初始類中心的SPSS數(shù)據(jù)文件名;否則本步可略去。6.在【方法】框中指定聚類過程是否調(diào)整類中心點(diǎn)。其中,【迭代與分類】表示在聚類分析的每一步都重新確定類中心點(diǎn)(SPSS默認(rèn));【僅分類】表示聚類分析過程中類中心點(diǎn)始終為初始類中心點(diǎn),此時(shí)僅進(jìn)行一次迭代。7.單擊【迭代】按鈕確定中止聚類的條件。在【最大迭代次數(shù)】框后輸入最大迭代次數(shù),在【收斂條件】框后輸入類中心的偏移量。另外,【使用運(yùn)行平均值】選項(xiàng),選中表示每當(dāng)一個(gè)樣本被分配到一類時(shí)便立即重新計(jì)算新的類中心點(diǎn),此時(shí)類中心點(diǎn)與樣本分配的前后順序有關(guān);不選該項(xiàng)表示只有當(dāng)完成了所有樣本的類分配后再計(jì)算類中心,該方式可節(jié)省運(yùn)算時(shí)間,通常不選中該選項(xiàng)。8.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論