版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
典型統(tǒng)計分析方法及應(yīng)用郭毅2019年10月典型統(tǒng)計分析方法及應(yīng)用郭毅目錄前言聚類分析判別分析遺傳算法內(nèi)蒙古財經(jīng)學院工商管理學院目錄前言內(nèi)蒙古財經(jīng)學院工商管理學院前言前言我國學者、教學科研人員大多重視思辨性思維,空泛的議論多,而邏輯推理的思維方式淡化,更不追求嚴密的公理化體系。定量分析方法能使人們對質(zhì)的規(guī)律性的認識更加深入全面。一、為什么我們需要了解統(tǒng)計分析方法?東西方文化差異內(nèi)蒙古財經(jīng)學院工商管理學院我國學者、教學科研人員大多重視思辨性思維,空泛的議論多,而邏技術(shù)因素(供方)定量分析的推動因素市場因素(需方)數(shù)據(jù)庫技術(shù)通訊技術(shù)網(wǎng)絡(luò)技術(shù)分析技術(shù)數(shù)據(jù)倉庫市場全球化組織變遷客戶關(guān)系管理。。一、為什么我們需要了解統(tǒng)計分析方法?數(shù)據(jù)和信息以幾何級數(shù)增長內(nèi)蒙古財經(jīng)學院工商管理學院技術(shù)因素(供方)定量分析的推動因素市場因素(需方)數(shù)據(jù)庫技術(shù)現(xiàn)代統(tǒng)計分析方法結(jié)構(gòu)簡化方法預測據(jù)測方法回歸分析4.定性資料分析判別分析5.聚類分析遺傳算法分類分析方法聚類分析判別分析定性資料分析遺傳算法相關(guān)分析方法定性資料分析5.主成分析回歸分析6.因子分析典型相關(guān)分析7.對應(yīng)分析神經(jīng)網(wǎng)絡(luò)回歸分析4.因子分析聚類分析5.對應(yīng)分析主成分分析二、統(tǒng)計分析方法的分類內(nèi)蒙古財經(jīng)學院工商管理學院現(xiàn)代統(tǒng)計分析結(jié)構(gòu)簡化方法預測據(jù)測方法回歸分析4.定性資料分統(tǒng)計分析不能替代…..好的簡報
好的研究方案設(shè)計好的運作執(zhí)行和質(zhì)量控制你和你的研究小組清晰的思路你更好的理解正常人(非市場研究人員)如何思考和認識你所研究的市場但是統(tǒng)計分析是一種非常重要的研究方法,你將回在工作中接觸和使用它三、統(tǒng)計分析方法的作用域內(nèi)蒙古財經(jīng)學院工商管理學院統(tǒng)計分析不能替代…..好的簡報三、統(tǒng)計分析方法的作用域聚類分析聚類分析目錄聚類和聚類分析的概念聚類分析的目的和原理距離和相似系數(shù)均值聚類和分層聚類聚類分析方法使用注意事項聚類分析方法的局限性聚類方法在管理領(lǐng)域的應(yīng)用內(nèi)蒙古財經(jīng)學院工商管理學院目錄聚類和聚類分析的概念內(nèi)蒙古財經(jīng)學院工商管理學院崗位評估就是確定某崗位對企業(yè)或組織戰(zhàn)略實現(xiàn)和未來發(fā)展相對價值。只有明確了各個崗位對企業(yè)或組織發(fā)展的重要程度,才能有針對性的設(shè)計薪酬結(jié)構(gòu)和薪酬水平。聚類分析可以確定崗位級別。企業(yè)文化被喻為“企業(yè)生命常青藤”,既具有其獨特性,也具有很強的通用性,處于不同行業(yè),從事不同業(yè)務(wù)的企業(yè)間往往具有相似的企業(yè)文化要素特征。運用聚類分析方法,根據(jù)企業(yè)文化的要素特征幫助人們從定量的角度識別企業(yè)文化的類別,這有助于具有相似企業(yè)文化特征的企業(yè)間相互借鑒。商業(yè)競爭中存在帕累托法則,即企業(yè)20%的客戶貢獻了80%的利潤。通過聚類分析可以將價值客戶群分為有價值易流失的客戶群、有價值穩(wěn)定的客戶群、低價值不穩(wěn)定的客戶群和低價值穩(wěn)定的客戶群,從而針對不同的客戶群,采取不同的服務(wù)、推銷和價格策略來穩(wěn)定有價值的客戶,轉(zhuǎn)化低價值的客戶,消除沒有價值的客戶。一、聚類和聚類分析的概念引例內(nèi)蒙古財經(jīng)學院工商管理學院崗位評估就是確定某崗位對企業(yè)或組織戰(zhàn)略實現(xiàn)和未來發(fā)展相對價值把研究目標分割成為具有相同屬性的小的群體VariableBVariableACorrespondencematrix...................................................一、聚類和聚類分析的概念聚類內(nèi)蒙古財經(jīng)學院工商管理學院把研究目標分割成為具有相同屬性的小的群體VariableB聚類分析對于一個數(shù)據(jù),人們既可以對變量(指標)進行分類(相當于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數(shù)據(jù)中的行分類)。比如學生成績數(shù)據(jù)就可以對學生按照理科或文科成績(或者綜合考慮各科成績)分類,當然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。聚類分析(clusteranalysis)分為R型聚類和Q型聚類。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學上是對稱的,沒有什么不同。聚類分析內(nèi)蒙古財經(jīng)學院工商管理學院聚類分析對于一個數(shù)據(jù),人們既可以對變量(指標)進行分類(相當聚類分析的目的
根據(jù)已知數(shù)據(jù),計算各觀察個體或變量之間親疏關(guān)系的統(tǒng)計量(距離或相關(guān)系數(shù))。根據(jù)某種準則(最短距離法、最長距離法、中間距離法、重心法),使同一類內(nèi)的差別較小,而類與類之間的差別較大,最終將觀察個體或變量分為若干類。二、聚類分析目的和原理聚類分析的目的根據(jù)已知數(shù)據(jù),計算各觀察個體或變量之間我們所研究的樣品或指標(變量)之間存在程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,以這些統(tǒng)計量為劃分類型的依據(jù)。把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另一類,關(guān)系密切的聚合到一個小的分類單位,關(guān)系疏遠的聚合到一個大的分類單位,直到把所有的樣品(或指標)聚合完畢,這就是分類的基本思想。二、聚類分析的目的和原理聚類分析的原理內(nèi)蒙古財經(jīng)學院工商管理學院我們所研究的樣品或指標(變量)之間存在程度不同的相似性(親疏如何度量遠近?如果想要對100個學生進行分類,如果僅僅知道他們的數(shù)學成績,則只好按照數(shù)學成績來分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數(shù)學和物理成績就形成二維平面上的100個點,也可以按照距離遠近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據(jù)中,每種飲料都有四個變量值。這就是四維空間點的問題了。三、距離和相似系數(shù)內(nèi)蒙古財經(jīng)學院工商管理學院如何度量遠近?如果想要對100個學生進行分類,如果僅僅知道他兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。點間距離有很多定義方式。最簡單的是歐氏距離,還有其他的距離。當然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點越相似度越大,就相當于距離越短。由一個點組成的類是最基本的類;如果每一類都由一個點組成,那么點間的距離就是類間距離。但是如果某一類包含不止一個點,那么就要確定類間距離,類間距離是基于點間距離定義的:比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠點之間的距離作為這兩類之間的距離;當然也可以用各類的中心之間的距離來作為類間距離。在計算時,各種點間距離和類間距離的選擇是通過統(tǒng)計軟件的選項實現(xiàn)的。不同的選擇的結(jié)果會不同,但一般不會差太多。三、距離和相似系數(shù)內(nèi)蒙古財經(jīng)學院工商管理學院兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離歐氏距離:Euclidean平方歐氏距離:SquaredEuclideanChebychev:Maxi|xi-yi|Block(絕對距離):Si|xi-yi|Minkowski:蘭氏距離:Lance三、距離和相似系數(shù)內(nèi)蒙古財經(jīng)學院工商管理學院向量x=(x1,…,xp)與y=(y1,…,yp)之間的向量x=(x1,…,xp)與y=(y1,…,yp)之間相似系數(shù)夾角余弦(相似系數(shù)1):cosinePearsoncorrelation(相似系數(shù)2):三、距離和相似系數(shù)內(nèi)蒙古財經(jīng)學院工商管理學院向量x=(x1,…,xp)與y=(y1,…,yp)之間相最短距離法:最長距離法:重心法:離差平方和:(Wald)類平均法:類Gp與類Gq之間的距離Dpq
三、距離和相似系數(shù)內(nèi)蒙古財經(jīng)學院工商管理學院最短距離法:最長距離法:重心法:離差平方和:類平均法:類Gp事先要確定分多少類:k-均值聚類前面說過,聚類可以走著瞧,不一定事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說好要分多少類。看起來有些主觀,是吧!假定你說分3類,這個方法還進一步要求你事先確定3個點為“聚類種子”(SPSS軟件自動為你選種子);也就是說,把這3個點作為三類中每一類的基石。然后,根據(jù)和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來的“種子”就沒用了),重新按照距離分類。如此疊代下去,直到達到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認真,它們很可能最后還會分到同一類中呢。下面用飲料例的數(shù)據(jù)來做k-均值聚類。四、聚類分析方法分類內(nèi)蒙古財經(jīng)學院工商管理學院事先要確定分多少類:k-均值聚類前面說過,聚類可以走著瞧,飲料數(shù)據(jù)四、聚類分析方法分類內(nèi)蒙古財經(jīng)學院工商管理學院飲料數(shù)據(jù)四、聚類分析方法分類內(nèi)蒙古財經(jīng)學院工商管理學院假定要把這16種飲料分成3類。四、聚類分析方法分類內(nèi)蒙古財經(jīng)學院工商管理學院假定要把這16種飲料分成3類。四、聚類分析方法分類內(nèi)蒙古財經(jīng)分類結(jié)果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。四、聚類分析方法的分類內(nèi)蒙古財經(jīng)學院工商管理學院分類結(jié)果是:四、聚類分析方法的分類內(nèi)蒙古財經(jīng)學院工商管理學院事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchicalcluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。顯然,越是后來合并的類,距離就越遠。再對飲料例子來實施分層聚類。四、聚類分析方法的分類內(nèi)蒙古財經(jīng)學院工商管理學院事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類分析內(nèi)蒙古財經(jīng)學院工商管理學院聚類分析內(nèi)蒙古財經(jīng)學院工商管理學院聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。
另外就分成多少類來說,也要有道理。雖然從分層聚類的計算機結(jié)果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類之間的距離盡可能地遠,而類中點的距離盡可能的近,而且分類結(jié)果還要有令人信服的解釋。這一點就不是數(shù)學可以解決的了。五、聚類分析方法使用時應(yīng)注意的問題內(nèi)蒙古財經(jīng)學院工商管理學院聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一首先,聚類結(jié)果要明確就需分離度很好(well-separated)的數(shù)據(jù)。幾乎所有現(xiàn)存的算法都是從互相區(qū)別的不重疊的類數(shù)據(jù)中產(chǎn)生同樣的聚類。但是,如果類是擴散且互相滲透,那么每種算法的的結(jié)果將有點不同。每種聚類算法得到各自的最適結(jié)果,每個數(shù)據(jù)部分將產(chǎn)生單一的信息。為解釋因不同算法使同樣數(shù)據(jù)產(chǎn)生不同結(jié)果,必須注意判斷不同的方式。正確解釋來自任一算法的聚類內(nèi)容的實際結(jié)果是困難的(特別是邊界)。最終,將需要經(jīng)驗可信度通過序列比較來指導聚類解釋。其次,由線性相關(guān)產(chǎn)生的局限性。上述的所有聚類方法分析的僅是簡單的一對一的關(guān)系。因為只是成對的線性比較,大大減少發(fā)現(xiàn)表達類型關(guān)系的計算量,但忽視了生物系統(tǒng)多因素和非線性的特點。六、聚類分析的局限性內(nèi)蒙古財經(jīng)學院工商管理學院首先,聚類結(jié)果要明確就需分離度很好(well-separat生產(chǎn)運作管理財務(wù)管理產(chǎn)業(yè)結(jié)構(gòu)與產(chǎn)業(yè)集群營銷、人力資源管理供應(yīng)鏈管理創(chuàng)新管理、企業(yè)文化其他%七、聚類分析在管理領(lǐng)域的應(yīng)用舉例聚類分析方法應(yīng)用分布示意圖內(nèi)蒙古財經(jīng)學院工商管理學院生產(chǎn)運作管理%七、聚類分析在管理領(lǐng)域的應(yīng)用舉例聚類分析方法應(yīng)七、聚類分析在管理領(lǐng)域的應(yīng)用舉例序號論文題目1對中國制造業(yè)運作策略的聚類分析及實證研究2供應(yīng)商庫存管理中的聚類分析3基于模糊聚類分析的城市物流中心選址研究4聚類分析方法在行包運輸規(guī)劃中的應(yīng)用5對我國區(qū)域金融發(fā)展的聚類分析6金融企業(yè)上市公司績效的模糊聚類分析聚類分析應(yīng)用之論文題目清單內(nèi)蒙古財經(jīng)學院工商管理學院七、聚類分析在管理領(lǐng)域的應(yīng)用舉例序號論文題目1對中國制造業(yè)運七、聚類分析在管理領(lǐng)域的應(yīng)用舉例序號論文題目7聚類分析在投資決策中的應(yīng)用8福建省產(chǎn)業(yè)結(jié)構(gòu)地區(qū)差異聚類分析9基于區(qū)位嫡的中國制造業(yè)集散聚類分析10基于神經(jīng)網(wǎng)絡(luò)的人力資本聚類分析11聚類分析法在供應(yīng)鏈聯(lián)盟合作伙伴初選中的應(yīng)用12基于模糊聚類分析的企業(yè)文化類型的定量識別聚類分析應(yīng)用之論文題目取樣清單內(nèi)蒙古財經(jīng)學院工商管理學院七、聚類分析在管理領(lǐng)域的應(yīng)用舉例序號論文題目7聚類分析在投資七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析:聚類法在基于產(chǎn)品屬性重要度的市場細分中的應(yīng)用內(nèi)蒙古財經(jīng)學院工商管理學院七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析:聚類法在基于產(chǎn)品屬七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析內(nèi)蒙古財經(jīng)學院工商管理學院七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析內(nèi)蒙古財經(jīng)學院工商管七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析內(nèi)蒙古財經(jīng)學院工商管理學院七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析內(nèi)蒙古財經(jīng)學院工商管七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析內(nèi)蒙古財經(jīng)學院工商管理學院七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析內(nèi)蒙古財經(jīng)學院工商管七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析內(nèi)蒙古財經(jīng)學院工商管理學院七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析內(nèi)蒙古財經(jīng)學院工商管七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析內(nèi)蒙古財經(jīng)學院工商管理學院七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析內(nèi)蒙古財經(jīng)學院工商管七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析在上圖中,縱坐標是閥值λ,橫坐標是客戶編號,可以清楚地看出在不同的閥值λ下,不同用戶的聚類情況。例如,在閥值λ
=0.24時,13單獨為一類,其他客戶為一類。在又=0.16時,1,5為一類,13為一類,其他客戶為一類。內(nèi)蒙古財經(jīng)學院工商管理學院七、聚類分析在管理領(lǐng)域的應(yīng)用舉例實例分析在上圖中,縱坐標是結(jié)束,謝謝!敬請指教內(nèi)蒙古財經(jīng)學院工商管理學院結(jié)束,謝謝!內(nèi)蒙古財經(jīng)學院工商管理學院典型統(tǒng)計分析方法及應(yīng)用郭毅2019年10月典型統(tǒng)計分析方法及應(yīng)用郭毅目錄前言聚類分析判別分析遺傳算法內(nèi)蒙古財經(jīng)學院工商管理學院目錄前言內(nèi)蒙古財經(jīng)學院工商管理學院前言前言我國學者、教學科研人員大多重視思辨性思維,空泛的議論多,而邏輯推理的思維方式淡化,更不追求嚴密的公理化體系。定量分析方法能使人們對質(zhì)的規(guī)律性的認識更加深入全面。一、為什么我們需要了解統(tǒng)計分析方法?東西方文化差異內(nèi)蒙古財經(jīng)學院工商管理學院我國學者、教學科研人員大多重視思辨性思維,空泛的議論多,而邏技術(shù)因素(供方)定量分析的推動因素市場因素(需方)數(shù)據(jù)庫技術(shù)通訊技術(shù)網(wǎng)絡(luò)技術(shù)分析技術(shù)數(shù)據(jù)倉庫市場全球化組織變遷客戶關(guān)系管理。。一、為什么我們需要了解統(tǒng)計分析方法?數(shù)據(jù)和信息以幾何級數(shù)增長內(nèi)蒙古財經(jīng)學院工商管理學院技術(shù)因素(供方)定量分析的推動因素市場因素(需方)數(shù)據(jù)庫技術(shù)現(xiàn)代統(tǒng)計分析方法結(jié)構(gòu)簡化方法預測據(jù)測方法回歸分析4.定性資料分析判別分析5.聚類分析遺傳算法分類分析方法聚類分析判別分析定性資料分析遺傳算法相關(guān)分析方法定性資料分析5.主成分析回歸分析6.因子分析典型相關(guān)分析7.對應(yīng)分析神經(jīng)網(wǎng)絡(luò)回歸分析4.因子分析聚類分析5.對應(yīng)分析主成分分析二、統(tǒng)計分析方法的分類內(nèi)蒙古財經(jīng)學院工商管理學院現(xiàn)代統(tǒng)計分析結(jié)構(gòu)簡化方法預測據(jù)測方法回歸分析4.定性資料分統(tǒng)計分析不能替代…..好的簡報
好的研究方案設(shè)計好的運作執(zhí)行和質(zhì)量控制你和你的研究小組清晰的思路你更好的理解正常人(非市場研究人員)如何思考和認識你所研究的市場但是統(tǒng)計分析是一種非常重要的研究方法,你將回在工作中接觸和使用它三、統(tǒng)計分析方法的作用域內(nèi)蒙古財經(jīng)學院工商管理學院統(tǒng)計分析不能替代…..好的簡報三、統(tǒng)計分析方法的作用域聚類分析聚類分析目錄聚類和聚類分析的概念聚類分析的目的和原理距離和相似系數(shù)均值聚類和分層聚類聚類分析方法使用注意事項聚類分析方法的局限性聚類方法在管理領(lǐng)域的應(yīng)用內(nèi)蒙古財經(jīng)學院工商管理學院目錄聚類和聚類分析的概念內(nèi)蒙古財經(jīng)學院工商管理學院崗位評估就是確定某崗位對企業(yè)或組織戰(zhàn)略實現(xiàn)和未來發(fā)展相對價值。只有明確了各個崗位對企業(yè)或組織發(fā)展的重要程度,才能有針對性的設(shè)計薪酬結(jié)構(gòu)和薪酬水平。聚類分析可以確定崗位級別。企業(yè)文化被喻為“企業(yè)生命常青藤”,既具有其獨特性,也具有很強的通用性,處于不同行業(yè),從事不同業(yè)務(wù)的企業(yè)間往往具有相似的企業(yè)文化要素特征。運用聚類分析方法,根據(jù)企業(yè)文化的要素特征幫助人們從定量的角度識別企業(yè)文化的類別,這有助于具有相似企業(yè)文化特征的企業(yè)間相互借鑒。商業(yè)競爭中存在帕累托法則,即企業(yè)20%的客戶貢獻了80%的利潤。通過聚類分析可以將價值客戶群分為有價值易流失的客戶群、有價值穩(wěn)定的客戶群、低價值不穩(wěn)定的客戶群和低價值穩(wěn)定的客戶群,從而針對不同的客戶群,采取不同的服務(wù)、推銷和價格策略來穩(wěn)定有價值的客戶,轉(zhuǎn)化低價值的客戶,消除沒有價值的客戶。一、聚類和聚類分析的概念引例內(nèi)蒙古財經(jīng)學院工商管理學院崗位評估就是確定某崗位對企業(yè)或組織戰(zhàn)略實現(xiàn)和未來發(fā)展相對價值把研究目標分割成為具有相同屬性的小的群體VariableBVariableACorrespondencematrix...................................................一、聚類和聚類分析的概念聚類內(nèi)蒙古財經(jīng)學院工商管理學院把研究目標分割成為具有相同屬性的小的群體VariableB聚類分析對于一個數(shù)據(jù),人們既可以對變量(指標)進行分類(相當于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數(shù)據(jù)中的行分類)。比如學生成績數(shù)據(jù)就可以對學生按照理科或文科成績(或者綜合考慮各科成績)分類,當然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。聚類分析(clusteranalysis)分為R型聚類和Q型聚類。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學上是對稱的,沒有什么不同。聚類分析內(nèi)蒙古財經(jīng)學院工商管理學院聚類分析對于一個數(shù)據(jù),人們既可以對變量(指標)進行分類(相當聚類分析的目的
根據(jù)已知數(shù)據(jù),計算各觀察個體或變量之間親疏關(guān)系的統(tǒng)計量(距離或相關(guān)系數(shù))。根據(jù)某種準則(最短距離法、最長距離法、中間距離法、重心法),使同一類內(nèi)的差別較小,而類與類之間的差別較大,最終將觀察個體或變量分為若干類。二、聚類分析目的和原理聚類分析的目的根據(jù)已知數(shù)據(jù),計算各觀察個體或變量之間我們所研究的樣品或指標(變量)之間存在程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,以這些統(tǒng)計量為劃分類型的依據(jù)。把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另一類,關(guān)系密切的聚合到一個小的分類單位,關(guān)系疏遠的聚合到一個大的分類單位,直到把所有的樣品(或指標)聚合完畢,這就是分類的基本思想。二、聚類分析的目的和原理聚類分析的原理內(nèi)蒙古財經(jīng)學院工商管理學院我們所研究的樣品或指標(變量)之間存在程度不同的相似性(親疏如何度量遠近?如果想要對100個學生進行分類,如果僅僅知道他們的數(shù)學成績,則只好按照數(shù)學成績來分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數(shù)學和物理成績就形成二維平面上的100個點,也可以按照距離遠近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據(jù)中,每種飲料都有四個變量值。這就是四維空間點的問題了。三、距離和相似系數(shù)內(nèi)蒙古財經(jīng)學院工商管理學院如何度量遠近?如果想要對100個學生進行分類,如果僅僅知道他兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。點間距離有很多定義方式。最簡單的是歐氏距離,還有其他的距離。當然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點越相似度越大,就相當于距離越短。由一個點組成的類是最基本的類;如果每一類都由一個點組成,那么點間的距離就是類間距離。但是如果某一類包含不止一個點,那么就要確定類間距離,類間距離是基于點間距離定義的:比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠點之間的距離作為這兩類之間的距離;當然也可以用各類的中心之間的距離來作為類間距離。在計算時,各種點間距離和類間距離的選擇是通過統(tǒng)計軟件的選項實現(xiàn)的。不同的選擇的結(jié)果會不同,但一般不會差太多。三、距離和相似系數(shù)內(nèi)蒙古財經(jīng)學院工商管理學院兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離歐氏距離:Euclidean平方歐氏距離:SquaredEuclideanChebychev:Maxi|xi-yi|Block(絕對距離):Si|xi-yi|Minkowski:蘭氏距離:Lance三、距離和相似系數(shù)內(nèi)蒙古財經(jīng)學院工商管理學院向量x=(x1,…,xp)與y=(y1,…,yp)之間的向量x=(x1,…,xp)與y=(y1,…,yp)之間相似系數(shù)夾角余弦(相似系數(shù)1):cosinePearsoncorrelation(相似系數(shù)2):三、距離和相似系數(shù)內(nèi)蒙古財經(jīng)學院工商管理學院向量x=(x1,…,xp)與y=(y1,…,yp)之間相最短距離法:最長距離法:重心法:離差平方和:(Wald)類平均法:類Gp與類Gq之間的距離Dpq
三、距離和相似系數(shù)內(nèi)蒙古財經(jīng)學院工商管理學院最短距離法:最長距離法:重心法:離差平方和:類平均法:類Gp事先要確定分多少類:k-均值聚類前面說過,聚類可以走著瞧,不一定事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說好要分多少類??雌饋碛行┲饔^,是吧!假定你說分3類,這個方法還進一步要求你事先確定3個點為“聚類種子”(SPSS軟件自動為你選種子);也就是說,把這3個點作為三類中每一類的基石。然后,根據(jù)和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來的“種子”就沒用了),重新按照距離分類。如此疊代下去,直到達到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認真,它們很可能最后還會分到同一類中呢。下面用飲料例的數(shù)據(jù)來做k-均值聚類。四、聚類分析方法分類內(nèi)蒙古財經(jīng)學院工商管理學院事先要確定分多少類:k-均值聚類前面說過,聚類可以走著瞧,飲料數(shù)據(jù)四、聚類分析方法分類內(nèi)蒙古財經(jīng)學院工商管理學院飲料數(shù)據(jù)四、聚類分析方法分類內(nèi)蒙古財經(jīng)學院工商管理學院假定要把這16種飲料分成3類。四、聚類分析方法分類內(nèi)蒙古財經(jīng)學院工商管理學院假定要把這16種飲料分成3類。四、聚類分析方法分類內(nèi)蒙古財經(jīng)分類結(jié)果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。四、聚類分析方法的分類內(nèi)蒙古財經(jīng)學院工商管理學院分類結(jié)果是:四、聚類分析方法的分類內(nèi)蒙古財經(jīng)學院工商管理學院事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchicalcluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。顯然,越是后來合并的類,距離就越遠。再對飲料例子來實施分層聚類。四、聚類分析方法的分類內(nèi)蒙古財經(jīng)學院工商管理學院事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類分析內(nèi)蒙古財經(jīng)學院工商管理學院聚類分析內(nèi)蒙古財經(jīng)學院工商管理學院聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。
另外就分成多少類來說,也要有道理。雖然從分層聚類的計算機結(jié)果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類之間的距離盡可能地遠,而類中點的距離盡可能的近,而且分類結(jié)果還要有令人信服的解釋。這一點就不是數(shù)學可以解決的了。五、聚類分析方法使用時應(yīng)注意的問題內(nèi)蒙古財經(jīng)學院工商管理學院聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一首先,聚類結(jié)果要明確就需分離度很好(well-separated)的數(shù)據(jù)。幾乎所有現(xiàn)存的算法都是從互相區(qū)別的不重疊的類數(shù)據(jù)中產(chǎn)生同樣的聚類。但是,如果類是擴散且互相滲透,那么每種算法的的結(jié)果將有點不同。每種聚類算法得到各自的最適結(jié)果,每個數(shù)據(jù)部分將產(chǎn)生單一的信息。為解釋因不同算法使同樣數(shù)據(jù)產(chǎn)生不同結(jié)果,必須注意判斷不同的方式。正確解釋來自任一算法的聚類內(nèi)容的實際結(jié)果是困難的(特別是邊界)。最終,將需要經(jīng)驗可信度通過序列比較來指導聚類解釋。其次,由線性相關(guān)產(chǎn)生的局限性。上述的所有聚類方法分析的僅是簡單的一對一的關(guān)系。因為只是成對的線性比較,大大減少發(fā)現(xiàn)表達類型關(guān)系的計算量,但忽視了生物系統(tǒng)多因素和非線性的特點。六、聚類分析的局限性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 46984.1-2025光伏電池第1部分:晶體硅光伏電池光致衰減試驗方法
- 貨物安全檢查制度
- 財產(chǎn)保險代位求償制度
- 行政復議制度本質(zhì)上是司法審查制度
- 《歸去來兮辭》練習
- 2026河南鄭州市區(qū)公立醫(yī)院招聘護理崗參考考試試題附答案解析
- 執(zhí)法培訓考試試題及答案
- 中醫(yī)招聘考試試題及答案
- 2026廣東深圳大學深圳醫(yī)療保障研究院誠聘研究助理1名備考考試題庫附答案解析
- 2026云南昆明市晉寧區(qū)人民政府辦公室招聘編外人員2人參考考試題庫附答案解析
- 2026中國電信四川公用信息產(chǎn)業(yè)有限責任公司社會成熟人才招聘備考題庫及答案詳解參考
- 郵政服務(wù)操作流程與規(guī)范(標準版)
- 2025年年輕人生活方式洞察報告-海惟智庫
- 2026昆山鈔票紙業(yè)有限公司校園招聘15人備考題庫及1套完整答案詳解
- 南瑞9622型6kV變壓器差動保護原理及現(xiàn)場校驗實例培訓課件
- 2026年重慶市江津區(qū)社區(qū)專職人員招聘(642人)考試參考題庫及答案解析
- 統(tǒng)編版(2024)七年級上冊道德與法治期末復習必背知識點考點清單
- 新華資產(chǎn)招聘筆試題庫2026
- 造口常用護理用品介紹
- 小米銷售新人培訓
- (新教材)2025年秋期部編人教版二年級上冊語文第七單元復習課件
評論
0/150
提交評論