信息分析方法.ppt_第1頁(yè)
信息分析方法.ppt_第2頁(yè)
信息分析方法.ppt_第3頁(yè)
信息分析方法.ppt_第4頁(yè)
信息分析方法.ppt_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余38頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、好裁縫做上衣,要測(cè)量上體長(zhǎng)、手臂長(zhǎng)、胸圍等14個(gè)指標(biāo)。 這14個(gè)指標(biāo)是相關(guān)的,可以找出幾個(gè)反映上衣特征的綜合指標(biāo),加工出的上衣大多數(shù)人都能穿,當(dāng)然特體除外。 這兩個(gè)不相關(guān)的指標(biāo)就是上衣的型和號(hào)。而他們所采用的方法就是因子分析方法。,2020/9/24,1,4.3 因子分析,4.3.1 因子分析的數(shù)理統(tǒng)計(jì)背景 主要用于數(shù)據(jù)化簡(jiǎn)和降維 將相關(guān)性較強(qiáng)的幾個(gè)變量歸在同一個(gè)類(lèi)中,每一類(lèi)賦予新的名稱(chēng),成為一個(gè)因子,反映事物的一個(gè)方面,或者說(shuō)一個(gè)維度。 更可進(jìn)一步推出因子的值,然后用這些因子代替原來(lái)變量進(jìn)行其他統(tǒng)計(jì)分析。 設(shè)有n個(gè)樣本,每個(gè)樣本觀測(cè)p個(gè)變量。 為了對(duì)變量進(jìn)行比較,并消除由于觀測(cè)量綱的差異及數(shù)

2、量級(jí)所造成的影響,將樣本觀測(cè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。 使標(biāo)準(zhǔn)化后的變量的均值為0,方差為1。,2020/9/24,2,X=(x1,x2,xp)T,是可觀測(cè)的隨機(jī)向量,且向量均值E(X)0,協(xié)方差陣cov(X),且協(xié)方差陣與相關(guān)矩陣R相等; F(F1,F2,Fm)T,mp,是不可測(cè)的向量,其向量均值E(F)0,協(xié)方差矩陣cov(F)I,即向量F的各分量是相互獨(dú)立的; =(1,2,p)T與F相互獨(dú)立,且E()0,協(xié)方差陣是對(duì)角陣,說(shuō)明各分量之間也是相互獨(dú)立的。 則下列模型被稱(chēng)為因子模型: x1=a11F1+a12F2+a1mFm+1 x2=a21F1+a22F2+a2mFm+2 xp=ap1F1+ap

3、2F2+apmFm+p,2020/9/24,3,F1 , F2 , Fm,被稱(chēng)作公共因子(也稱(chēng)主因子),在各個(gè)原觀測(cè)變量的表達(dá)式中都出現(xiàn),是相互獨(dú)立的不可觀測(cè)的理論變量。 1 , 2 , p ,被稱(chēng)作特殊因子,是向量X的分量Xi(i1,2,n)所特有的因子。 aij稱(chēng)作因子載荷,aij的絕對(duì)值越大,表明Xi與Fj的相依程度越大。,2020/9/24,4,4.3.2 因子分析的過(guò)程 問(wèn)題的定義 計(jì)算并檢驗(yàn)協(xié)方差(相關(guān))矩陣 巴特利特球體檢驗(yàn) KMO測(cè)度 選擇因子分析方法(method of factor analysis) 主成分分析法是一種值得推薦的方法,同時(shí)也是應(yīng)用比較廣泛的一類(lèi)方法。 確定

4、因子數(shù)目(number of factors) 除了經(jīng)驗(yàn)判斷外,特征值法是選用較多的判斷方法;因子碎石圖(scree plot)提供了因子數(shù)目和特征值大小的圖形表示。,2020/9/24,5,因子旋轉(zhuǎn)(rotation of factors) 因子旋轉(zhuǎn)目的是使某些變量在某個(gè)因子上負(fù)載高,而在其它因子上的負(fù)載則顯著的低。 因子解釋?zhuān)╥nterpretation of factors) 通過(guò)在因子上具有較高負(fù)載變量的意義進(jìn)行 因子得分(factor scores) 模型的適合度(model fitness) 模型是否適合,其判斷常基于殘差矩陣。,2020/9/24,6,例子:用因子分析法分析評(píng)價(jià)西

5、部地區(qū)的人口素質(zhì),唐萬(wàn)梅. 運(yùn)籌與管理,2005,4:85-89 由于我國(guó)地區(qū)經(jīng)濟(jì)發(fā)展的不平衡,使各地區(qū)人口素質(zhì)水平存在一定差異,尤其在西部地區(qū)。為了從宏觀上把握西部地區(qū)的人口素質(zhì)水平,使用因子分析法進(jìn)行定量分析。 考慮到各指標(biāo)數(shù)據(jù)的差異以及使得分析結(jié)果更加有效,首先將樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,處理后的數(shù)據(jù)消除了量綱之間的差異。保存在文件“西部地區(qū)人口素質(zhì).sav”中。,2020/9/24,7,AnalyzeData reductionFactor,2020/9/24,8,2020/9/24,9,輸出各個(gè)分析變量的初始共同度,特征值以及解釋方差的百分比,2020/9/24,10,2020/9/2

6、4,11,2020/9/24,12,KMO測(cè)度值大于0.5 巴特利特球體檢驗(yàn)值查表也可以通過(guò),2020/9/24,13,因子載荷矩陣,旋轉(zhuǎn)后的因子載荷矩陣,2020/9/24,14,2020/9/24,15,2020/9/24,16,2020/9/24,17,分類(lèi)是各個(gè)學(xué)科領(lǐng)域都普遍存在的問(wèn)題 例如,人口學(xué)中研究人口生育分類(lèi)模式、人口死亡分類(lèi)模式;營(yíng)銷(xiāo)學(xué)中進(jìn)行市場(chǎng)細(xì)分、競(jìng)爭(zhēng)對(duì)手確定等等,都需要對(duì)研究對(duì)象進(jìn)行分類(lèi)。隨著多元統(tǒng)計(jì)技術(shù)的發(fā)展,對(duì)事物的分類(lèi)在定量研究方面取得了極大的進(jìn)步。 聚類(lèi)分析(cluster analysis)根據(jù)事物本身的特性研究個(gè)體分類(lèi) 是多元分析與當(dāng)代分類(lèi)學(xué)結(jié)合的產(chǎn)物,又稱(chēng)

7、為群分析、點(diǎn)群分析或簇類(lèi)分析。,2020/9/24,18,4.4 聚類(lèi)分析,4.4.1 聚類(lèi)分析的原理 比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類(lèi),將性質(zhì)差別較大的歸入不同的類(lèi)。 聚類(lèi)分析不必事先知道分類(lèi)對(duì)象的結(jié)構(gòu),從一批樣品的多個(gè)觀測(cè)指標(biāo)中,找出能度量樣品之間或指標(biāo)(變量)之間相似程度或親疏關(guān)系的統(tǒng)計(jì)量,構(gòu)成一個(gè)對(duì)稱(chēng)相似性矩陣,并按相似程度的大小,把樣品或變量逐一歸類(lèi)。,2020/9/24,19,4.4.2 聚類(lèi)分析的步驟 數(shù)據(jù)標(biāo)準(zhǔn)化 為了消除不同變量的單位對(duì)聚類(lèi)結(jié)果的影響,應(yīng)當(dāng)首先對(duì)所有的數(shù)據(jù)標(biāo)準(zhǔn)化??梢酝ㄟ^(guò)SPSS軟件中Analyze菜單下的Classify選擇Hierachical C

8、luster Analysis,打開(kāi)Hierachical Cluster Analysis對(duì)話(huà)框,并點(diǎn)擊Method按鈕,然后在其中的transform values部分來(lái)完成數(shù)據(jù)標(biāo)準(zhǔn)化的轉(zhuǎn)換。 計(jì)算對(duì)象之間的“距離” 將個(gè)案看成多維空間的一個(gè)點(diǎn),引用多維空間中點(diǎn)的距離概念,定義不相似測(cè)度。距離越小,表示兩者之間的關(guān)系越緊密,相似特征越多,就越有可能分在同一類(lèi);相反,距離越大,表示兩者之間差異性越大。通過(guò)計(jì)算對(duì)象之間的兩兩“距離” ,得到“相似關(guān)系”矩陣 。在具體的計(jì)算中,“距離”有多種表達(dá)。,2020/9/24,20,選擇類(lèi)與類(lèi)之間的距離定義 可由類(lèi)的“代表點(diǎn)”間的距離表示。用兩類(lèi)之間的距

9、離最近(或最遠(yuǎn))的點(diǎn)代表;用兩類(lèi)中所有點(diǎn)之間距離(平方的)的平均值,又稱(chēng)為組間連接法(between-groups linkage);按照某一規(guī)則,選擇類(lèi)中的某一點(diǎn),代表該類(lèi)。 聚類(lèi) 把每個(gè)點(diǎn)(對(duì)象)作為一類(lèi)(稱(chēng)為第一層的類(lèi));找出距離最小(或最大)的 ,從而得出距離最近(或最遠(yuǎn))的兩類(lèi)i與j,把它們合并為層次更高的一類(lèi)。如果同時(shí)有幾個(gè)距離一樣最?。ɑ蜃畲螅?,則同時(shí)把所涉及的點(diǎn)作為一類(lèi);重復(fù),直至所有的點(diǎn)(對(duì)象)都并入一個(gè)大類(lèi)。 分類(lèi) 依據(jù)實(shí)際需求,確定以第幾層的類(lèi)為最終的分類(lèi)標(biāo)準(zhǔn)。,2020/9/24,21,4.4.3 聚類(lèi)分析的主要方法 系統(tǒng)聚類(lèi)法 也稱(chēng)為分層聚類(lèi)法(Hierarchica

10、l Cluster),它是聚類(lèi)分析中應(yīng)用最廣泛的一種方法 動(dòng)態(tài)聚類(lèi)法 也稱(chēng)快速聚類(lèi)法,或K-均值聚類(lèi)法(K-means Cluster) 二階段聚類(lèi) 是一個(gè)揭示數(shù)據(jù)集自然分組的探索性分析工具,2020/9/24,22,系統(tǒng)聚類(lèi)法 基本思想 開(kāi)始將樣品和指標(biāo)各視為一類(lèi),根據(jù)類(lèi)與類(lèi)之間的距離或相似程度將最相似的類(lèi)加以合并,再計(jì)算新類(lèi)與其他類(lèi)之間的相似程度,并選擇最相似的類(lèi)加以合并。 每合并一次就減少一類(lèi),不斷繼續(xù)這一過(guò)程,直到所有樣品或指標(biāo)合并為一類(lèi)為止。 數(shù)據(jù)文件 cluster1.sav “Analyze”“Classify”“Hierarchical Cluster”,2020/9/24,2

11、3,第一列表示聚類(lèi)分析的第幾步; 第二、三列表示本步驟類(lèi)中哪兩個(gè)個(gè)案或者小類(lèi)聚成一類(lèi); 第四列是個(gè)案距離或小類(lèi)距離; 第五、第六列表示本步驟類(lèi)中參與聚類(lèi)的是個(gè)案還是小類(lèi),0表示個(gè)案,非0表示由第幾步聚類(lèi)生成的小類(lèi)參與本步驟類(lèi); 第七列標(biāo)識(shí)本步驟類(lèi)的結(jié)果將在以下第幾步中用到。,習(xí)題 數(shù)據(jù)文件cluster3.sav是關(guān)于SPSS公司對(duì)所出售的產(chǎn)品的調(diào)查數(shù)據(jù)。 SPSS公司的統(tǒng)計(jì)軟件中包括很多不同的模塊,調(diào)查表中要求客戶(hù)標(biāo)出自己經(jīng)常使用的模塊,1代表經(jīng)常使用,0代表不經(jīng)常使用。 現(xiàn)要求對(duì)這九個(gè)變量進(jìn)行分類(lèi),為公司下一步的決策提供依據(jù)。,2020/9/24,28,動(dòng)態(tài)聚類(lèi) 基本原理 在一開(kāi)始就按照一

12、定的方法選取一批聚類(lèi)中心(Cluster Center),讓樣品向最近的聚心凝聚,形成初始分類(lèi),然后按最近距離原則不斷修改不合理分類(lèi),直至合理。 當(dāng)要聚成的類(lèi)數(shù)已知時(shí),使用快速聚類(lèi)可以很快地將觀測(cè)量分到各類(lèi)中去,其特點(diǎn)是處理速度快、占用內(nèi)存少。 數(shù)據(jù)文件 cluster2.sav 是我國(guó)16個(gè)地區(qū)農(nóng)民在1982年支出情況的抽樣調(diào)查數(shù)據(jù)的匯總資料,每個(gè)地區(qū)都調(diào)查了反映每人平均生活消費(fèi)支出情況的6個(gè)指標(biāo)。 “Analyze”“Classify”“K-Means Cluster”,2020/9/24,29,Iterate and classify默認(rèn)選項(xiàng)。表示聚類(lèi)過(guò)程中選擇或指定初始類(lèi)中心點(diǎn),按照K

13、-means的迭代算法不斷調(diào)整類(lèi)中心點(diǎn)。 Classify only聚類(lèi)過(guò)程中只使用初始的類(lèi)中心點(diǎn)而不做調(diào)整,迭代次數(shù)也進(jìn)行一次。,Convergence Criterion:K-Means算法的收斂準(zhǔn)則,輸入范圍在01之間,且不等于1。 默認(rèn)值為0。若輸入數(shù)值為0.01,表示兩次迭代計(jì)算的最小類(lèi)中心的變化距離小于初始類(lèi)中心距離的1%時(shí)迭代停止。,Use running means:選擇該項(xiàng),表示在每個(gè)個(gè)案被分配到一類(lèi)后立即計(jì)算新的類(lèi)中心;反之,則在完成了所有個(gè)案的一次分配后,再計(jì)算各類(lèi)的類(lèi)中心。注意,對(duì)于大數(shù)據(jù)樣本,選擇該項(xiàng)會(huì)大大增加計(jì)算量和計(jì)算時(shí)間。,ANOVA table,該方差分析是以

14、聚類(lèi)分析產(chǎn)生的類(lèi)為控制變量的單因素方差分析,并輸出各變量的方差分析表。,Exclude cases listwise將帶有缺失值的個(gè)案從分析中剔除。 Exclude cases pairwise只有當(dāng)個(gè)案的所有聚類(lèi)變量值全部缺失時(shí),才將其從分析中剔除,否則根據(jù)所有其他非缺失變量值,將其分配至最接近的一類(lèi)中。,二階段聚類(lèi) 基本原理 可處理分類(lèi)變量和連續(xù)型變量。綜合處理多項(xiàng)-正態(tài)分布的數(shù)據(jù)。自動(dòng)確定最優(yōu)聚類(lèi)數(shù),有效地分析大樣本。 step1 構(gòu)建聚類(lèi)特征樹(shù);step2 使用聚集聚類(lèi)法對(duì)聚類(lèi)特征樹(shù)的結(jié)點(diǎn)進(jìn)行分組,產(chǎn)生不同聚類(lèi)數(shù)的指標(biāo),比較Schwarz-Bayesian或Akaike信息準(zhǔn)則確定最優(yōu)

15、類(lèi)數(shù)。 數(shù)據(jù)文件 cluster4.sav,保存的是157個(gè)各種不同車(chē)型的數(shù)據(jù)。包括汽車(chē)生產(chǎn)廠家、汽車(chē)型號(hào)、各種型號(hào)汽車(chē)的銷(xiāo)售額、價(jià)格和燃油效率等相關(guān)數(shù)據(jù)。要求對(duì)這157個(gè)不同型號(hào)的汽車(chē),用二階段聚類(lèi)分析方法進(jìn)行分類(lèi)。 “Analyze”“Classify”“TwoStep Cluster”,2020/9/24,33,選定變量列表中參與運(yùn)算的變量,按數(shù)據(jù)類(lèi)型分別移動(dòng)到“Categorical Variables”窗口和“Continuous Variables”窗口; 在“Distance Measure”(距離測(cè)度)部分確定聚類(lèi)相似性計(jì)算方式;在“Number of Clusters”(聚類(lèi)

16、數(shù))部分指定聚類(lèi)分析中聚類(lèi)數(shù)的確定方式。既可以選定“Determine automatically”(系統(tǒng)自動(dòng)確定聚類(lèi)數(shù)),也可以使用“Specify fixed”(固定聚類(lèi)數(shù)),指定一個(gè)正整數(shù)作為聚類(lèi)數(shù); 此外,如果是希望系統(tǒng)確定聚類(lèi)數(shù)目,還需要在“Clustering Criterion”(聚類(lèi)準(zhǔn)則)部分選定確定聚類(lèi)數(shù)目的算法, 使用“Schwarzs Bayesian Criterion(BIC)”即貝葉斯信息準(zhǔn)則或“Akaikes Information Criterion(AIC)”即Akaike信息準(zhǔn)則。,2020/9/24,34,2020/9/24,35,對(duì)聚類(lèi)結(jié)果的輸出進(jìn)行設(shè)置

17、 Create cluster membership variable(創(chuàng)建聚類(lèi)成員變量)表示將在工作數(shù)據(jù)文件中創(chuàng)建名為tsc_n的新變量,以保存每一個(gè)觀測(cè)量所屬的分類(lèi)。同時(shí),也可以在這個(gè)子對(duì)話(huà)框中指定將聚類(lèi)模型及聚類(lèi)特征樹(shù)輸出到不同的XML格式文件中。,2020/9/24,36,二階聚類(lèi)分析的結(jié)果主要通過(guò)“聚類(lèi)瀏覽器”來(lái)查看 聚類(lèi)瀏覽器包含左右兩個(gè)面板,主視圖位于左側(cè),鏈接或輔助視圖位于右側(cè)。主視圖包括模型摘要和聚類(lèi)視圖,鏈接/輔助視圖包括預(yù)測(cè)變量的重要性、聚類(lèi)大小、單元格分布和聚類(lèi)比較四種。 聚類(lèi)視圖。在左側(cè)主面板下方單擊“View”右側(cè)的下拉列表,從中選擇“Clusters”,即可看到聚

18、類(lèi)視圖,其中包含了每個(gè)聚類(lèi)的名稱(chēng)、大小和概要。,2020/9/24,38,聚類(lèi)預(yù)測(cè)變量重要性視圖。單擊“聚類(lèi)瀏覽器”右側(cè)面板下方“View”右側(cè)的下拉列表框,從中選擇“Predictor Importance”,即可切換到“聚類(lèi)預(yù)測(cè)變量重要性視圖”,該視圖顯示評(píng)估模型時(shí)每個(gè)變量的相對(duì)重要性。,2020/9/24,39,聚類(lèi)大小視圖。單擊“聚類(lèi)瀏覽器”右側(cè)面板下方“View”右側(cè)的下拉列表框,從中選擇“Cluster Sizes”,即可切換到“聚類(lèi)大小視圖”。該視圖顯示每個(gè)聚類(lèi)的餅圖。并在每個(gè)分區(qū)上顯示每個(gè)聚類(lèi)占總數(shù)的百分比。,2020/9/24,40,單元格分布視圖。單擊“聚類(lèi)瀏覽器”右側(cè)面板下方“View”右側(cè)的下拉列表框,從中選擇“Cell Distribution”,切換到“單元格分布視圖”,如沒(méi)有顯示出對(duì)應(yīng)的視圖,可在聚類(lèi)視圖中單擊表格中的某一個(gè)單元格,則可看到相應(yīng)的單元格分布視圖。,2020/9/24,41,聚類(lèi)比較視圖。單擊“聚類(lèi)瀏覽器”右側(cè)面板下方“View”右側(cè)的下拉

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論