《數(shù)學(xué)建模方法》-第5章 方差分析法_第1頁(yè)
《數(shù)學(xué)建模方法》-第5章 方差分析法_第2頁(yè)
《數(shù)學(xué)建模方法》-第5章 方差分析法_第3頁(yè)
《數(shù)學(xué)建模方法》-第5章 方差分析法_第4頁(yè)
《數(shù)學(xué)建模方法》-第5章 方差分析法_第5頁(yè)
已閱讀5頁(yè),還剩130頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

章節(jié)內(nèi)容§5.1方差分析法5.1.1單因素方差分析5.1.2無(wú)重復(fù)雙因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚類(lèi)分析法§5.5應(yīng)用案例CHAPTER5多元統(tǒng)計(jì)建模方法章節(jié)內(nèi)容§5.1方差分析法

5.1.1單因素方差分析5.1.2無(wú)重復(fù)雙因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚類(lèi)分析法§5.5應(yīng)用案例CHAPTER5多元統(tǒng)計(jì)建模方法5.1方差分析法——根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行分析、鑒別各因素對(duì)實(shí)驗(yàn)結(jié)果影響程度的一種方法5.1方差分析法例

星海鋼琴?gòu)S為了推銷(xiāo)星海鋼琴,在五個(gè)地區(qū)建立了銷(xiāo)售點(diǎn),統(tǒng)計(jì)的四個(gè)時(shí)期的銷(xiāo)售量資料如右表所示。試問(wèn)該產(chǎn)品在不同地區(qū)和不同時(shí)期的銷(xiāo)售情況是否存在顯著的差異。624481071191213978721223地點(diǎn)銷(xiāo)售量時(shí)期

5.1方差分析法思路分析在不同地區(qū)和不同時(shí)期星海鋼琴的銷(xiāo)售情況是否存在顯著的差異判斷5個(gè)不同的地區(qū),在不同的時(shí)期鋼琴銷(xiāo)售額的均值是否相等若均值相等不同地區(qū)和不同時(shí)期鋼琴的銷(xiāo)售額無(wú)差異,即地區(qū)和時(shí)期對(duì)銷(xiāo)售額無(wú)影響均值不相等(不同地區(qū)和不同時(shí)期星海鋼琴的平均銷(xiāo)售額分別為7.75、4.75、6、5.75、7.5、4.8、9.8、8.8、2)使用更準(zhǔn)確的方法:方差分析法因?yàn)槊總€(gè)地區(qū)和時(shí)期的平均銷(xiāo)售額是根據(jù)隨機(jī)樣本的數(shù)值計(jì)算的,均值的差異可能是由于抽樣隨機(jī)性造成的5.1方差分析法添加標(biāo)題添加標(biāo)題定義所要檢驗(yàn)的對(duì)象為自變量,也稱(chēng)為因素或因子。因素的不同表現(xiàn)稱(chēng)為水平或處理。每個(gè)因素水平下得到的樣本數(shù)據(jù)為觀測(cè)值。例5.1.1中,地區(qū)和時(shí)期就是試驗(yàn)的因素,地區(qū)取了5個(gè)水平,時(shí)期取了4個(gè)水平,本題是兩個(gè)因素4×5水平的方差分析問(wèn)題。分類(lèi)方差分析方法(簡(jiǎn)稱(chēng)方差分析)就是借助于對(duì)誤差來(lái)源的分析,檢驗(yàn)各總體的均值是否相等來(lái)判斷各類(lèi)型自變量對(duì)數(shù)值型因變量是否有顯著影響的分析方法。5.1方差分析法在一次試驗(yàn)中,如果僅考慮一個(gè)試驗(yàn)條件而將其他因素相對(duì)固定的試驗(yàn),稱(chēng)為單因素試驗(yàn),對(duì)應(yīng)的方差分析稱(chēng)為單因素方差分析.依此類(lèi)推,有兩因素方差分析和多因素方差分析。5.1方差法分析假定條件(1)各因素水平下的觀察值是隨機(jī)變量的實(shí)現(xiàn),它能夠分解成兩個(gè)部分,一是個(gè)因素水平下的期望,另一是隨機(jī)誤差項(xiàng)。因此有,,

(5.1.1)其中

n

為試驗(yàn)次數(shù),r

為因素水平數(shù)。(2)服從正態(tài)分布,即

,且相互獨(dú)立。方差分析的實(shí)質(zhì)是變異分析這一假定叫做方差齊性假定,它是方差分析的重要前提。方差的齊性假定往往不易得到滿(mǎn)足,出現(xiàn)這樣的情況時(shí),要注意對(duì)試驗(yàn)的安排,以盡量減小對(duì)分析結(jié)論的干擾。在上述假定條件下,方差分析的數(shù)據(jù)結(jié)構(gòu)模型可表述成

(5.1.2)方差齊性假定安竟?種技?學(xué)5.1.1?差分析的基本思想本質(zhì)檢驗(yàn)同方差正態(tài)母體均值是否相等的統(tǒng)計(jì)方法數(shù)據(jù)差異來(lái)源隨機(jī)誤差(組內(nèi)方差,

條件影響(組間方差,):不同水平下數(shù)據(jù)差異核心邏輯?差分析邏輯關(guān)系):同一水平下數(shù)據(jù)數(shù)據(jù)差異分解組間/組內(nèi)方差F檢驗(yàn)統(tǒng)計(jì)推斷方差分析的基本思想5.1方差法分析5.1方差法分析根據(jù)試驗(yàn)資料,檢查方差分析的假定條件是否能夠成立;0103提出檢驗(yàn)假設(shè);第三步04構(gòu)造檢驗(yàn)統(tǒng)計(jì)量;第四步由試驗(yàn)資料計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值;第五步05在給定的顯著性水平

下,查出臨界值,作出比較判斷。第六步0602建立方差分析的數(shù)據(jù)結(jié)構(gòu)模型;第二步第一步步驟流程章節(jié)內(nèi)容§5.1方差分析法

5.1.1單因素方差分析5.1.2無(wú)重復(fù)雙因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚類(lèi)分析法§5.5應(yīng)用案例CHAPTER5多元統(tǒng)計(jì)建模方法單因素方差分析5.1方差法分析5.1方差法分析因素水平合計(jì)

均值

…1…

2…………………合計(jì)…

均值…

因素指標(biāo)樣品

表5.1.2

單因素試驗(yàn)數(shù)據(jù)表5.1方差法分析單因素方差分析:?jiǎn)栴}定義與原理5.1方差法分析假設(shè)檢驗(yàn)原假設(shè)(NullHypothesis)所有處理組的總體均值相等備擇假設(shè)(AlternativeHypothesis)至少有兩個(gè)處理組的總體均值存在顯著差異H0:μ1=μ2=…=μrH1:?少兩個(gè)μj不相等組間變異由因素引起組內(nèi)變異隨機(jī)誤差引起總變異觀測(cè)值與總平均值的差異5.1方差法分析單因素方差分析:平方和計(jì)算公式單因素方差分析:平方和計(jì)算公式平方和關(guān)系總誤差平方和等于組間誤差平方和與組內(nèi)誤差平方和的和。5.1方差法分析總誤差平方和反映了全部觀測(cè)值與總平均值之間的差異,表示數(shù)據(jù)的總變異。組間誤差平方和反映了各組平均數(shù)與總平均數(shù)之間的差異,表示因素水平間的差異。組內(nèi)誤差平方和表示各組觀察值與該組平均數(shù)的變異程度,反映隨機(jī)誤差的影響。F統(tǒng)計(jì)量構(gòu)建平方和分布特性決策規(guī)則對(duì)于給定的顯著性水平α,檢驗(yàn)決策如下:?jiǎn)我蛩胤讲罘治觯簷z驗(yàn)統(tǒng)計(jì)量5.1方差法分析5.1方差法分析單因素方差分析:更加簡(jiǎn)便的公式組內(nèi)誤差平方和組間誤差平方和總誤差平方和因素

A表5.1.3方差分析表15.1方差法分析樣品5.1方差法分析表5.1.4方差分析表2

有時(shí)候,由于條件的限制,不同因素水平下的試驗(yàn)次數(shù)難以做到一致,或者由于某些試驗(yàn)不成功、發(fā)生數(shù)據(jù)丟失等情況的出現(xiàn),也會(huì)使樣本大小不一。這時(shí)候,就要進(jìn)行不等重復(fù)的方差分析。這種情況下的處理方法和單因素等重復(fù)方差分析的處理類(lèi)似,不再詳述。章節(jié)內(nèi)容§5.1方差分析法

5.1.1單因素方差分析

5.1.2無(wú)重復(fù)雙因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚類(lèi)分析法§5.5應(yīng)用案例CHAPTER5多元統(tǒng)計(jì)建模方法5.1方差法分析無(wú)重復(fù)雙因素方差分析:?jiǎn)栴}定義與原理等重復(fù)雙因素方差分析和不等重復(fù)雙因素方差分析與無(wú)重復(fù)雙因素方差分析原理一樣,本小節(jié)只介紹無(wú)重復(fù)雙因素方差分析。5.1方差法分析表5.1.4

無(wú)重復(fù)雙因素試驗(yàn)數(shù)據(jù)表5.1方差法分析S=S+S+ST2A2B2E2無(wú)重復(fù)雙因素方差分析:模型假設(shè)

和單因素方差分析一樣,雙因素方差分析也是通過(guò)對(duì)數(shù)據(jù)誤差來(lái)源的分解進(jìn)行的:無(wú)重復(fù)雙因素方差分析:5.1方差法分析總平方和反映了所有觀察值與總平均值之間的差異因素A效應(yīng)平方和反映了行因素不同水平之間的差異因素B效應(yīng)平方和反映了列因素不同水平之間的差異隨機(jī)誤差平方和反映了無(wú)法由A和B解釋的隨機(jī)變異無(wú)重復(fù)雙因素方差分析:化簡(jiǎn)計(jì)算

在無(wú)重復(fù)雙因素方差分析中,每個(gè)水平組合只進(jìn)行一次試驗(yàn),無(wú)法直接計(jì)算組內(nèi)誤差

隨機(jī)誤差平方和通過(guò)總平方和減去兩個(gè)因素效應(yīng)平方和得到隨機(jī)誤差平方和S=S-S-S反映了無(wú)法由因素A和B解釋的隨機(jī)變異E2T2A2B25.1方差法分析因素A效應(yīng)平方和總平方和因素B效應(yīng)平方和5.1方差法分析表5.1.5無(wú)重復(fù)雙因素試驗(yàn)數(shù)據(jù)計(jì)算表5.1方差法分析表5.1.5無(wú)重復(fù)雙因素試驗(yàn)數(shù)據(jù)計(jì)算表(續(xù))

5.1方差法分析無(wú)重復(fù)雙因素方差分析:檢驗(yàn)統(tǒng)計(jì)量5.1方差法分析表5.1.6無(wú)重復(fù)雙因素方差分析表多因素方差分析方法類(lèi)似,就不再贅述了。5.1方差法分析例

確定葡萄酒質(zhì)量時(shí)一般是通過(guò)聘請(qǐng)一批有資質(zhì)的評(píng)酒員進(jìn)行品評(píng)。每個(gè)評(píng)酒員在

對(duì)葡萄酒進(jìn)行品嘗后對(duì)其分類(lèi)指標(biāo)打分,然后求和得到其總分,從而確定葡萄酒的質(zhì)量。釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系,葡萄酒和釀酒葡萄檢測(cè)的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。(附件1是某一年份一些葡萄酒品嘗評(píng)分表)。分析附件1中兩組評(píng)酒員的評(píng)價(jià)結(jié)果有無(wú)顯著性差異。

要求對(duì)兩組評(píng)酒員評(píng)價(jià)結(jié)果有無(wú)差異性進(jìn)行分析,通過(guò)繪制每個(gè)樣品酒的均值評(píng)分差異圖,對(duì)每個(gè)樣品酒的兩組評(píng)酒員在各個(gè)指標(biāo)的均值進(jìn)行比較,發(fā)現(xiàn)對(duì)于紅葡萄酒的評(píng)價(jià),兩組評(píng)酒員還是存在著顯著性的差異的,而對(duì)于白葡萄酒的評(píng)價(jià),兩組評(píng)酒員的差異性并不是很明顯,列舉部分紅、白葡萄酒評(píng)分差異圖如下圖所示。析案例分析:葡萄酒質(zhì)量評(píng)價(jià)5.1方差法分析案例分析:葡萄酒質(zhì)量評(píng)價(jià)

圖5.1.1紅葡萄酒樣品12差異圖(左邊),系列1為第二組品酒員打分均值,系列2為第一組品酒員打分均值。

圖5.1.2紅葡萄酒樣品15差異圖(右邊),橫坐標(biāo)為10個(gè)指標(biāo)變量,包括澄清度、色調(diào)、香氣純正度、香氣濃度、香氣質(zhì)量、口感純正度、口感濃度、口感質(zhì)量以及整體評(píng)價(jià)。5.1方差法分析案例分析:葡萄酒質(zhì)量評(píng)價(jià)圖5.1.3白葡萄酒樣品4差異圖(左邊)。

圖5.1.4白葡萄酒樣品23差異圖(右邊)。針對(duì)兩組評(píng)酒員在大量差異圖中表現(xiàn)出來(lái)對(duì)紅、白葡萄酒的評(píng)價(jià)存在差異,對(duì)紅、白葡萄酒分開(kāi)進(jìn)行顯著性檢驗(yàn)。兩組評(píng)酒員的評(píng)價(jià)結(jié)果可重復(fù)方差分析27種葡萄樣品酒分別分析結(jié)果若具有顯著性差異的樣品酒占總樣品酒的比例高于認(rèn)定兩組評(píng)酒員的評(píng)價(jià)結(jié)果具有顯著性差異β分析5.1方差法分析5.1方差法分析對(duì)于附件1給出的數(shù)據(jù),先將兩組品酒員的評(píng)價(jià)結(jié)果按著樣品酒進(jìn)行統(tǒng)一劃分,每一樣品酒對(duì)應(yīng)著兩種評(píng)價(jià)結(jié)果。將每一樣品酒的評(píng)價(jià)結(jié)果組成評(píng)價(jià)矩陣,矩陣以葡萄酒的評(píng)價(jià)指標(biāo)為列項(xiàng),共10列,以每個(gè)評(píng)酒員作為橫向量,共20行。1針對(duì)紅葡萄酒樣品20評(píng)酒員4號(hào)對(duì)色調(diào)的評(píng)分缺失,利用同組評(píng)酒員對(duì)紅葡萄酒樣品20色調(diào)評(píng)分的平均值作為4號(hào)評(píng)酒員的評(píng)分值。2解模型建立:在進(jìn)行雙因子多重分析和可信性分析之前,需要對(duì)原先數(shù)據(jù)進(jìn)行如下處理:5.1方差法分析案例分析:葡萄酒質(zhì)量評(píng)價(jià)

由上可知:由于兩組評(píng)酒員對(duì)兩類(lèi)葡萄酒評(píng)價(jià)結(jié)果的方差均不滿(mǎn)足齊次性要求,盡管方差分析的條件不滿(mǎn)足。但在實(shí)際使用過(guò)程中,只要在兩水平下方差比均在3以?xún)?nèi),仍舊可以用SPSS進(jìn)行方差分析,況且結(jié)果是穩(wěn)健的。解5.1方差法分析水平外觀澄清度外觀色調(diào)香氣純正度香氣濃度香氣質(zhì)量口感純正度口感濃度口感持久性口感質(zhì)量整體得分表5.1.7因素B葡萄酒10個(gè)水平所對(duì)應(yīng)的各個(gè)指標(biāo)解5.1方差法分析假設(shè)檢驗(yàn)與數(shù)據(jù)分析對(duì)m個(gè)樣品酒的雙因子可重復(fù)方差檢驗(yàn)后,得出β值,則認(rèn)為在置信水平β下,兩組評(píng)酒員的評(píng)價(jià)結(jié)果存在著顯著性差異。5.1方差法分析實(shí)驗(yàn)結(jié)果(部分)(利用統(tǒng)計(jì)軟件SPSS,得到紅、白葡萄酒的各個(gè)樣品酒的見(jiàn)表5.1.8。完整表格在下一頁(yè))5.1方差法分析

5.1方差法分析

從這個(gè)例子可以再一次看出,數(shù)學(xué)建模過(guò)程,絕不是數(shù)學(xué)方法的簡(jiǎn)單套用,如果上述例子僅僅進(jìn)行方差分析的話(huà),并不能很好的解決要回答的問(wèn)題,創(chuàng)造性的引入0-1數(shù)據(jù)分析才能較好的解決了問(wèn)題。

案例分析:葡萄酒質(zhì)量評(píng)價(jià)5.1方差法分析定義本節(jié)回顧

理解方差分析法學(xué)習(xí)任務(wù)課本習(xí)題:章末習(xí)題5熟練掌握無(wú)重復(fù)雙因素方差分析

熟練掌握單因素方差分析章節(jié)內(nèi)容§5.1方差分析法

5.1.1單因素方差分析5.1.2無(wú)重復(fù)雙因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚類(lèi)分析法§5.5應(yīng)用案例CHAPTER5多元統(tǒng)計(jì)建模方法5.2主成分分析法——一種多變量統(tǒng)計(jì)分析方法,將有一定相關(guān)性的多項(xiàng)指標(biāo)重新組合成一組

較少個(gè)數(shù)的互不相關(guān)的綜合指標(biāo),用以解釋多變量的方差-協(xié)方差結(jié)構(gòu)。5.2主成分分析法主成分分析原理示意主成分Y1歷史起源1901年:卡爾·皮爾遜首次對(duì)非隨機(jī)變量

引入主成分分析方法1933年:Hotelling將該方法推廣到隨機(jī)變量情形主要優(yōu)勢(shì)有效降低數(shù)據(jù)維度解決多重共線(xiàn)性問(wèn)題避免信息重復(fù)提高統(tǒng)計(jì)結(jié)果的可靠性

主成分分析將多個(gè)相關(guān)變量降維為少數(shù)幾個(gè)不相關(guān)變量應(yīng)用領(lǐng)域數(shù)據(jù)挖掘地理信息分析分子動(dòng)力學(xué)模擬人口統(tǒng)計(jì)添加標(biāo)題主成分提取的目標(biāo)主成分分析的數(shù)學(xué)原理保留信息:主成分要盡可能多地保留原始變量的信息相互獨(dú)立:主成分之間要保證彼此不相關(guān)降維:用較少的主成分代替較多的原始變量線(xiàn)性組合:原始變量的線(xiàn)性組合形成新的綜合變量方差最大化:第一個(gè)主成分是所有線(xiàn)性組合中方差最大的正交性:后續(xù)主成分與已提取的主成分不相關(guān)降維:選擇前幾個(gè)方差較大的主成分,減少變量個(gè)數(shù)1.主成分分析的數(shù)學(xué)模型5.2主成分分析法添加標(biāo)題主成分提取的目標(biāo)主成分分析的數(shù)學(xué)原理保留信息:主成分要盡可能多地保留原始變量的信息相互獨(dú)立:主成分之間要保證彼此不相關(guān)降維:用較少的主成分代替較多的原始變量線(xiàn)性組合:原始變量的線(xiàn)性組合形成新的綜合變量方差最大化:第一個(gè)主成分是所有線(xiàn)性組合中方差最大的正交性:后續(xù)主成分與已提取的主成分不相關(guān)降維:選擇前幾個(gè)方差較大的主成分,減少變量個(gè)數(shù)1.主成分分析的數(shù)學(xué)模型5.2主成分分析法5.2主成分分析法

在實(shí)際應(yīng)用時(shí),通常選前幾個(gè)方差比較大的主成分,雖然會(huì)丟失一部分信息,但抓住了主要矛盾進(jìn)行深入分析,既減少了變量的個(gè)數(shù)又抓住了主要矛盾,有利于問(wèn)題的分析和處理。1.主成分分析的數(shù)學(xué)模型5.2主成分分析法2.從協(xié)方差矩陣出發(fā)求解主成分方差貢獻(xiàn)率計(jì)算協(xié)方差矩陣法的優(yōu)勢(shì)保留原始變量的量綱和數(shù)量級(jí)信息計(jì)算直接,數(shù)學(xué)表達(dá)式簡(jiǎn)單明了適用于指標(biāo)間量綱相同或可比的情況第k個(gè)主成分的方差貢獻(xiàn)率:反映第k個(gè)主成分提取原始變量總信息的百分比前k個(gè)主成分的累積貢獻(xiàn)率:反映前k個(gè)主成分解釋原始變量信息的百分比2.從協(xié)方差矩陣出發(fā)求解主成分5.2主成分分析法5.2主成分分析法3.從相關(guān)矩陣出發(fā)求解主成分

在實(shí)際問(wèn)題中,總體協(xié)方差陣

與相關(guān)陣

通常是未知的,于是首先需要通過(guò)樣本數(shù)據(jù)來(lái)估計(jì)

,然后再導(dǎo)出樣本主成分。

在實(shí)際問(wèn)題中,總體協(xié)方差陣∑與相關(guān)陣R通常是未知的,于是首先需要通過(guò)樣本數(shù)據(jù)來(lái)估計(jì)∑和R,然后再導(dǎo)出樣本主成分。5.2主成分分析法3.從相關(guān)矩陣出發(fā)求解主成分第一步計(jì)算標(biāo)準(zhǔn)化指標(biāo)的相關(guān)系數(shù)矩陣R確定主成分的個(gè)數(shù)0102第二步03第三步04第四步第五步4.主成分分析的主要步驟055.2主成分分析法4.主成分分析的主要步驟第六步0607第七步對(duì)確定出的主成分作出符合實(shí)際意義的解釋利用所確定出的主成分的方差貢獻(xiàn)率計(jì)算綜合評(píng)價(jià)值,從而對(duì)被評(píng)價(jià)對(duì)象進(jìn)行排名和比較。5.2主成分分析法從協(xié)方差矩陣出發(fā)適用場(chǎng)景單個(gè)指標(biāo)的方差對(duì)研究目的起關(guān)鍵作用,如:優(yōu)缺點(diǎn)優(yōu)點(diǎn)缺點(diǎn)從相關(guān)系數(shù)矩陣出發(fā)適用場(chǎng)景需要消除原始變量不同量綱與數(shù)量級(jí)的影響,如:優(yōu)缺點(diǎn)優(yōu)點(diǎn)缺點(diǎn)選擇建議:根據(jù)具體研究目的,靈活選用合適的方法。實(shí)際應(yīng)用中,可同時(shí)使用兩種方法進(jìn)行對(duì)比分析,以獲取更全面的信息。需要保留原始變量的尺度信息?指標(biāo)具有相同的測(cè)量單位?研究目的側(cè)重于變量的變異程度?保留原始變量的方差信息?處理具有相同量綱的變量?受變量量綱和數(shù)量級(jí)影響?變量間相關(guān)性被夸大?處理不同測(cè)量單位的變量?相關(guān)性比單個(gè)變量方差更重要?指標(biāo)間存在較強(qiáng)相關(guān)性的場(chǎng)景?消除量綱和數(shù)量級(jí)影響?有效處理相關(guān)指標(biāo)?丟失原始方差信息?標(biāo)準(zhǔn)化過(guò)程可能使信息損失?主成分分析方法的選擇5.2主成分分析法案例分析:葡萄酒質(zhì)量評(píng)價(jià)例

確定葡萄酒質(zhì)量時(shí)一般是通過(guò)聘請(qǐng)一批有資質(zhì)的評(píng)酒員進(jìn)行品評(píng)。每個(gè)評(píng)酒員在對(duì)葡萄酒進(jìn)行品嘗后對(duì)其分類(lèi)指標(biāo)打分,然后求和得到其總分,從而確定葡萄酒的質(zhì)量。釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系,葡萄酒和釀酒葡萄檢測(cè)的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。利用題目中所給的附件數(shù)據(jù),根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對(duì)這些釀酒葡萄進(jìn)行分級(jí)。本例子的主要目的在于:怎么用主成分分析來(lái)處理實(shí)際問(wèn)題5.2主成分分析法主要挑戰(zhàn)理化指標(biāo)種類(lèi)繁多,處理起來(lái)困難較大指標(biāo)之間存在相關(guān)性,需要進(jìn)行降維處理不同指標(biāo)的量綱和數(shù)量級(jí)差異大,難以直接比較需要結(jié)合多種方法進(jìn)行綜合評(píng)估和分級(jí)案例分析:葡萄酒質(zhì)量評(píng)價(jià)題目要求根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對(duì)這些釀酒葡萄進(jìn)行分級(jí)??紤]到理化指標(biāo)種類(lèi)繁多,處理起來(lái)困難較大,可先利用主成分分析對(duì)指標(biāo)進(jìn)行降維,然后結(jié)合其它方法,譬如綜合評(píng)價(jià),聚類(lèi)等再進(jìn)行分級(jí)。以紅葡萄樣品為例,首先利用SPSS軟件對(duì)其30個(gè)理化指標(biāo)進(jìn)行主成分分析,并進(jìn)一步得到主成分向量。然后采用基于層次分析法的模糊綜合評(píng)價(jià)來(lái)對(duì)理化特性進(jìn)行分級(jí)。最后采用在二維平面上對(duì)葡萄的總體理化特性和葡萄酒質(zhì)量加權(quán)聚類(lèi)對(duì)釀酒葡萄進(jìn)行等級(jí)劃分。問(wèn)題分析原始變量主成分5.2主成分分析法組合方法應(yīng)用第一步:主成分提取利用SPSS軟件對(duì)30個(gè)理化指標(biāo)進(jìn)行主成分分析,提取出前9個(gè)主成分,累計(jì)方差貢獻(xiàn)率達(dá)到86.247%。第二步:模糊綜合評(píng)價(jià)采用基于層次分析法的模糊綜合評(píng)價(jià)來(lái)對(duì)理化特性進(jìn)行分級(jí),將主成分得分進(jìn)行加權(quán)匯總。第三步:聚類(lèi)分析采用在二維平面上對(duì)葡萄的總體理化特性和葡萄酒質(zhì)量加權(quán)聚類(lèi)對(duì)釀酒葡萄進(jìn)行等級(jí)劃分。收集釀酒葡萄的理化指標(biāo)和葡萄酒質(zhì)量評(píng)分?jǐn)?shù)據(jù)預(yù)處理對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和相關(guān)性分析主成分分析提取關(guān)鍵的主成分,降低維度綜合評(píng)價(jià)基于主成分進(jìn)行葡萄酒分級(jí)主成分分析應(yīng)用流程數(shù)據(jù)收集案例分析:葡萄酒質(zhì)量評(píng)價(jià)5.2主成分分析法為什么需要數(shù)據(jù)預(yù)處理?題中附件中30項(xiàng)評(píng)價(jià)指標(biāo)的量綱不同,數(shù)值數(shù)量級(jí)差異很大,難以直接進(jìn)行運(yùn)算。因此需要進(jìn)行標(biāo)準(zhǔn)化處理,獲得一個(gè)統(tǒng)一的度量供模型評(píng)價(jià)使用。主要預(yù)處理步驟:指標(biāo)選取:從原始數(shù)據(jù)中選擇了30個(gè)理化指標(biāo),

只考慮一級(jí)指標(biāo)(將3個(gè)果皮顏色看

作一級(jí)指標(biāo))數(shù)據(jù)標(biāo)準(zhǔn)化:使用極差標(biāo)準(zhǔn)化方法,將不同量綱

和數(shù)量級(jí)的指標(biāo)轉(zhuǎn)化為可比的無(wú)量

綱數(shù)據(jù)數(shù)據(jù)矩陣構(gòu)建:將標(biāo)準(zhǔn)化后的數(shù)據(jù)構(gòu)造成n×p

的樣本矩陣,為后續(xù)主成分分

析做準(zhǔn)備5.2主成分分析法模型準(zhǔn)備與數(shù)據(jù)預(yù)處理安竟?種技?學(xué)5.1.1?差分析的基本思想極差標(biāo)準(zhǔn)化公式標(biāo)準(zhǔn)化處理的重要性標(biāo)準(zhǔn)化處理流程原始數(shù)據(jù)數(shù)據(jù)清洗標(biāo)準(zhǔn)化樣本矩陣主成分分析5.2主成分分析法模型準(zhǔn)備與數(shù)據(jù)預(yù)處理消除原始變量不同量綱與數(shù)量級(jí)的影響使各指標(biāo)具有可比性避免數(shù)值較大的指標(biāo)對(duì)分析結(jié)果產(chǎn)生過(guò)影響將數(shù)據(jù)壓縮到[0,1],便于后續(xù)主成分分析為保證主成分分析結(jié)果的科學(xué)性和可靠性奠定基礎(chǔ)5.2主成分分析法紅葡萄主成分提取結(jié)果主成分分析降維主成分分析能將許多相關(guān)的隨機(jī)變量壓縮成少量的綜合指標(biāo),同時(shí)又能反映原來(lái)較多因素的信息。由于用于刻畫(huà)釀酒葡萄質(zhì)量的理化指標(biāo)數(shù)量較多,所以先通過(guò)主成分分析對(duì)指標(biāo)進(jìn)行簡(jiǎn)化。按照主成分分析的理論,若前k個(gè)主成分的累計(jì)方差貢獻(xiàn)率達(dá)到了85%,則認(rèn)為這k個(gè)主成分能反映足夠的信息由表可見(jiàn),前9個(gè)成分的累計(jì)方差貢獻(xiàn)率已達(dá)86.247%,能夠較全面地反映主要理化信息。故取前9個(gè)成分為主成分,對(duì)應(yīng)9個(gè)不同的特征值。5.2主成分分析法圖5.2.1紅葡萄理化指標(biāo)特征值變化曲線(xiàn)繪圖為驗(yàn)證主成分提取的結(jié)果的正確性,作出紅葡萄理化指標(biāo)特征值的變化曲線(xiàn)如圖5.2.1所示。由圖5.2.1可以看出:各理化指標(biāo)的特征值曲線(xiàn)的變化由陡峭逐漸向平穩(wěn)過(guò)渡,亦說(shuō)明僅用前9個(gè)成分就可以替代30個(gè)指標(biāo)對(duì)葡萄的總體理化特性進(jìn)行描述。

案例分析:葡萄酒質(zhì)量評(píng)價(jià)為了得到主成分向量,將SPSS得到的成分矩陣中的每列除以相應(yīng)特征根的平方根,再根據(jù)特征向量做出線(xiàn)性組合:5.2主成分分析法5.2主成分分析法定義本節(jié)回顧

理解主成分分析法學(xué)習(xí)任務(wù)課本習(xí)題:章末習(xí)題5學(xué)會(huì)將主成分分析與其它方法結(jié)合

熟練掌握主成分分析的步驟章節(jié)內(nèi)容§5.1方差分析法

5.1.1單因素方差分析5.1.2無(wú)重復(fù)雙因素方差分析§5.2主成分分析法§5.3因子分析法§5.4聚類(lèi)分析法§5.5應(yīng)用案例CHAPTER5多元統(tǒng)計(jì)建模方法

因子分析方法由Thurston于1931年提出,是主成分分析法的推廣和發(fā)展,是統(tǒng)計(jì)分析中降維的一種方法。

它通過(guò)研究眾多變量之間相關(guān)矩陣和協(xié)方差矩陣的內(nèi)部依賴(lài)關(guān)系,探求觀察數(shù)據(jù)的基本結(jié)構(gòu)。

它的目的在于將多個(gè)變量綜合為少數(shù)幾個(gè)因子,以再現(xiàn)原始變量與因子之間的相關(guān)關(guān)系。5.3因子分析法5.3因子分析法5.3因子分析法基本流程第一步:主因子分析通過(guò)研究原始變量的相關(guān)系數(shù)矩陣的內(nèi)部結(jié)構(gòu),導(dǎo)出能控制所有變量的少數(shù)幾個(gè)綜合變量,通過(guò)綜合變量去描述原始的多個(gè)變量間的相關(guān)關(guān)系。往往這幾個(gè)綜合變量是不可觀測(cè)的,故稱(chēng)其為主因子或公共因子,稱(chēng)這種通過(guò)原始變量相關(guān)系數(shù)矩陣出發(fā)的因子分析為R型因子分析。因子分析所獲得的反映變量間本質(zhì)聯(lián)系、變量與公共因子的關(guān)系的全部信息通過(guò)導(dǎo)出的因子負(fù)荷矩陣體現(xiàn)。第二步:因子解釋和命名從因子分析導(dǎo)出的負(fù)荷矩陣的結(jié)構(gòu)出發(fā),把變量按與公共因子相關(guān)性大小的程度分組,按公共因子包含變量的特點(diǎn)(即公因子內(nèi)涵)對(duì)因子進(jìn)行解釋和命名。第一步主因子分析第二步因子解釋和命名1.因子分析數(shù)學(xué)模型5.3因子分析法5.3因子分析法為了最終演示發(fā)布的良好效果,請(qǐng)言簡(jiǎn)意賅的闡述觀點(diǎn)。根據(jù)需要可酌情增減文字,以便準(zhǔn)確理解您所傳達(dá)的信息。文字是您思想的提煉,為了最終演示發(fā)布的良好效果。添加正文,文字是您思想的提煉,為了最終演示發(fā)布的良好效果。根據(jù)需要可酌情增減文字,以便觀者準(zhǔn)確理解您所傳達(dá)的信息。(3),

(即互不相關(guān),且都是標(biāo)準(zhǔn)化的變量,假定也是標(biāo)準(zhǔn)化的,但并不相互獨(dú)立),

(即互不相關(guān),且都是標(biāo)準(zhǔn)化的變量,假定也是標(biāo)準(zhǔn)化的,但并不相互獨(dú)立)(4)1.因子分析數(shù)學(xué)模型添加正文,文字是您思想的提煉,為了最終演示發(fā)布的良好效果。根據(jù)需要可酌情增減文字,以便觀者準(zhǔn)確理解您所傳達(dá)的信息。(1)(2)1.因子分析數(shù)學(xué)模型5.3因子分析法

1.因子分析數(shù)學(xué)模型5.3因子分析法5.3因子分析法1.因子分析數(shù)學(xué)模型抽取公共因子的方法主成分分析法主軸因子法極大似然法主因子分析的一個(gè)核心任務(wù)是從眾多的變量中抽取若干個(gè)公共因子,從而達(dá)到減少變量數(shù)目的降維目標(biāo)因子抽取過(guò)程需要確定抽取幾個(gè)公共因子統(tǒng)計(jì)方法操作困難代數(shù)方法(1)通過(guò)對(duì)相關(guān)矩陣秩的估計(jì)來(lái)確定因子抽取個(gè)數(shù)(2)通過(guò)計(jì)算公共因子的方差百分比來(lái)確定抽取個(gè)數(shù)(3)使用圖解法來(lái)確定因子抽取個(gè)數(shù)

設(shè)從相關(guān)矩陣出發(fā)求解主成分,設(shè)有p個(gè)變量計(jì)算相關(guān)矩陣的特征值和特征向量按特征值大小排序主成分變換成因子(1)主成分與原始變量的轉(zhuǎn)換關(guān)系

(2)Y到X的轉(zhuǎn)換關(guān)系2.因子導(dǎo)出主成分法5.3因子分析法

設(shè)從相關(guān)矩陣出發(fā)求解主成分,設(shè)有p個(gè)變量計(jì)算相關(guān)矩陣的特征值和特征向量按特征值大小排序主成分變換成因子(3)后面的p-m個(gè)主成分用特殊因子

代替

(4)為了把

轉(zhuǎn)化為合適的公因子,把主成分

變?yōu)榉讲顬?的變量2.因子導(dǎo)出主成分法5.3因子分析法因子載荷矩陣的估計(jì)設(shè)樣本相關(guān)系數(shù)矩陣R的特征值為,其相應(yīng)的標(biāo)準(zhǔn)正交特征向量為,設(shè),則因子載荷矩陣A的一個(gè)估計(jì)值為

共同度的估計(jì)為:2.因子導(dǎo)出主成分法5.3因子分析法5.3因子分析法2.因子導(dǎo)出主成分法01上面的主成分分解不唯一,十分不利。因子分析的目的不僅是抽取公共因子,更是要知道抽取的每個(gè)公共因子的實(shí)際意義,以便分析問(wèn)題。這時(shí)利用因子負(fù)荷矩陣的不唯一性,通過(guò)適當(dāng)?shù)囊蜃迂?fù)載矩陣的旋轉(zhuǎn)變換,使旋轉(zhuǎn)后的因子負(fù)載矩陣結(jié)構(gòu)簡(jiǎn)化,具有更鮮明的實(shí)際意義或可解釋性。結(jié)構(gòu)簡(jiǎn)化就是使每個(gè)變量?jī)H在一個(gè)公共因子上有較大的負(fù)荷,而在其余公共因子上的負(fù)荷較小。這種變換因子負(fù)荷的方法稱(chēng)為因子旋轉(zhuǎn)。02由于正交變換是一種旋轉(zhuǎn)變換,如果選取方差最大的旋轉(zhuǎn)變換,即將各個(gè)因子旋轉(zhuǎn)到某個(gè)位置,使每個(gè)變量在旋轉(zhuǎn)后的因子軸上的投影向最大、最小兩極分化,從而使每個(gè)因子中的高載荷只能出現(xiàn)在少數(shù)的變量上,在最后得到的旋轉(zhuǎn)因子載荷矩陣中,每列元素除幾個(gè)外其余的均趨于0,從而使得因子載荷矩陣結(jié)構(gòu)簡(jiǎn)化,關(guān)系明確。第一步計(jì)算標(biāo)準(zhǔn)化指標(biāo)的相關(guān)系數(shù)矩陣R0102第二步03第三步04第四步第五步3.因子分析一般步驟055.3因子分析法5.3因子分析法070806第六步第七步第八步3.因子分析一般步驟對(duì)公共因子進(jìn)行重新命名,并解釋公共因子的實(shí)際含義;對(duì)初始因子載荷矩陣進(jìn)行旋轉(zhuǎn)5.3因子分析法1009第九步第十步第十一步3.因子分析一般步驟據(jù)總因子得分估計(jì)值

就可以對(duì)每個(gè)被評(píng)價(jià)的對(duì)象進(jìn)行排名,從而進(jìn)行比較11比較方面主成分分析因子分析目的把原始變量變換為一組互不相關(guān)的變量(主成分)尋找少數(shù)幾個(gè)潛在的公共因子,解釋變量間的相關(guān)關(guān)系本質(zhì)一種數(shù)學(xué)變量變換方法一個(gè)統(tǒng)計(jì)因子模型重點(diǎn)解釋各變量的總方差解釋各變量之間的協(xié)方差假設(shè)條件不需要任何假設(shè)需要假設(shè)因子模型成立結(jié)果唯一性當(dāng)特征值唯一時(shí),主成分唯一因子不唯一,可旋轉(zhuǎn)得到不同位置主成分分析與因子分析比較5.3因子分析法案例分析:城市環(huán)境質(zhì)量評(píng)價(jià)例

隨著城市經(jīng)濟(jì)的快速發(fā)展和城市人口的不斷增加,人類(lèi)活動(dòng)對(duì)城市環(huán)境質(zhì)量的影響日顯突出。對(duì)城市土壤地質(zhì)環(huán)境異常的查證,以及應(yīng)用查證獲得的海量數(shù)據(jù)資料開(kāi)展城市環(huán)境質(zhì)量評(píng)價(jià),研究人類(lèi)活動(dòng)影響下城市地質(zhì)環(huán)境的演變模式,日益成為人們關(guān)注的焦點(diǎn)。

按照功能劃分,城區(qū)一般可分為生活區(qū)、工業(yè)區(qū)、山區(qū)、主干道路區(qū)及公園綠地區(qū)等,分別記為1類(lèi)區(qū)、2類(lèi)區(qū)、……、5類(lèi)區(qū),不同的區(qū)域環(huán)境受人類(lèi)活動(dòng)影響的程度不同。現(xiàn)對(duì)某城市城區(qū)土壤地質(zhì)環(huán)境進(jìn)行調(diào)查。為此,將所考察的城區(qū)劃分為間距1公里左右的網(wǎng)格子區(qū)域,按照每平方公里1個(gè)采樣點(diǎn)對(duì)表層土(0~10厘米深度)進(jìn)行取樣、編號(hào),并用GPS記錄采樣點(diǎn)的位置。應(yīng)用專(zhuān)門(mén)儀器測(cè)試分析,獲得了每個(gè)樣本所含的多種化學(xué)元素的濃度數(shù)據(jù)。另一方面,按照2公里的間距在那些遠(yuǎn)離人群及工業(yè)活動(dòng)的自然區(qū)取樣,將其作為該城區(qū)表層土壤中元素的背景值。

附件列出了采樣點(diǎn)的位置、海拔高度及其所屬功能區(qū)等信息;列出了8種主要重金屬元素在采樣點(diǎn)處的濃度以及8種主要重金屬元素的背景值。

通過(guò)數(shù)據(jù)分析,請(qǐng)分析重金屬污染的主要原因。5.3因子分析法5.3因子分析法01由于造成重金屬污染的原因可以是人類(lèi)活動(dòng),也可以是自然過(guò)程。因此先分析8種重金屬元素之間的相關(guān)性。02以8種重金屬元素濃度為單個(gè)因子,利用因子分析法,得到影響土壤整體變異性的3個(gè)重金屬污染主因子。04分析其分布特征,從而得出人類(lèi)活動(dòng)和自然過(guò)程對(duì)重金屬含量的影響程度。03根據(jù)主因子的變異特征向量大小,將8種重金屬元素進(jìn)行分類(lèi)。案例分析:城市環(huán)境質(zhì)量評(píng)價(jià)分析5.3因子分析法案例分析:城市環(huán)境質(zhì)量評(píng)價(jià)模型建立檢驗(yàn)項(xiàng)目檢驗(yàn)值取樣足夠度的KMO度量0.778Bartlett球形度檢驗(yàn)近似卡方905.711自由度28顯著性0.000表5.3.1因子分析檢驗(yàn)從相關(guān)矩陣出發(fā),用主成分分析方法來(lái)提取公共因子,由SPSS得:5.3因子分析法圖5.3.1因子分析碎石圖繪圖用SPSS畫(huà)出因子分析的碎石圖,如圖5.3.1所示。由圖5.3.1可判定選取3個(gè)主因子(主成分)做主成分分析和因子分析比較合適。計(jì)算因子載荷矩陣,由于主成分的系數(shù)陣的特征向量與因子載荷矩陣存在的關(guān)系式(5.3.2),利用主成分的系數(shù)矩陣和因子載荷初始矩陣,計(jì)算出各個(gè)特征值所對(duì)應(yīng)的特征向量。5.3因子分析法5.3因子分析法表5.3.2特征向量

建立主因子表達(dá)式:

三個(gè)主因子的累積變異量:三個(gè)主因子可解釋總變異量的70.941%44.500%14.377%12.064%案例分析:城市環(huán)境質(zhì)量評(píng)價(jià)5.3因子分析法5.3因子分析法單擊此處輸入你的項(xiàng)正文,文字是您思想的提煉,請(qǐng)盡量言簡(jiǎn)意賅的闡述觀點(diǎn),單擊此處輸入你的項(xiàng)正文單擊此處輸入你的項(xiàng)正文,文字是您思想的提煉,請(qǐng)盡量言簡(jiǎn)意賅的闡述觀點(diǎn),單擊此處輸入你的項(xiàng)正文0103單擊此處輸入你的項(xiàng)正文,文字是您思想的提煉,請(qǐng)盡量言簡(jiǎn)意賅的闡述觀點(diǎn),單擊此處輸入你的項(xiàng)正文02第一主因子解釋了總體變異的44.5%,Cd,Cr,Cu,Ni,Zn和Pb的因子特征值較高,而As和Hg具有相對(duì)較低的因子特征值,這一現(xiàn)象說(shuō)明該城區(qū)土壤中As和Hg的分布受到不同于其他重金屬的影響因素。第二主因子解釋了總體變異的14.377%,且Hg的特征向量比較高第三主因子解釋了總體變異的12.064%,只有重金屬元素As的特征向量比較高案例分析:城市環(huán)境質(zhì)量評(píng)價(jià)綜上分析,可將8種重金屬元素分為三類(lèi):第一類(lèi):Cd,Cr,Cu,Ni,Zn和Pb;第二類(lèi):Hg和Pb;第三類(lèi):As。且這三類(lèi)重金屬元素的來(lái)源不同。5.3因子分析法運(yùn)用同樣的方法,可分別對(duì)5個(gè)功能區(qū)的土壤重金屬濃度進(jìn)行因子分析,分別分析各個(gè)功能區(qū)污染源的主要原因。

由于重金屬As在五個(gè)區(qū)域內(nèi)均沒(méi)有超過(guò)國(guó)家二級(jí)標(biāo)準(zhǔn),與土壤背景值相比,相差不大,由此可以分析出該城區(qū)內(nèi)重金屬元素As總量的影響與該城區(qū)的成土作用密切相關(guān),受當(dāng)?shù)氐V物成分、風(fēng)化作用等影響。土壤中Pb和Hg的濃度主要是交通工具排放的影響,與此同時(shí)大氣中Pb和Hg的濃度在全球范圍內(nèi)正在增加,因此交通污染和大氣沉降是土壤中Pb和Hg混染的最主要因子。Cd,Cr,Cu,Ni,Zn和Pb濃度均嚴(yán)重超出了背景值而且相關(guān)性較高,可知人類(lèi)活動(dòng)對(duì)這些重金屬元素總量的增加作用均很明顯。案例分析:城市環(huán)境質(zhì)量評(píng)價(jià)5.3因子分析法定義本節(jié)回顧

理解因子分析法學(xué)習(xí)任務(wù)課本習(xí)題:章末習(xí)題5熟練掌握因子分析一般步驟

熟練掌握因子導(dǎo)出主成分法章節(jié)內(nèi)容§5.1方差分析法

5.1.1單因素方差分析5.1.2無(wú)重復(fù)雙因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚類(lèi)分析法§5.5應(yīng)用案例CHAPTER5多元統(tǒng)計(jì)建模方法聚類(lèi)分析:通過(guò)數(shù)據(jù)的特征分析,將具有相似特征的數(shù)據(jù)(變量)分成不同類(lèi)別,以便更好地挖掘數(shù)

據(jù)或變量的內(nèi)在規(guī)律。目的:找出具有相近程度的點(diǎn)或類(lèi)聚為一類(lèi),根據(jù)多個(gè)觀測(cè)指標(biāo),找出能夠度量樣本或指標(biāo)之間相似

程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類(lèi)型的依據(jù)。根據(jù)一批樣本的多個(gè)觀測(cè)指標(biāo),具體找出一些能夠度量樣本或指標(biāo)之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)

計(jì)量為劃分類(lèi)型的依據(jù),把一些相似程度較大的樣本(或指標(biāo))聚合為一類(lèi),把另外一些彼此之間相

似程度較大的樣本(或指標(biāo))又聚合為另一類(lèi),關(guān)系密切的聚合到一個(gè)小的分類(lèi)單位,關(guān)系疏遠(yuǎn)的聚

合到一個(gè)大的分類(lèi)單位,直到把所有的樣本(或指標(biāo))聚合完畢。5.4聚類(lèi)分析法5.4聚類(lèi)分析法

對(duì)變量(指標(biāo))進(jìn)行聚類(lèi),分析指標(biāo)之間的相似

性關(guān)系,將相似的指標(biāo)歸為一類(lèi)。

對(duì)樣品進(jìn)行分類(lèi),分析樣品之間的相似性關(guān)系,

將相似的樣品歸為一類(lèi)。5.4聚類(lèi)分析法距離度量法相似系數(shù)法01將一個(gè)樣本看作P維空間的一個(gè)點(diǎn),并在空間定義距離,距離越近的點(diǎn)歸為一類(lèi),距離較遠(yuǎn)的點(diǎn)歸為不同的類(lèi)。02用相似系數(shù),相似系數(shù)的絕對(duì)值越接近1,樣本的性質(zhì)越接近,樣本性質(zhì)彼此無(wú)關(guān)的樣本,相似系數(shù)的絕對(duì)值越接近于零。比較相似的樣本歸為一類(lèi),不怎么相似的樣本歸為不同的類(lèi)。1.樣本距離與相似性1.樣本距離與相似性5.4聚類(lèi)分析法5.4聚類(lèi)分析法1.樣本距離與相似性5.4聚類(lèi)分析法1.樣本距離與相似性5.4聚類(lèi)分析法1.樣本距離與相似性5.4聚類(lèi)分析法01像樣本點(diǎn)之間可以有不同的定義距離的方法一樣,類(lèi)與類(lèi)之間的距離也有各種定義。例如可以用兩類(lèi)之間最近樣本的距離定義類(lèi)與類(lèi)之間的距離,或者用兩類(lèi)之間最遠(yuǎn)樣本的距離定義類(lèi)與類(lèi)的距離等等。03系統(tǒng)聚類(lèi)方法盡管很多,但歸類(lèi)的步驟基本上是一樣的,所不同的僅是類(lèi)與類(lèi)之間的距離有不同的定義方法,從而得到不同的計(jì)算距離的公式。02類(lèi)與類(lèi)之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類(lèi)方法。常用的系統(tǒng)聚類(lèi)方法有最短距離法、最長(zhǎng)距離法、重心距離法、類(lèi)平均法等等。2.類(lèi)與類(lèi)之間的距離與相似性5.4聚類(lèi)分析法最短距離法類(lèi)平均法最長(zhǎng)距離法重心法2.類(lèi)與類(lèi)之間的距離與相似性先對(duì)數(shù)據(jù)進(jìn)行變換處理,消除量綱對(duì)數(shù)據(jù)的影響;030102各樣本點(diǎn)自成一類(lèi)(即n個(gè)樣本點(diǎn)一共有n類(lèi)),計(jì)算各樣本點(diǎn)之間的距離;第二步距離最近的兩個(gè)樣本點(diǎn)并成一類(lèi);第三步04選擇并計(jì)算類(lèi)與類(lèi)之間的距離,并將距離最近的兩類(lèi)合并;第四步重復(fù)上面作法直至所有樣本點(diǎn)歸為所需類(lèi)數(shù)為止;第五步05最后繪制聚類(lèi)圖,按不同的分類(lèi)標(biāo)準(zhǔn)或不同的分類(lèi)原則,得出不同的分類(lèi)結(jié)果。第六步06第一步聚類(lèi)的一般步驟5.4聚類(lèi)分析法案例分析:拍照賺錢(qián)APP任務(wù)分析例

“拍照賺錢(qián)”是移動(dòng)互聯(lián)網(wǎng)下的一種自助式服務(wù)模式。用戶(hù)下載APP,注冊(cè)成為APP的會(huì)員,從APP上領(lǐng)取需要拍照的任務(wù)(比如上超市去檢查某種商品的上架情況),賺取APP對(duì)任務(wù)所標(biāo)定的酬金。這種基于移動(dòng)互聯(lián)網(wǎng)的自助式眾包平臺(tái),相比傳統(tǒng)市場(chǎng)調(diào)查方式大大節(jié)省調(diào)查成本,而且有效保證了數(shù)據(jù)真實(shí)性,縮短了調(diào)查的周期。因此APP成為該平臺(tái)運(yùn)行的核心,而APP中的任務(wù)定價(jià)又是其核心要素。若定價(jià)不合理,有的任務(wù)就會(huì)無(wú)人問(wèn)津,導(dǎo)致商品檢查的失敗。本例子的主要目的在于:怎么用聚類(lèi)分析來(lái)處理實(shí)際問(wèn)題5.4聚類(lèi)分析法案例分析:拍照賺錢(qián)APP任務(wù)分析例

附件一是一個(gè)已結(jié)束項(xiàng)目的任務(wù)數(shù)據(jù),包含每個(gè)任務(wù)的位置、定價(jià)和完成情況;附件二是會(huì)員信息數(shù)據(jù),包含了會(huì)員的位置、信譽(yù)值、參考其信譽(yù)給出的任務(wù)開(kāi)始預(yù)訂時(shí)間和預(yù)訂限額,原則上會(huì)員信譽(yù)越高,越優(yōu)先開(kāi)始挑選任務(wù),其配額越大(任務(wù)分配時(shí)實(shí)際上是根據(jù)預(yù)訂限額所占比例進(jìn)行配發(fā))。研究附件一中項(xiàng)目的任務(wù)定價(jià)規(guī)律,分析任務(wù)未完成的原因。二維碼5-32017B題及附件。本例子的主要目的在于:怎么用聚類(lèi)分析來(lái)處理實(shí)際問(wèn)題5.4聚類(lèi)分析法添加標(biāo)題通過(guò)例子4.1.2進(jìn)行數(shù)據(jù)初步處理,繪制了任務(wù)完成情況的二維散點(diǎn)圖以便觀察任務(wù)完成情況。從圖4.1.4發(fā)現(xiàn)未完成任務(wù)的分布均在佛山市及東莞市南部地區(qū)附近。接著例子4.2.1進(jìn)一步挖掘數(shù)據(jù),建立任務(wù)之間的距離矩陣和會(huì)員與任務(wù)之間的距離矩陣,采用Spearman秩相關(guān)檢驗(yàn)的方法得結(jié)論:任務(wù)密度與價(jià)格之間存在著負(fù)相關(guān)關(guān)系,任務(wù)與市中心的距離和價(jià)格之間為較強(qiáng)的正相關(guān)關(guān)系,而人員密度對(duì)價(jià)格的影響很小。因此探究任務(wù)的價(jià)格規(guī)律時(shí)排除人員密度因素。添加標(biāo)題添加標(biāo)題案例分析:拍照賺錢(qián)APP任務(wù)分析5.4聚類(lèi)分析法隨后通過(guò)例子4.3.2采取逐步回歸的方法,將影響價(jià)格的因素按照影響程度由大到小的順序進(jìn)行線(xiàn)性回歸。得到回歸模型為分析案例分析:拍照賺錢(qián)APP任務(wù)分析5.4聚類(lèi)分析法分析

案例分析:拍照賺錢(qián)APP任務(wù)分析聚類(lèi)過(guò)程5.4聚類(lèi)分析法

型聚類(lèi)結(jié)果及分析5.4聚類(lèi)分析法案例分析:拍照賺錢(qián)APP任務(wù)分析根據(jù)上述Q型聚類(lèi)的方法,得到以下四種類(lèi)型的任務(wù),如圖5.4.1所示。圖5.4.1聚類(lèi)分析結(jié)果5.4聚類(lèi)分析法5.4聚類(lèi)分析法綜上所述,任務(wù)未完成的原因是多方面的,需要從供求關(guān)系、任務(wù)的地理位置、任務(wù)價(jià)格的設(shè)置等多方面分析。

類(lèi)型一(供求均衡類(lèi))供求比率幾乎為1,任務(wù)密度和用戶(hù)密度相對(duì)平衡,任務(wù)地點(diǎn)距離市中心較近,交通較便利。因此該類(lèi)型的任務(wù)完成率是最高的,達(dá)到了76%。類(lèi)型二(位置偏僻類(lèi))任務(wù)的供求比率小于類(lèi)型一,可接受任務(wù)的人數(shù)相對(duì)較多,然而任務(wù)的完成率卻不如類(lèi)型一。經(jīng)分析知該類(lèi)型任務(wù)距離市中心是最遠(yuǎn)的,導(dǎo)致完成任務(wù)的難度也較大。從側(cè)面說(shuō)明任務(wù)距離市中心的距離對(duì)任務(wù)完成程度的影響更大一些。類(lèi)型三

(密度集中類(lèi))任務(wù)密度是最大,市中心的距離也較近,該地區(qū)交通便利。但此時(shí)用戶(hù)密度與任務(wù)密度相差較多,供求比率高,因此任務(wù)完成率相對(duì)于前兩種情況較低一些。類(lèi)型四(價(jià)格過(guò)高類(lèi))用戶(hù)密度的數(shù)量最多,供求比率較低,距離市中心也較近,但此時(shí)的任務(wù)完成度卻最低。經(jīng)分析數(shù)據(jù)可知,該地區(qū)任務(wù)的價(jià)格相對(duì)較低,因此導(dǎo)致完成率較低,為54.01%。

案例分析:拍照賺錢(qián)APP任務(wù)分析

在實(shí)際問(wèn)題中,總體協(xié)方差陣

與相關(guān)陣

通常是未知的,于是首先需要通過(guò)樣本數(shù)據(jù)來(lái)估計(jì)

,然后再導(dǎo)出樣本主成分。

5.4聚類(lèi)分析法經(jīng)過(guò)對(duì)比,發(fā)現(xiàn)已完成任務(wù)的價(jià)格普遍高于未完成任務(wù)。說(shuō)明在其他條件不變的情況下,價(jià)格較低會(huì)導(dǎo)致任務(wù)的完成率較低。到此為止,通過(guò)數(shù)據(jù)特征分析、相關(guān)分析、逐步回歸和聚類(lèi)分析等多種方法的綜合運(yùn)用,分析出任務(wù)沒(méi)有完成的原因。

圖5.4.2

已完成任務(wù)和未完成任務(wù)的平均價(jià)格往往單一的一種方法并不能很好的解決數(shù)學(xué)建模中的問(wèn)題,需要多種方法有機(jī)的結(jié)合才能較好的解決實(shí)際問(wèn)題。案例分析:拍照賺錢(qián)APP任務(wù)分析5.4聚類(lèi)分析法定義本節(jié)回顧

理解聚類(lèi)分析法學(xué)習(xí)任務(wù)課本習(xí)題:章末習(xí)題5熟練掌握類(lèi)與類(lèi)之間的距離與相似性

熟練掌握樣本距離與相似性章節(jié)內(nèi)容§5.1方差分析法

5.1.1單因素方差分析5.1.2無(wú)重復(fù)雙因素方差分析§5.2主成分分析法§5.3因子分析法§5.4聚類(lèi)分析法§5.5應(yīng)用案例CHAPTER5多元統(tǒng)計(jì)建模方法5.5應(yīng)用案例—小微企業(yè)信貸問(wèn)題小微企業(yè)信貸問(wèn)題簡(jiǎn)述在企業(yè)與銀行的借貸過(guò)程中,由于中小微企業(yè)的體量較小、缺乏充足的資產(chǎn)用于抵押,因此銀行通常通過(guò)信貸政策、企業(yè)的交易單據(jù)信息、貸款對(duì)象的上下游企業(yè)還款能力等因素對(duì)借貸進(jìn)行風(fēng)險(xiǎn)評(píng)估,再據(jù)此確定企業(yè)的信貸策略。銀行通常選擇高信譽(yù)、信貸等級(jí)高的企業(yè)進(jìn)行貸款。除了決定是否向企業(yè)進(jìn)行貸款外,銀行還需要根據(jù)相關(guān)企業(yè)的風(fēng)險(xiǎn)評(píng)估相關(guān)信息對(duì)準(zhǔn)備貸款的企業(yè)進(jìn)行

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論