第三講 DPS應(yīng)用(3、多元統(tǒng)計(jì)分析)_第1頁(yè)
第三講 DPS應(yīng)用(3、多元統(tǒng)計(jì)分析)_第2頁(yè)
第三講 DPS應(yīng)用(3、多元統(tǒng)計(jì)分析)_第3頁(yè)
第三講 DPS應(yīng)用(3、多元統(tǒng)計(jì)分析)_第4頁(yè)
第三講 DPS應(yīng)用(3、多元統(tǒng)計(jì)分析)_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、.,第三章 多 元 統(tǒng) 計(jì) 分 析,.,多元統(tǒng)計(jì)分析是運(yùn)用數(shù)理統(tǒng)計(jì)方法來(lái)研究解決多指標(biāo)問(wèn)題的理論和方法。在采用多元統(tǒng)計(jì)分析進(jìn)行數(shù)據(jù)處理、建立宏觀(guān)或微觀(guān)系統(tǒng)模型時(shí),主要研究以下幾個(gè)方面的問(wèn)題: 簡(jiǎn)化系統(tǒng)結(jié)構(gòu),探討系統(tǒng)內(nèi)核??刹捎弥鞒煞址治觥⒁蜃臃治?、對(duì)應(yīng)分析等方法,在眾多因素中找出各個(gè)變量最佳的子集合,從子集合所包含的信息描述多變量的系統(tǒng)結(jié)果及各個(gè)因子對(duì)系統(tǒng)的影響。 構(gòu)造預(yù)測(cè)模型,進(jìn)行預(yù)報(bào)控制。探索多變量系統(tǒng)運(yùn)動(dòng)的客觀(guān)規(guī)律及其與外部環(huán)境的關(guān)系,進(jìn)行預(yù)測(cè)預(yù)報(bào),以實(shí)現(xiàn)對(duì)系統(tǒng)的最優(yōu)控制,是應(yīng)用多元統(tǒng)計(jì)分析技術(shù)的主要目的。在多元分析中,用于預(yù)報(bào)控制的模型有兩大類(lèi)。一類(lèi)是預(yù)測(cè)預(yù)報(bào)模型,通常采用多元線(xiàn)性回歸

2、或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術(shù)。另一類(lèi)是描述性模型,通常采用聚類(lèi)分析的建模技術(shù)。 進(jìn)行數(shù)值分類(lèi),構(gòu)造分類(lèi)模式。在多變量系統(tǒng)的分析中,往往需要將系統(tǒng)性質(zhì)相似的事物或現(xiàn)象歸為一類(lèi),以便找出它們之間的聯(lián)系和內(nèi)在規(guī)律性。過(guò)去許多研究多是按單因素進(jìn)行定性處理,以致處理結(jié)果反映不出系統(tǒng)的總的特征。進(jìn)行數(shù)值分類(lèi),構(gòu)造分類(lèi)模式一般采用聚類(lèi)分析和判別分析技術(shù)。,.,如何選擇適當(dāng)?shù)姆椒▉?lái)解決實(shí)際問(wèn)題?需要對(duì)問(wèn)題進(jìn)行綜合考慮。對(duì)一個(gè)問(wèn)題可以綜合運(yùn)用多種統(tǒng)計(jì)方法進(jìn)行分析。 例如一個(gè)預(yù)報(bào)模型的建立,可先根據(jù)有關(guān)生物學(xué)、生態(tài)學(xué)原理,確定理論模型和試驗(yàn)設(shè)計(jì);根據(jù)試驗(yàn)結(jié)果,收集試驗(yàn)資料;對(duì)資料進(jìn)行初

3、步提煉;然后應(yīng)用統(tǒng)計(jì)分析方法(如相關(guān)分析、逐步回歸分析、偏最小二乘回歸分析、主成分分析等)研究各個(gè)變量之間的相關(guān)性,選擇最佳的變量子集合;在此基礎(chǔ)上構(gòu)造預(yù)報(bào)模型,最后對(duì)模型進(jìn)行診斷和優(yōu)化處理,并應(yīng)用于生產(chǎn)實(shí)際。,.,一、回歸分析,.,(一)線(xiàn)性回歸,為研究醫(yī)院所需要的人力,某部門(mén)對(duì)所轄的17 家醫(yī)院調(diào)查了一組數(shù)據(jù),共6個(gè)變量:x1 為日平均病人數(shù),x2 為月平均x 光透視人數(shù),x3 為月平均所占用的床位天數(shù),x4 為當(dāng)?shù)厝丝跀?shù)/1000,x5 為平均每個(gè)病人住院天數(shù),y 為月平均使用的人小時(shí)數(shù)。 在dps 中,將17 家醫(yī)院數(shù)據(jù)編輯、定義成數(shù)據(jù)塊(圖) 在菜單下選擇“多元分析回歸分析線(xiàn)性回歸”

4、功能項(xiàng)后,系統(tǒng)會(huì)給出下圖的操作界面,.,(一)線(xiàn)性回歸,數(shù)據(jù)轉(zhuǎn)換:提供了取對(duì)數(shù)、平方根及倒數(shù)等3 種數(shù)據(jù)轉(zhuǎn)換方式,當(dāng)殘差圖分析表明方差顯示為非齊性時(shí)可考慮對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,在點(diǎn)擊“重新建立方程”按鈕后,即可得到新的回歸方程,并可繼續(xù)診斷殘差性能。,預(yù)測(cè)區(qū)域:可輸入各個(gè)預(yù)報(bào)因子的取值,并指定計(jì)算置信區(qū)間的置信水平,點(diǎn)擊“預(yù)測(cè)”按鈕后即可得到預(yù)測(cè)值及其在當(dāng)前置信水平下的置信區(qū)間值。,當(dāng)前回歸方程總體檢驗(yàn)指標(biāo)模塊:給出了當(dāng)前模型的決定系數(shù)、f 檢驗(yàn)值及其顯著水平。一個(gè)較好的回歸模型不但要求顯著水平的值小,而且決定系數(shù)要大。 當(dāng)診斷、預(yù)測(cè)結(jié)束后,點(diǎn)擊右下角的“返回編輯” 按鈕,系統(tǒng)會(huì)給出分析結(jié)果,.,(

5、二)逐步回歸分析,從多元線(xiàn)性回歸分析中我們知道,如果采用的自變量越多,則回歸平方和越大,殘差平方和越小。然而,采用較多的變量來(lái)擬合回歸方程,會(huì)使得方程的穩(wěn)定性差,每個(gè)自變量的區(qū)間誤差積累將影響總體誤差,用這樣建立起來(lái)的回歸方程作預(yù)測(cè)的可靠性差、精度低;另一方面,如果采用了對(duì)y 影響甚小的變量而遺漏了重要變量,可導(dǎo)致估計(jì)量產(chǎn)生偏倚和不一致性。鑒于上述原因,我們希望得到“最優(yōu)”的回歸方程,這樣的“最優(yōu)”回歸方程就是包含所有對(duì)y 有顯著影響的變量而不包含對(duì)y 影響不顯著的變量的回歸方程。逐步回歸分析法就是一種能自動(dòng)地從大量可供選擇的變量中選擇那些對(duì)建立回歸方程比較重要的變量的方法。,.,(二)逐步回

6、歸分析,數(shù)據(jù)的輸入格式是一行為一個(gè)樣本,一列為一個(gè)變量,因變量放在最右邊,輸完一個(gè)樣本后再輸下一個(gè)樣本。將輸入待分析的所有數(shù)據(jù)定義成數(shù)據(jù)矩陣塊。,在逐步回歸分析時(shí),系統(tǒng)首先在0.1 的置信水平下挑選自變量,并自動(dòng)調(diào)整值以保證選入一個(gè)自變量因子,在當(dāng)前所取的fx 值下,進(jìn)行逐步回歸(引入或剔除變量)。在當(dāng)前值分析結(jié)束時(shí),系統(tǒng)會(huì)出現(xiàn)如圖界面,并詢(xún)問(wèn)用戶(hù)是繼續(xù)引入變量、剔除變量還是結(jié)束變量的引入、剔除工作。,.,(二)逐步回歸分析,輸出結(jié)果包括 各個(gè)變量的平均值、標(biāo)準(zhǔn)差、協(xié)方差矩陣和相關(guān)系數(shù)矩陣; 回歸方程式; 偏相關(guān)系數(shù)、t 檢驗(yàn)值、復(fù)相關(guān)系數(shù)及其臨界值; 回歸方程剩余標(biāo)準(zhǔn)差; 擬合值及擬合誤差;

7、 直接通徑系數(shù)、間接通徑系數(shù)和決定系數(shù)等。 主要分析結(jié)果解釋 (1) 回歸模型診斷:第一,方程的方差分析f 值的顯著水平p 要小于等于0.05,否則,所建立的回歸方程不能使用;第二,各個(gè)回歸系數(shù)的偏相關(guān)系數(shù)的顯著水平最好也小于等于0.05;第三,durbin-watson 統(tǒng)計(jì)量 d 是否接近于2。 (2) 通徑分析:根據(jù)通徑系數(shù)的大小和正負(fù),可以推斷各個(gè)因子對(duì)因變量的直接影響和間接影響。,.,(三)二次多項(xiàng)式回歸分析,現(xiàn)代的二次回歸正交旋轉(zhuǎn)設(shè)計(jì)試驗(yàn),即把正交設(shè)計(jì)和回歸分析有機(jī)地結(jié)合起來(lái),在正交設(shè)計(jì)的基礎(chǔ)之上,利用回歸分析,在給出的因素和指標(biāo)之間,找出一個(gè)明確的函數(shù)表達(dá)式,建立因果關(guān)系的數(shù)學(xué)模

8、型,以便定量地描述在某個(gè)生物學(xué)過(guò)程中各因素對(duì)指標(biāo)的作用,并用該數(shù)學(xué)模型預(yù)測(cè)和控制生產(chǎn)。目前,組建多元二次回歸模型幾乎都是運(yùn)用二次(旋轉(zhuǎn))回歸設(shè)計(jì)來(lái)實(shí)現(xiàn),當(dāng)然也可對(duì)某些符合要求的歷史資料作同樣的分析,組建類(lèi)似于二次(旋轉(zhuǎn))回歸模型的多元二次多項(xiàng)式模型。 對(duì)這類(lèi)回歸分析模型,也可對(duì)其進(jìn)行逐步回歸分析,只保留顯著的項(xiàng),剔除不顯著的項(xiàng)。dps 系統(tǒng)提供的二次多項(xiàng)式回歸功能模塊的操作和使用方法可參考單因變量逐步回歸分析部分,不同之處只是在處理數(shù)據(jù)矩陣時(shí),除原始數(shù)據(jù)外還自動(dòng)生成包括數(shù)據(jù)的二次多項(xiàng)式(即把各個(gè)自變量數(shù)據(jù)的二次多項(xiàng)式也作為一個(gè)自變量因子)。因此,系統(tǒng)最多能處理10 個(gè)自變量的原始數(shù)據(jù)矩陣(即m

9、10)。,.,(四)趨勢(shì)面分析,在某些研究領(lǐng)域,數(shù)學(xué)模型多為非線(xiàn)性模型,而且尋求這些非線(xiàn)性模型的函數(shù)表達(dá)式一般比較困難,在這種情況下可采用多項(xiàng)式形式去擬合回歸方程。在利用趨勢(shì)面分析擬合回歸模型時(shí),所選擇的趨勢(shì)面模型必須使剩余值比較小,回歸平方和比較大,這樣才能使擬合度較高,結(jié)果才能達(dá)到足夠的準(zhǔn)確性。例如糧食產(chǎn)量與氣溫和降雨量等自然因素的關(guān)系是非線(xiàn)性關(guān)系,可采用趨勢(shì)面分析來(lái)擬合回歸模型從而預(yù)測(cè)糧食產(chǎn)量。 數(shù)據(jù)的輸入格式是1 行1 個(gè)樣本,每行依次放入自變量x、y 和因變量z。將待分析的數(shù)據(jù)定義成數(shù)據(jù)塊后,在菜單方式下選擇“趨勢(shì)面分析”。,.,(四)趨勢(shì)面分析,例如某地銅元素在地表一特定的地層中含

10、量的變化情況,現(xiàn)將各個(gè)采樣點(diǎn)的原始數(shù)據(jù)編輯成右圖的格式。圖中第一列是經(jīng)度、第二列是緯度,第三列是銅元素含量。,.,(四)趨勢(shì)面分析,執(zhí)行“趨勢(shì)面分析”后,系統(tǒng)會(huì)出現(xiàn)如下對(duì)話(huà)框。在對(duì)話(huà)框中,系統(tǒng)給出了當(dāng)前運(yùn)行參數(shù)的缺省值。當(dāng)然可根據(jù)自己的要求修改這些參數(shù)。在對(duì)話(huà)框中,可改變趨勢(shì)面次數(shù)等。,.,(四)趨勢(shì)面分析,參數(shù)修改后,用鼠標(biāo)點(diǎn)擊“保存圖形”按鈕,這時(shí)系統(tǒng)會(huì)將等高線(xiàn)圖保存下來(lái)。退出對(duì)話(huà)框后,系統(tǒng)給出分析結(jié)果如下: 趨勢(shì)面方程: z=-39602.61631+993.64405*x+1703.76971*y-22.62857*x2-9.16000*x*y-30.91428*y2+0.191666

11、7*x3+0.0571429*x2*y +0.0571429*x*y2+0.1916667*y3 殘差標(biāo)準(zhǔn)差=1.027016021942,f=5.9454,p= 0.0015,擬合度=78.10% 從計(jì)算結(jié)果可以看出,趨勢(shì)方程的方差分析,其顯著水平p 等于0.0015,達(dá)到極顯著水平,擬合度78.10%。,.,(五)聚類(lèi)分析,聚類(lèi)分析(cluster analysis)是數(shù)理統(tǒng)計(jì)中研究“物以類(lèi)聚”的一種方法。 在數(shù)值分類(lèi)方面,可歸納為兩大類(lèi)問(wèn)題:一類(lèi)是已知研究對(duì)象的分類(lèi)情況,將某些未知個(gè)體正確地歸屬到其中某一類(lèi),這是判別分析問(wèn)題;另一類(lèi)問(wèn)題是在事前沒(méi)有分類(lèi)的情況下進(jìn)行數(shù)據(jù)結(jié)構(gòu)的分類(lèi),這就是聚

12、類(lèi)分析所要解決的問(wèn)題。,.,(五)聚類(lèi)分析,聚類(lèi)分析的功能是將一批樣品或變量按照它們?cè)谛再|(zhì)上的親疏程度進(jìn)行分類(lèi)。描述這種親疏程度通常有兩個(gè)途徑:一是把每個(gè)樣品看成m 維(變量的個(gè)數(shù)為m個(gè))空間的一個(gè)點(diǎn),進(jìn)而在m 維坐標(biāo)中,定義點(diǎn)與點(diǎn)之間的某種距離。另一途徑是用某種相似系數(shù)來(lái)描述樣品之間的親疏程度。當(dāng)確定了樣品或變量間的距離或相似系數(shù)后,就可以對(duì)樣品或變量進(jìn)行分類(lèi)。分類(lèi)的方法很多。一類(lèi)方法是在樣品距離的基礎(chǔ)上定義類(lèi)與類(lèi)之間的距離,首先將n 個(gè)樣品自成一類(lèi),然后每次將具有最小距離的兩類(lèi)合并,合并后重新計(jì)算類(lèi)與類(lèi)之間的距離,將此過(guò)程一直繼續(xù)到所有樣品歸為一類(lèi)為止。最后把這個(gè)過(guò)程做成一張聚類(lèi)譜系圖。這

13、種聚類(lèi)方法稱(chēng)為系統(tǒng)聚類(lèi)法。另一類(lèi)方法是將n 個(gè)樣品初步分類(lèi),然后根據(jù)分類(lèi)函數(shù)盡可能小的原則,對(duì)已分類(lèi)別進(jìn)行調(diào)整,直到分類(lèi)合理為止。這種聚類(lèi)方法稱(chēng)為調(diào)試法,如動(dòng)態(tài)聚類(lèi)就屬于該類(lèi)型。此外,還有在不打亂樣本秩序的條件下對(duì)樣本進(jìn)行聚類(lèi)分析,如有序樣本的最優(yōu)分割法。,.,(五)聚類(lèi)分析,系統(tǒng)聚類(lèi)分析 系統(tǒng)聚類(lèi)就是利用變量或樣本間親疏程度的數(shù)量指標(biāo),即相似系數(shù)或距離遠(yuǎn)近來(lái)進(jìn)行聚類(lèi)。目前已有大量的相似系數(shù)和距離,但在數(shù)值分類(lèi)中比較常用的卻是少數(shù)。 歐氏距離: 它是聚類(lèi)分析中最廣泛使用的距離。 絕對(duì)值距離(又稱(chēng)manhattan 度量或網(wǎng)格變量) 切比雪夫距離 蘭氏距離:這是一個(gè)自身標(biāo)準(zhǔn)化的量。由于它對(duì)大的奇

14、異值不敏感,故它特別適合高度偏倚的數(shù)據(jù)。 馬氏距離 卡方距離:徐振幫等(1986)認(rèn)為,卡方距離比歐氏距離等常用的距離系數(shù)有更強(qiáng)的分辨能力。,.,(五)聚類(lèi)分析,系統(tǒng)聚類(lèi)分析 編輯數(shù)據(jù)、定義數(shù)據(jù)塊:一行一個(gè)樣本,一列一個(gè)變量;選定待分析數(shù)據(jù),定義成數(shù)據(jù)矩陣塊; 進(jìn)入主菜單,選項(xiàng)執(zhí)行“系統(tǒng)聚類(lèi)分析”過(guò)程:在分析過(guò)程中,系統(tǒng)會(huì)先后要求選擇數(shù)據(jù)轉(zhuǎn)換方法、相似性尺度以及聚類(lèi)方法。不過(guò),對(duì)每一種選擇都有一個(gè)默認(rèn)值??刹捎孟到y(tǒng)的默認(rèn)值對(duì)數(shù)據(jù)實(shí)施規(guī)格化轉(zhuǎn)換、采用卡方距離相似尺度和以離差平方和聚類(lèi)方法進(jìn)行聚類(lèi)分析。 例:為研究某地19621988 年三化螟種群消長(zhǎng)演替規(guī)律,根據(jù)歷年積累的資料進(jìn)行系統(tǒng)聚類(lèi)分析。

15、三化螟種群消長(zhǎng)特征指標(biāo)有第二、三代幼蟲(chóng)發(fā)生量,第二、三代卵盛孵高峰期(分別以5 月31 日和7 月20 日為零),二代至三代及三代至四代的增殖系數(shù)。原始數(shù)據(jù)編輯整理及其數(shù)據(jù)塊的定義見(jiàn)圖,.,(五)聚類(lèi)分析,由于該數(shù)據(jù)的量綱不同,各列數(shù)據(jù)(即各個(gè)變量)的數(shù)量級(jí)別相差也較大,故在進(jìn)行聚類(lèi)分析之前先采用規(guī)格化變換方法對(duì)數(shù)據(jù)進(jìn)行處理。對(duì)原始數(shù)據(jù)進(jìn)行規(guī)格化變換后,再確定距離系數(shù)計(jì)算方法,在此采用卡方距離進(jìn)行聚類(lèi)分析。,最后還要進(jìn)行聚類(lèi)分析方法的選擇,本例中分別采用離差平方和法、類(lèi)平均法、重心法和最短距離法等四種方法進(jìn)行分析。聚類(lèi)分析的輸出結(jié)果包括數(shù)值和圖形兩部分,數(shù)值結(jié)果為各個(gè)樣本的聯(lián)結(jié)序號(hào)、聯(lián)結(jié)水平和

16、聚類(lèi)譜系圖索引;圖形結(jié)果輸出在屏幕上(圖)。,.,(五)聚類(lèi)分析,從聚類(lèi)分析結(jié)果看,以離差平方和法的聚類(lèi)效果最好。它將27 個(gè)樣本分成4類(lèi): 第1 類(lèi)包括8 個(gè)樣本(1,4,5,6,2,3,17,21) 第2 類(lèi)包括11 個(gè)樣本(7,20,14,10,11,12,22,25,26,27,23) 第3 類(lèi)包括6 個(gè)樣本(8,9,18,15,16,19) 第4類(lèi)只有13 和24,兩個(gè)樣本可以看成是一個(gè)特殊類(lèi)別。 最短距離法的聚類(lèi)效果最差,而重心法由于所得到的譜系圖出現(xiàn)逆轉(zhuǎn)現(xiàn)象,且無(wú)法分類(lèi),從樹(shù)狀譜系圖觀(guān)點(diǎn)來(lái)看,該方法是不恰當(dāng)?shù)?,這是重心法的一個(gè)缺點(diǎn)。,第1類(lèi)是重發(fā)生年類(lèi)型;第2、3類(lèi)是偏輕發(fā)生年類(lèi)

17、型,偏輕類(lèi)型中的第2類(lèi)是三代多發(fā)型,第3類(lèi)是四代多發(fā)型;而第4類(lèi),即1974年和1985年(樣本13,24)除第三代發(fā)生量大之外,第二代的發(fā)生量也很大,屬于三化螟猖獗發(fā)生年。,.,(五)聚類(lèi)分析,0-1型變量聚類(lèi)分析 當(dāng)原始數(shù)據(jù)是二元性質(zhì)的屬性變量時(shí),由于數(shù)據(jù)結(jié)構(gòu)的特殊性,它不必進(jìn)行數(shù)據(jù)轉(zhuǎn)換處理。它可直接根據(jù)原始數(shù)據(jù)計(jì)算相似系數(shù)和距離系數(shù)。 聚類(lèi)分析數(shù)據(jù)編輯格式:一行一個(gè)樣本,一列一個(gè)變量(第一列可以是樣本名稱(chēng))。編輯完后將待分析數(shù)據(jù)及其樣本名稱(chēng)同時(shí)定義成數(shù)據(jù)塊,然后執(zhí)行“多元分析聚類(lèi)分析0-1數(shù)據(jù)聚類(lèi)分析”功能,系統(tǒng)出現(xiàn)如下選擇框,.,(五)聚類(lèi)分析,0-1型變量聚類(lèi)分析 在用戶(hù)選擇框內(nèi)的右

18、下角,多了一個(gè)0-1 化閾值輸入框,這是提供用戶(hù)將數(shù)量化指標(biāo)轉(zhuǎn)換成0-1 指標(biāo)進(jìn)行聚類(lèi)分析的技術(shù)。如果是數(shù)量化指標(biāo),在經(jīng)過(guò)數(shù)據(jù)轉(zhuǎn)換后,再將轉(zhuǎn)換后數(shù)據(jù)進(jìn)行規(guī)格化變換處理,即從轉(zhuǎn)換后數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大和最小值,兩者之差稱(chēng)為極差,然后從每一個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差(稱(chēng)為規(guī)格化轉(zhuǎn)換)。經(jīng)這樣的變換后,每列的最大數(shù)據(jù)變?yōu)?,最小數(shù)據(jù)變?yōu)?,其余數(shù)據(jù)取值在0 1 之間。這時(shí)和給定的閾值相比,如大于等于給定的閾值則賦值為1,否則賦值為0。,然后選定聚類(lèi)距離和聚類(lèi)方法。如果定義的數(shù)據(jù)塊第一列是樣本名稱(chēng),則在“第一列是否是樣本名稱(chēng)”選擇框中選擇“是”。 分析結(jié)束時(shí),系統(tǒng)會(huì)顯示系

19、統(tǒng)聚類(lèi)樹(shù)狀圖,用鼠標(biāo)雙擊樹(shù)狀圖后,會(huì)顯示提示保存聚類(lèi)圖的界面,.,(五)聚類(lèi)分析,動(dòng)態(tài)聚類(lèi)分析 動(dòng)態(tài)聚類(lèi)法又稱(chēng)逐步聚類(lèi)法,其基本思想是:首先,按照一定的方法選取一批凝聚點(diǎn),然后讓樣品向最近的凝聚點(diǎn)凝聚。這樣由點(diǎn)凝聚成類(lèi),得到初始分類(lèi)。初始分類(lèi)不一定合理,然后按最近距離原則修改不合理的分類(lèi),直到分類(lèi)比較合理為止,從而形成一個(gè)最終的分類(lèi)結(jié)果。,.,(五)聚類(lèi)分析,動(dòng)態(tài)聚類(lèi)分析 主要計(jì)算步驟: 第1 步,先將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。 第2 步,選擇預(yù)定數(shù)目的凝聚點(diǎn)對(duì)樣品進(jìn)行初始分類(lèi)(人為分類(lèi))。設(shè)xij 為已標(biāo)準(zhǔn)化處理后的第 i 個(gè)樣品的第 j 個(gè)指標(biāo),若初始分類(lèi)數(shù)為k,經(jīng)計(jì)算,分別將每個(gè)樣品歸入第

20、k 類(lèi)(1kk),由此得到初始分類(lèi)。 第3 步,計(jì)算每一類(lèi)的重心,以該重心作為新的凝聚點(diǎn),再計(jì)算每一個(gè)樣品至新凝聚點(diǎn)的距離,并將它劃入最近凝聚點(diǎn)所屬的類(lèi)別。當(dāng)所計(jì)算的重心與原來(lái)的凝聚點(diǎn)完全相同,則過(guò)程終止,否則將重復(fù)按第3 步的過(guò)程計(jì)算。 第3 步的重復(fù)過(guò)程是迭代過(guò)程,每一次迭代都使對(duì)應(yīng)的分類(lèi)函數(shù)縮小。當(dāng)上下兩次的重心完全相同時(shí),計(jì)算過(guò)程收斂,此時(shí)分類(lèi)函數(shù)趨于定值。按批修改法的最終分類(lèi)結(jié)果受到初始分類(lèi)的影響,這是動(dòng)態(tài)聚類(lèi)法的一個(gè)缺點(diǎn)。,.,(六)判別分析,在統(tǒng)計(jì)分析中,經(jīng)常遇到分類(lèi)判別的問(wèn)題,也就是根據(jù)觀(guān)測(cè)數(shù)據(jù)對(duì)所研究的對(duì)象進(jìn)行分類(lèi)判別。判別分析方法就是專(zhuān)門(mén)根據(jù)若干因素對(duì)預(yù)報(bào)對(duì)象進(jìn)行分類(lèi)的一種

21、方法,通過(guò)分析可以建立用于定性預(yù)報(bào)的數(shù)學(xué)模型。例如,我們積累了某種病蟲(chóng)害各種發(fā)生狀態(tài)的若干歷史資料(樣本),希望從中總結(jié)出分類(lèi)的規(guī)律性(即判別公式),以便在以后的工作中遇到新的發(fā)生狀態(tài)(樣本)時(shí),只要根據(jù)判別公式判斷它所屬的類(lèi)就行了。在判別分析中,可從不同角度提出問(wèn)題,故有不同的判別準(zhǔn)則,常見(jiàn)如fisher 判別和bayes 判別。 用判別分析方法處理問(wèn)題時(shí),通常要給出一個(gè)衡量新樣本與各已知組別接近程度的描述指標(biāo),即判別函數(shù),同時(shí)指定一種判別規(guī)則,借以判定新樣本的歸屬。判別規(guī)則可以是統(tǒng)計(jì)性的,決定新樣本所屬類(lèi)別時(shí)用到數(shù)理統(tǒng)計(jì)的顯著性檢驗(yàn);也可以是經(jīng)驗(yàn)性的,決定樣本歸屬時(shí),只考慮判別函數(shù)值的大小

22、。,.,(六)判別分析,兩組判別 兩組間的判別分析是基于統(tǒng)計(jì)上的費(fèi)歇爾(fisher)準(zhǔn)則。判別的結(jié)果應(yīng)使兩組間區(qū)別最大,使每組內(nèi)的離散性最小。 數(shù)據(jù)的輸入格式是每一行為一個(gè)樣本,每一列為一個(gè)變量,最右邊的一列為已知樣本的分類(lèi)類(lèi)別(用1 或表示),對(duì)于待判別樣本分類(lèi)類(lèi)別用0 代替。按系統(tǒng)規(guī)定格式將待分析的所有數(shù)據(jù)(連同類(lèi)別一起)定義成數(shù)據(jù)塊。,.,(六)判別分析,兩組判別 例如,梁振中(1985)根據(jù)小麥赤霉病不同發(fā)病田塊所占比例及決定防治對(duì)策的原理,將赤霉病劃分為偏重發(fā)生和偏輕發(fā)生兩類(lèi),并從氣象因素中篩選出穩(wěn)定通過(guò)10的初日(x1)和元月上中旬日照時(shí)數(shù)(x2)兩個(gè)因子。為建立判別分析模型,將

23、原始數(shù)據(jù)編輯整理成右圖形式并定義數(shù)據(jù)塊 然后進(jìn)入主菜單,選擇“多元分析判別分析兩組判別分析”功能項(xiàng),回車(chē)執(zhí)行后輸出結(jié)果。,.,(六)判別分析,fisher 線(xiàn)性判別 fisher 判別分析的思想是:用已知分類(lèi)樣本的觀(guān)察指標(biāo)構(gòu)造一些彼此正交(不相關(guān))的綜合指標(biāo)即判別函數(shù),這些綜合指標(biāo)可以將屬于不同類(lèi)的個(gè)體盡可能的分開(kāi),然后計(jì)算出每個(gè)類(lèi)的綜合指標(biāo)的均值,即每個(gè)類(lèi)的中心點(diǎn)。現(xiàn)有一個(gè)新樣品,當(dāng)計(jì)算出它的各個(gè)綜合指標(biāo)的值之后,就分別計(jì)算出新樣品到每個(gè)類(lèi)中心點(diǎn)的距離,把它歸到離中心點(diǎn)的距離最短的那一類(lèi)。,.,(六)判別分析,fisher 線(xiàn)性判別 例:這里有3個(gè)類(lèi)別:胃癌患者、萎縮性胃炎患者和非胃病者。每

24、類(lèi)抽取5例,每例化驗(yàn)4個(gè)生化指標(biāo),所得結(jié)果如圖。為考察生化指標(biāo)是否有鑒別胃癌的能力,試作判別分析。 分析時(shí),執(zhí)行多元分析里面的“fisher 線(xiàn)性判別”,這時(shí),系統(tǒng)顯示3 類(lèi)樣品在兩個(gè)綜合指標(biāo)u1(x),u2(x)平面上的分布(下圖)。,.,(六)判別分析,從圖中可以看出,u1(x)對(duì)第一類(lèi)(胃癌)的判別能力較強(qiáng),對(duì)第二類(lèi)(萎縮性胃炎)與第三類(lèi)(非胃病)判別能力差; u2(x) 的判別能力較弱。 最后系統(tǒng)給出分析結(jié)果。,.,(六)判別分析,逐步判別分析 在判別分析中,對(duì)判別結(jié)果可能產(chǎn)生影響的變量往往很多,但是影響有大有小。如果不加選擇地一概采用來(lái)建立判別函數(shù),不僅計(jì)算工作量大,而且往往由于變量

25、間的自相關(guān)性,可使求解逆矩陣的計(jì)算精度下降,最終使得判別函數(shù)缺乏穩(wěn)定性。因此,適當(dāng)篩選變量是判別分析中一件很重要的事情。 凡具有篩選能力的判別分析方法統(tǒng)稱(chēng)為逐步判別分析。與通常的判別分析一樣,逐步判別也有許多不同原則,從而產(chǎn)生各種不同的方法。這里所討論的逐步判別分析法是在多組判別基礎(chǔ)之上發(fā)展起來(lái)的一種方法,判別準(zhǔn)則為貝葉斯(bayes)判別函數(shù)。其基本思路與逐步回歸分析類(lèi)似,采用“有進(jìn)有出”的算法,即變量按其重要與否逐步引入,原引入的變量也可能因后來(lái)引入的新變量而使之喪失重要性最終被剔除。每步引入或剔除變量都要作相應(yīng)的統(tǒng)計(jì)檢驗(yàn),使最后的貝葉斯判別函數(shù)僅保留“重要”的變量。,.,(六)判別分析,

26、逐步判別分析 在dps 平臺(tái)上,數(shù)據(jù)按一行一個(gè)樣本、一列一個(gè)變量的格式依次輸入,最右邊一列為已知樣本的類(lèi)別號(hào)(用1,2,表示),將待判別樣本的類(lèi)別用0代替。然后將所有數(shù)據(jù)(連同類(lèi)別一起)定義成數(shù)據(jù)塊,在菜單下選項(xiàng)執(zhí)行。,.,(六)判別分析,逐步判別分析 例:胡秉民(1987)對(duì)浙江北部地區(qū)嘉興、桐鄉(xiāng)和湖州19501982 年大麥赤霉病發(fā)生程度與氣象因子關(guān)系進(jìn)行研究,總結(jié)出上年12 月降雨量(x1)、上年10月下旬至11 月中旬和當(dāng)年12 月總雨量(x2)、上年10 月下旬至11 月上旬日照時(shí)數(shù)(x3)、上年10 月下旬至12 月中旬和當(dāng)年2 月總雨量(x4)以及當(dāng)年3 月中旬平均高溫(x5)等

27、5 個(gè)因子,并將病情分為輕、中、重三級(jí)(分別用1、2、3 表示)。,.,(六)判別分析,逐步判別分析 然后進(jìn)入菜單,選擇“多元分析判別分析逐步判別分析”功能項(xiàng),回車(chē)執(zhí)行時(shí)系統(tǒng)在自行給出的置信水平(0.1)的f 臨界值(2.2134)下進(jìn)行分析,并篩選出一個(gè)以上的因子建立判別函數(shù)。然后顯示當(dāng)前判別的效果,并提示用戶(hù)是否改變臨界值,如想改變fx 臨界值,則點(diǎn)yes,然后輸入新的fx臨界值。若輸入0,將進(jìn)行多組判別分析;若輸入的值大于0,則將進(jìn)行逐步判別分析。在分析過(guò)程中,可根據(jù)所選因子的判別效果而調(diào)整f 臨界值以獲得最好的擬合效果。,.,(七)多因子分析,多因素分析是一種將多變量(指標(biāo))樣本在結(jié)構(gòu)

28、上進(jìn)行簡(jiǎn)化的有效方法。通過(guò)分析找到一個(gè)包含最佳變量的子集合,使其所包含的變量能反映總體的結(jié)構(gòu)。 主成分分析 主成分分析是把多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法。在多指標(biāo)(變量)的研究中,往往由于變量個(gè)數(shù)太多,且彼此之間存在著一定的相關(guān)性,因而使得所觀(guān)測(cè)的數(shù)據(jù)在一定程度上有信息的重疊。當(dāng)變量較多時(shí),在高維空間中研究樣本的分布規(guī)律就更麻煩。主成分分析采取一種降維的方法,找出幾個(gè)綜合因子來(lái)代表原來(lái)眾多的變量,使這些綜合因子盡可能地反映原來(lái)變量的信息量,而且彼此之間互不相關(guān),從而達(dá)到簡(jiǎn)化的目的。,.,(七)多因子分析,主成分分析 例如,羅積玉 (1985)在土壤質(zhì)量研究中抽取了20個(gè)樣本,每樣本4個(gè)指標(biāo),包括淤泥含量(x1)、粘土含量(x2)、有機(jī)物含量(x3)和土壤ph值(x4)。數(shù)據(jù)編輯和定義如圖 在菜單下選擇“多元分析多因素分析主成分分析”項(xiàng),執(zhí)行后得出結(jié)果,.,(七)多因子分析,因子分析 在統(tǒng)計(jì)學(xué)中,因子分析屬于多元分析的范疇。它用于研究相關(guān)矩陣的內(nèi)部依賴(lài)關(guān)系,它將多個(gè)變量綜合為少數(shù)幾個(gè)“因子”,但仍可再現(xiàn)原始變量與“因子”之間的相關(guān)關(guān)系。 它主要應(yīng)用于兩個(gè)方面:一是將為數(shù)眾多的變量減少為幾個(gè)新因子,再現(xiàn)系統(tǒng)內(nèi)變量之間的內(nèi)在聯(lián)系;二是用于分類(lèi),根據(jù)變量或者樣本的因子得分值在因子軸所構(gòu)成的空間中進(jìn)行分類(lèi)處理。,.,(七)多因子分析,因子分析 因子分析與主成分分析的區(qū)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論