版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
醫(yī)用多因素分析緒論什么是多因素統(tǒng)計(jì)分析?研究多個(gè)相依因素之間關(guān)系或具有某些因素的個(gè)體間關(guān)系的統(tǒng)計(jì)學(xué)方法多因素分析優(yōu)點(diǎn)取得原始資料容易單因素、雙因素分析一次只能研究1個(gè)或2個(gè)因素,需嚴(yán)格的科研設(shè)計(jì)來(lái)保證研究因素外其他影響因素(干擾因素)的齊同,因此,取得原始資料困難。多因素分析可同時(shí)研究多個(gè)因素,一方面不必被迫將一些研究因素作干擾因素處理,另一方面,有些干擾因素難以控制齊同,多因素分析時(shí)可將其納入研究因素內(nèi)。多因素分析優(yōu)點(diǎn)整體分析單個(gè)因素對(duì)結(jié)果因素的作用為單獨(dú)作用。
單因素分析將相互聯(lián)系的多個(gè)因素拆開(kāi),單個(gè)地與結(jié)果因素進(jìn)行分析,只考慮了單獨(dú)作用
將無(wú)單獨(dú)作用但和其他因素一起有聯(lián)合作用的因素忽略掉;有些因素雖有單獨(dú)作用,但單獨(dú)作用可被其他2個(gè)或多個(gè)因素的聯(lián)合作用所代替,在聯(lián)合作用中是多余的。多因素分析同時(shí)研究多個(gè)因素對(duì)結(jié)果因素的聯(lián)合作用既考慮了各因素的的單獨(dú)作用,有考慮了多個(gè)因素間的交互作用。為什么要學(xué)習(xí)?必要性:醫(yī)學(xué)科研中廣泛的需求;可能性:
統(tǒng)計(jì)學(xué)理論與方法的突破計(jì)算機(jī)的高速發(fā)展統(tǒng)計(jì)軟件廣泛應(yīng)用怎樣學(xué)習(xí)?掌握:基本概念、原理;應(yīng)用條件;結(jié)果的解讀;不要沉陷于計(jì)算基本概念研究單位(個(gè)體)根據(jù)研究目的確定的最小研究單元,如1個(gè)人、1頭動(dòng)物,1只眼睛,也可1家人、1班學(xué)生、1升水等基本概念研究因素根據(jù)研究目的確定的,描述研究單位特征的因素PopulationsandSamplesWewanttoknowaboutthese:Wehavethistoworkwith:RandomSelectionPopulationSampleStatisticInferenceParameter基本概念總體:根據(jù)研究目的確定的,同質(zhì)的全部研究單位(個(gè)體)的研究因素值的集合。樣本:從總體中隨機(jī)抽取的,具有足夠數(shù)量的,能代表總體分布特征的一部分研究單位(個(gè)體)研究因素值的集合。樣品:被抽中的個(gè)體。樣本含量:樣本中的樣品數(shù)基本概念參數(shù):反映總體分布特征的指標(biāo),習(xí)慣上用希臘字母表示,如總體均數(shù),總體標(biāo)準(zhǔn)差σ,總體率π統(tǒng)計(jì)量
:由樣本觀測(cè)值計(jì)算出來(lái)的,反映樣本分布特征的指標(biāo)。習(xí)慣上用拉丁字母表示,如:樣本均數(shù),樣本標(biāo)準(zhǔn)差S,樣本率p
?;靖拍?/p>
資料的分類(lèi)數(shù)值變量資料分類(lèi)變量資料二分類(lèi)多分類(lèi)等級(jí)根據(jù)需要,不同類(lèi)型資料間可相互轉(zhuǎn)換基本概念資料的量化對(duì)變量賦值方式不同,參數(shù)估計(jì)值及符號(hào)將有所不同,進(jìn)而對(duì)結(jié)果的解釋方式亦不同。依據(jù):多因素分析方法對(duì)資料的要求專(zhuān)業(yè)知識(shí)等基本概念
資料的量化連續(xù)型變量:可以原形數(shù)據(jù)形式參與分析,也可離散化成有序分類(lèi)變量,或離散化后產(chǎn)生啞變量。
二分類(lèi)變量:一般賦值為0-1型(如暴露:1,非暴露:0,男性:1,女性:0等)。多分類(lèi)變量:對(duì)于有序多分類(lèi)變量,可轉(zhuǎn)化為啞變量,亦可按等級(jí)的秩次方式賦值,但按等級(jí)的秩次方式所賦值真實(shí)反映變量的測(cè)度相當(dāng)困難。對(duì)于無(wú)序多分類(lèi)變量,則應(yīng)轉(zhuǎn)化為啞變量形式。
資料的量化在某項(xiàng)有關(guān)吸煙的調(diào)查研究中,部分自變量的賦值如下:多因素分析的主要內(nèi)容研究多個(gè)相依因素之間關(guān)系:因素間的依賴(lài)性:如P5例1P56表3.4…
因素間的互依性如P89表4.2P111表6.2…多因素分析的主要用途變量間相依性關(guān)系(依賴(lài)、互依)描述;構(gòu)造預(yù)測(cè)模型,進(jìn)行預(yù)報(bào)與控制;簡(jiǎn)化系統(tǒng)結(jié)構(gòu),探討系統(tǒng)內(nèi)核;構(gòu)造分類(lèi)模式,進(jìn)行分類(lèi)。多因素分析的步驟科研設(shè)計(jì)和選擇多因素分析方法收集資料、整理資料、量化資料數(shù)據(jù)分析及結(jié)果解讀應(yīng)用收集整理資料數(shù)據(jù)一般格式:觀察單位X1X2…XP1X11X12…X1P2X21X22…X2P……………nXn1Xn2…Xnp收集整理資料要求數(shù)據(jù)不能缺失足夠的樣本量
多元線性回歸
MultipleRegression衛(wèi)生統(tǒng)計(jì)與信息管理教研室基本概念例
以8歲正常男童的
體重X1
心臟縱徑X2兒童心臟面積Y
胸腔橫徑X3推算基本概念例:人的體重與身高、胸圍血壓值與年齡、性別、勞動(dòng)強(qiáng)度、飲食習(xí)慣、吸煙狀況、家族史糖尿病人的血糖與胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂射頻治療儀定向治療腦腫瘤過(guò)程中,腦皮質(zhì)的毀損半徑與輻射的溫度與照射的時(shí)間基本概念多元(重)線性回歸方程描述2個(gè)或2個(gè)以上自變量Xi與1個(gè)應(yīng)變量Y的統(tǒng)計(jì)關(guān)系的線性方程。自變量階數(shù)為1的多元線性回歸方程被稱(chēng)為一階線性回歸方程。Y(hat)=b0+b1x1+b2x2+…+bmxm基本內(nèi)容從具有n個(gè)樣品的m個(gè)自變量與1個(gè)應(yīng)變量的樣本觀測(cè)數(shù)據(jù)出發(fā),建立Xi與Y關(guān)系的線性回歸方程表達(dá)式;
Y(hat)=b0+b1x1+b2x2+…+bmxm對(duì)所建立的多元線性回歸方程進(jìn)行假設(shè)檢驗(yàn):各βi(i=12….m)不全等于0;對(duì)每一變量進(jìn)行假設(shè)檢驗(yàn):
H0:某一βJ不等于0;應(yīng)用:描述、預(yù)報(bào)與控制。多元回歸分析所要求的條件LINE樣本量要求:一般樣本含量要求是參與分析的變量(自變量+因變量)個(gè)數(shù)的5~10倍,對(duì)多元線性回歸甚至要求20倍(粗略估計(jì))。數(shù)據(jù)準(zhǔn)備---數(shù)據(jù)格式數(shù)據(jù)準(zhǔn)備----隨機(jī)缺失的處理不完全數(shù)據(jù)樣品:1個(gè)樣品中有一個(gè)或幾個(gè)變量值缺失?!叭笔А狈譃榉请S機(jī)缺失、隨機(jī)缺失。隨機(jī)缺失的處理樣本含量大,不完全數(shù)據(jù)樣品小,刪除該樣品;樣本含量小,需利用不完全數(shù)據(jù)樣品
※
用該變量的均數(shù)值代替;
※
缺失值變量與其他變量相關(guān)程度大,則建立該缺失變量與其他變量的回歸方程,據(jù)此推算缺失值;
※其他處理辦法數(shù)據(jù)準(zhǔn)備----量化定量資料是否需要進(jìn)行轉(zhuǎn)換?定性資料數(shù)量化回歸模型μY|x1,x2…xm=β0+β1x1+β2x2+…+βmxmβ0:常數(shù)項(xiàng),截距,指當(dāng)所有自變量X1、X2、…Xm均為0時(shí),應(yīng)變量Y的總體平均值μYΒj(j=1,2,…,m):自變量Xj的總體偏回歸系數(shù),表示在其他自變量保持不變時(shí),自變量Xj每增加(或減少)一個(gè)計(jì)量單位,應(yīng)變量Y平均變化Βj個(gè)單位回歸方程
從樣本數(shù)據(jù)出發(fā),建立的樣本回歸方程
Y(hat)=b0+b1x1+b2x2+…+bmxm
Y(hat):μY|x1,x2…xm的估計(jì)值b0
,b1,b2,…..,bm:參數(shù)β0,β1,…,βm的估計(jì)值,即常數(shù)項(xiàng)和偏回歸系數(shù)回歸方程的建立參數(shù)估計(jì)原理根據(jù)最小二乘法原理,通過(guò)對(duì)微分方程組求偏導(dǎo)數(shù),解出常數(shù)項(xiàng)b0
(或待定系數(shù))和偏回歸系數(shù)b1,b2…..bm。最小二乘法原理使得實(shí)際觀察值Yi與回歸方程
的估計(jì)值Y(hat)之間的殘差平方和最小。正規(guī)方程矩陣形式與解的矩陣形式B為方程的解B=(X’X)-1X’Y中
1x11x12…x1my1b0X=1x21x22…x2mY=y2B=
b1
……1xn1xn2…xnm
ym
bm回歸效果的檢驗(yàn)建立了回歸方程后,需要進(jìn)行假設(shè)性檢驗(yàn)
整個(gè)模型的假設(shè)檢驗(yàn)各回歸參數(shù)的假設(shè)檢驗(yàn)整個(gè)模型的假設(shè)檢驗(yàn)建立檢驗(yàn)假設(shè)和備擇假設(shè)
H0:
β1=…βm=0,
H1:β1,…,βm不全為0
整個(gè)模型的假設(shè)檢驗(yàn)方差分析整個(gè)模型的假設(shè)檢驗(yàn)判斷結(jié)果
根據(jù)檢驗(yàn)水平a,查F值表,F(xiàn)a,若F≥Fa
,P<a,則拒絕H0
,可認(rèn)為回歸效果具有統(tǒng)計(jì)學(xué)意義,否則,接受H0
?;貧w系數(shù)的假設(shè)檢驗(yàn)建立檢驗(yàn)假設(shè)和備擇假設(shè)
H0:
βj=0,
H1:βj=0
回歸系數(shù)的假設(shè)檢驗(yàn)t檢驗(yàn)Sbi=SY.x1,x2….xm(Cii)1/2其中,SY.12….m:剩余標(biāo)準(zhǔn)差
Cii
=(X’X)-1
回歸系數(shù)的假設(shè)檢驗(yàn)判斷結(jié)果
根據(jù)檢驗(yàn)水平a,查t值表,ta,若t≥ta
,P<a,則拒絕H0
,βj=0,
否則,接受H0
,βj=0,
?;貧w系數(shù)的區(qū)間估計(jì)bi±tα(n-m-1)Sbi多元線性回歸方程的評(píng)價(jià)有關(guān)評(píng)價(jià)指標(biāo)F檢驗(yàn)RootMSE(剩余標(biāo)準(zhǔn)差)R-Square(決定系數(shù))AdjR-Sq(校正決定系數(shù))RootMSE:SY.x1,x2….xm
,剩余標(biāo)準(zhǔn)差R-Square:回歸平方和在Y的總離均差平方和中所占比重
R-Square=SS回歸/SS總=1-SS剩余/SS總0≤R-Square≤1
當(dāng)所有的回歸系數(shù)均為0,即β1=…βm=0時(shí),則R-Square=0
當(dāng)所有的觀測(cè)值正好落在擬和的回歸平面或超平面上時(shí),即Yi=Yi(hat)時(shí),則R-Square=1R-Square越接近1,說(shuō)明回歸模型對(duì)資料的擬合優(yōu)度越佳,故R-Square作為衡量模型優(yōu)劣的測(cè)度。
在簡(jiǎn)單線性回歸中,僅一個(gè)自變量:R-Square=r-Square使用R-Square評(píng)價(jià)模型時(shí)需注意:較大的R-Square并不一定意味著擬合模型是有用的,可能是因?yàn)椋?/p>
只取得自變量很少幾個(gè)水平的觀察值,此時(shí),盡管R-Square很大,甚至趨于1,但它不能作為衡量模型優(yōu)劣的測(cè)度統(tǒng)計(jì)量;增加自變量,R-Square增大。
R:復(fù)相關(guān)系數(shù),多元相關(guān)系數(shù)或全相關(guān)系數(shù)。表示應(yīng)變量Y與所有自變量(X1、X2…Xm)間線性相關(guān)關(guān)系的密切程度,是Y(實(shí)際值)和Y(hat)(在回歸平面或超平面上的估計(jì)值)的簡(jiǎn)單相關(guān)系數(shù)AdjR-Sq:校正決定系數(shù)為避免因自變量增加,R-Square增大的不合理現(xiàn)象,提出AdjR-Sq??梢?jiàn),校正決定系數(shù)是相對(duì)SS殘與SS總的自由度進(jìn)行的加權(quán)調(diào)整。應(yīng)用偏回歸系數(shù)β
βj
:表示在其他自變量保持不變時(shí),自變量Xj每增加(或減少)一個(gè)計(jì)量單位,應(yīng)變量Y平均變化Βj個(gè)單位,描述Y與Xj的數(shù)量關(guān)系;Βj有量綱,如要比較Xi與Xj對(duì)Y的影響程度,不能直接根據(jù)βi與βj的絕對(duì)值大小下結(jié)論,要消除量綱的影響,將βi與βj標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化偏回歸系數(shù)β‘
β’j=βj*Sj/Sy
Sj:Xj的標(biāo)準(zhǔn)差
Sy:Y的標(biāo)準(zhǔn)差依據(jù)樣本,計(jì)算b’i,b’j,對(duì)b’i,b’j
進(jìn)行統(tǒng)計(jì)檢驗(yàn),差別無(wú)統(tǒng)計(jì)學(xué)意義,推斷β’i與β’j無(wú)差別,差別有統(tǒng)計(jì)學(xué)意義,β’i與β’j有差別,根據(jù)絕對(duì)值大小決定Xi與Xj對(duì)Y的影響程度大小。應(yīng)用標(biāo)準(zhǔn)化偏回歸系數(shù)的假設(shè)檢驗(yàn)
H0:β’i=β’j(i=j)H1:β’i=β’j應(yīng)用根據(jù)較易測(cè)得的自變量推算不易測(cè)得的應(yīng)變量如由身高、體重推算體表面積應(yīng)用各樣本觀察值XI取值處Y的總體均數(shù)的置信區(qū)間Y(hat)±tα(n-m-1)SY(hat)應(yīng)用各樣本觀察值XI取值處Y的個(gè)體值的區(qū)間(容許區(qū)間)Y(hat)±tα(n-m-1)SY可用于制定多元參考值范圍多元回歸分析中注意問(wèn)題LINE條件樣本含量資料量化多元共線性多元回歸分析中注意問(wèn)題多元(重)共線性一些自變量或全部自變量間存在高度相關(guān),這時(shí)求得的回歸系數(shù)值不穩(wěn)定且難以解釋?zhuān)踔翢o(wú)法求解回歸系數(shù)值。解決辦法:嶺回歸分析逐步回歸分析主成分回歸分析實(shí)例P19-P28多元相關(guān)多個(gè)自變量(X1,X2,…Xm)與一個(gè)應(yīng)變量Y情況下,各變量間線性關(guān)系的密切程度。包括:全體自變量(X1,X2,…Xm)與應(yīng)變量Y間線性關(guān)系的密切程度-----復(fù)相關(guān)系數(shù)R;各變量?jī)蓛砷g線性關(guān)系的密切程度-----偏相關(guān)系數(shù)多元相關(guān)Xi與Y間偏相關(guān)系數(shù)消除其余自變量影響后Xi與Y間的線性相關(guān)性。Ui:偏回歸平方和,在m個(gè)自變量中去掉一個(gè)自變量Xi后,回歸平方和減少的值;Qi(m-1):在m個(gè)自變量中去掉一個(gè)自變量Xi后,其余m-1個(gè)自變量作線性回歸時(shí)的剩余平方和多元相關(guān)Xi與Y間偏相關(guān)系數(shù)性質(zhì)偏相關(guān)系數(shù)取值范圍-1~+1;Xi與Y的偏相關(guān)系數(shù)為0,則偏回歸平方和亦為0,Xi與Y線性意義下呈零相關(guān);Xi與Y的偏相關(guān)系數(shù)為-1或+1,則剩余平方和為0,Xi與Y有最理想的線性關(guān)系多元相關(guān)Xi與Xj間的偏相關(guān)系數(shù)公式:P18多元線性回歸中自變量的確定:根據(jù)理論知識(shí)與經(jīng)驗(yàn)決定自變量,由于對(duì)部分自變量的作用不確認(rèn),借助統(tǒng)計(jì)分析來(lái)實(shí)現(xiàn),剔除:(1)對(duì)問(wèn)題的研究可能不重要;(2)可能實(shí)際上與其他變量重疊;(3)較大測(cè)量誤差。
多元逐步回歸為何要剔除一部分自變量?自變量太多,信息成本高,模型復(fù)雜,不易分析理解;高度相關(guān)的自變量并不增強(qiáng)模型的預(yù)測(cè)能力,反而加大回歸系數(shù)的樣本變差,削弱模型的描述能力。多元逐步回歸多元逐步回歸------從m個(gè)自變量中選擇K(K≤m)個(gè)自變量,擬合最優(yōu)或較理想的多元線性回歸方程。選出的自變量數(shù)應(yīng):足夠少:對(duì)應(yīng)變量無(wú)重要作用的自變量不能多,剔除在方程外充分多:對(duì)應(yīng)變量有重要作用的自變量不能少,保留在方程中自變量選擇準(zhǔn)則殘差平方和(SS殘)與確定系數(shù)(R2)殘差均方(MS殘)與調(diào)整確定系數(shù)(AdjR2)AIC信息統(tǒng)計(jì)量CP統(tǒng)計(jì)量預(yù)測(cè)殘差平方和PRESS殘差平方和(SS殘)殘差平方和(SS殘)與確定系數(shù)(R2)以某一自變量Xj被引入模型中導(dǎo)致殘差平方和的改變量評(píng)價(jià)在此模型條件下Xj對(duì)應(yīng)變量影響程度;引入Xj,SS殘減少量多,則Xj對(duì)Y的作用大,可被引入;剔除Xj,SS殘?jiān)黾恿慷?,則Xj對(duì)Y的作用大,不應(yīng)剔除.確定系數(shù)(R2)R2=1-SS殘/SS總
R2與SS殘完全相關(guān),作為選擇自變量的準(zhǔn)則時(shí)完全與SS殘等價(jià)。SS殘與R2如具有p個(gè)自變量的某一種組合可使:SS殘P與含全部(m個(gè))自變量SS殘m接近;R2P與
R2m接近,則含這p個(gè)自變量的方程為“最優(yōu)”方程。但“接近”的標(biāo)準(zhǔn)憑主觀確定SS殘與R2
SS殘值小,R2大的模型為較“優(yōu)”模型。SS殘、R2值的大小與引入自變量個(gè)數(shù)有關(guān),隨自變量個(gè)數(shù)的增加SS殘減少,R2缺點(diǎn):按SS殘值小,R2大的原則選擇自變量,全部自變量均引入時(shí)的模型為較“優(yōu)”模型,未起到選擇自變量作用;
SS殘變化量準(zhǔn)則適用于比較具有相同自變量個(gè)數(shù)模型優(yōu)劣的判據(jù),而不適合對(duì)變量個(gè)數(shù)不同的模型的比較。殘差均方(MS殘)MS殘P=SS殘P/(n-p-1):含P個(gè)自變量時(shí)的MS殘MS殘是在SS殘準(zhǔn)則基礎(chǔ)上增加了(n-p-1)-1因子,隨著自變量個(gè)數(shù)的增加,SS殘減少,(n-p-1)同時(shí)減少,MS殘不一定減低。殘差均方(MS殘)模型從無(wú)自變量開(kāi)始,按自變量對(duì)Y作用大小逐漸引入,當(dāng)對(duì)Y作用大的自變量引入時(shí),SS殘減少幅度大于(n-p-1)減少幅度,MS殘降低;當(dāng)模型中自變量增加到一定程度,對(duì)Y作用大的自變量已基本引入,再增加自變量,SS殘減少幅度小于(n-p-1)減少幅度,MS殘?jiān)黾?。調(diào)整確定系數(shù)(AdjR2)作為選擇自變量的準(zhǔn)則,AdjR2與MS殘等價(jià)。缺點(diǎn):當(dāng)n很大,AdjR2≈
R2
,評(píng)判效果不佳AIC信息統(tǒng)計(jì)量由日本統(tǒng)計(jì)學(xué)家Akaike(1974)提出并修正以適合于回歸模型選擇的準(zhǔn)則------Akaike
信息量準(zhǔn)則(Akaike
informationcriterion),簡(jiǎn)記AIC。AIC實(shí)用計(jì)算式
AIC=n.Ln(SS殘P)+2P
SS殘P:含P個(gè)自變量時(shí)的殘差平方和。AIC達(dá)到最小為準(zhǔn)則CP統(tǒng)計(jì)量Mallows,C.L(1966)提出。
:含有P個(gè)自變量的殘差平方和;:含有全部自變量(m個(gè))的殘差平方和CP統(tǒng)計(jì)量CP統(tǒng)計(jì)量從預(yù)測(cè)出發(fā),基于殘差平方和的一個(gè)準(zhǔn)則。若含有P個(gè)自變量的模型合適,具有較小的CP值,且CP接近于P+1的模型為“最優(yōu)”模型。n大時(shí),CP準(zhǔn)則效果好預(yù)測(cè)殘差平方和PRESShii
度量第i個(gè)數(shù)據(jù)點(diǎn)到數(shù)據(jù)中心的距離當(dāng)PRESS達(dá)到最小的自變量組合模型為“最優(yōu)”模型自變量選擇方法目的決定自變量選擇方法選擇對(duì)應(yīng)變量作最好預(yù)報(bào)的一組自變量----著眼點(diǎn)是擬合回歸方程的一組自變量整體,用該組自變量應(yīng)使回歸方程擬合得最好;選擇對(duì)應(yīng)變量作最好解釋的主要自變量----著眼點(diǎn)是引入回歸方程的一組自變量的每個(gè)自變量自變量選擇方法最優(yōu)子集法向前法向后法逐步法最優(yōu)子集法m個(gè)自變量,可建立2m-1個(gè)不同自變量組合方程,按某一自變量選擇準(zhǔn)則,從2m-1個(gè)方程中選擇一個(gè)或幾個(gè)最優(yōu)的方程。常用自變量選擇準(zhǔn)則:SS殘準(zhǔn)則、R2準(zhǔn)則、AdjR2準(zhǔn)則、CP準(zhǔn)則建議選擇:AdjR2準(zhǔn)則、CP準(zhǔn)則最優(yōu)子集法優(yōu)點(diǎn)
MS殘最小,F(xiàn)最大,回歸方程最優(yōu);缺點(diǎn):計(jì)算量大,如m=15,則必須擬合215-1=32767個(gè)子集回歸方程來(lái)挑選最優(yōu),因此該法主要適用于m較小情況
當(dāng)樣本含量n小時(shí),結(jié)果的重復(fù)性差;不能保證:引入回歸方程的各自變量都有統(tǒng)計(jì)學(xué)意義、回歸方程外的各自變量都無(wú)統(tǒng)計(jì)學(xué)意義最優(yōu)子集法實(shí)例輸出結(jié)果解讀(M=3)子集SS殘R2MS殘AdjR2CPX18774770.48241096840.41775.8226X211123380.34391390420.26188.9866X37947590.5312993450.47264.7079X1.X24964370.7072709190.62352.6885X1.X36459250.6190922750.51014.7026X2.X36541650.6141934520.50394.8136X1.X2.X34453320.7373742220.60604.0000向前法(forwardselection)基本思想0步:方程中無(wú)自變量,SS回=
0,SS殘=
SS總;1步:分別建立自變量為X1、X2…Xm的m個(gè)回歸方程,對(duì)貢獻(xiàn)最大者,即F最大者(假如為X1)作偏回歸平方和F檢驗(yàn),如無(wú)統(tǒng)計(jì)學(xué)意義,則終止,如有統(tǒng)計(jì)學(xué)意義,則引入X1,完成第1步;向前法2步:在方程中已有X1情況下,分別引入1個(gè)其余自變量,(X1,X2),(X1,X3)…(X1,Xm)建立方程,引入偏F最大者(假設(shè)為X2)作F檢驗(yàn),如無(wú)統(tǒng)計(jì)學(xué)意義,則終止,如有統(tǒng)計(jì)學(xué)意義,則引入X2,完成第2步;反復(fù)上述過(guò)程,直到剩余變量不能再引入。整個(gè)過(guò)程結(jié)束。向前法優(yōu)點(diǎn):計(jì)算量小缺點(diǎn):引入自變量在當(dāng)時(shí)有統(tǒng)計(jì)學(xué)意義,但隨著其他自變量引入,可能引入的自變量與前期引入自變量間存在共線性,導(dǎo)致前期引入自變量作用無(wú)統(tǒng)計(jì)學(xué)意義,因此,最終方程中可能存在無(wú)統(tǒng)計(jì)學(xué)意義的自變量。向后法(backwardselection)0步:建立1個(gè)包含全部自變量的方程,作F檢驗(yàn),如無(wú)統(tǒng)計(jì)學(xué)意義,全部過(guò)程結(jié)束,否則進(jìn)行第1步;1步:建立剔除1個(gè)自變量的方程(共m個(gè)方程),計(jì)算剔除變量后所致殘差平方和增量的偏F值,取最小者與F界值比較,如無(wú)統(tǒng)計(jì)學(xué)意義,則將對(duì)應(yīng)的自變量剔除;……重復(fù)上述過(guò)程,每次循環(huán)剔除1個(gè)對(duì)模型貢獻(xiàn)最小的且無(wú)統(tǒng)計(jì)學(xué)意義的自變量,直到方程中變量都不能再剔除為止。向后法優(yōu)點(diǎn):可行性強(qiáng),若自變量較少時(shí),不太多的步驟可以獲得回歸方程;缺點(diǎn):1、第0步計(jì)算含全部自變量的回歸方程,如自變量數(shù)多,則計(jì)算量大;2、每次剔除1個(gè)貢獻(xiàn)最小且無(wú)統(tǒng)計(jì)學(xué)意義的自變量,若無(wú)統(tǒng)計(jì)學(xué)意義的自變量多,則計(jì)算量大。逐步法(stepwiseselection)向前法與向后法相結(jié)合,基本思想:1步:在全部自變量中,引入一個(gè)對(duì)Y貢獻(xiàn)最大的自變量,建立只含1個(gè)自變量的回歸方程;2步:在上步基礎(chǔ)上考慮引入第2個(gè)變量,建立只含2個(gè)自變量的回歸方程;3步:2個(gè)自變量的回歸方程中是否有變量剔除;…..每引入1個(gè)與剔除1個(gè)自變量均作假設(shè)檢驗(yàn),以保證引入新自變量前與引入新變量后,方程中均只含有具有統(tǒng)計(jì)學(xué)意義的自變量,直到無(wú)法剔除方程中的自變量,也無(wú)法引入方程外的自變量。實(shí)例P34聚類(lèi)分析(ClusterAnalysis)聚類(lèi)分析樣品x1x2157271332465566聚類(lèi)分析聚類(lèi)分析生活中實(shí)際例子----衣物、鞋帽等的尺碼;聚類(lèi)分析(ClusterAnalysis)
實(shí)例----教材P84
根據(jù)19個(gè)區(qū)縣環(huán)境監(jiān)測(cè)資料(SO2、NOX、TSP),對(duì)其進(jìn)行污染程度分類(lèi)----教材P93
根據(jù)27個(gè)少數(shù)民族16歲男孩體型指標(biāo)(身高、坐高、體重、胸圍、肩寬、骨盆寬),對(duì)其進(jìn)行體型分類(lèi)聚類(lèi)分析實(shí)例某醫(yī)學(xué)院校口腔系對(duì)我國(guó)的全口預(yù)成牙列進(jìn)行了研究,對(duì)609例全口缺牙病人的上下牙槽弓形狀的10項(xiàng)指標(biāo)進(jìn)行了測(cè)量,將10個(gè)指標(biāo)進(jìn)行分類(lèi),每類(lèi)挑選1個(gè)典型指標(biāo),以便作預(yù)成牙列定型用。聚類(lèi)分析(ClusterAnalysis)分類(lèi)方法經(jīng)驗(yàn)法:根據(jù)經(jīng)驗(yàn)與專(zhuān)業(yè)知識(shí)作定性分類(lèi),該分類(lèi)帶有一定的主觀性和任意性,難以實(shí)現(xiàn)準(zhǔn)確分類(lèi);聚類(lèi)分析:引進(jìn)數(shù)值分類(lèi)學(xué),形成聚類(lèi)分析的這個(gè)分支,廣泛地應(yīng)用于經(jīng)濟(jì)、管理、地質(zhì)勘探、天氣預(yù)報(bào)、生物分類(lèi)、考古學(xué)、醫(yī)學(xué)、心理學(xué)等方面。聚類(lèi)分析聚類(lèi)分析又稱(chēng)集群分析,是“物以類(lèi)聚”的一種統(tǒng)計(jì)分析方法。基本思想:所研究的樣品(或指標(biāo))之間存在著程度不同的相似性(親疏關(guān)系),因此可根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體找出一些能夠度量樣品(或指標(biāo))之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類(lèi)型的依據(jù),把相似程度較大的樣品(或指標(biāo))聚合為一類(lèi),反復(fù)該過(guò)程,直到把所有樣品(或指標(biāo))都聚合完畢,形成一個(gè)由小到大的分類(lèi)系統(tǒng),并以聚類(lèi)圖呈現(xiàn)出來(lái)。聚類(lèi)分析目的將不明確類(lèi)別的待分類(lèi)對(duì)象按一定規(guī)則分成若干類(lèi),在同一類(lèi)中的對(duì)象在某種意義上趨向于彼此相似,而在不同類(lèi)中對(duì)象趨向于不相似。聚類(lèi)分析數(shù)據(jù)結(jié)構(gòu)樣品X1X2…Xm1x11x12…x1m2x21x22…x2m……………nxn1xn2…xnm聚類(lèi)分析類(lèi)型
根據(jù)分類(lèi)對(duì)象分為:Q型聚類(lèi):對(duì)樣品進(jìn)行分類(lèi)R型聚類(lèi):對(duì)變量進(jìn)行分類(lèi)聚類(lèi)統(tǒng)計(jì)量距離相似系數(shù)聚類(lèi)統(tǒng)計(jì)量---距離具有X1、X2、…Xm的每個(gè)樣品可被視為m維空間中一個(gè)點(diǎn),n個(gè)樣品就有n個(gè)點(diǎn),以任兩兩點(diǎn)之間的距離為聚類(lèi)統(tǒng)計(jì)量,距離小者合并為一類(lèi)。“距離”統(tǒng)計(jì)量常用于Q型聚類(lèi)中聚類(lèi)統(tǒng)計(jì)量---距離
教材P82歐氏距離明氏距離馬氏距離聚類(lèi)統(tǒng)計(jì)量---相似系數(shù)相似程度的度量,
教材P82
相關(guān)系數(shù);指數(shù)相關(guān)系數(shù);列聯(lián)系數(shù),點(diǎn)相關(guān)系數(shù)聚類(lèi)分析方法系統(tǒng)聚類(lèi)法逐步聚類(lèi)法有序聚類(lèi)法系統(tǒng)聚類(lèi)法將被聚對(duì)象各視為1類(lèi),然后按相似程度(聚類(lèi)統(tǒng)計(jì)量反映)最近的2類(lèi)合并為1類(lèi);在上述過(guò)程基礎(chǔ)上,再計(jì)算聚類(lèi)統(tǒng)計(jì)量,又合并最相似的2類(lèi)……..,如此反復(fù)進(jìn)行,直至所有被聚對(duì)象合并為1類(lèi)為止。逐步聚類(lèi)法對(duì)被聚對(duì)象選取凝聚點(diǎn),計(jì)算樣品(或指標(biāo))與凝聚點(diǎn)的距離,進(jìn)行初始分類(lèi);初始分類(lèi)后,計(jì)算新的凝聚點(diǎn),進(jìn)行第二次分類(lèi),直至所有被聚對(duì)象不再調(diào)整為止。逐步聚類(lèi)法凝聚點(diǎn)選擇方法經(jīng)驗(yàn)法:適用于對(duì)將要進(jìn)行的分類(lèi)有一定了解。如對(duì)100所醫(yī)院按各項(xiàng)質(zhì)量指標(biāo)聚類(lèi),擬聚為好、中、差三類(lèi),則可從100所醫(yī)院中選3所比較典型的不同類(lèi)型醫(yī)院作為凝聚點(diǎn);密度法:以每個(gè)樣品為中心,人為決定一個(gè)距離R為半徑畫(huà)圓,落入該圓內(nèi)或圓周上的其他樣品數(shù)即為該樣品密度。以密度最大樣品為第一凝聚點(diǎn),密度次大的樣品,如它與第一凝聚點(diǎn)的距離大于2R,則可為第二聚點(diǎn)……..。有序聚類(lèi)法樣品按某種特征(如年齡、時(shí)間等)排列次序,聚類(lèi)時(shí)樣品的排列次序不能打亂,而只能按照樣品本身的排列次序?qū)悠贩指畛蓭最?lèi)。本次教學(xué)涉及內(nèi)容指標(biāo)聚類(lèi):R型樣品聚類(lèi):Q型指標(biāo)聚類(lèi)分析目的將相似指標(biāo)聚為一類(lèi),每類(lèi)提出一個(gè)典型指標(biāo),以便以少量的幾個(gè)典型指標(biāo)來(lái)代表原來(lái)的眾多指標(biāo)。基本原則將相似系數(shù)大的指標(biāo)歸在相同類(lèi)。指標(biāo)聚類(lèi)分析聚類(lèi)統(tǒng)計(jì)量(聚類(lèi)標(biāo)志):相似系數(shù)Cij
注意:不同類(lèi)型資料,相似系數(shù)Cij計(jì)算各不相同。指標(biāo)聚類(lèi)分析計(jì)量資料時(shí),以Spearman相關(guān)系數(shù)rij來(lái)定義相似系數(shù)Cijrij全為正時(shí),Cij=rij
(0≤Cij≤
1
),
rij有負(fù)值時(shí),則相似系數(shù)有2種定義方法:第一,Cij=rij
(0≤Cij≤
1
)第二,Cij=1+rij(0≤Cij≤
1
)如rij
=-0.95,第一種方法,Cij=0.95
,認(rèn)為Xi與Xj相似,可能聚到相同類(lèi);如rij
=-0.95,第二種方法,Cij=0.05
,認(rèn)為Xi與Xj不太相似,不會(huì)聚到相同類(lèi);具體取何定義方法,根據(jù)實(shí)際情況而定指標(biāo)聚類(lèi)分析二分類(lèi)計(jì)數(shù)資料,以下述公式來(lái)定義相似系數(shù)Cij教材P83式4.10xj+-Xi+ab-cd指標(biāo)聚類(lèi)分析等級(jí)資料,以下述公式來(lái)定義相似系數(shù)Cij教材P83式4.9Xj高中低Xi-f11f12f13+f21f22f23++f31f32f33+++f41f42f43指標(biāo)聚類(lèi)分析方法:常采用系統(tǒng)聚類(lèi)方法實(shí)例某醫(yī)學(xué)院??谇幌祵?duì)我國(guó)的全口預(yù)成牙列進(jìn)行了研究,對(duì)609例全口缺牙病人的上下牙槽弓形狀的10項(xiàng)指標(biāo)進(jìn)行了測(cè)量,將10個(gè)指標(biāo)進(jìn)行分類(lèi),每類(lèi)挑選1個(gè)典型指標(biāo),以便作預(yù)成牙列定型用。指標(biāo)聚類(lèi)分析---步驟每個(gè)指標(biāo)自成1類(lèi),共有G1、G2、…G10個(gè)類(lèi)別,計(jì)算10個(gè)類(lèi)別的相關(guān)系數(shù);G1G2…G8G9G20.89G30.670.84G40.400.35….G50.400.31…G60.440.37…G70.210.18…G80.620.54…G90.630.56…0.79G100.340.31…0.260.23指標(biāo)聚類(lèi)分析---步驟最大相似系數(shù)r1&2=0.89,合并G1與G2成G11,聚成9類(lèi)指標(biāo)聚類(lèi)分析---步驟求9類(lèi)G11、G3、G4、G5、G6、G7、G8、G9、G10的相關(guān)系數(shù)。對(duì)于G11(G1與G2合并成的新類(lèi))與其他各類(lèi)的相關(guān)系數(shù)如下:
r(i&11)=min(ri&1,ri&2),i=3,4,5,6,7,8,9,10指標(biāo)聚類(lèi)分析---步驟G11G3G4G5G6G7G8G9G30.67G40.350.26G50.310.150.24G60.370.210.210.87G70.180.120.680.240.21G80.540.370.280.730.820.22G90.560.400.240.760.840.190.79G100.310.220.890.230.200.800.260.23指標(biāo)聚類(lèi)分析---步驟最大相似系數(shù)r4&10=0.89,合并G4與G10成G12,聚成8類(lèi).循環(huán)上述過(guò)程,直至將所有變量聚成1類(lèi)。指標(biāo)聚類(lèi)分析---步驟對(duì)指標(biāo)的系統(tǒng)聚類(lèi)過(guò)程進(jìn)行分析:
作指標(biāo)的系統(tǒng)聚類(lèi)過(guò)程表和圖;
確定聚幾類(lèi)以及每類(lèi)包含哪些指標(biāo)。判斷依據(jù):系統(tǒng)聚類(lèi)過(guò)程表和圖專(zhuān)業(yè)知識(shí)實(shí)際需要當(dāng)某并類(lèi)使相似系數(shù)發(fā)生大的改變時(shí),則提示應(yīng)停止并類(lèi)。指標(biāo)聚類(lèi)分析---步驟G相似系數(shù)聚類(lèi)情況101X1.X2.X3.X4.X5.X6.X7.X8.X9.X1090.89(X1.X2).X3.X4.X5.X6.X7.X8.X9.X1080.89(X1.X2).X3.(X4.X10).X5.X6.X7.X8.X9.70.87(X1.X2).X3.(X4.X10).(X5.X6).X7.X8.X960.79(X1.X2).X3.(X4.X10).(X5.X6).X7.(X8.X9)50.73(X1.X2).X3.(X4.X10).(X5.X6.X8.X9).X740.68(X1.X2).X3.(X4.X7.X10).(X5.X6.X8.X9)3***0.67(X1.X2.X3).(X4.X7.X10).(X5.X6.X8.X9)20.19(X1.X2.X3).(X4.X5.X6.X7.X8.X9.X10)10.12(X1.X2.X3.X4.X5.X6.X7.X8.X9.X10)指標(biāo)聚類(lèi)分析---步驟
每類(lèi)典型指標(biāo)的選擇:同類(lèi)指標(biāo)間相關(guān)系數(shù)
X1-X2:0.89,X1-X3:0.67,X2-X3:0.84每類(lèi)各指標(biāo)的R2,R12=(0.892+0.672)/(3-1)=0.62R22=(0.892+0.842)/(3-1)=0.75(最大)R32=(0.672+0.842)/(3-1)=0.58
X2為第1類(lèi)的典型指標(biāo)其余類(lèi)別典型指標(biāo)選擇法同上樣品聚類(lèi)分析目的樣品分類(lèi)尋找各類(lèi)典型樣品代表相應(yīng)類(lèi)別樣品例:解剖學(xué)上根據(jù)骨骼的形狀、大小等特征,區(qū)別樣品是人還是猿,區(qū)別男還是女等。樣品聚類(lèi)分析聚類(lèi)統(tǒng)計(jì)量:距離,最常用的是歐氏距離。對(duì)于具有指標(biāo)X1、X2...XM的樣品i與樣品j,平方距離為基本原則:2個(gè)樣品的距離越短越相近,故將距離短的樣品歸在相同類(lèi);樣品聚類(lèi)分析數(shù)據(jù)標(biāo)準(zhǔn)化問(wèn)題:樣品各指標(biāo)單位不同;樣品各指標(biāo)單位雖不同,但數(shù)量級(jí)相差大;常用標(biāo)準(zhǔn)化法,樣品聚類(lèi)分析系統(tǒng)聚類(lèi)逐步聚類(lèi)主要介紹系統(tǒng)聚類(lèi)樣品聚類(lèi)分析----系統(tǒng)聚類(lèi)
例:10個(gè)樣品,3個(gè)指標(biāo)數(shù)據(jù)為例。步驟按下式標(biāo)準(zhǔn)化原始數(shù)據(jù)樣品x1x2x3a16896.3a274215.6a373187.0a46986.5a578176.1a677196.1a776186.2a882176.0a974195.9a106885.7標(biāo)準(zhǔn)化數(shù)據(jù)樣品x1x2x3a1-1.2810-1.27600.3967a20.02171.1165-1.3390a3-0.19540.51842.1324a4-1.0639-1.47540.8926a50.89020.3190-0.0992a60.67310.7178-0.0992a70.45600.51840.1488a81.75870.3190-0.3471a90.02170.7178-0.5951a10-1.2810-1.4754-1.0910樣品聚類(lèi)分析----系統(tǒng)聚類(lèi)每個(gè)樣品為一類(lèi),共10類(lèi),G1、G2、G3、G4、G5、G6、G7、G8、G9、G10。樣品聚類(lèi)分析----系統(tǒng)聚類(lèi)兩兩樣品距離如:a1 -1.2810 -1.2760 0.3967a2 0.0217 1.1165 -1.3390G1G2G3G4G5G6G7G8G9G210.43G37.4112.46G40.3312.886.27G57.502.936.208.02G68.042.125.778.810.21G76.302.764.366.840.290.15G812.344.6410.0112.720.821.401.98G96.660.717.538.201.160.670.783.24G102.258.4815.543.988.929.618.5313.016.75樣品聚類(lèi)分析----系統(tǒng)聚類(lèi)由于d26&7=0.15,為最小,將G6與G7合并成G11,聚成9類(lèi):G1、G2、G3、G4、G5、G8、G9、G10、G11樣品聚類(lèi)分析----系統(tǒng)聚類(lèi)求9類(lèi)間兩兩距離。D2i&11=max(d2i&6,d2i&7),i=123458910如D21&11=max(d21&6,d21&7=max(8.04,6.30)=8.04
G1G2G3G4G5G6G7G8G9G210.43G37.4112.46G40.3312.886.27G57.502.936.208.02G118.042.765.778.810.29G812.344.6410.0112.720.821.401.98G96.660.717.538.201.160.670.783.24G102.258.4815.543.988.929.618.5313.016.75樣品聚類(lèi)分析----系統(tǒng)聚類(lèi)由于d25&11=0.29,為最小,將G5與G11合并成G12,聚成8類(lèi):G1、G2、G3、G4、G8、G9、G10、G12..........每次減少1類(lèi),直至最后全部聚成1類(lèi)樣品聚類(lèi)分析----系統(tǒng)聚類(lèi)系統(tǒng)聚類(lèi)過(guò)程分析G距離d2i&j聚類(lèi)情況100a1,a2,a3,a4,a5,a6,a7,a8,a9,a1090.15a1,a2,a3,a4,a5,(a6,a7),a8,a9,a1080.29a1,a2,a3,a4,(a5,a6,a7),a8,a9,a1070.33(a1,a4),a2,a3,(a5,a6,a7),a8,a9,a1080.71(a1,a4),(a2,a9),a3,(a5,a6,a7),a8,a1051.98(a1,a4),(a2,a9),a3,(a5,a6,a7,a8),a1043.98(a1,a4,a10),(a2,a9),a3,(a5,a6,a7,a8)34.64(a1,a4,a10),(a2,a5,a6,a7,a8,a9),a3212.46(a1,a4,a10),(a2,a3,a5,a6,a7,a8,a9)115.54(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10)樣品聚類(lèi)分析----系統(tǒng)聚類(lèi)確定聚類(lèi)類(lèi)別數(shù)及各類(lèi)包含的樣品依據(jù):根據(jù)聚類(lèi)過(guò)程表專(zhuān)業(yè)知識(shí)與實(shí)際需要尤其注意:聚類(lèi)過(guò)程表中的距離發(fā)生大的跳躍時(shí),則提示應(yīng)停止并類(lèi)。樣品聚類(lèi)分析----系統(tǒng)聚類(lèi)本例從3類(lèi)并為2類(lèi)時(shí),距離從4.64到12.46,發(fā)生大的跳躍,故考慮聚成3類(lèi)。1類(lèi):(a1,a4,a10),2類(lèi):(a2,a5,a6,a7,a8,a9),3類(lèi):a3樣品聚類(lèi)分析----系統(tǒng)聚類(lèi)幾點(diǎn)說(shuō)明樣品聚類(lèi)分析主要用于解釋樣本,但也可以利用分類(lèi)結(jié)果作預(yù)報(bào):算出待預(yù)報(bào)樣品與各類(lèi)的距離,離哪類(lèi)距離最短,則判該樣品屬于哪類(lèi);樣品聚類(lèi)完成后,可對(duì)各類(lèi)別的XK作差別的統(tǒng)計(jì)學(xué)檢驗(yàn),如F檢驗(yàn)等,推斷哪些變量XK對(duì)分類(lèi)作用有統(tǒng)計(jì)學(xué)意義。判別分析實(shí)例1:某醫(yī)院對(duì)若干個(gè)健康人和心肌梗塞病人的心電圖作了對(duì)比分析,結(jié)合專(zhuān)業(yè)知識(shí),找出了區(qū)分兩者的一些指標(biāo)(X1、X2、X3)。隨機(jī)抽取10名健康人和6名病人(作為例子,僅抽取了16個(gè)樣品)。目的:通過(guò)心電圖指標(biāo),判斷某個(gè)體歸屬于健康人還是心肌梗塞病人實(shí)例1資料(g=1:健康人,g=2:病人gkx1x2x311436.7049.592.3212290.6730.022.46………19292.5626.072.16110276.8416.602.9121510.4767.641.7322510.4162.711.58……………26515.7084.591.75判別分析實(shí)例P51例1:根據(jù)X1-X7值判別某病人疾病類(lèi)型:卡他性?蜂窩組織炎?壞疽性?腹膜炎?判別分析概念有N個(gè)分別屬于1、2、…G的不同類(lèi)別樣品,每個(gè)樣品具有X1、X2、…Xm個(gè)指標(biāo),按照一定原則,擬合判別函數(shù),用以判別新樣品的類(lèi)別的多元統(tǒng)計(jì)分析方法。1936年R.A.Fisher首次提出,隨著計(jì)算機(jī)的發(fā)展而被廣泛應(yīng)用。判別分析遵循的原則隨機(jī)化對(duì)每一待判的個(gè)體X,建立一組概率函數(shù),λ1(X),λ2(X),…λg(X),λi(X)≥0,且∑λi(X)=1。將具有觀測(cè)值X(x1,x2,…xm)的個(gè)體以概率λi(X)化歸到第i個(gè)總體。非隨機(jī)化由個(gè)體X的一切可能值構(gòu)成樣本空間S,將S劃分為g個(gè)互相排斥的區(qū)域ω1、ω2…ωg,若某個(gè)體觀測(cè)值X(X1、X2、…Xm)落在ωi中,則將該個(gè)體判屬第i總體判別分析分類(lèi)按個(gè)體屬性(歸屬類(lèi)別)數(shù)量:兩類(lèi)判別多類(lèi)判別按判別指標(biāo)(X)性質(zhì)計(jì)數(shù)資料判別計(jì)量資料判別:一般判別逐步判別判別分析資料預(yù)處理對(duì)于計(jì)量資料判別,需對(duì)少數(shù)計(jì)數(shù)資料進(jìn)行量化。對(duì)于計(jì)數(shù)資料判別,需對(duì)少數(shù)計(jì)量資料轉(zhuǎn)換成等級(jí)資料判別分析本教學(xué)講解內(nèi)容計(jì)數(shù)資料最大似然法判別分析計(jì)量資料兩類(lèi)Fisher判別分析計(jì)量資料多類(lèi)Bayes判別分析計(jì)數(shù)資料最大似然法判別分析資料要求判別指標(biāo)全部或大部分是定性和(或)等級(jí)指標(biāo),如有少量定量指標(biāo),則轉(zhuǎn)換成等級(jí)指標(biāo)。M個(gè)判別指標(biāo)X1、X2、…Xm彼此獨(dú)立。計(jì)數(shù)資料最大似然法判別分析步驟收集具有明確歸屬類(lèi)別個(gè)體的一批判別指標(biāo),X1、X2…Xmg,判別指標(biāo)符合最大似然法資料要求;求各個(gè)類(lèi)別下各判別指標(biāo)出現(xiàn)各種表現(xiàn)的條件概率,以相應(yīng)頻率估計(jì);建立似然函數(shù),判斷個(gè)體所屬類(lèi)別(P513.1)判別效果評(píng)價(jià)計(jì)數(shù)資料最大似然法判別分析實(shí)例P51例1計(jì)數(shù)資料最大似然法判別分析注意事項(xiàng)最大似然法建立在獨(dú)立事件的概率乘法定理基礎(chǔ)上,各判別指標(biāo)間必須相互獨(dú)立;歸屬類(lèi)別g(1,2…g)間必須互斥;用頻率估計(jì)條件概率,因此,樣本量要足夠大;對(duì)歸屬類(lèi)別的判斷具有相對(duì)性,當(dāng)兩似然函數(shù)Li與Lj接近,結(jié)論需慎重。計(jì)量資料兩類(lèi)Fisher判別分析設(shè)有N個(gè)樣品,分別歸屬于2個(gè)類(lèi)別,N=n1+n2,m個(gè)判別指標(biāo)為X1、X2…Xm,據(jù)此,按一定原則建立線性判別函數(shù),并對(duì)新樣品進(jìn)行判別的多元統(tǒng)計(jì)分析方法。判別函數(shù):Z=C1X1+C2X2+…+CmXm,Ci:判別系數(shù),反映Xi對(duì)判別分類(lèi)作用的方向和大小,Xi變化1個(gè)單位,Z變化Ci
個(gè)單位,Ci>0,Xi增加,Z增加,Ci<0,Xi增加,Z減少。計(jì)量資料兩類(lèi)Fisher判別分析Fisher準(zhǔn)則求Fisher判別函數(shù)的判別系數(shù)Vi的方法稱(chēng)Fisher準(zhǔn)則,即:
2個(gè)總體中每個(gè)個(gè)體的Z值在Z軸上相應(yīng)于1點(diǎn)(也可理解為,X1、X2…Xm的m維空間中的1點(diǎn),把它們投影到1個(gè)方向Z軸上),要使2個(gè)Z總體均數(shù)的差別盡可能大,而各Z總體內(nèi)的方差盡可能小,即不同總體的Z值點(diǎn)盡可能分開(kāi),相同總體的Z值點(diǎn)盡可能靠近。計(jì)量資料兩類(lèi)Fisher判別分析內(nèi)容由n1個(gè)第1類(lèi)樣品與n2個(gè)第2類(lèi)樣品的m個(gè)判別指標(biāo)的觀測(cè)值擬合Fisher判別函數(shù);確定第1類(lèi)與第2類(lèi)分界值Z分界;對(duì)擬合的Fisher判別函數(shù)進(jìn)行假設(shè)檢驗(yàn);對(duì)于有統(tǒng)計(jì)學(xué)意義的判別函數(shù),計(jì)算各判別指標(biāo)Xi對(duì)判別函數(shù)的貢獻(xiàn)率,計(jì)算標(biāo)準(zhǔn)化判別系數(shù)并對(duì)其進(jìn)行假設(shè)檢驗(yàn)。計(jì)量資料兩類(lèi)Fisher判別分析---實(shí)例實(shí)例1資料(g=1:健康人,g=2:病人gkx1x2x311436.7049.592.3212290.6730.022.46………19292.5626.072.16110276.8416.602.9121510.4767.641.7322510.4162.711.58……………26515.7084.591.75第一步---求WijX1、X2、X3的類(lèi)內(nèi)離均差平方和或積和
X1的類(lèi)內(nèi)離均差平方為w11,X1與X2的類(lèi)內(nèi)離均差積和為w12j=1J=2J=3i=139003.20757259.4848-91.3392i=21865.5859-17.9574i=30.6604第二步-----求判別系數(shù)∑mj=1.wijCj
=(N-2)(xi1-xi2)i=1,2,…m39003.2075C1+7259.4848C2-91.3392C3=(16-2)(337.0820-464.5117)7259.4848C1+1865.5859C2-17.9574C3=(16-2)(34.7990-60.1617)-91.3392C1-17.9574C2+0.6604C3=(16-2)(2.3860-1.7883)第二步-----求判別系數(shù)C1=-0.0188,C2=-0.0274,C3=9.3252判別函數(shù)為:
Z=-0.0188X1-0.0274X2+9.3252X3第二步-----2類(lèi)的分界值
1、2類(lèi)的均值分別為:Zg=∑mi=1CiXig,g=1,2Z1=-0.0188*337.0820-0.0274*34.7990+9.3252*2.3860=14.9593Z2=-0.0188*464.5117-0.0274*60.1617+9.3252*1.7883=6.2950第二步----2類(lèi)的分界值
2、Z分界=(Z1+Z2)/2=(14.9593+6.2950)/2=10.6272Z分界可根據(jù)事前概率、據(jù)研究目的確定的兩類(lèi)錯(cuò)判的損失比值進(jìn)行調(diào)整。調(diào)整的Z分界=(Z1+Z2)/2+ln(p1/p2)
Z2
Z分界Z1第三步----Fisher判別函數(shù)的F檢驗(yàn)前提條件:2個(gè)總體符合多元正態(tài)分布且協(xié)方差相等H0:2個(gè)總體相同H1:2個(gè)總體不相同F(xiàn)~F(m,N-m-1)F>F0.05(3,12),P<0.05,所擬合的判別函數(shù)有統(tǒng)計(jì)學(xué)意義。第三步----Fisher判別函數(shù)的F檢驗(yàn)
第三步----Fisher判別函數(shù)的F檢驗(yàn)F~F(m,n1+n2-m-1)本例D2=8.6643,F(xiàn)=9.28F>F0.05(3,12),P<0.05,所擬合的判別函數(shù)有統(tǒng)計(jì)學(xué)意義。第四步各判別指標(biāo)對(duì)判別函數(shù)的貢獻(xiàn)率Xi的貢獻(xiàn)率=Ci(Xi1-Xi2)/D2*100%x1的貢獻(xiàn)率=-0.0188(337.0820-464.5117)/8.6643*100%=27.65%x2的貢獻(xiàn)率=8.02%x3的貢獻(xiàn)率=64.33%第四步求標(biāo)準(zhǔn)化判別系數(shù):Ci‘=CiSiSi2:2類(lèi)合并方差,
Si2=wii/(N-2),i=1,2,…,mC1‘=C1S1=-0.0188*39003.2075/14=-0.9923C2‘=-0.3163C3‘=2.0254第五步---檢驗(yàn)判別函數(shù)的實(shí)際判別效果
回代檢驗(yàn)交叉檢驗(yàn)刀切法檢驗(yàn)第五步---檢驗(yàn)判別函數(shù)的實(shí)際判別效果回代檢驗(yàn):將擬合判別函數(shù)的所有樣品(訓(xùn)練樣品)值代入判別函數(shù),得Z值,通過(guò)Z與Z分界比較判別樣品所屬類(lèi)別;
Z2
Z分界Z1第五步---檢驗(yàn)判別函數(shù)的實(shí)際判別效果Z≥Z分界,判為第1類(lèi)Z<Z分界,判為第2類(lèi)判別類(lèi)別實(shí)際類(lèi)別121ab2cd第五步---檢驗(yàn)判別函數(shù)的實(shí)際判別效果回代檢驗(yàn)缺點(diǎn)回代檢驗(yàn)是針對(duì)訓(xùn)練樣本進(jìn)行的檢驗(yàn),因此,樣本的2個(gè)兩類(lèi)錯(cuò)判率是相應(yīng)總體率的偏低估計(jì)。第五步---檢驗(yàn)判別函數(shù)的實(shí)際判別效果交叉檢驗(yàn)將收集的樣品隨機(jī)分成2份(2份樣品數(shù)最好相等),一份作訓(xùn)練樣本用以擬合判別函數(shù);另一份作為檢驗(yàn)判別效果的樣品。
2個(gè)兩類(lèi)錯(cuò)判率是相應(yīng)總體率的無(wú)偏估計(jì)缺點(diǎn):要求樣本含量大。第五步---檢驗(yàn)判別函數(shù)的實(shí)際判別效果刀切法檢驗(yàn):也稱(chēng)舍一法檢驗(yàn)。當(dāng)樣本含量小時(shí),將N個(gè)訓(xùn)練樣品編號(hào)1、2…N,按序號(hào)從1到N每次去掉一個(gè)樣品,以其余N-1個(gè)樣品擬和判別函數(shù),用以判別所去掉的那個(gè)樣品的類(lèi)別。2個(gè)兩類(lèi)錯(cuò)判率是相應(yīng)總體率的近似無(wú)偏估計(jì)第五步---判別新樣品類(lèi)別預(yù)報(bào)新樣品類(lèi)別將不知類(lèi)別的新樣品X(X1、X2…Xm)代入判別函數(shù),求Z,Z≥Z分界,判為第1類(lèi)Z<Z分界,判為第2類(lèi)此外還可計(jì)算樣品X歸屬于第1類(lèi)與第2類(lèi)的概率。P(1/X)=1/(1+exp(z+z分界))P(2/X)=1-P(1/X)Fisher判別小結(jié)---關(guān)于總體分布的假設(shè)關(guān)于總體分布的假設(shè):Fisher在1936年導(dǎo)出兩類(lèi)判別函數(shù)時(shí),對(duì)總體分布未作任何假設(shè),因此就擬合Fisher判別函數(shù)、定分界值和判別分類(lèi),總體分布可任意。后來(lái),發(fā)展到對(duì)Fisher判別函數(shù)作F檢驗(yàn),理論上導(dǎo)出樣品歸屬2類(lèi)的概率,和總體的2個(gè)兩類(lèi)錯(cuò)判率,這就要求2個(gè)總體符合多元正態(tài)分布,且協(xié)方差矩陣相同。Fisher判別小結(jié)---判別函數(shù)與回歸方程應(yīng)變量不同:回歸方程中Y是一個(gè)實(shí)測(cè)的正態(tài)隨機(jī)變量,判別函數(shù)中Z是m個(gè)判別指標(biāo)Xi加權(quán)的綜合判別指標(biāo)計(jì)量資料多類(lèi)Bayes判別分析基本原理按非隨機(jī)化判別準(zhǔn)則,由個(gè)體X的一切可能值構(gòu)成樣本空間S,將S劃分為g個(gè)互相排斥的區(qū)域ω1、ω2…ωg,若某個(gè)體觀測(cè)值X(X1、X2、…Xm)落在ωi中,則將該個(gè)體判屬第i總體計(jì)量資料多類(lèi)Bayes判別分析判別原則錯(cuò)分損失盡可能小計(jì)量資料多類(lèi)Bayes判別分析判別函數(shù)Z(1)=C0(1)+C1(1)X1+C2(1)X2+…+Cm(1)XmZ(2)=C0(2)+C1(2)X1+C2(2)X2+…+Cm(2)Xm…………………..Z(g)=C0(g)+C1(g)X1+C2(g)X2+…+Cm(g)Xm將待判樣品X1、X2、…Xm帶入求出Z(1)、Z(2)、…Z(m),,,如Z(i)最大,則將新樣品判為第i類(lèi)Bayes判別分析步驟計(jì)算類(lèi)內(nèi)離差陣Wij:與Fisher判別類(lèi)似計(jì)算類(lèi)內(nèi)離差陣的逆矩陣Wij-1求解判別系數(shù):公式見(jiàn)教材P55--3.7、3.8判別函數(shù)的假設(shè)檢驗(yàn)判別效果檢驗(yàn):回代、交叉、刀切新樣品類(lèi)別判定Bayes判別分析步驟---判別函數(shù)的假設(shè)檢驗(yàn)多個(gè)分類(lèi)函數(shù)對(duì)多類(lèi)判別效果的χ2檢驗(yàn)兩兩分類(lèi)函數(shù)對(duì)兩類(lèi)判別效果的F檢驗(yàn)多個(gè)分類(lèi)函數(shù)對(duì)多類(lèi)判別效果的χ2檢驗(yàn)前提條件:
g(g>2)個(gè)總體符合多元正態(tài)分布且協(xié)方差矩陣相等。實(shí)質(zhì)問(wèn)題:推斷g個(gè)總體是否相同。統(tǒng)計(jì)量:χ2=-[N-1-(m+g)/2]*lnU
,ν=m(g-1)
其中,U=Wij/Tij
U:Wilk
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院臨床藥房禮儀與藥品服務(wù)
- 醫(yī)院護(hù)理禮儀與溝通
- 2026年保定職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性考試備考題庫(kù)有答案解析
- 護(hù)理學(xué)科交叉融合與挑戰(zhàn)
- 醫(yī)院檔案管理員檔案管理禮儀
- 護(hù)理崗位禮儀規(guī)范與實(shí)施
- 眼科疾病微創(chuàng)手術(shù)技術(shù)解析
- 2026年菏澤醫(yī)學(xué)專(zhuān)科學(xué)校高職單招職業(yè)適應(yīng)性測(cè)試模擬試題有答案解析
- 臨床檢驗(yàn)技術(shù)培訓(xùn)與規(guī)范
- 護(hù)理專(zhuān)業(yè)學(xué)生的臨床實(shí)習(xí)管理與評(píng)價(jià)
- 當(dāng)兵心理測(cè)試試題及答案
- 2025年湖南省公務(wù)員錄用考試《行測(cè)》試題及答案解析
- 影視產(chǎn)業(yè)國(guó)際化發(fā)展路徑-洞察及研究
- 2025年電氣工程師專(zhuān)業(yè)基礎(chǔ)《供配電》真題及答案
- 國(guó)開(kāi)2025年《行政領(lǐng)導(dǎo)學(xué)》形考作業(yè)1-4答案
- 2025年物理天津會(huì)考試題及答案
- 2025年國(guó)家開(kāi)放大學(xué)《數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)基礎(chǔ)》期末考試備考試題及答案解析
- 吊水魚(yú)專(zhuān)業(yè)知識(shí)培訓(xùn)內(nèi)容課件
- 汽車(chē)產(chǎn)業(yè)自動(dòng)駕駛政策法規(guī)2025年研究報(bào)告
- 口岸安全聯(lián)合防控工作制度
- 水處理設(shè)備維護(hù)課件
評(píng)論
0/150
提交評(píng)論