R語言基礎(chǔ)培訓(xùn)-常用統(tǒng)計分析_第1頁
R語言基礎(chǔ)培訓(xùn)-常用統(tǒng)計分析_第2頁
R語言基礎(chǔ)培訓(xùn)-常用統(tǒng)計分析_第3頁
R語言基礎(chǔ)培訓(xùn)-常用統(tǒng)計分析_第4頁
R語言基礎(chǔ)培訓(xùn)-常用統(tǒng)計分析_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于R的基本統(tǒng)計分析內(nèi)容提要描述統(tǒng)計頻數(shù)表分析方差分析t檢驗卡方檢驗線性回歸相關(guān)分析描述分析(Descriptivestatistics)描述統(tǒng)計就是把數(shù)據(jù)集所包含的信息加以簡要地概況,如計算數(shù)據(jù)的數(shù)字特征、制作頻數(shù)表和頻數(shù)圖等等,用所獲得的統(tǒng)計量和圖表來描述數(shù)據(jù)集所反映的特征和規(guī)律,使得研究的問題更加簡單、直觀。

描述性統(tǒng)計主要包括反映數(shù)據(jù)集中趨勢的特征值(比如平均數(shù)、中位數(shù)、眾數(shù)、分位數(shù))、數(shù)據(jù)離散程度的特征值(比如方差、標(biāo)準(zhǔn)差、值域、變異系數(shù))和數(shù)據(jù)分布形態(tài)的特征值(比如偏度、峰度)。標(biāo)準(zhǔn)差(std.dev)和標(biāo)準(zhǔn)誤(SE.mean)標(biāo)準(zhǔn)差(std.dev)真實均值SE樣本均值當(dāng)樣本含量n足夠大時,標(biāo)準(zhǔn)差趨向穩(wěn)定;而標(biāo)準(zhǔn)誤隨n的增大而減小,甚至趨于0。

標(biāo)準(zhǔn)差(std.dev)和標(biāo)準(zhǔn)誤(SE.mean)比如,某學(xué)校共有500名學(xué)生,現(xiàn)在要通過抽取樣本量為30的一個樣本,來推斷學(xué)生的身高。這時可以依據(jù)抽取的樣本信息,計算出樣本的均值與標(biāo)準(zhǔn)差。如果我們抽取的不是一個樣本,而是10個樣本,每個樣本30人,那么每個樣本都可以計算出均值,這樣就會有10個均值。也就是形成了一個10個數(shù)字的數(shù)列,然后計算這10個數(shù)字的標(biāo)準(zhǔn)差,此時的標(biāo)準(zhǔn)差就是標(biāo)準(zhǔn)誤。但是,在實際抽樣中我們不可能抽取10個樣本。所以,標(biāo)準(zhǔn)誤就由樣本標(biāo)準(zhǔn)差除以樣本量來表示。當(dāng)然,這樣的結(jié)論也不是隨心所欲,而是經(jīng)過了統(tǒng)計學(xué)家的嚴(yán)密證明的。

SE.mean=std.dev/n1/2在實際的應(yīng)用中,標(biāo)準(zhǔn)差主要有兩點作用,一是統(tǒng)計量樣本離散程度的表征;二是用來對樣本進行標(biāo)準(zhǔn)化處理,即樣本觀察值減去樣本均值,然后除以標(biāo)準(zhǔn)差,這樣就變成了標(biāo)準(zhǔn)正態(tài)分布。標(biāo)準(zhǔn)誤的作用主要是用來做區(qū)間估計,常用的估計區(qū)間是均值加減n倍的標(biāo)準(zhǔn)誤(例如95%的置信區(qū)間是:均值+1.96*SE)標(biāo)準(zhǔn)差(std.dev)和標(biāo)準(zhǔn)誤(SE.mean)95%CI:假設(shè)上面這個隨機抽樣估計學(xué)生身高的例子,抽樣100次,每次抽10個學(xué)生測量身高,均值估計值及標(biāo)準(zhǔn)誤為

152cm±12cm。但有時需要表示為估計量的95%的置信區(qū)間[152cm-1.96*12cm,152cm+1.96*12cm]??梢越忉尀?,如果從再從總體中抽樣100次(每次抽樣10個),產(chǎn)生100個平均值,這100個平均值將有95次落在[152cm-1.96*12cm,152cm+1.96*12cm]這個范圍內(nèi),5次落在這個范圍外,如果抽樣次數(shù)越多,這個推斷越準(zhǔn)確。這個來源于中心極限定理的應(yīng)用:任何分布(總體)抽樣n次,每次抽樣的和符合正態(tài)分布。通俗一點說,不管是學(xué)校的學(xué)生身高是怎么分布,每次隨機抽取10個求和,抽取n次,這n個身高總和是符合正態(tài)分布的。平均身高為身高總和除于10,所以平均身高也是正態(tài)分布的。正態(tài)分布雙尾95%的分界點所對應(yīng)的值剛好是1.96。峰度(Kurtosis)峰度(Kurtosis)是描述某變量所有取值分布形態(tài)陡緩程度的統(tǒng)計量。它是和正態(tài)分布相比較的。Kurtosis=0與正態(tài)分布的陡緩程度相同。Kurtosis>0比正態(tài)分布的高峰更加陡峭——尖頂Kurtosis<0比正態(tài)分布的高峰來得平臺——平頂計算公式:偏度(Skewness)偏度(Skewness)是描述某變量分布偏離正態(tài)對稱性的統(tǒng)計量。Skewness=0分布形態(tài)與正態(tài)分布偏度相同

Skewness>0正偏差數(shù)值較大,為正偏或右偏。長尾巴拖在右邊Skewness<0負(fù)偏差數(shù)值較大,為負(fù)偏或左偏。長尾巴拖在左邊計算公式:Skewness越大,分布形態(tài)偏移程度越大頻數(shù)表(Frequencytable)分析頻數(shù)表分析是對數(shù)據(jù)集按數(shù)據(jù)范圍分成若干區(qū)間,即分成若干組,求出每組組中值,各組數(shù)據(jù)用組中值代替,計算各組數(shù)據(jù)的頻數(shù),并作出頻數(shù)表。

頻數(shù)表分析例子summary(oats$yield)#計算頻數(shù)A<-table(cut(oats$yield,breaks=40+20*(0:7)))round(prop.table(A)*100,2)#計算頻數(shù)比例#畫頻數(shù)表hist(oats$yield,#breaks=7,xlim=c(40,180),

xlab="yield",main="Frequencychartofyield")方差分析ANOVA方差分析是一種在若干組能相互比較的試驗數(shù)據(jù)中,把產(chǎn)生變異的原因加以區(qū)分的方法與技術(shù),其主要用途是研究外界因素或試驗條件的改變對試驗結(jié)果影響是否顯著。類型:單因素方差分析(One-wayANOVA)、雙因素方差分析(Two-wayANOVA)。方差分析的基本模型是線性模型,并假設(shè)隨機變量是獨立、正態(tài)和等方差的。方差分析是根據(jù)平方和的加和原理,利用F檢驗,進而判斷試驗因素對試驗結(jié)果的影響是否顯著。單因素方差分析##TukeyHSD方法##install.packages("multcomp")library(multcomp)tuk<-glht(fit,linfct=mcp(Treat="Tukey"))summary(tuk)#standarddisplaytuk.cld<-cld(tuk)#letter-baseddisplayopar<-par(mai=c(1,1,1.5,1))plot(tuk.cld)par(opar)雙因素(無重復(fù))方差分析多重比較重復(fù)試驗的雙因素方差分析協(xié)方差分析(analysisofcovariance)協(xié)方差分析是關(guān)于如何調(diào)節(jié)協(xié)變量對因變量的影響效應(yīng),從而更加有效地分析實驗處理效應(yīng)的一種統(tǒng)計技術(shù),也是對實驗進行統(tǒng)計控制的一種綜合方差分析和回歸分析的方法。當(dāng)研究者知道有些協(xié)變量會影響因變量,卻不能夠控制和不感興趣時,則可以在實驗處理前予以觀測,然后在統(tǒng)計時運用協(xié)方差分析來處理。將協(xié)變量對因變量的影響從自變量中分離出去,可以進一步提高實驗精確度和統(tǒng)計檢驗靈敏度。例如林木生長量與肥料的關(guān)系,施肥條件可以人工控制,但林木初始苗高(協(xié)變量)是難以控制的,通過協(xié)方差分析,消除初始苗高的影響,使得生長量在一致的基礎(chǔ)上進行方差分析。單因素協(xié)方差分析雙因素協(xié)方差分析【例子4.4.2】為研究某楊樹一年生生長與N肥、K肥及初始苗高的關(guān)系,采用正交試驗設(shè)計,共設(shè)置了18個樣地的栽培試驗,試驗因子與水平及測量結(jié)果如表4-13所示。試分析N肥、K肥及初始苗高對生長量的影響。t檢驗在實際工作中,經(jīng)常需要判斷兩個樣本平均數(shù)是否差異,以了解兩樣本所屬的兩個總體平均數(shù)是否相同。檢驗方法可以使用t檢驗。對于兩個樣本平均數(shù)差異顯著性檢驗,可分為非配對設(shè)計和配對設(shè)計。3.5.1單樣本檢驗【例子4.5.1】楊樹某無性系試驗林造林5年后,調(diào)查樹高生長量,隨機抽取32棵樹,調(diào)查結(jié)果如下表4-16所示。有一無性系B5的5年樹齡樹高μ=8m。試分析該試驗林的樹高與B5有無顯著差異?25

種類放牧不放牧Asclepias

syriaca0.0340.247Asterlaevis

0.2440.096Asterlateriflorus0.0410.146Asternovae-angliae0.3100.365Astersimplex0.0620.088Dactylisglomerata0.0010.055Fragariavirginiana0.4410.385Hieraciumpratense0.5920.626Phleumpratense0.3870.911Picrishieracoides1.3691.510Plantagolanceolata0.2600.208Poacompressa0.6100.773Poapratensis0.0540.116Solidagoaltissima0.8431.967Solidagograminifolia0.2010.097Solidagojuncea0.2780.148Solidagorugosa0.1560.197Taraxacumofficinale0.1000.151N=1818個草地種在放牧和不放牧樣方中的生物量(kg/m2)放牧對所研究草地物種生物量的影響是否顯著?成對雙樣本t檢驗卡方檢驗是參照卡方分配來計算概率和臨界值的統(tǒng)計檢驗,是用途很廣的一種假設(shè)檢驗方法。

分析原理:(1)建立零假說(NullHypothesis),即認(rèn)為觀測值與理論值的差異是由于隨機誤差所致;(2)確定數(shù)據(jù)間的實際差異,即求出χ2值;(3)如卡方值大于某特定概率標(biāo)準(zhǔn)(即顯著性差異)下的理論值,則拒絕零假說,即實測值與理論值的差異在該顯著性水平下是顯著的??ǚ綑z驗27卡方檢驗28卡方檢驗(列聯(lián)表)29練習(xí)四以數(shù)據(jù)stu.data.csv為例,試對體重做頻數(shù)分析。請分析身高是否符合正態(tài)分布?試分析性別對體重有無影響。問題4:請檢驗總體平均體重與60kg有無顯著差異?男生和女生的平均體重有無顯著差異?問題5:男女生比例是否符合1.2:1.0?練習(xí)四答案線性回歸比如產(chǎn)量與施肥量有關(guān),病蟲害發(fā)生時期與氣溫有關(guān),小麥單位面積產(chǎn)量與單位面積穗數(shù)、千粒重有關(guān),等等。因此,還需要研究兩個或多個變量之間的關(guān)系。

一個變量的變化受另一個或幾個變量的影響,稱為因果關(guān)系。利用回歸分析(regressionanalysis)來研究呈因果關(guān)系的變量之間的關(guān)系。表示原因的變量為自變量,表示結(jié)果的變量為因變量?;貧w分析有一元和多元回歸分析。3.6.1簡單線性回歸計算校正R235這里n是對象的數(shù)量(樣點數(shù)量),m是解釋變量的數(shù)量(或更準(zhǔn)確說,是模型的自由度)。只有模型自由度(m)不要比觀測值的數(shù)量(n)大(保證n-m-1>0),公式是有效的。多項式回歸fit<-lm(weight~N+I(N^2),data=df)#二次項回歸模型summary(fit)#回歸分析結(jié)果

plot(df$N,df$weight)#繪制散點圖lines(df$N,fitted(fit))#添加回歸線添加光滑曲線require(graphics)plot(cars,main="lowess(cars)")lines(cars)lines(lowess(cars),col=2)多元線性逐步回歸最優(yōu)線性回歸方程為:

y=-649.779+14.592×x1+6.841×x2+9.329×x3

回歸方程表明:對于川農(nóng)16號小麥而言,當(dāng)x2和x3固定時,穗數(shù)x1每增加1萬/畝,產(chǎn)量y將平均增加14.592Kg/畝;當(dāng)x1和x3固定時,每穗粒數(shù)x2每增加1粒,產(chǎn)量y將平均增加6.841Kg/畝;當(dāng)x1和x2固定時,千粒重x3每增加1g,產(chǎn)量y將平均增加9.329Kg/畝。自變量的作用主次第一種方法:計算通徑系數(shù)(pathcoefficient,p)。df.2<-as.data.frame(scale(df))#對數(shù)據(jù)集做標(biāo)準(zhǔn)化處理lmfit<-lm(y~x1+x2+x3,data=df.2)round(coef(lmfit),3)#獲取標(biāo)準(zhǔn)化回歸系數(shù)

#######運行結(jié)果##########>round(coef(lmfit),3)(Intercept)x1x2x30.0000.7770.4100.609第二種方法:根據(jù)x1、x2、x3回歸系數(shù)的t值大小,也可判斷自變量x的主次順序,凡是t值較大者就是較重要的因子。結(jié)論:自變量x的主次順序為:穗數(shù)x1>千粒重x3>每穗粒數(shù)x2。交互作用多元線性回歸練習(xí)四以數(shù)據(jù)stu.data.csv為例,試對體重做頻數(shù)分析。請分析身高是否符合正態(tài)分布?試分析性別對體重有無影響。問題4:請檢驗總體平均體重與60kg有無顯著差異?男生和女生的平均體重有無顯著差異?問題5:男女生比例是否符合1.2:1.0?練習(xí)四答案相關(guān)分析相關(guān)關(guān)系是指兩個變量的數(shù)值變化存在不完全確定的依存關(guān)系,它們之間的數(shù)值不能用方程表示出來,但可用某種相關(guān)性度量來描述。按照相關(guān)程度:完全相關(guān)、不完全相關(guān)和不相關(guān);按照相關(guān)方向:正相關(guān)和負(fù)相關(guān);按照相關(guān)形式:線性相關(guān)和非線性相關(guān);按涉及變量的多少:一元相關(guān)和多元相關(guān);按影響因素:單相關(guān)和復(fù)相關(guān)。Pearson、Spearman和Kendall相關(guān)Pearson相關(guān)是積差相關(guān),衡量兩個定量變量之間的線性相關(guān)程度,可描述兩個正態(tài)分布變量間線性相關(guān)關(guān)系的密切程度。Spearman相關(guān)是等級相關(guān),衡量分級定序變量之間的相關(guān)程度。Kendall相關(guān),也是一種非參數(shù)的等級相關(guān)。當(dāng)兩變量不符合正態(tài)分布時,變量間的關(guān)系應(yīng)通過計算Spearman或Kendall相關(guān)來考察。cor()函數(shù)可以計算上述三種相關(guān)系數(shù),cov()函數(shù)可以計算協(xié)方差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論