統(tǒng)計(jì)軟件統(tǒng)計(jì)方法第三章.ppt_第1頁(yè)
統(tǒng)計(jì)軟件統(tǒng)計(jì)方法第三章.ppt_第2頁(yè)
統(tǒng)計(jì)軟件統(tǒng)計(jì)方法第三章.ppt_第3頁(yè)
統(tǒng)計(jì)軟件統(tǒng)計(jì)方法第三章.ppt_第4頁(yè)
統(tǒng)計(jì)軟件統(tǒng)計(jì)方法第三章.ppt_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三/四章:描述性統(tǒng)計(jì)和直觀圖形,1、概率密度及隨機(jī)數(shù) 2、統(tǒng)計(jì)量 3、R的作圖環(huán)境:圖形分解、繪圖命令 4、統(tǒng)計(jì)圖形:散點(diǎn)圖、直方圖、ecdf、QQ 箱線圖、多維圖 5、特殊圖形,3.1 概率密度及隨機(jī)數(shù),隨機(jī)變量及其分布是概率統(tǒng)計(jì)研究中的重要基礎(chǔ),離散型:隨機(jī)抽樣【放回和不放回】sample, 二項(xiàng)分布binom,泊松分布pois, 幾何分布geom, 超幾何分布hyper, 連續(xù)型:均勻分布unif, 指數(shù)分布exp, beta分布 正態(tài)分布norm, 卡方分布chisq, t分布t, F分布f, 對(duì)數(shù)正態(tài)分布lnorm, 伽瑪分布gamma,柯西分布cauchy,注:加上p,d,r,q

2、計(jì)算概率,密度,隨機(jī)數(shù),下分位點(diǎn),3.1 概率密度及隨機(jī)數(shù),例1:繪制標(biāo)準(zhǔn)正態(tài)分布密度圖,區(qū)間3,3,x=seq(-3,3,length=200) plot(x,dnorm(x,0,1),type=l) 或者 plot(x,dnorm(x),type=l),3.1 概率密度及隨機(jī)數(shù),例2:Xt(10), 求 P(|X|1.5),pt(1.5, 10)-pt(-1.5,10) 返回:0.8354927,例3:Xt(10), 求y滿足P(Xy)=0.9177463,qt(0.9177463, 10) 返回:1.5,例4:XN(60,42), 模擬產(chǎn)生10個(gè)隨機(jī)數(shù),rx=rnorm(10, 60,

3、4) 某次返回值: 56.61105 56.04935 66.63273 57.15021 53.14499 56.67600 60.84096 64.60479,62.34092 66.46923,3.1 概率密度及隨機(jī)數(shù),例5:驗(yàn)證關(guān)系Tt(n), F=T2F(1,n),從概率上驗(yàn)證: P(F0 P(Tx)=1-pf(x2,1,n)/2, x0 x=1.5; n=10 pf(x,1,n)-pt(sqrt(x),n)+pt(-sqrt(x),n) pt(-x,n)-(1-pf(x2,1,n)/2,3.1 概率密度及隨機(jī)數(shù),例6:Fa(m,n)=1/F1-a(n,m),例7:n-, t(n)-

4、N(0,1),例8:正態(tài)抽樣的樣本,,確定n的起點(diǎn),3.2 統(tǒng)計(jì)量,統(tǒng)計(jì)量是數(shù)理統(tǒng)計(jì)及應(yīng)用統(tǒng)計(jì)中的一項(xiàng)基礎(chǔ)工作 也是富有創(chuàng)意的一項(xiàng)工作,是區(qū)間估計(jì)/假設(shè)檢驗(yàn)/回歸/方差分析等諸項(xiàng)工作的基礎(chǔ)。,對(duì)于統(tǒng)計(jì)量的理解:,1. 是樣本的函數(shù) G(X1,X2,Xn) 2. 是隨機(jī)變量 r.v. 3. 具有值的特性 G(x1,x2,xn),3.2 統(tǒng)計(jì)量-基本統(tǒng)計(jì)量,1. 樣本均值,樣本方差,樣本中位數(shù),極差,分位數(shù),眾數(shù),中程數(shù)等。,R中的實(shí)現(xiàn) mean(x); mean(x, trim=0); apply(mat,1,mean) median(x); (min(x)+max(x)/2 quantile(

5、x,type=2) var(x); sd(x) range(x); max(x)-min(x) sd(x)/mean(x) #注意mean(x)0,3.2 統(tǒng)計(jì)量-基本統(tǒng)計(jì)量,2. 討論均值與中位數(shù)的應(yīng)用差異,模擬:來(lái)自標(biāo)準(zhǔn)正態(tài)總體的樣本,加入擾動(dòng)(異常值)看看,樣本均值和中位數(shù)的變化。,3.2 統(tǒng)計(jì)量-基本統(tǒng)計(jì)量,3 討論樣本方差和有偏方差的區(qū)別,模擬:來(lái)自標(biāo)準(zhǔn)正態(tài)總體的樣本,樣本方差和有偏方差的取值變化。,3.2 統(tǒng)計(jì)量-基本統(tǒng)計(jì)量,4 偏度系數(shù)和峰度系數(shù),利用包TSA和leaps兩個(gè)包中的兩個(gè)函數(shù)計(jì)算 skewness(), kurtosis() 問(wèn)題: 如何通過(guò)模擬數(shù)據(jù)理解和直觀展示偏

6、度和峰度,3.3 圖形分解,主標(biāo)題,子標(biāo)題,X軸標(biāo)簽,y軸標(biāo)簽,圖 例,四周邊距,刻度,par(mai=c(0.6,0.6,0.6,0.1) #指定四周空白 plot(1:10,1:10,type=n,main=主標(biāo)題,sub=副標(biāo)題, xlab=,ylab=,xlim=c(0,15),ylim=c(0,10), frame.plot=TRUE,axes=FALSE,mgp=c(0.3,0.3,0), cex.main=1,cex.sub=0.8) #不畫坐標(biāo)軸, 標(biāo)題的字體大小各不同,標(biāo)題離坐標(biāo)軸距離 lines(c(1,11),c(8,8),lty=2); lines(c(1,11),c(

7、6,6),lty=3); lines(c(1,11),c(4,4),lty=1) #畫三種線 legend(12.5,10,c(L1, L2, L3),lty = c(2, 3, 1),cex=0.75) #圖例 axis(1, 0:15, labels=0:15,cex=0.75) #x坐標(biāo)軸 axis(2, 0:10, labels=0:10,cex=0.75) # y坐標(biāo)軸 title(xlab=x軸標(biāo)簽,adj=1,mgp=c(0.3,0.3,0),cex=0.75) title(ylab=y軸標(biāo)簽,adj=1,mgp=c(0.3,0.3,0),cex=0.75) # x軸標(biāo)簽右對(duì)齊,

8、 y軸標(biāo)簽右對(duì)齊,3.3 圖形分解代碼,通常一個(gè)統(tǒng)計(jì)圖形的右側(cè)邊空是沒(méi)有多大意義的,左側(cè)邊空也沒(méi)有必要留太多,同理上下邊空的空白也不能太大。 而R默認(rèn)繪制的圖形的邊空都比較大,這在截圖編輯的時(shí)候總是造成麻煩。所以可以在繪圖開(kāi)始的時(shí)候進(jìn)行統(tǒng)一邊空控制。 par(mai=c(bottom,left,top,right) 單位:英寸, 一英寸=2.539999918 厘米,3.3 圖形分解邊空統(tǒng)一控制,如果希望將所繪制的圖形覆蓋在一個(gè)有效的刻度范圍內(nèi),則必須 使用上例中參數(shù):xlim=c() 和 ylim=c() 例如:來(lái)自標(biāo)準(zhǔn)正態(tài)分布的100個(gè)隨機(jī)數(shù),畫出其頻數(shù)直方圖 x=rnorm(100);

9、hist(x),3.3 圖形分解有效區(qū)域控制,改寫代碼: hist(x,xlim=c(-4,3),ylim=c(0,35),繪制不同數(shù)據(jù)圖形的直觀說(shuō)明可通過(guò) legend圖例實(shí)現(xiàn) 比如上例中,繪制三種不同線型是用圖例區(qū)別: legend(12.5,10,c(Line1, Line2, Lline3), lty = c(2, 3, 1) 注意:12.5,10表示的相對(duì)于xlim和ylim的坐標(biāo)位置, 坐標(biāo)起點(diǎn)(原點(diǎn))是左下角(left,bottom),3.3 圖形分解圖例的作用,如果希望對(duì)x,y軸標(biāo)簽的輸出位置進(jìn)行控制,可以使用幾個(gè)參數(shù): mgp(x,y,0) : 距離x刻度的英寸, 距離y刻度

10、的英寸 adj=0,0.5,1 : 0 左對(duì)齊 0.5居中 1右對(duì)齊,3.3 圖形分解坐標(biāo)軸控制,如果希望對(duì)坐標(biāo)軸刻度及刻度值進(jìn)行控制,可以使用axis axis(which, ticks, labels,las) which=1,2,3,4 分別表示bottom,left,top,right坐標(biāo) ticks表示刻度位置,向量 labels表示刻度值文本,向量 las=0,1,2,3 分別表示labels的讀方向: 平行坐標(biāo)軸,水行垂直 坐標(biāo)軸,垂直,main表示頂端的主標(biāo)題 sub 表示底端的副標(biāo)題(子標(biāo)題) xlab 表示x軸標(biāo)簽 ylab 表示y軸標(biāo)簽,3.3 圖形分解標(biāo)題控制,另外:c

11、ex=0.75 表示字體大小的縮放比例 分類控制cex.main, cex.sub, cex.xlab, cex.ylab lty表示線的類型,lwd表示線的寬度 pch表示線以字符方式繪圖,abline(v=x,lty,col); abline(h=y,lty,col) 在當(dāng)前圖中添加x=x, y=y的直線 abline(a,b,lty,col) 在當(dāng)前圖中添加 y=a+bx points(x,y,pch,col) 在當(dāng)前途中加入點(diǎn) 其中:lty控制線的類型,col控制顏色 pch控制點(diǎn)的形狀,3.3 圖形分解直線或點(diǎn)繪制,plot(x,y) 繪制y關(guān)于x的散點(diǎn)圖 plot(x) 繪制x關(guān)于

12、1:length(x)的散點(diǎn)圖 例如: plot(rnorm(100) abline(h=c(-2,-1,0,1,2) 練習(xí):繪制-3,3之間的標(biāo)準(zhǔn)正態(tài)分布,t(10)分布的密度圖,要求分別用實(shí)線紅色和虛線藍(lán)色,并給出圖例說(shuō)明。,3.4 統(tǒng)計(jì)圖-散點(diǎn)圖,hist(x, freq=TRUE) 頻數(shù)直方圖 hist(x, freq=FALSE) 密度直方圖 問(wèn)題:如何根據(jù)給定的分組來(lái)畫直方圖?,3.4 統(tǒng)計(jì)圖-直方圖,使用參數(shù):breaks 1 指定區(qū)間個(gè)數(shù),R會(huì)自動(dòng)調(diào)整 breaks=6 不好用 2 指定區(qū)間的端點(diǎn),區(qū)間數(shù)等于端點(diǎn)個(gè)數(shù)減1 例如:x=rnorm(100) hist(x) hist

13、(x, breaks=6) hist(x,breaks=c(-4,-2,-1,0,1,2,4),3.4 統(tǒng)計(jì)圖-直方圖求解眾數(shù),問(wèn)題:請(qǐng)根據(jù)圖形自行推導(dǎo)公式,3.4 統(tǒng)計(jì)圖經(jīng)驗(yàn)分布圖,格列文科定理給出,隨機(jī)抽樣的經(jīng)驗(yàn)分布函數(shù)與分布函數(shù)之間的關(guān)系表達(dá)成:,R中繪制經(jīng)驗(yàn)分布函數(shù)圖的函數(shù)是 ecdf和plot re=ecdf(x) plot(re,veticals=TRUE,do.p=FALSE) 另外可以計(jì)算給定x0的經(jīng)驗(yàn)分布函數(shù)值 re(x0) 練習(xí):生成標(biāo)準(zhǔn)正態(tài)隨機(jī)數(shù)100個(gè),計(jì)算x=2處的ecdf.,3.4 統(tǒng)計(jì)圖正態(tài)QQ圖,利用如下的關(guān)系式:,顯然:k/n=1時(shí),上式無(wú)法給出,故進(jìn)行修正,

14、R中給出:qqnorm(x); qqline(x)實(shí)現(xiàn) 練習(xí):請(qǐng)自行畫出這個(gè)QQ圖,3.4 統(tǒng)計(jì)圖箱線圖,通過(guò)一個(gè)箱體來(lái)展現(xiàn)數(shù)據(jù)的對(duì)稱性和離散性分布特征,可用于鑒別異常值數(shù)據(jù),還可用于多組數(shù)據(jù)的差異性比較,非常直觀有效。,3.4 統(tǒng)計(jì)圖箱線圖,在R中,通過(guò)函數(shù) boxplot(x, range=1.5,horizontal=FALSE) 實(shí)現(xiàn)箱線圖的繪制。 其中:x可以是一個(gè)數(shù)值向量,將繪制一組 也可以是一個(gè)數(shù)據(jù)框,將繪制多組,例子:數(shù)據(jù)框A含有4個(gè)小組的同一門成績(jī)變量 g1score,g2score,g3score,g4score 請(qǐng)按照均值為(65,70,75,80),標(biāo)準(zhǔn)差=4隨機(jī)產(chǎn)生

15、四組數(shù)據(jù)各30個(gè),然后繪制箱線圖,比較差異.,3.4 統(tǒng)計(jì)圖輪廓圖多維,所謂輪廓圖就是將數(shù)據(jù)矩陣中的每一行畫成圖上的一條折線。需將每列數(shù)據(jù)按比例換算到同一個(gè)坐標(biāo)系中。 注意:這使得輪廓圖的繪制對(duì)各列數(shù)據(jù)的數(shù)值大小有一定的要求,比較適合分析各列數(shù)據(jù)量綱接近,數(shù)值相差在一定的范圍內(nèi),即不太大也不太小的情況。,3.4 統(tǒng)計(jì)圖輪廓圖多維,n=nrow(df); m=ncol(df) plot(c(1,m),c(min(df),max(df),type=n, main=輪廓圖,xlab=序,ylab=值,sub=) for(i in 1:n) lines(as.numeric(dfi,) points(

16、c(1,m),c(dfi,1,dfi,m),type=p, pch=15+(i-1)%/%5) #針對(duì)成績(jī)數(shù)據(jù),網(wǎng)絡(luò)教學(xué)平臺(tái)實(shí)驗(yàn)材料中,3.4 統(tǒng)計(jì)圖調(diào)和曲線多維,第r條調(diào)和曲線定義為,3.4 統(tǒng)計(jì)圖雷達(dá)圖多維,雷達(dá)圖因其繪制的圖象猶如雷達(dá)屏幕上看到的圖象而得名,該圖象又有些像蜘蛛網(wǎng),故又稱為蜘蛛圖或者星圖。 R軟件提供stars()函數(shù)用來(lái)繪制雷達(dá)圖: stars(df, locations = c(0,0), radius = FALSE, key.loc=c(0,0), main=成績(jī)數(shù)據(jù), lty = 2) stars(df,full=FALSE,draw.segments=TRUE,

17、 key.loc=c(5,0.5),mar=c(2,0,0,0) 數(shù)據(jù):網(wǎng)絡(luò)教學(xué)平臺(tái)的 實(shí)驗(yàn)材料中,3.4 統(tǒng)計(jì)圖切爾諾夫臉 多維,通過(guò)15個(gè)變量來(lái)定義臉型、微笑、嘴巴、眼睛、鼻子、耳朵和頭發(fā)等的長(zhǎng)度和寬度將多維數(shù)據(jù)的特征通過(guò)直觀的人臉及表情表現(xiàn)出來(lái) 在R中,專門給出這樣的軟件包和函數(shù)來(lái)進(jìn)行臉譜的繪制。 先安裝軟件包aplpack, 然后加載該軟件包,通過(guò)函數(shù)faces()將數(shù)據(jù)矩陣帶入,編繪制出臉譜來(lái)。,3.4 統(tǒng)計(jì)圖切爾諾夫臉 多維,install.packages(aplpack); library(aplpack) faces(matrix(sample(1:1000,240),16,

18、15), main=“random faces”,face.type=1) #face.type=0 黑白繪制,3.4 統(tǒng)計(jì)圖散布圖 多維,繪制多維數(shù)據(jù)中任意兩個(gè)變量之間的散點(diǎn)圖,直觀展示多維數(shù)據(jù)兩兩之間的趨勢(shì)關(guān)系。,有三種方法繪制散布圖: 1 plot(data.frame() 2 paris(data.frame() 3 plot(x+y+z,data=data.frame(),3.4 統(tǒng)計(jì)圖條件散點(diǎn)圖 多維,函數(shù)coplot(expr, data=df)主要用來(lái)顯示多元數(shù)據(jù)之間的條件散點(diǎn)圖,df=data.frame(hei=rnorm(50,130,10), wei=rnorm(50,

19、30,9), grade=as.factor(sample(3:6,50,replace=TRUE), class=as.factor(sample(1:3,50,replace=TRUE) coplot(weihei|grade, data=df) coplot(weihei|grade+class,data=df),3.5 疊加圖形,3.5 疊加圖形,x=runif(100,-1,1) y=runif(100,-1,1) opar=par(no.readonly=TRUE) par(fig=c(0,0.8,0,0.8) plot(x,y,xlab=x runif,ylab=y runif)

20、 par(fig=c(0,0.8,0.55,1),new=TRUE) boxplot(x,horizontal=TRUE,axes=FALSE) par(fig=c(0.65,1,0,0.8),new=TRUE) boxplot(y,axes=FALSE) mtext(疊加圖形,side=3,outer=TRUE,line=-3) par(opar),利用:par函數(shù)中的fig=c(x1,x2,y1,y2)和new參數(shù),4 高密度散點(diǎn)圖,當(dāng)數(shù)據(jù)點(diǎn)重合度很高時(shí),用plot繪制的二維圖重疊嚴(yán)重,無(wú)法區(qū)分二者的關(guān)系。,n=10000 x=matrix(rnorm(n,0,0.5),ncol=2) y

21、=matrix(rnorm(n,3,2),ncol=2) plot(x,y,pch=19,xlab=x,ylab=y),4 高密度散點(diǎn)圖,R提供一個(gè)smoothScatter()函數(shù),利用核密度估計(jì)生成用顏色密度來(lái)表示點(diǎn)分布的散點(diǎn)圖。,smoothScatter(x,y),4 高密度散點(diǎn)圖,R提供一個(gè)hexbin包,plot(hexbin(x,y,xbins=50),5 三維散點(diǎn)圖,R提供一個(gè)scatterplot3d包來(lái)實(shí)現(xiàn)三維圖形的繪制,甚至可以旋轉(zhuǎn)三維圖形。,例: (x,y) 落在 -1,1*-1,1中的隨機(jī)數(shù),令 z=exp(-x2+y2),繪制三維圖,x=runif(100,-1,1

22、) y=runif(100,-1,1) z=exp(-x2-y2) scatterplot3d(x,y,z),5 三維散點(diǎn)圖,scatterplot3d(x,y,z,type=h),5 三維散點(diǎn)圖旋轉(zhuǎn)圖,R提供rgl包中的plot3d函數(shù)用來(lái)通過(guò)鼠標(biāo)旋轉(zhuǎn)坐標(biāo)軸,這樣更有利于理解數(shù)據(jù)和圖形。,plot3d(x,y,z,type=h),5 三維散點(diǎn)圖旋轉(zhuǎn)圖,還可以通過(guò)Rcmdr這個(gè)包中的scatter3d()函數(shù)實(shí)現(xiàn)更加美觀的旋轉(zhuǎn)三維圖形。,scatter3d(x,y,z,type=h),5 三維散點(diǎn)圖旋轉(zhuǎn)圖,還可以通過(guò)rgl包實(shí)現(xiàn)旋轉(zhuǎn)三維圖形。 library(rgl) library(Rcmdr) scatter3d(x,y,z),第三

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論