版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、,描述性統(tǒng)計(jì)分析,East China JiaoTong University,數(shù)據(jù)的描述,如同給人畫像一樣,在對數(shù)據(jù)進(jìn)行深入加工之前,總應(yīng)該對數(shù)據(jù)有所印象。 可以借助于圖形和簡單的運(yùn)算,來了解數(shù)據(jù)的一些特征。 由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。對數(shù)據(jù)的描述也是對其總體的一個(gè)近似的描述。,如何用圖來表示數(shù)據(jù)?,定量變量的圖表示:直方圖,對于一個(gè)定量變量,比如某個(gè)地區(qū)測量了163個(gè)高三男生的身高。 用圖形來表示這個(gè)數(shù)據(jù),使人們能夠看出這個(gè)數(shù)據(jù)的大體分布或“形狀”的一個(gè)辦法是畫直方圖(histogram)。,定量變量的圖表示:盒型圖,簡單一些的是盒形圖(boxplot,又稱箱圖、
2、箱線圖、盒子圖)。 右圖是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖;,盒型圖,盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子的上下兩橫線(邊)為上下四分位數(shù)(點(diǎn))。,定量變量的圖表示:莖葉圖,在直方圖和盒形圖中,很難恢復(fù)數(shù)據(jù)的原貌。而另一種圖:莖葉圖(stem-and-leaf plots)可以恢復(fù)數(shù)據(jù) 以地區(qū)1高三男生身高為例(圖3.3),莖葉圖既展示了分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。,莖葉圖,其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比如,由于第一行莖為150cm,因此葉子中的九個(gè)數(shù)字001223344代表九個(gè)數(shù)目150
3、、150、151、152、152、153、153、154、154cm等。每行左邊有一個(gè)頻數(shù)(比如第一行有9個(gè)數(shù)目,第二行有17個(gè)等等);可以看出最長的一行為從165cm到169cm的一段(有35個(gè)數(shù))。,定量變量的圖表示:散點(diǎn)圖,數(shù)據(jù)會(huì)有兩個(gè)變量,如美國男士和女士初婚年限數(shù)據(jù)。 該數(shù)據(jù)描述了自1900年到1998年男女第一次婚姻延續(xù)的時(shí)間。 這里年份是一個(gè)變量,婚姻延續(xù)時(shí)間是第二個(gè)變量。由于不可能將所有人的婚姻年限都給出來,所以每年就取了一個(gè)中間的值(中位數(shù))作為代表。,散點(diǎn)圖,定性變量的圖表示:餅圖,定性變量(或?qū)傩宰兞?,分類變量)不能點(diǎn)出直方圖、散點(diǎn)圖或莖葉圖,但可以描繪出它們各類的比例。
4、,餅圖,定性變量的圖表示:條形圖,從每一條可以看出講各種語言的實(shí)際人數(shù),而且分別給出了每個(gè)語種中母語和日常使用的人數(shù)(在圖中并排放置)。條形圖顯示比例不如餅圖直觀。,條形圖,如何用少量數(shù)字來概括數(shù)據(jù)?,大量的數(shù)字既繁瑣又不直觀;需要對數(shù)據(jù)做人們時(shí)間和耐心所允許的簡化 我們可以用 “平均”,“差距”或百分比等來概括大量數(shù)字。 由于定性變量主要是計(jì)數(shù),比較簡單,常用的概括就是比例或百分比。下面主要介紹關(guān)于定量變量的數(shù)字描述。,如何用少量數(shù)字來概括數(shù)據(jù)?,可用少量所謂匯總統(tǒng)計(jì)量或概括統(tǒng)計(jì)量(summary statistic)來描述定量變量的數(shù)據(jù)。 這些數(shù)字是從樣本數(shù)據(jù)得來的,因而也是樣本的函數(shù),
5、任何樣本的函數(shù),只要不包含總體的未知參數(shù),都稱為統(tǒng)計(jì)量(statistic)。 樣本的隨機(jī)性決定統(tǒng)計(jì)量的隨機(jī)性(統(tǒng)計(jì)量也是隨機(jī)變量),如何用少量數(shù)字來概括數(shù)據(jù)?,概括統(tǒng)計(jì)量經(jīng)常對應(yīng)于總體的無法觀測到的某些參數(shù)。 這時(shí),統(tǒng)計(jì)量可作為這些參數(shù)的估計(jì)。一些統(tǒng)計(jì)量還可以用來檢驗(yàn)樣本和假設(shè)的總體是否一致。,如何用少量數(shù)字來概括數(shù)據(jù)?,注:一些統(tǒng)計(jì)量前面有時(shí)加上“樣本”二字,以區(qū)別于總體的同名參數(shù)。如“樣本均值”和“樣本標(biāo)準(zhǔn)差”,以區(qū)別于總體均值和總體標(biāo)準(zhǔn)差;但在不會(huì)混淆時(shí)可以只說“均值”和“標(biāo)準(zhǔn)差”。,數(shù)據(jù)的“位置”,數(shù)據(jù)有位置嗎?,這里三個(gè)數(shù)據(jù)的位置一樣嗎?,數(shù)據(jù)的“位置”,“位置”一般是關(guān)于數(shù)據(jù)中某
6、變量觀測值的“中心位置”或者數(shù)據(jù)分布的中心(center或center tendency)。 和這種“位置”有關(guān)的統(tǒng)計(jì)量就稱為位置統(tǒng)計(jì)量(location statistic)。 位置統(tǒng)計(jì)量當(dāng)然不一定都是描述“中心”了,比如后面要講的k百分位數(shù)(或k分位數(shù))。,數(shù)據(jù)的“位置”,最常用的位置統(tǒng)計(jì)量就是小學(xué)時(shí)所學(xué)到的算術(shù)平均數(shù),它在統(tǒng)計(jì)中叫做均值(mean);嚴(yán)格地說叫做樣本均值(sample mean),以區(qū)別于總體均值。 如果記樣本中的觀測值為x1,xn,則樣本均值定義為,(樣本)中位數(shù)(median) 是數(shù)據(jù)按照大小排列之后位于中間的那個(gè)數(shù)(如果樣本量為奇數(shù)),或者中間兩個(gè)數(shù)目的平均(如果樣
7、本量為偶數(shù))。 由于中位數(shù)不易被極端值影響,所以中位數(shù)比均值穩(wěn)健(robust)。,數(shù)據(jù)的“位置”,上下四分位數(shù)(或分別稱為第一四分位數(shù)和第三四分位數(shù),first quantile, third quantile)則分別位于(按大小排列的)數(shù)據(jù)的上下四分之一的地方。,數(shù)據(jù)的“位置”,數(shù)據(jù)的“位置”,一般地還稱上四分位數(shù)為75百分位數(shù)(75 pecentile,有75的觀測值小于它),下四分位數(shù)為25百分位數(shù)(有25的觀測值小于它)。 一般地,k百分位數(shù)(k-pecentile)意味著有k的觀測值小于它。 如果令a=k%,則k百分位數(shù)也稱為a分位數(shù)(a-quantile)。 樣本中出現(xiàn)最多的數(shù)目
8、,稱為眾數(shù)(mode),數(shù)據(jù)的“尺度”,這兩個(gè)數(shù)據(jù)“胖瘦”一樣嗎?,數(shù)據(jù)的“尺度”,數(shù)據(jù)中數(shù)目的分散程度由尺度統(tǒng)計(jì)量(scale statistic)來描述。 尺度統(tǒng)計(jì)量是描述數(shù)據(jù)散布,即描述集中與分散程度或變化(spread或variability)的度量。,數(shù)據(jù)的“尺度”,從前面兩個(gè)高三男生身高數(shù)據(jù)的盒形圖。左邊的數(shù)據(jù)平均要高些,但右邊的數(shù)據(jù)散布范圍要小得多。,統(tǒng)計(jì)中有許多尺度統(tǒng)計(jì)量。一般來說,數(shù)據(jù)越分散,尺度統(tǒng)計(jì)量的值越大。,數(shù)據(jù)的“尺度”,極差(range);就是極大值和極小值之間的差。 前面兩個(gè)高三男生身高數(shù)據(jù)的極差分別為50cm和32cm。 盒形圖盒子的長度為兩個(gè)四分位數(shù)之差,稱為
9、四分位數(shù)極差或四分位間距(interquantile range);它描述了中間半數(shù)觀測值的散布情況。極差和四分位極差實(shí)際上各自只依賴于兩個(gè)值,信息量太少。,數(shù)據(jù)的“尺度”,另一個(gè)常用的尺度統(tǒng)計(jì)量為(樣本)標(biāo)準(zhǔn)差(standard deviation)。度量樣本中各數(shù)值到均值距離的一種平均。 標(biāo)準(zhǔn)差實(shí)際上是方差(variance)的平方根。如果記樣本中的觀測值為x1,xn,則樣本方差為,數(shù)據(jù)的“尺度”,兩個(gè)均值一樣,但右邊的要“胖”些,方差為左邊的一倍,兩個(gè)尺度不同的數(shù)據(jù)的直方圖,左邊的標(biāo)準(zhǔn)差大約只有右邊的一半,為了了解某地區(qū)居民家庭收入狀況,現(xiàn)從這一地區(qū)家庭中隨機(jī)抽查了100戶居民,調(diào)查其家
10、庭人均收入,調(diào)查結(jié)果如下(單位:百元): 271 396 287 399 466 269 295 330 425 324 228 113 226 176 320 230 404 487 127 74 234 523 164 336 343 330 436 141 388 293 464 200 392 265 403 259 426 262 221 355 324 374 347 261 287 113 135 291 176 342 443 239 302 483 231 292 373 346 293 236 223 371 287 400 314 468 337 308 359 352
11、273 267 277 184 286 214 351 270 330 238 248 419 330 319 440 427 314 414 299 265 318 415 372 238 323 412 493 286 313 412 試根據(jù)以上數(shù)據(jù)計(jì)算:這100戶家庭的平均人均收入,并據(jù)此推斷該地區(qū)人均收入水平; 這100戶家庭的人均收入的離散程度; 這100戶家庭人均收入的分布形狀:偏度和峰度。,變量的概括描述,過程UNIVARIATE的一般形式:,PROC UNIVERIATE DATA= NOPRINT PLOT NORMAL; VAR ; BY ; ID ; OUTPUT OUT
12、= = = PCTLPTS= PCTLPRE=; RUN;,變量的概括描述,過程MEANS的一般形式:,PROC MEANS DATA= MAXDEC=位數(shù) NOPRINT 輸出統(tǒng)計(jì)量名列; VAR ; CLASS ; BY ; ID ; OUTPUT OUT= ; RUN;,輸出或記入數(shù)據(jù)集的統(tǒng)計(jì)量可用以下的關(guān)鍵名: CSS MIN SKEWNESS SUMWGT CV N STD T KURTOSIS NMISS STDERR USS MEAN PRT SUM VAR MAX RANGE,過程SUMMARY與MEANS的用法是完全類似的,只是過程MEANS不寫選項(xiàng)NOPRINT時(shí)就自動(dòng)顯示
13、分析結(jié)果,而過程SUMMARY不寫選項(xiàng)PRINT時(shí)就不顯示分析結(jié)果;,PROC CAPABILITY DATA= GRAPHICS NOPRINT; VAR ; HISTOGRAM ; / MIDPOINTS= NORMAL(MU= SIGMA= ) EXP(THETA= ) LOGNORMAL(THETA= ); CDFPLOT / NORMAL(MU= SIGMA= ) EXP(THETA= ) LOGNORMAL(THETA= ); INSET =; BY ; ID ; RUN;,過程CAPABILITY的一般形式:,變量分布的圖形描述,變量的分類計(jì)數(shù),前面介紹的數(shù)據(jù)分析方法有的只適用于數(shù)值型變量,例如對字符型變量就無法計(jì)算它的均值,也有時(shí)數(shù)值型變量的聯(lián)歡會(huì)只是某些特征的代號,對這些變量均值的意義不大。這時(shí)更重要的是要不了解這些變量取了那些值和取不同值的頻數(shù)。過程FREQ就提供了這些方面的功能。,MEASURES 對每層的二維表計(jì)算一系列關(guān)聯(lián)指標(biāo)及相應(yīng)的標(biāo)準(zhǔn)誤,包括Pearson和Spearman相關(guān)系數(shù),以及Gamma和Ken
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026福建龍巖市公安局永定分局招聘招聘警務(wù)輔助人員34人考試參考試題及答案解析
- 2026云南保山電力股份有限公司校園招聘50人考試參考試題及答案解析
- 2026北京中關(guān)村第三小學(xué)永新分校招聘考試備考試題及答案解析
- 2026青海智特安全環(huán)境技術(shù)服務(wù)有限公司招聘技術(shù)員6人考試備考題庫及答案解析
- 人工關(guān)節(jié):骨科植入領(lǐng)域的技術(shù)革命與臨床實(shí)踐
- 2026云南昭通市水富市文化館城鎮(zhèn)公益性崗位人員招聘1人考試參考題庫及答案解析
- 2026年西安高新區(qū)第三初級中學(xué)校園招聘考試備考題庫及答案解析
- 2026年德宏職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考試題帶答案解析
- 2026年順德區(qū)陳村鎮(zhèn)青云小學(xué)招聘數(shù)學(xué)臨聘教師備考題庫及一套答案詳解
- 2026年重慶雙福農(nóng)產(chǎn)品批發(fā)市場有限公司招聘備考題庫及完整答案詳解1套
- 山東省濟(jì)南市2024年1月高二上學(xué)期學(xué)情期末檢測英語試題含解析
- 供應(yīng)鏈管理工作計(jì)劃與目標(biāo)
- 口腔門診醫(yī)療質(zhì)控培訓(xùn)
- (正式版)JBT 9229-2024 剪叉式升降工作平臺(tái)
- HGT4134-2022 工業(yè)聚乙二醇PEG
- GB/T 15231-2023玻璃纖維增強(qiáng)水泥性能試驗(yàn)方法
- 小學(xué)教職工代表大會(huì)提案表
- ESC2023年心臟起搏器和心臟再同步治療指南解讀
- 《泰坦尼克號》拉片分析
- GB/T 2624.1-2006用安裝在圓形截面管道中的差壓裝置測量滿管流體流量第1部分:一般原理和要求
- 基層版胸痛中心建設(shè)標(biāo)準(zhǔn)課件
評論
0/150
提交評論