版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)描述性分析第1頁,課件共71頁,創(chuàng)作于2023年2月內(nèi)容分布均值、方差的數(shù)據(jù)特征數(shù)據(jù)的分布二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)誤差壞值的剔除第2頁,課件共71頁,創(chuàng)作于2023年2月內(nèi)容分布均值、方差的數(shù)據(jù)特征數(shù)據(jù)的分布二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)誤差壞值的剔除第3頁,課件共71頁,創(chuàng)作于2023年2月數(shù)據(jù)描述性分析數(shù)據(jù)分析研究的對象是數(shù)據(jù),它們是個觀測值:
如果這個觀測值就是所要研究對象的全體,那么數(shù)據(jù)分析的任務就是提取數(shù)據(jù)中包含的有用的信息。如果數(shù)據(jù)是從總體中抽出的樣本,就要分析推斷樣本中包含的總體的信息。
,第4頁,課件共71頁,創(chuàng)作于2023年2月均值、方差等數(shù)字特征一元數(shù)據(jù)的數(shù)字特征主要是以下幾種。設個觀測值為其中稱為樣本容量。1均值:即是的平均數(shù):
均值表示數(shù)據(jù)的集中位置。第5頁,課件共71頁,創(chuàng)作于2023年2月均值、方差等數(shù)字特征2方差、標準差與變異系數(shù)方差是描述數(shù)據(jù)取值分散性的一個度量,其量綱是數(shù)據(jù)量綱的平方。標準差第6頁,課件共71頁,創(chuàng)作于2023年2月均值、方差等數(shù)字特征
變異系數(shù):刻畫數(shù)據(jù)相對分散性的度量CV=校正平方和
CSS=未校平方和
USS
=
第7頁,課件共71頁,創(chuàng)作于2023年2月均值、方差等數(shù)字特征3偏度與峰度偏度與峰度是刻畫數(shù)據(jù)的偏態(tài)、尾重程度的度量。它們與數(shù)據(jù)的矩有關。數(shù)據(jù)的矩分為原點矩與中心矩。
k階原點矩
K階中心矩第8頁,課件共71頁,創(chuàng)作于2023年2月均值、方差等數(shù)字特征偏度其中s是標準差。偏度是刻畫數(shù)據(jù)對稱性的指標。關于均值對成的數(shù)據(jù)其偏度為0,右側(cè)更分散的數(shù)據(jù)偏度為正,左側(cè)更分散的數(shù)據(jù)偏度為負。
頻數(shù)頻數(shù)頻數(shù)偏向左<0對稱=0偏向右>0第9頁,課件共71頁,創(chuàng)作于2023年2月均值、方差等數(shù)字特征峰度當數(shù)據(jù)的總體分布為正態(tài)分布時,峰度近似為0;當分布較正態(tài)分布的尾部更為分散時,峰度為正,否則峰度為負。當峰度為正時,兩側(cè)極端數(shù)據(jù)較多;當峰度為負時,兩側(cè)極端數(shù)據(jù)較少。第10頁,課件共71頁,創(chuàng)作于2023年2月總體的數(shù)據(jù)特征設觀測數(shù)據(jù)是由總體X中取出的樣本,總體的分布函數(shù)是F。當X為離散分布時,總體的分布可由概率分布列刻畫:總體為連續(xù)分布時,總體的分布可由概率密度刻畫。連續(xù)分布中最重要的是正態(tài)分布,它的概率密度及分布函數(shù)分別為具有正態(tài)分布的總體成為正態(tài)總體
第11頁,課件共71頁,創(chuàng)作于2023年2月總體的數(shù)據(jù)特征與樣本數(shù)字特征對應的是總體的數(shù)字特征總體均值
總體方差總體標準差總體變異系數(shù)
第12頁,課件共71頁,創(chuàng)作于2023年2月總體的數(shù)據(jù)特征總體原點矩(k階)總體中心矩(k階)總體偏度總體峰度第13頁,課件共71頁,創(chuàng)作于2023年2月偏度為正的概率密度偏度為負的概率密度f(x)f(x)xx第14頁,課件共71頁,創(chuàng)作于2023年2月總體峰度是以同方差的正態(tài)分布為標準,比較總體分布尾部分散性的指標。細尾,峰度為負正態(tài)分布,總體峰度為0粗尾,峰度為正第15頁,課件共71頁,創(chuàng)作于2023年2月總體數(shù)字特征和樣本數(shù)字特征根據(jù)統(tǒng)計學的結果,樣本數(shù)字特征是相應的總體數(shù)字特征的矩估計。當總體數(shù)字特征存在時,相應的樣本數(shù)字特征是總體數(shù)字特征的相合估計,從而當n較大時,有第16頁,課件共71頁,創(chuàng)作于2023年2月總體數(shù)字特征和樣本數(shù)字特征當觀測數(shù)據(jù)是所要研究對象的全體時,數(shù)據(jù)的分布即總體分布,我們認為取得每一個觀測數(shù)據(jù)是等可能性的,即為;總體分布是離散均勻分布:對這種情況,數(shù)據(jù)數(shù)字特征即總體數(shù)字特征。第17頁,課件共71頁,創(chuàng)作于2023年2月例1從19個桿塔上的普通盤形絕緣子測得該層電導率()的數(shù)據(jù)如下:
9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33
計算均值、方差、標準差、變異系數(shù)、偏度、峰度。
第18頁,課件共71頁,創(chuàng)作于2023年2月通過計算,得=8.487,=3.046,=1.845,CV=21.745,=0.035,=-0.852
,的絕對值比較小,可以認為是來自正態(tài)總體的數(shù)據(jù)。
第19頁,課件共71頁,創(chuàng)作于2023年2月中位數(shù)、分位數(shù)、三均值與極差
均值、方差、標準差等數(shù)字特征是總體相應特征值的一種矩估計,更適合于來自正態(tài)分布的數(shù)據(jù)的分析。若總體的分布未知,或者數(shù)據(jù)嚴重偏態(tài),有若干異常值(極端值),上述分析數(shù)據(jù)的方法不甚合適,而應計算中位數(shù)、分位數(shù)、三均值、極差等數(shù)據(jù)數(shù)字特征,計算上述特征需要用到次序統(tǒng)計量。第20頁,課件共71頁,創(chuàng)作于2023年2月次序統(tǒng)計量設是n個觀測值,可以理解為來自某些總體的樣本。將其按數(shù)值大小記為這就是次序統(tǒng)計量。最小統(tǒng)計量與最大統(tǒng)計量分別為:第21頁,課件共71頁,創(chuàng)作于2023年2月中位數(shù)與極差中位數(shù)的計算公式是中位數(shù)是描述數(shù)據(jù)中心位置的數(shù)字特征。大體上比中位數(shù)大或小的數(shù)據(jù)個數(shù)為整個數(shù)據(jù)個數(shù)的一半。第22頁,課件共71頁,創(chuàng)作于2023年2月中位數(shù)與極差
對于對稱分布的數(shù)據(jù),均值與中位數(shù)較接近;對于偏態(tài)分布的數(shù)據(jù),均值與中位數(shù)不同。中位數(shù)的另一個顯著特點是不受異常值(特大或特?。┑挠绊?,具有穩(wěn)健性,因此它是數(shù)據(jù)分析中相當重要的統(tǒng)計量。
極差的計算公式是
它是描述數(shù)據(jù)分散性的數(shù)字特征。數(shù)據(jù)越分散,極差越大。第23頁,課件共71頁,創(chuàng)作于2023年2月例考慮下列樣本:
53113178
寫出次序計量,并求中位數(shù)、極差。
第24頁,課件共71頁,創(chuàng)作于2023年2月對和容量為的樣本它的分位數(shù)是其中[np]表示np的整數(shù)部分,當p=1時,M1=x(n)分位數(shù)
第25頁,課件共71頁,創(chuàng)作于2023年2月0.5分位數(shù)就是中位數(shù)M.在實際應用中,0.75分位數(shù)與0.25分位數(shù)比較重要,它們分別稱為上、下四分位數(shù),并簡記為下列分位數(shù)也在實際應用中經(jīng)常用到:,,,,,。第26頁,課件共71頁,創(chuàng)作于2023年2月例考慮下列樣本:
53113178計算上面數(shù)據(jù)的,,及,,,,,。第27頁,課件共71頁,創(chuàng)作于2023年2月以此類推,我們可以得到其他的結果:第28頁,課件共71頁,創(chuàng)作于2023年2月均值與中位數(shù)M皆是描述數(shù)據(jù)集中位置的數(shù)字特征。計算時,用了樣本的全部信息,而M僅用了數(shù)據(jù)分布中的部分信息。因此,在正常情況下,用比用M描述數(shù)據(jù)的集中位置為優(yōu)。然而,當存在異常值時,缺乏穩(wěn)健性,而M具有很強的穩(wěn)健性。考慮到要充分利用樣本信息,又要具有較強的穩(wěn)健性,可以用三均值作為數(shù)據(jù)集中位置的數(shù)字特征。
三均值的計算公式是:第29頁,課件共71頁,創(chuàng)作于2023年2月上、下四分位之差稱為四分位極差(或半級差)。有一種簡便判斷數(shù)據(jù)為異常值的方法,以為數(shù)據(jù)的上下截斷點。第30頁,課件共71頁,創(chuàng)作于2023年2月例從19個桿塔上的普通盤形絕緣子測得該層電導率()的數(shù)據(jù)如下:
9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33
計算中位數(shù)、諸分位數(shù)、極差、四分位數(shù)、三均值,并分析是否有異常值。
第31頁,課件共71頁,創(chuàng)作于2023年2月上、下截斷點分別為1.29和15.05,故數(shù)據(jù)無異常值。第32頁,課件共71頁,創(chuàng)作于2023年2月內(nèi)容分布均值、方差的數(shù)據(jù)特征數(shù)據(jù)的分布二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)誤差壞值的剔除第33頁,課件共71頁,創(chuàng)作于2023年2月數(shù)據(jù)的分布數(shù)據(jù)的數(shù)字特征刻畫了數(shù)據(jù)的主要特征,而要對數(shù)據(jù)的總體情況作全面的描述,就要研究數(shù)據(jù)的分布。對數(shù)據(jù)分布的主要描述方法是直方圖與莖葉圖、數(shù)據(jù)的理論分布即總體分布。數(shù)據(jù)分析的一個重要問題是要研究數(shù)據(jù)是否來自正態(tài)總體,這是分布的正態(tài)性經(jīng)驗的問題。第34頁,課件共71頁,創(chuàng)作于2023年2月直方圖、QQ圖對于數(shù)據(jù)分布,常用直方圖進行描述。將數(shù)據(jù)取值的范圍分成若干區(qū)間(一般是等間隔的),在等間隔區(qū)間的情況,每個區(qū)間的長度稱為組距??疾鞌?shù)據(jù)落入每一區(qū)間的頻數(shù)與頻率,在每個區(qū)間上畫一個矩形,它的寬度是組距,它的高度可以是頻數(shù)、頻率或頻率/組距,在高度是頻率/組距的情況,每一矩形的面積恰是數(shù)據(jù)落入?yún)^(qū)間的頻率,這種直方圖可以估計總體的概率密度。組距對直方圖的形態(tài)有很大的影響,組距太小,每組的頻數(shù)較少,由于隨機性的影響,鄰近區(qū)間上的頻數(shù)可能很大;組距太大,直方圖所反映概率密度的形態(tài)就不靈敏。第35頁,課件共71頁,創(chuàng)作于2023年2月第36頁,課件共71頁,創(chuàng)作于2023年2月QQ圖可以幫助界別樣本分布是否近似于某種類型的分布。第37頁,課件共71頁,創(chuàng)作于2023年2月第38頁,課件共71頁,創(chuàng)作于2023年2月莖葉圖、箱線圖與直方圖相比較,莖葉圖更能細致地看出數(shù)據(jù)分布的結構。例某班有31個學生,某門課程的考試成績?nèi)缦拢?/p>
254550545561646872757578798183848484858686868789898990919192100
做出其莖葉圖。第39頁,課件共71頁,創(chuàng)作于2023年2月第40頁,課件共71頁,創(chuàng)作于2023年2月莖葉圖的特點莖葉圖與直方圖一樣,可以直觀地看出數(shù)據(jù)的分布狀況。從莖葉圖分析,可大致直觀地看出這批數(shù)據(jù)是否接近對稱,分散性如何,是否有異常值,數(shù)據(jù)中是否有間隙等等。利用莖葉圖,很自然地可以對所有數(shù)據(jù)排序。從莖葉圖可以看出由原始數(shù)據(jù)得到的次序統(tǒng)計量。對于排過序的一批數(shù)據(jù),從小到大的每個數(shù)據(jù)的排序名次,稱為升秩;而從大到小的每個數(shù)據(jù)的排序名次,稱為降秩。每個數(shù)據(jù)的升秩與降秩的較小者,稱為該數(shù)據(jù)的深度,即
深度=min(升秩,降秩)第41頁,課件共71頁,創(chuàng)作于2023年2月例鉛壓鑄件硬度數(shù)據(jù)如下:
53.070.284.355.378.563.571.453.482.567.369.573.055.785.895.451.174.454.177.852.469.153.564.382.755.770.587.550.772.359.5
做出數(shù)據(jù)的莖葉圖。第42頁,課件共71頁,創(chuàng)作于2023年2月箱線圖莖葉圖是探索性數(shù)據(jù)分析所采用的重要方法。而箱線圖也能直觀簡潔地展現(xiàn)數(shù)據(jù)分布的主要特征。第43頁,課件共71頁,創(chuàng)作于2023年2月內(nèi)容分布均值、方差的數(shù)據(jù)特征數(shù)據(jù)的分布二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)誤差壞值的剔除第44頁,課件共71頁,創(chuàng)作于2023年2月多元數(shù)據(jù)的數(shù)字特征與相關分析以上我們分析的都是一元數(shù)據(jù),但在實際中,人們更多的遇到的是多元數(shù)據(jù)對于多元數(shù)據(jù),除分析各變量的取值特點外,更要分析各個變量之間的相關關系第45頁,課件共71頁,創(chuàng)作于2023年2月二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)設是二元總體,從中取得觀測數(shù)據(jù)
引進數(shù)據(jù)觀測矩陣記第46頁,課件共71頁,創(chuàng)作于2023年2月二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)
則,稱為二元觀測數(shù)據(jù)的均值向量。記第47頁,課件共71頁,創(chuàng)作于2023年2月二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)協(xié)方差矩陣有由Schwarz不等式所以S總是非負定的,一般是正定的。設M是n階實系數(shù)對稱矩陣,如果對任何非零向量
X=(x1,...xn)都有XMX′>0,就稱M正定(PositiveDefinite)。第48頁,課件共71頁,創(chuàng)作于2023年2月二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)觀測數(shù)據(jù)的相關系數(shù)(Pearson)計算公式是
由Schwarz不等式,有
即總有第49頁,課件共71頁,創(chuàng)作于2023年2月二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)第50頁,課件共71頁,創(chuàng)作于2023年2月Spearman相關系數(shù)秩設其次序統(tǒng)計量是若,則稱是在樣本中的秩,記作例:-0.8,-3.1,1.1,-5.2,4.2
次序統(tǒng)計量是-5.2,-3.1,-0.8,1.1,4.2
而秩統(tǒng)計量是3,2,4,1,5
當觀測數(shù)據(jù)中有兩個觀測值相等,則相應的秩統(tǒng)計量不能唯一確定,通常對相同的觀測值,其秩取為他們秩的平均值。第51頁,課件共71頁,創(chuàng)作于2023年2月Spearman相關系數(shù)第52頁,課件共71頁,創(chuàng)作于2023年2月Spearman相關系數(shù)第53頁,課件共71頁,創(chuàng)作于2023年2月內(nèi)容分布均值、方差的數(shù)據(jù)特征數(shù)據(jù)的分布二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)誤差壞值的剔除第54頁,課件共71頁,創(chuàng)作于2023年2月誤差的定義定義:Δx–
測量誤差x–
測量結果x0
–
真值測量結果與其真值的差異,真值:被測量的客觀真實值理論真值:理論上存在、計算推導出來如:三角形內(nèi)角和180°約定真值:國際上公認的最高基準值如:基準米(氪-86的能級躍遷在真空中的輻射波長)相對真值:利用高一等級精度的儀器或裝置的測量結果作為近似真值1m=1650763.73λ標準儀器的測量標準差<1/3測量系統(tǒng)標準差→檢定定量表示誤差理論第55頁,課件共71頁,創(chuàng)作于2023年2月測量誤差的性質(zhì)與分類(1)隨機誤差(randomerror)正態(tài)分布性質(zhì):原因:裝置誤差、環(huán)境誤差、使用誤差處理:統(tǒng)計分析、計算處理→減小對稱性有界性抵償性單峰性絕對值相等的正負誤差出現(xiàn)的次數(shù)相等絕對值小的誤差比絕對值大的誤差出現(xiàn)的次數(shù)多偶然誤差絕對值不會超過一定程度當測量次數(shù)足夠多時,偶然誤差算術平均值趨于0第56頁,課件共71頁,創(chuàng)作于2023年2月測量誤差的性質(zhì)與分類(2)系統(tǒng)誤差(systemerror)
:性質(zhì):有規(guī)律,可再現(xiàn),可以預測原因:原理誤差、方法誤差、環(huán)境誤差、使用誤差處理:理論分析、實驗驗證→修正(3)粗大誤差(abnormalerror)
:性質(zhì):偶然出現(xiàn),誤差很大,異常數(shù)據(jù),與有用數(shù)據(jù)混在一起原因:裝置誤差、使用誤差處理:判斷、剔除第57頁,課件共71頁,創(chuàng)作于2023年2月
測量精度精度:測量結果與真值吻合程度定性概念測量精度舉例不精密(隨機誤差大)準確(系統(tǒng)誤差?。┚埽S機誤差小)不準確(系統(tǒng)誤差大)不精密(隨機誤差大)不準確(系統(tǒng)誤差大)精密(隨機誤差?。蚀_(系統(tǒng)誤差?。┑?8頁,課件共71頁,創(chuàng)作于2023年2月精密度:(precision)表述:概念:重復測量時,測量結果的分散性準確度:表述:測量結果與真值的接近程度,系統(tǒng)誤差的影響程度隨機誤差的標準差(standarddeviation)性質(zhì):平均值與真值的偏差(deviation)第59頁,課件共71頁,創(chuàng)作于2023年2月算術平均值法表述:x1,x2,…xn---測量數(shù)據(jù)原理:多次重復測量時,取全部測量數(shù)據(jù)的算術平均值為測量結果剩余誤差偶然誤差性質(zhì):(1)剩余誤差的代數(shù)和等于零,即算術平均值法可以濾除或減小偶然誤差(2)剩余誤差的平方和為最小最小二乘法基礎第60頁,課件共71頁,創(chuàng)作于2023年2月標準誤差用偶然誤差表示:用剩余誤差表示:Bessel公式第61頁,課件共71頁,創(chuàng)作于2023年2月內(nèi)容分布均值、方差的數(shù)據(jù)特征數(shù)據(jù)的分布二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)誤差壞值的剔除第62頁,課件共71頁,創(chuàng)作于2023年2月壞值的剔除基本思想:給定一定的顯著水平,并確定一個門限,凡是超過這個門限的誤差就認為他不屬于稅基誤差的范疇,予以剔除。方法:拉依達(Pauta)準則、格拉布斯(Grubbs)準則、狄克遜(Dixon)準則、肖維勒(Chauvenet)準則第63頁,課件共71頁,創(chuàng)作于2023年2月拉依達(Pauta)準則
如果可疑數(shù)據(jù)xp與試驗數(shù)據(jù)的算術平均值的偏差的絕對值Vi大于3倍(或2倍)的標準偏差,即:Vi>3s或2s則應將xp從該組試驗值中剔除,至于選擇3s還是2s與顯著性水平α有關。顯著性水平α表示的是檢驗出錯的幾率為α,或者是檢驗的可信度為1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 灌區(qū)管理考試題目及答案
- 妊娠合并心臟病產(chǎn)后抗凝治療的精準醫(yī)療策略
- 產(chǎn)品造型基礎試題及答案
- 2026普法考試題庫及答案
- 婦幼健康服務供給優(yōu)化策略
- 大數(shù)據(jù)定量報告優(yōu)化策略
- 病句考試題及答案
- 工地電工考試及答案
- 口語考試雅思問題及答案
- 多組學數(shù)據(jù)整合在疾病預測中的價值
- 2023-2024學年北京市海淀區(qū)清華附中八年級(上)期末數(shù)學試卷(含解析)
- 臨終決策中的醫(yī)患共同決策模式
- 2026年包頭輕工職業(yè)技術學院高職單招職業(yè)適應性測試備考題庫及答案詳解
- 草原補償協(xié)議書
- 防護網(wǎng)施工專項方案
- 九年級物理 2025-2026學年九年級上學期期末物理試題及答案 2025-2026學年度上學期期末教學質(zhì)量測查九年級物理試卷
- 離婚協(xié)議書模板(模板)(通用)
- (完整版)第一性原理
- 降低住院患者口服藥缺陷率教學課件
- 《質(zhì)量管理與控制技術基礎》第一章 質(zhì)量管理基礎知識
- 高一年級主任工作總結(4篇)
評論
0/150
提交評論