連續(xù)性變量的統(tǒng)計描述與參數估計_第1頁
連續(xù)性變量的統(tǒng)計描述與參數估計_第2頁
連續(xù)性變量的統(tǒng)計描述與參數估計_第3頁
連續(xù)性變量的統(tǒng)計描述與參數估計_第4頁
連續(xù)性變量的統(tǒng)計描述與參數估計_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

連續(xù)性變量的統(tǒng)計描述與參數估計5.1連續(xù)變量的統(tǒng)計描述指標體系(1)集中趨勢(CentralTrend):均數(Mean)中位數(Median)截尾均數(TrimmedMean)幾何均數(GeometricMean)眾數(Mode)調和均數(HarmonicMean)第2頁,共41頁,2024年2月25日,星期天(4)其他趨勢單峰雙峰分布、極端值(Outlier)。(2)離散趨勢(DispersionTrend)全距(Range)、標準差(Std.Deviation)和方差(Variance)、百分位數(Percentile)、四分位數,四分位間距、變異系數(3)分布特征(DistributionTendency)偏度系數(Skewness)和峰度系數(Kurtosis)第3頁,共41頁,2024年2月25日,星期天2集中趨勢的的描述指標1算術平均算術平均(ArithmeticMean)是最常用的描述數據分布的集中趨勢的統(tǒng)計量。總體均數(PopulationMean)用希臘字母表示,樣本均數常用表示。一、算術平均數的定義和性質第4頁,共41頁,2024年2月25日,星期天二、均數的意義任何一個平均數值首先是同類現象的平均數。任何一個平均數總是一個平衡點。但平均數在高度概括觀測數據從而使問題簡化的同時,卻丟失了某些有用的信息,一方面它把各個觀測數據之間的差異性掩蓋了起來,另一方面由于平均數對于個別極端值反應比較靈敏,因而平均數在某些情況下可能具有一定的欺騙性。三、均數的適用范圍嚴格的講平均數指示用于定距變量。但有時對于定序變量,求平均等級也可以使用平均數。第5頁,共41頁,2024年2月25日,星期天2中位數中位數(Median)是將總體各單位的標志值按大小順序排列,處于中間位置的那個標志。一、中位數的定義對于未分組的原始資料,首先必須將標志值按大小順序。設排序結果為:則中位數就可以按下列方式確定:二、中位數的適用范圍第6頁,共41頁,2024年2月25日,星期天3其他集中趨勢指標一、截尾均數由于均數較易受極端值的影響,因此可以考慮將數據排序后,按照一定的比例去掉最兩端的數據,只是用中部的數據來求均數。如果截尾均數和原均數相差不大,則說明數據不存在極端值,或者兩側極端值的影響正好抵消;反之,則說明數據中有極端值,此時截尾均數更好地反映數據的集中趨勢。常用的截尾均數有5%截尾均數,即兩端各去掉5%的數據。第7頁,共41頁,2024年2月25日,星期天二、幾何均數幾何均數適用于原始數據分布不對稱,但經過對數轉換后呈對稱分布的資料。幾何均數實際上就是對數轉換后的數據lgX的算術平均數的反對數。第8頁,共41頁,2024年2月25日,星期天四、調和均數它實際上是觀察值X倒數之均數的倒數。三、眾數(Mode)眾數指的是樣本數據中出現頻次最多的那個數。眾數適用于任何層次的變量,特別適用于單峰對稱的情況,是比較兩個分布是否接近首先要考慮的參數。在SPSS中,眾數可以在Report子菜單和Tables子菜單的全部報表過程和制表過程中計算出來。在SPSS中,調和均數可以在Report子菜單的4個報表過程過程中計算出來。第9頁,共41頁,2024年2月25日,星期天3離散趨勢的描述指標1全距(Range)又稱為極差,是一組數據中最大值(Maximun)與最小值(Minimum)之差。極差反映的是變量分布的差異范圍或離散程度,在總體中,任何兩個標志值之差都不可能超過極差。極差存在兩點不足:一是它僅僅取決于兩個極端值的水平,不能反映其間的變量分布情況,提供的信息太少。二是它容易受個別極端值的影響,不符合穩(wěn)健型的要求。第10頁,共41頁,2024年2月25日,星期天2方差和標準差一、方差(Variance)和標準差(StandardDeviation)的定義將離均差平方和(SumofSquaresofDeviationfromMean,SS)除以觀察例數N,就得到方差:方差越大,數據分布離散程度越大。對于樣本數據而言,方差的計算公式為:將方差開方,就得到標準差。對于同性質的數據來說,標準差越小,表明數據的變異程度越小,即數據越整齊,數據的分布范圍越集中;標準差越大,表明數據的變異程度越大,即數據越參差不齊,分布越分散。二、方差和標準差的適用范圍:方差和標準差的適用范圍應當是正態(tài)分布。第11頁,共41頁,2024年2月25日,星期天3百分位數、四分位數與四分位數間距分位差是對極差指標的一種改進,是從變量數列中剔除了一部分極端值后重新計算的類似于極差的指標。常用的分位差有四分位差、十分位差、百分位差。一、分位數分位數:是一種位置指標,用PX表示。一個百分位數PX將一組觀測值分為兩部分,理論上有x%的觀測值比它小,(100-x)%的觀測值比它大。四分位數(quartile)、十分位數(decile)、百分位數(percentile),他們分別是用3個點、9個點、99個點將數據4等分、10等分和100等分后各分位點上的值。第12頁,共41頁,2024年2月25日,星期天二、四分位數四分位數:實際上是三個數值的總稱,分別是P25、P50、P75分位數。很顯然,中間的分位數是中位數,因此通常所說的四分位數是指第一個四分位數(下四分位數)和第三個四分位數(上四分位數)。上下四分位數的差值稱為四分位數間距:QR=Q3-Q1第13頁,共41頁,2024年2月25日,星期天4變異系數當需要比較兩組數據離散程度大小的時候,往往直接使用標準差來進行比較并不合適。這可以被分為兩種情況:(1)測量尺度相差太大;(2)數據量綱不同。在以上情形中,就應當消除測量尺度和量綱的影響,而變異系數(CoefficientofVariance),它是標準差和其平均數的比率。第14頁,共41頁,2024年2月25日,星期天5.2連續(xù)性變量的參數估計根據樣本數據對總體的客觀規(guī)律性作出合理估計的過程被稱為統(tǒng)計推斷(StatisticalInference),它可以被分為參數估計和假設檢驗兩大類。1正態(tài)分布一、正態(tài)分布的定義若連續(xù)性隨即變量X的概率分布密度函數為則稱隨機變量X服從正態(tài)分布(NormalDistribution)第15頁,共41頁,2024年2月25日,星期天二、正態(tài)分布的特征(1)正態(tài)分布是一條對稱曲線,關于均數對稱,因此均數被稱為正態(tài)分布的位置參數。(2)曲線是單峰,在均值出達到最高點。(3)正態(tài)分布曲線的高矮與標準差有關。因此標準差被稱為正態(tài)分布曲線的尺度參數。(4)曲線無論向左或向右延伸,都越來越接近橫軸,但不會與橫軸相交,以橫軸為漸近線。(5)約68%的個體的取值與平均數在距離一個標準差之內。(6)約95%的個體取值與平均數的距離在1.96個標準差之內。(7)99%個體的取值與平均數的距離在2.58個標準差。第16頁,共41頁,2024年2月25日,星期天三、標準正態(tài)分布(StandardNormalDistribution)將原來的正態(tài)分布轉換為標準正態(tài)分布。在SPSS中的Descriptive過程可以將原變量轉換為標準正態(tài)分布的得分,只需要選中主對話框左下角的Savestandardizedvaluesasvariables復選框即可。第17頁,共41頁,2024年2月25日,星期天四、偏度和峰度(1)偏度(Skewness):偏度是用來描述變量取值分布形態(tài)的統(tǒng)計量,指分布不對稱的方向和程度。樣本偏度系數:偏態(tài)的方向指的應當是長尾的方向,而不是高峰的位置。第18頁,共41頁,2024年2月25日,星期天(2)峰度(Kurtosis):峰度用來描述變量取值分布形態(tài)陡緩的統(tǒng)計量,是指分布圖形的的尖削程度或峰凸程度。樣本的峰度系數:第19頁,共41頁,2024年2月25日,星期天2參數的點估計參數的點估計就是選定一個適當的樣本統(tǒng)計量作為參數的估計量,并計算出估計值。對于所選統(tǒng)計量是否適于作參數估計量,有無偏性、一致性和有效性三個評選標準。無偏性是指雖然估計量的值不全等于參數,但應在真實值附近擺動。一致性是指樣本容量越大,估計值離真實值的差異應當越小。有效性是指如果兩個統(tǒng)計量都符合上述要求,則應當選取誤差更小的一個作為估計值。在許多種情況下,樣本統(tǒng)計量本身往往就是相應的總體參數的最佳估計,此時就可以直接取相應的樣本統(tǒng)計量作為總體參數的點估計。一、矩法第20頁,共41頁,2024年2月25日,星期天二、極大似然估計法該方法的原理是在已知總體的分布,但未知其參數值時,在待估參數的可能取值范圍內進行搜索,使似然函數值最大的那個數值為極大似然估計值。三、穩(wěn)健估計值穩(wěn)健估計值的是該統(tǒng)計量具有穩(wěn)健性,當數據存在異常值時受影響較小,而且對大部分的分布而言都很好。第21頁,共41頁,2024年2月25日,星期天穩(wěn)健估計有M估計、R估計等不同方法。SPSS中數出的M估計量有4種,它們分別是Huber、Andrews、Hampel和Tukey所提出的,實際上就是所用的函數不同。一般而言,Huber適用于數據接近正態(tài)分布的情況,另外三種則適用于數據中許多異常值的情況。如果M估計量里平均數和中位數較遠,則數據中可能存在異常值。此時,應該用M估計量替代平均數以反映集中趨勢。。第22頁,共41頁,2024年2月25日,星期天3參數的區(qū)間估計一、標準誤標準誤就是用來描述參數估計值可能離真實值究竟有多遠的統(tǒng)計量。二、區(qū)間估計的計算結合樣本統(tǒng)計量和標準誤可以確定一個具有較大的可信度包含總體參數的區(qū)間,該區(qū)間稱為總體參數的1-a可信區(qū)間或置信區(qū)間(ConfidenceInterval)。對于任意可信度的區(qū)間情況,總體均值在100(1-a)%可信區(qū)間為:第23頁,共41頁,2024年2月25日,星期天第24頁,共41頁,2024年2月25日,星期天spss中的相應功能1、Spss的用于連續(xù)變量統(tǒng)計描述的過程,均集中在DescriptiveStatistics子菜單中。(1)Frequencies:產生原始數據的頻數表,并能計算各種百分位數。第25頁,共41頁,2024年2月25日,星期天控制頻數表輸出范圍類型的最大數目第26頁,共41頁,2024年2月25日,星期天(2)Descriptive過程該過程用于一般性的統(tǒng)計描述,相對于Frequencies過程而言,它不能繪制統(tǒng)計圖。第27頁,共41頁,2024年2月25日,星期天(3)Explore過程該過程用于對連續(xù)性資料分布狀況不清楚時的探索性分析,它可以計算許多描述統(tǒng)計量,給出各種統(tǒng)計圖,并進行簡單的參數估計。第28頁,共41頁,2024年2月25日,星期天第29頁,共41頁,2024年2月25日,星期天(4)Ratio過程用于對兩個連續(xù)性變量計算相對比指標。第30頁,共41頁,2024年2月25日,星期天第31頁,共41頁,2024年2月25日,星期天5.3連續(xù)變量統(tǒng)計描述實例CCSS中的消費者信心總指數index1,現狀指數index1a,預期指數index1b進行統(tǒng)計描述,并計算95%個體參考值范圍。1使用頻數過程進行分析2使用描述過程進行分析第32頁,共41頁,2024年2月25日,星期天一、Descriptive過程的結果二、Frequencies過程的結果第33頁,共41頁,2024年2月25日,星期天3使用Explore過程進行分析探索分析是對數據進行初步的觀察分析,主要的分析項目有:觀察數據的分布特征:可通過繪制箱圖和莖葉圖等圖形直觀地反映數據的分布形式和數據的一些規(guī)律性,包括考察數據中是否存在異常值等。正態(tài)分布檢驗:檢驗數據是否服從正態(tài)分布。方差齊性的檢驗:用Levene檢驗比較各組的方差是否相等。第34頁,共41頁,2024年2月25日,星期天1、單擊Analyze->Descriptivestatistics->Explore,打開Explore主對話框:一、分析操作(3)在Display欄中選擇輸出項,依次是Both選擇項,輸出圖形與描述統(tǒng)計量(系統(tǒng)默認),只輸出描述統(tǒng)計量和只輸出圖形。本例中選擇默認項。(1)從左側的變量列表中選出變量,送入DependentList欄。(2)選擇”

”作為因子變量,送入FactorList欄。有了因子變量,SPSS會把所有的觀測個體按照因子變量的取值分成若干各組,再分組考察DependentList中的各個變量,如果不選擇因子變量,SPSS會對全部觀測來做探索分析。第35頁,共41頁,2024年2月25日,星期天2、單擊Statistics統(tǒng)計量按鈕,打開Statistics對話框,選擇統(tǒng)計輸出量。(1)Descriptives基本統(tǒng)計描述。同時指定均值的置信區(qū)間的置信度,系統(tǒng)默認為95%。(2)M-估計(M估計在計算時對所有觀測量賦予權重,隨觀測量距分布中心的遠近而變化)。(3)Outliers輸出分析數據中五個最大值和五個最小值。(4)Percentiles輸出百分數。第36頁,共41頁,2024年2月25日,星期天3、單擊Plots圖形按鈕,打開Plots對話框。(1)Boxplot箱圖選擇欄Factorlevelstogether因變量按因素水平分組(系統(tǒng)默認);Dependentstogether所有因變量生成一個并列箱圖(本例中選擇項);None不顯示箱圖。(2)Descriptive描述圖形欄Stem-and-leaf莖葉圖His

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論