基礎統(tǒng)計學及單雙變量描述統(tǒng)計分析課件_第1頁
基礎統(tǒng)計學及單雙變量描述統(tǒng)計分析課件_第2頁
基礎統(tǒng)計學及單雙變量描述統(tǒng)計分析課件_第3頁
基礎統(tǒng)計學及單雙變量描述統(tǒng)計分析課件_第4頁
基礎統(tǒng)計學及單雙變量描述統(tǒng)計分析課件_第5頁
已閱讀5頁,還剩155頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基礎統(tǒng)計學簡介來自華科社會學系鄭丹丹老師授課資料來自華科社會學系鄭丹丹老師授課資料20112第一節(jié)概述一、統(tǒng)計學統(tǒng)計學是應用數(shù)學的一個分支描述、組織和解釋數(shù)據(jù)或信息的一套工具和技術(shù)利用概率論建立數(shù)學模型,收集所觀察系統(tǒng)的數(shù)據(jù),進行量化的分析、總結(jié),并進而進行推斷和預測,為相關(guān)決策提供依據(jù)和參考20112第一節(jié)概述一、統(tǒng)計學20113二、兩個概念描述性統(tǒng)計(DescriptiveStatistics)

推論性統(tǒng)計(InferentialStatistics)20113二、兩個概念201141、描述性統(tǒng)計組織、描述和總結(jié)所收集到的一組數(shù)據(jù)的特征它所描述的是這組數(shù)據(jù)本身的分布特征

201141、描述性統(tǒng)計201152、推論性統(tǒng)計從一個較小的群體中了解的信息并得出相關(guān)結(jié)論,推廣到更大的一個群體我們把較小的這個群體,也就是我們收集了數(shù)據(jù)的群體稱之為樣本(sample),把更大的那個群體,也就是我們所感興趣的、要研究的對象群體稱之為總體(population)。統(tǒng)計值→參數(shù)值201152、推論性統(tǒng)計20116三、變量的層次適用于較低測量層次的統(tǒng)計法,可以適用于較高層次,反之則不成立20116三、變量的層次20117定類變量:按事物性質(zhì)劃分,是一種分類體系。比如:性別,婚姻狀況等。定序變量:數(shù)據(jù)具有某種邏輯順序,有高低、大小、強弱差異。比如等級評定、學歷、喜愛程度等。定距變量:反映事物在數(shù)量方面的差異,具有相等的單位。比如智商、溫度等。定比變量:不僅具有相等單位,還具有實際意義的絕對零點。比如年齡、收入等。20117定類變量:按事物性質(zhì)劃分,是一種分類體系。比如:性20118適用的運算形式=、≠>、<+、-×、÷定類變量√定序變量√√定距變量√√√定比變量√√√√20118適用的運算形式=、≠>、<+、-×、÷定類變量√定20119第二節(jié)單變量描述統(tǒng)計一、基本技術(shù)(一)定類層次1、次數(shù)分布2、比例3、比率4、對比值5、圖示法20119第二節(jié)單變量描述統(tǒng)計一、基本技術(shù)2011101、次數(shù)分布(frequencydistribution)原理與做法:思考:從右邊兩個表格可以說明什么?不可以說明什么?職業(yè)次數(shù)干部110工人152農(nóng)民288總數(shù)550職業(yè)次數(shù)干部50工人135農(nóng)民295總數(shù)4802011101、次數(shù)分布(frequencydistrib2011112、比例(proportions)每類的次數(shù)除以總數(shù)原理:使不同樣本的總數(shù)變成同一個基數(shù),即都以1為基數(shù),就可以比較了2011112、比例(proportions)201112職業(yè)次數(shù)比例(p)干部1100.200工人1520.276農(nóng)民2880.524總數(shù)5501.000職業(yè)次數(shù)比例(p)干部500.104工人1350.281農(nóng)民2950.615總數(shù)4801.000201112職業(yè)次數(shù)比例(p)干部1100.200工人1522011133、比率(rates)原理:把計算比例時所用的基數(shù)擴大百分率(f/n)*100千分率f/n*1000萬分率f/n*100002011133、比率(rates)201114職業(yè)次數(shù)比例(p)百分比干部1100.20020.0工人1520.27627.6農(nóng)民2880.52452.4總數(shù)5501.000100.0職業(yè)次數(shù)比例(p)百分比干部500.10410.4工人1350.28128.1農(nóng)民2950.61561.5總數(shù)4801.000100.0201114職業(yè)次數(shù)比例(p)百分比干部1100.200202011154、對比值(ratios)A數(shù)值與B數(shù)值的對比值,就是A除以B全校學生43285人,教師6118人生師比為:43285/6118=7.1:12011154、對比值(ratios)2011165、圖示法長條圖:barchart2011165、圖示法201117圓瓣圖:piechart201117圓瓣圖:piechart201118(二)定序?qū)哟?、累加次數(shù)2、累加百分比201118(二)定序?qū)哟?01119201119201120(三)定距層次1、分組組限:上限、下限組距:示例201120(三)定距層次2011212、圖示(1)矩形圖(直方圖)histogram2011212、圖示201122(2)線形圖(LineChart)201122(2)線形圖(LineChart)201123二、集中趨勢測量法集中趨勢的量度(measuresofcentraltendency):共性找出一個數(shù)值來代表變項的資料分布,以反映資料的集結(jié)情況可以根據(jù)這個代表值來估計或預測每個研究對象的數(shù)值201123二、集中趨勢測量法201124(一)定類變項:眾數(shù)(mode)次數(shù)最多之值201124(一)定類變項:眾數(shù)(mode)201125(二)定序變項:中位數(shù)(median)一個序列的中央位置之值,即高于此值也有50%的個案,低于此值也有50%按照某種順序排列,之后尋找位于頻次中間的值201125(二)定序變項:中位數(shù)(median)201126求中位值Md位置=(n+1)/2有男女兩組成績的定序數(shù)據(jù)男:優(yōu),優(yōu),良,良,中,中,中,中,差女:優(yōu),優(yōu),優(yōu),良,良,中,中,中,中,差201126求中位值201127(三)定距變項:平均值(mean)201127(三)定距變項:平均值(mean)201128吉斯莫先生的企業(yè)招新員工,他承諾所有員工的平均薪金是每周300元。薩姆十分樂意地接受了這份工作,但沒過多久就發(fā)現(xiàn)沒有一個普通員工的工資超過每周100元。怎么回事?平均數(shù)怎么回事?201128吉斯莫先生的企業(yè)招新員工,他承諾所有員工的平均薪201129答案原來吉斯莫的企業(yè)中有少數(shù)高薪管理者是他的親戚,由于存在極端值的影響,平均工資雖然很高,但考慮一下眾數(shù),你就會發(fā)現(xiàn)大多數(shù)人的工資都很低。201129答案原來吉斯莫的企業(yè)中有少數(shù)高薪管理者是他的親戚201130騙人的平均數(shù)不宜使用均值的情況:極端值非常特殊,代表性有問題201130騙人的平均數(shù)不宜使用均值的情況:201131三、離散趨勢測量法(measuresofvariability):異質(zhì)性求出一個值表示個案與個案之間的差異情況201131三、離散趨勢測量法201132(一)定類變項n為全部個案數(shù)目,fmo是眾值的次數(shù)

離異/異眾比率,簡寫v201132(一)定類變項n為全部個案數(shù)目,fmo是眾值的次201133某院系對大四學生的就業(yè)意愿進行了調(diào)查,請根據(jù)右表進行有關(guān)闡述。想就業(yè)的類型男生女生自主創(chuàng)業(yè)123外企員工3120中學教師2652公務員510總數(shù)7485201133某院系對大四學生的就業(yè)意愿進行了調(diào)查,請根據(jù)右表201134(二)定序變項四分位差:將一組數(shù)據(jù)按順序排列,將數(shù)據(jù)的個數(shù)分為四個相等的部分除去兩端的兩個25%的數(shù)據(jù),以中間50%的數(shù)據(jù)所占的范圍作為數(shù)據(jù)分散程度的指標201134(二)定序變項201135(三)定距變項全距(range)、標準差(standarddeviation)、方差(variance)全距=最大數(shù)-最小數(shù)簡單但粗糙201135(三)定距變項2011362、標準差反映的是每一個個案的分值與平均的分值之間的差距,簡單來說,就是平均差異有多大。標準差越大表示差異越大。

2011362、標準差反映的是每一個個案的分值與平均的分值之2011373、方差標準差的平方2011373、方差201138五、單變量描述統(tǒng)計的作用樣本情況報告了解數(shù)據(jù)的基本情況(判斷數(shù)據(jù)質(zhì)量)…………201138五、單變量描述統(tǒng)計的作用201139眾數(shù)中位數(shù)平均值集中趨勢值離散趨勢值異眾比率四分位差全距標準差201139眾數(shù)集中趨勢值離散趨勢值異眾比率201140六、單變量描述的操作1、次數(shù)、百分數(shù)等Frequencies2、中位數(shù)等Frequencies+statistics3、均值與標準差Descriptive201140六、單變量描述的操作201141第三節(jié)雙變量描述性統(tǒng)計事物之間的關(guān)系確定性關(guān)系(函數(shù)關(guān)系)非確定性關(guān)系(相關(guān)關(guān)系)線性關(guān)系非線性關(guān)系必然現(xiàn)象不可能事件201141第三節(jié)雙變量描述性統(tǒng)計事物之間的關(guān)系確定性201142相關(guān):一個變項的值與另一個變項的值有連帶性相關(guān)的三種情況:正相關(guān)、負相關(guān)、零相關(guān)相關(guān)程度(0~1)相關(guān)的方向(+-)201142相關(guān):一個變項的值與另一個變項的值有連帶性201143交互分類與百分表交互分類:同時依據(jù)兩個變項的值,將所研究的個案分類列聯(lián)表(交互分類表)表的大小=行*列自變量、因變量201143交互分類與百分表交互分類:同時依據(jù)兩個變項的值,201144志愿性別男女總數(shù)快樂家庭103040理想工作401050增廣見聞10010總數(shù)6040100201144志愿性別男女總數(shù)快樂家庭103040理想工作40201145制作條件百分表的準則——信息清楚、表格簡潔社會學研究的常規(guī)做法:以自變項為計算百分率的方向——根據(jù)自己的研究需要三線表的制作(表格簡明型1,去掉末行)201145制作條件百分表的準則——信息清楚、表格簡潔201146第四節(jié)相關(guān)測量法相關(guān)測量法以一個統(tǒng)計值表示變項之間的相關(guān)程度這個值,通常稱為相關(guān)系數(shù)201146第四節(jié)相關(guān)測量法相關(guān)測量法201147定類和定類變量定類和定序變量Lambda相關(guān)測量法tau-y相關(guān)測量法基本邏輯:以一個定類變項的值來預測另一個定類變項的值時,可以減少多少誤差其值介于0~1之間201147定類和定類變量Lambda相關(guān)測量法基本邏輯:以201148例題:考察性別(v2)與政治面貌(d11a)之間的關(guān)系201148例題:201149定序和定序變量Gamma系數(shù)Gamma系數(shù)按照同序?qū)彤愋驅(qū)€數(shù)來計算兩定序變量的相關(guān)程度和方向;同序?qū)彤愋驅(qū)ο嗖钤酱?,說明相關(guān)越強201149定序和定序變量Gamma系數(shù)Gamma系數(shù)按照同201150例題:考察受教育程度b4_a與對自己社會地位滿意程度i5_a之間的關(guān)系201150例題:201151定類和定距變量定序和定距變量相關(guān)比率(eta平方系數(shù))原理:根據(jù)自變量取值來預測或估計因變量的均值201151定類和定距變量相關(guān)比率(eta平方系數(shù))201152例題:考察性別(v2)與家務勞動時間之間的關(guān)系201152例題:201153定距和定距變量相關(guān)系數(shù)r即皮爾遜相關(guān)系數(shù)原理:兩個變量以平均數(shù)為基準的平均共變程度r本身不具有消減誤差比率的性質(zhì),但r2具有這一性質(zhì)201153定距和定距變量相關(guān)系數(shù)r原理:兩個變量以平均數(shù)為201154例題:考察讀書年數(shù)(b2)與收入之間(c18_a)的關(guān)系201154例題:201155消減誤差比例(PRE/proportionatereductioninerror)PRE數(shù)值的意義為,用一個變項來解釋另一個變項時能夠減少的錯誤比率X與Y的關(guān)系越強,所能減少的預測誤差就會越多201155消減誤差比例(PRE/proportiona201156第五節(jié)假設檢驗假設檢驗是根據(jù)樣本調(diào)查結(jié)果證實或推翻總體有關(guān)假設的一種推論統(tǒng)計方法。201156第五節(jié)假設檢驗假設檢驗是根據(jù)樣本調(diào)查結(jié)果201157最終目的總體參數(shù)值樣本統(tǒng)計值估算驗證一、統(tǒng)計推論邏輯思路201157最終目的總體參數(shù)值樣本統(tǒng)計值估算驗證一、統(tǒng)計推論201158思路常用分布(統(tǒng)計理論確定)根據(jù)樣本計算特定統(tǒng)計量,判斷此統(tǒng)計量在理論分布中出現(xiàn)的概率情況此過程稱為“統(tǒng)計推論”201158思路常用分布根據(jù)樣本計算特定統(tǒng)計量,判斷此統(tǒng)計量201159統(tǒng)計推論:用于抽樣調(diào)查資料的處理——根據(jù)局部資料(樣本資料)對總體的特征進行推斷,屬于歸納推理的范疇,不可能保證100%正確。1、由于局部資料源于總體,因此局部資料的特性在某種程度上能反映總體的特性。2、由于社會資料的隨機性,即抽樣結(jié)果不是唯一的,又使得一次抽樣結(jié)果不能恰好就等于總體的結(jié)果。201159統(tǒng)計推論:用于抽樣調(diào)查資料的處理201160二、假設檢驗的基本原理小概率原理大數(shù)定理告訴我們,就大量觀察而言,事件的發(fā)生具有規(guī)律性——在大量觀察中頻頻出現(xiàn)的事件具有較大的概率,出現(xiàn)次數(shù)較少的事件具有較小的概率。201160二、假設檢驗的基本原理小概率原理201161小概率原理分為兩個方面:1、小概率事件在一次觀察中是不可能出現(xiàn)的2、如果出現(xiàn)了小概率事件,那么,合理的想法是,否定原有事件具有小概率的說法(或稱假設)201161小概率原理分為兩個方面:201162假設檢驗的統(tǒng)計學描述:經(jīng)過抽樣獲得一組數(shù)據(jù),即一個來自總體的(隨機)樣本,如果根據(jù)樣本計算的某個統(tǒng)計量(或幾個統(tǒng)計量)表明在原假設H0成立的條件下幾乎是不可能發(fā)生的,就拒絕或否定這個原假設,并繼而接受它的對立面——被擇假設。反之,如果在原假設H0成立的情況下,根據(jù)樣本所計算的某個統(tǒng)計量,發(fā)生的可能性不是很小的話,那么就接受原假設。201162假設檢驗的統(tǒng)計學描述:經(jīng)過抽樣獲得一組數(shù)據(jù),即一201163三、基本概念1、統(tǒng)計檢驗中的假定假定是被確認和接受的事實,是進行檢驗的前提或要求。對于統(tǒng)計推論,有一個基本的而且不言而喻的假定,那就是抽樣必須是隨機的。201163三、基本概念1、統(tǒng)計檢驗中的假定2011642、統(tǒng)計檢驗中的統(tǒng)計量假設檢驗是通過樣本計算某個統(tǒng)計量來進行的。所謂小概率事件,就是指所用統(tǒng)計量,在原假設情況下,是否是小概率事件,因此確定統(tǒng)計量是很重要的2011642、統(tǒng)計檢驗中的統(tǒng)計量201165對于樣本的觀察值,統(tǒng)計量的值應該是確定的。當統(tǒng)計量確定后,根據(jù)原假設H0成立的條件,可以畫出統(tǒng)計量的分布——也稱抽樣分布、樣本分布,所選用的統(tǒng)計量,它的分布,應該是已知的,其值是有表可查的——統(tǒng)計學家所做常用分布201165對于樣本的觀察值,統(tǒng)計量的值應該是確定的。2011663、正態(tài)分布在自然、經(jīng)濟、社會等領(lǐng)域內(nèi),大量隨機變量都服從正態(tài)分布。任何變量,不管其原有分布如何,如果把它們n個加在一起,當n大于一定數(shù)之后,例如大于30,那么,其和的分布必然接近正態(tài)分布——這就是有名的中心極限定理2011663、正態(tài)分布201167正態(tài)分布,其特征是“鐘”形曲線。具有以下特征(1)對稱,單峰(一個最大值為均值),在均值加標準差處有拐點(2)從中央最高點向兩端降低,速度慢快慢,接近x軸,但不會為0(3)方差一定的情況下,均值大小決定圖形的左右位置,但形狀不變;均值一定的情況下,方差決定圖形的陡峭程度(4)圖形面積為1,某一部分的面積為隨機變量在該區(qū)域的發(fā)生概率

201167正態(tài)分布,其特征是“鐘”形曲線。具有以下特征2011682011682011694、顯著性水平(臨界水平),記作α在原假設成立的條件下,統(tǒng)計檢驗中所規(guī)定的小概率的標準,即規(guī)定小概率的數(shù)量界線。通常規(guī)定概率小于0.05或0.01的事件叫小概率事件2011694、顯著性水平(臨界水平),記作α2011705、臨界值、接受域和否定域在概率分布圖中,由顯著性水平所確定的末端區(qū)域稱為否定域否定域與顯著性水平是同一問題的兩種不同表述方法,否定域是否定或推翻虛無假設的區(qū)域,顯著性水平是推翻虛無假設的標準,否定域的概率就是顯著性水平P=2011705、臨界值、接受域和否定域201171201171201172四、假設檢驗的步驟和兩類錯誤(一)假設檢驗的步驟:1、根據(jù)實際情況作出假設(原假設必須寫出)2、根據(jù)樣本構(gòu)成合適的、能反映H0的統(tǒng)計量,并在H0成立的條件下確立統(tǒng)計量的分布3、根據(jù)問題的需要給出小概率的大小4、根據(jù)具體檢驗標準,用樣本統(tǒng)計量的觀測值進行判斷201172四、假設檢驗的步驟和兩類錯誤(一)假設檢驗的步驟201173(二)兩類錯誤(關(guān)于虛無假設)1、甲種誤差(棄真——小概率事件發(fā)生)犯第一類錯誤的大小就是顯著性水平α2、乙種誤差(納偽)在樣本容量n固定的情況下,如果同時減小兩類錯誤,是不可能的,因此一般采取增加樣本容量的辦法來解決。201173(二)兩類錯誤(關(guān)于虛無假設)201174(一)卡方檢驗五、常用的幾種檢驗方法適用于定類、定序變量原理:以理論次數(shù)為基準考察實際次數(shù)與理論次數(shù)之間的偏離程度通常結(jié)果要匯報卡方值ⅹ2、自由度df、顯著度p。201174(一)卡方檢驗五、常用的幾種檢驗方法適用于定類、201175(二)z檢驗和t檢驗主要用于總體參數(shù)的檢驗,包括平均數(shù)、百分比等的檢驗。201175(二)z檢驗和t檢驗201176Z檢驗基于正態(tài)分布,要求大樣本,t檢驗則基于t值抽樣分布,可用于小樣本。因為當樣本增大時,t值會逐漸接近正態(tài)分布,這時,二者區(qū)別不大。因此,不論樣本大小如何,皆可用t檢驗。Z檢驗可以說是t檢驗的一種特殊(大樣本)情況。在近代社會研究中,t檢驗應用更為廣泛。201176Z檢驗基于正態(tài)分布,要求大樣本,t檢驗則基于t201177t檢驗的幾種類型One-samplettest與已有的某一參照值進行比較Independent-samplesttest用于比較同一變量內(nèi)兩組數(shù)據(jù)之間的差異,而該兩組數(shù)據(jù)是按照某一定類變量或定序變量劃分的。Paired-samplettest配對樣本t檢驗,用于同一批個案在兩種不同情況下或兩個變量中的差異分別舉例演示201177t檢驗的幾種類型201178(三)F檢驗(方差分析ANOVA)

原理:通過對方差的分解和比較,以確定主要變異來源主要用途:比較幾個均值之間是否存在顯著差異適用于定距變量間的相關(guān)檢驗計算:F=組間均方/組內(nèi)均方演示201178(三)F檢驗(方差分析ANOVA)201179兩變量的測量層次相關(guān)測量法(PRE)假設檢驗定類-定類λ,tau-y卡方檢驗定類-定序定序-定序Gamma,dyZ或t檢驗定類-定距EtaF檢驗或t檢驗定序-定距定距-定距r,b總結(jié)201179兩變量的測量層次相關(guān)測量法(PRE)假設檢驗定類201180演示習題分別對性別與政治面貌、受教育程度、讀書年數(shù)等的關(guān)系進行探索,將結(jié)果撰寫成簡要報告。201180演示習題分別對性別與政治面貌、受教育程度、讀書年基礎統(tǒng)計學簡介來自華科社會學系鄭丹丹老師授課資料來自華科社會學系鄭丹丹老師授課資料201182第一節(jié)概述一、統(tǒng)計學統(tǒng)計學是應用數(shù)學的一個分支描述、組織和解釋數(shù)據(jù)或信息的一套工具和技術(shù)利用概率論建立數(shù)學模型,收集所觀察系統(tǒng)的數(shù)據(jù),進行量化的分析、總結(jié),并進而進行推斷和預測,為相關(guān)決策提供依據(jù)和參考20112第一節(jié)概述一、統(tǒng)計學201183二、兩個概念描述性統(tǒng)計(DescriptiveStatistics)

推論性統(tǒng)計(InferentialStatistics)20113二、兩個概念2011841、描述性統(tǒng)計組織、描述和總結(jié)所收集到的一組數(shù)據(jù)的特征它所描述的是這組數(shù)據(jù)本身的分布特征

201141、描述性統(tǒng)計2011852、推論性統(tǒng)計從一個較小的群體中了解的信息并得出相關(guān)結(jié)論,推廣到更大的一個群體我們把較小的這個群體,也就是我們收集了數(shù)據(jù)的群體稱之為樣本(sample),把更大的那個群體,也就是我們所感興趣的、要研究的對象群體稱之為總體(population)。統(tǒng)計值→參數(shù)值201152、推論性統(tǒng)計201186三、變量的層次適用于較低測量層次的統(tǒng)計法,可以適用于較高層次,反之則不成立20116三、變量的層次201187定類變量:按事物性質(zhì)劃分,是一種分類體系。比如:性別,婚姻狀況等。定序變量:數(shù)據(jù)具有某種邏輯順序,有高低、大小、強弱差異。比如等級評定、學歷、喜愛程度等。定距變量:反映事物在數(shù)量方面的差異,具有相等的單位。比如智商、溫度等。定比變量:不僅具有相等單位,還具有實際意義的絕對零點。比如年齡、收入等。20117定類變量:按事物性質(zhì)劃分,是一種分類體系。比如:性201188適用的運算形式=、≠>、<+、-×、÷定類變量√定序變量√√定距變量√√√定比變量√√√√20118適用的運算形式=、≠>、<+、-×、÷定類變量√定201189第二節(jié)單變量描述統(tǒng)計一、基本技術(shù)(一)定類層次1、次數(shù)分布2、比例3、比率4、對比值5、圖示法20119第二節(jié)單變量描述統(tǒng)計一、基本技術(shù)2011901、次數(shù)分布(frequencydistribution)原理與做法:思考:從右邊兩個表格可以說明什么?不可以說明什么?職業(yè)次數(shù)干部110工人152農(nóng)民288總數(shù)550職業(yè)次數(shù)干部50工人135農(nóng)民295總數(shù)4802011101、次數(shù)分布(frequencydistrib2011912、比例(proportions)每類的次數(shù)除以總數(shù)原理:使不同樣本的總數(shù)變成同一個基數(shù),即都以1為基數(shù),就可以比較了2011112、比例(proportions)201192職業(yè)次數(shù)比例(p)干部1100.200工人1520.276農(nóng)民2880.524總數(shù)5501.000職業(yè)次數(shù)比例(p)干部500.104工人1350.281農(nóng)民2950.615總數(shù)4801.000201112職業(yè)次數(shù)比例(p)干部1100.200工人1522011933、比率(rates)原理:把計算比例時所用的基數(shù)擴大百分率(f/n)*100千分率f/n*1000萬分率f/n*100002011133、比率(rates)201194職業(yè)次數(shù)比例(p)百分比干部1100.20020.0工人1520.27627.6農(nóng)民2880.52452.4總數(shù)5501.000100.0職業(yè)次數(shù)比例(p)百分比干部500.10410.4工人1350.28128.1農(nóng)民2950.61561.5總數(shù)4801.000100.0201114職業(yè)次數(shù)比例(p)百分比干部1100.200202011954、對比值(ratios)A數(shù)值與B數(shù)值的對比值,就是A除以B全校學生43285人,教師6118人生師比為:43285/6118=7.1:12011154、對比值(ratios)2011965、圖示法長條圖:barchart2011165、圖示法201197圓瓣圖:piechart201117圓瓣圖:piechart201198(二)定序?qū)哟?、累加次數(shù)2、累加百分比201118(二)定序?qū)哟?011992011192011100(三)定距層次1、分組組限:上限、下限組距:示例201120(三)定距層次20111012、圖示(1)矩形圖(直方圖)histogram2011212、圖示2011102(2)線形圖(LineChart)201122(2)線形圖(LineChart)2011103二、集中趨勢測量法集中趨勢的量度(measuresofcentraltendency):共性找出一個數(shù)值來代表變項的資料分布,以反映資料的集結(jié)情況可以根據(jù)這個代表值來估計或預測每個研究對象的數(shù)值201123二、集中趨勢測量法2011104(一)定類變項:眾數(shù)(mode)次數(shù)最多之值201124(一)定類變項:眾數(shù)(mode)2011105(二)定序變項:中位數(shù)(median)一個序列的中央位置之值,即高于此值也有50%的個案,低于此值也有50%按照某種順序排列,之后尋找位于頻次中間的值201125(二)定序變項:中位數(shù)(median)2011106求中位值Md位置=(n+1)/2有男女兩組成績的定序數(shù)據(jù)男:優(yōu),優(yōu),良,良,中,中,中,中,差女:優(yōu),優(yōu),優(yōu),良,良,中,中,中,中,差201126求中位值2011107(三)定距變項:平均值(mean)201127(三)定距變項:平均值(mean)2011108吉斯莫先生的企業(yè)招新員工,他承諾所有員工的平均薪金是每周300元。薩姆十分樂意地接受了這份工作,但沒過多久就發(fā)現(xiàn)沒有一個普通員工的工資超過每周100元。怎么回事?平均數(shù)怎么回事?201128吉斯莫先生的企業(yè)招新員工,他承諾所有員工的平均薪2011109答案原來吉斯莫的企業(yè)中有少數(shù)高薪管理者是他的親戚,由于存在極端值的影響,平均工資雖然很高,但考慮一下眾數(shù),你就會發(fā)現(xiàn)大多數(shù)人的工資都很低。201129答案原來吉斯莫的企業(yè)中有少數(shù)高薪管理者是他的親戚2011110騙人的平均數(shù)不宜使用均值的情況:極端值非常特殊,代表性有問題201130騙人的平均數(shù)不宜使用均值的情況:2011111三、離散趨勢測量法(measuresofvariability):異質(zhì)性求出一個值表示個案與個案之間的差異情況201131三、離散趨勢測量法2011112(一)定類變項n為全部個案數(shù)目,fmo是眾值的次數(shù)

離異/異眾比率,簡寫v201132(一)定類變項n為全部個案數(shù)目,fmo是眾值的次2011113某院系對大四學生的就業(yè)意愿進行了調(diào)查,請根據(jù)右表進行有關(guān)闡述。想就業(yè)的類型男生女生自主創(chuàng)業(yè)123外企員工3120中學教師2652公務員510總數(shù)7485201133某院系對大四學生的就業(yè)意愿進行了調(diào)查,請根據(jù)右表2011114(二)定序變項四分位差:將一組數(shù)據(jù)按順序排列,將數(shù)據(jù)的個數(shù)分為四個相等的部分除去兩端的兩個25%的數(shù)據(jù),以中間50%的數(shù)據(jù)所占的范圍作為數(shù)據(jù)分散程度的指標201134(二)定序變項2011115(三)定距變項全距(range)、標準差(standarddeviation)、方差(variance)全距=最大數(shù)-最小數(shù)簡單但粗糙201135(三)定距變項20111162、標準差反映的是每一個個案的分值與平均的分值之間的差距,簡單來說,就是平均差異有多大。標準差越大表示差異越大。

2011362、標準差反映的是每一個個案的分值與平均的分值之20111173、方差標準差的平方2011373、方差2011118五、單變量描述統(tǒng)計的作用樣本情況報告了解數(shù)據(jù)的基本情況(判斷數(shù)據(jù)質(zhì)量)…………201138五、單變量描述統(tǒng)計的作用2011119眾數(shù)中位數(shù)平均值集中趨勢值離散趨勢值異眾比率四分位差全距標準差201139眾數(shù)集中趨勢值離散趨勢值異眾比率2011120六、單變量描述的操作1、次數(shù)、百分數(shù)等Frequencies2、中位數(shù)等Frequencies+statistics3、均值與標準差Descriptive201140六、單變量描述的操作2011121第三節(jié)雙變量描述性統(tǒng)計事物之間的關(guān)系確定性關(guān)系(函數(shù)關(guān)系)非確定性關(guān)系(相關(guān)關(guān)系)線性關(guān)系非線性關(guān)系必然現(xiàn)象不可能事件201141第三節(jié)雙變量描述性統(tǒng)計事物之間的關(guān)系確定性2011122相關(guān):一個變項的值與另一個變項的值有連帶性相關(guān)的三種情況:正相關(guān)、負相關(guān)、零相關(guān)相關(guān)程度(0~1)相關(guān)的方向(+-)201142相關(guān):一個變項的值與另一個變項的值有連帶性2011123交互分類與百分表交互分類:同時依據(jù)兩個變項的值,將所研究的個案分類列聯(lián)表(交互分類表)表的大小=行*列自變量、因變量201143交互分類與百分表交互分類:同時依據(jù)兩個變項的值,2011124志愿性別男女總數(shù)快樂家庭103040理想工作401050增廣見聞10010總數(shù)6040100201144志愿性別男女總數(shù)快樂家庭103040理想工作402011125制作條件百分表的準則——信息清楚、表格簡潔社會學研究的常規(guī)做法:以自變項為計算百分率的方向——根據(jù)自己的研究需要三線表的制作(表格簡明型1,去掉末行)201145制作條件百分表的準則——信息清楚、表格簡潔2011126第四節(jié)相關(guān)測量法相關(guān)測量法以一個統(tǒng)計值表示變項之間的相關(guān)程度這個值,通常稱為相關(guān)系數(shù)201146第四節(jié)相關(guān)測量法相關(guān)測量法2011127定類和定類變量定類和定序變量Lambda相關(guān)測量法tau-y相關(guān)測量法基本邏輯:以一個定類變項的值來預測另一個定類變項的值時,可以減少多少誤差其值介于0~1之間201147定類和定類變量Lambda相關(guān)測量法基本邏輯:以2011128例題:考察性別(v2)與政治面貌(d11a)之間的關(guān)系201148例題:2011129定序和定序變量Gamma系數(shù)Gamma系數(shù)按照同序?qū)彤愋驅(qū)€數(shù)來計算兩定序變量的相關(guān)程度和方向;同序?qū)彤愋驅(qū)ο嗖钤酱?,說明相關(guān)越強201149定序和定序變量Gamma系數(shù)Gamma系數(shù)按照同2011130例題:考察受教育程度b4_a與對自己社會地位滿意程度i5_a之間的關(guān)系201150例題:2011131定類和定距變量定序和定距變量相關(guān)比率(eta平方系數(shù))原理:根據(jù)自變量取值來預測或估計因變量的均值201151定類和定距變量相關(guān)比率(eta平方系數(shù))2011132例題:考察性別(v2)與家務勞動時間之間的關(guān)系201152例題:2011133定距和定距變量相關(guān)系數(shù)r即皮爾遜相關(guān)系數(shù)原理:兩個變量以平均數(shù)為基準的平均共變程度r本身不具有消減誤差比率的性質(zhì),但r2具有這一性質(zhì)201153定距和定距變量相關(guān)系數(shù)r原理:兩個變量以平均數(shù)為2011134例題:考察讀書年數(shù)(b2)與收入之間(c18_a)的關(guān)系201154例題:2011135消減誤差比例(PRE/proportionatereductioninerror)PRE數(shù)值的意義為,用一個變項來解釋另一個變項時能夠減少的錯誤比率X與Y的關(guān)系越強,所能減少的預測誤差就會越多201155消減誤差比例(PRE/proportiona2011136第五節(jié)假設檢驗假設檢驗是根據(jù)樣本調(diào)查結(jié)果證實或推翻總體有關(guān)假設的一種推論統(tǒng)計方法。201156第五節(jié)假設檢驗假設檢驗是根據(jù)樣本調(diào)查結(jié)果2011137最終目的總體參數(shù)值樣本統(tǒng)計值估算驗證一、統(tǒng)計推論邏輯思路201157最終目的總體參數(shù)值樣本統(tǒng)計值估算驗證一、統(tǒng)計推論2011138思路常用分布(統(tǒng)計理論確定)根據(jù)樣本計算特定統(tǒng)計量,判斷此統(tǒng)計量在理論分布中出現(xiàn)的概率情況此過程稱為“統(tǒng)計推論”201158思路常用分布根據(jù)樣本計算特定統(tǒng)計量,判斷此統(tǒng)計量2011139統(tǒng)計推論:用于抽樣調(diào)查資料的處理——根據(jù)局部資料(樣本資料)對總體的特征進行推斷,屬于歸納推理的范疇,不可能保證100%正確。1、由于局部資料源于總體,因此局部資料的特性在某種程度上能反映總體的特性。2、由于社會資料的隨機性,即抽樣結(jié)果不是唯一的,又使得一次抽樣結(jié)果不能恰好就等于總體的結(jié)果。201159統(tǒng)計推論:用于抽樣調(diào)查資料的處理2011140二、假設檢驗的基本原理小概率原理大數(shù)定理告訴我們,就大量觀察而言,事件的發(fā)生具有規(guī)律性——在大量觀察中頻頻出現(xiàn)的事件具有較大的概率,出現(xiàn)次數(shù)較少的事件具有較小的概率。201160二、假設檢驗的基本原理小概率原理2011141小概率原理分為兩個方面:1、小概率事件在一次觀察中是不可能出現(xiàn)的2、如果出現(xiàn)了小概率事件,那么,合理的想法是,否定原有事件具有小概率的說法(或稱假設)201161小概率原理分為兩個方面:2011142假設檢驗的統(tǒng)計學描述:經(jīng)過抽樣獲得一組數(shù)據(jù),即一個來自總體的(隨機)樣本,如果根據(jù)樣本計算的某個統(tǒng)計量(或幾個統(tǒng)計量)表明在原假設H0成立的條件下幾乎是不可能發(fā)生的,就拒絕或否定這個原假設,并繼而接受它的對立面——被擇假設。反之,如果在原假設H0成立的情況下,根據(jù)樣本所計算的某個統(tǒng)計量,發(fā)生的可能性不是很小的話,那么就接受原假設。201162假設檢驗的統(tǒng)計學描述:經(jīng)過抽樣獲得一組數(shù)據(jù),即一2011143三、基本概念1、統(tǒng)計檢驗中的假定假定是被確認和接受的事實,是進行檢驗的前提或要求。對于統(tǒng)計推論,有一個基本的而且不言而喻的假定,那就是抽樣必須是隨機的。201163三、基本概念1、統(tǒng)計檢驗中的假定20111442、統(tǒng)計檢驗中的統(tǒng)計量假設檢驗是通過樣本計算某個統(tǒng)計量來進行的。所謂小概率事件,就是指所用統(tǒng)計量,在原假設情況下,是否是小概率事件,因此確定統(tǒng)計量是很重要的2011642、統(tǒng)計檢驗中的統(tǒng)計量2011145對于樣本的觀察值,統(tǒng)計量的值應該是確定的。當統(tǒng)計量確定后,根據(jù)原假設H0成立的條件,可以畫出統(tǒng)計量的分布——也稱抽樣分布、樣本分布,所選用的統(tǒng)計量,它的分布,應該是已知的,其值是有表可查的——統(tǒng)計學家所做常用分布201165對于樣本的觀察值,統(tǒng)計量的值應該是確定的。20111463、正態(tài)分布在自然、經(jīng)濟、社會等領(lǐng)域內(nèi),大量隨機變量都服從正態(tài)分布。任何變量,不管其原有分布如何,如果把它們n個加在一起,當n大于一定數(shù)之后,例如大于30,那么,其和的分布必然接近正態(tài)分布——這就是有名的中心極限定理2011663、正態(tài)分布2011147正態(tài)分布,其特征是“鐘”形曲線。具有以下特征(1)對稱,單峰(一個最大值為均值),在均值加標準差處有拐點(2)從中央最高點向兩端降低,速度慢快慢,接近x軸,但不會為0(3)方差一定的情況下,均值大小決定圖形的左右位置,但形狀不變;均值一定的情況

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論