應(yīng)用統(tǒng)計學(xué)-緒論.ppt_第1頁
應(yīng)用統(tǒng)計學(xué)-緒論.ppt_第2頁
應(yīng)用統(tǒng)計學(xué)-緒論.ppt_第3頁
應(yīng)用統(tǒng)計學(xué)-緒論.ppt_第4頁
應(yīng)用統(tǒng)計學(xué)-緒論.ppt_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、馬昕 經(jīng)濟學(xué)教研室 電話:62783253(H) Email: ,應(yīng)用統(tǒng)計學(xué),教材:何曉群多元統(tǒng)計分析,中國人民大學(xué)出版社,2004,參考書 何曉群現(xiàn)代統(tǒng)計分析方法與應(yīng)用,中國人民大學(xué)出版社,1998 王學(xué)民應(yīng)用多元分析,上海財經(jīng)大學(xué)出版社 Jams M Lattin等著,多元數(shù)據(jù)分析(英文版),機械工業(yè)出版社 考核方法: 讀書報告:30分(考試前交) 期末考試(開卷) :70分,第一章 緒論,多元數(shù)據(jù)分析的必要性 多元數(shù)據(jù)分析方法概論 多元數(shù)據(jù)的描述 統(tǒng)計基本知識回顧,一、多元數(shù)據(jù)分析的必要性,信息時代數(shù)據(jù)時代,決策:經(jīng)驗科學(xué) 經(jīng)濟發(fā)展 科學(xué)研究 軍事 企業(yè)組織信息組織 市場分析 投資決策

2、設(shè)備管理,你的直覺判斷 總是正確的嗎?,基于數(shù)據(jù)分析的決策,對La Quinta旅館進行以 回歸分析為基礎(chǔ)的選址,數(shù)據(jù)分析,從大量數(shù)據(jù)中發(fā)現(xiàn)盡可能多的有用信息,從而把握事物特征的過程 每個數(shù)據(jù):反映某個事物某一方面的特征,統(tǒng)計學(xué):單變量分析,描述統(tǒng)計 集中趨勢 離散趨勢 變量分布 異常點 推斷統(tǒng)計:從樣本統(tǒng)計量推斷總體參數(shù) 參數(shù)估計:樣本均值估計總體均值, 假設(shè)檢驗:總體均值或方差的檢驗,兩總體均值/方差相等的檢驗 相關(guān)分析:兩個隨機變量間的(線性)相關(guān)程度 回歸分析:一個隨機變量和一組隨機變量間的依存/相關(guān)關(guān)系,為什么需要多元數(shù)據(jù)?,一般來說事物通常具有多面性,即每一事物有多方面特征 例:學(xué)

3、生的能力、物種、國家經(jīng)濟實力、企業(yè)競爭力 必須全面考慮事物的各個方面,才能對其正確認識。 兩變量分析有時會得到虛假結(jié)果,Distinguishing Midges,Suppose we are interested in measuring the wing length and the antenna length.,Distinguishing Midges,What can you do with both variables that you cant do with just one of them?,Simpsons Paradox,Example: 44% of male app

4、licants are admitted by a university, but only 33% of female applicants Does this mean there is unfair discrimination? University investigates and breaks down figures for Engineering and English programmes,為什么需要多元數(shù)據(jù)-續(xù),Simpsons Paradox,No relationship between sex and acceptance for either programme S

5、o no evidence of discrimination Why? More females apply for the English programme, but it it hard to get into More males applied to Engineering, which has a higher acceptance rate than English Must look deeper than single cross-tab to find this out,Simpsons Paradox,In this example, the bivariate ana

6、lysis (cross-tabulation or correlation) gave misleading results Introducing another variable gave a better understanding of the data It even reversed the initial conclusions,二、多元數(shù)據(jù)分析過程及方法,行為數(shù)據(jù)結(jié)構(gòu),蠓:身體長度、翅膀長度、翅膀?qū)挾?、觸角長度、,翅膀長度、觸角長度,定比數(shù)據(jù),Some Common Patterns in Point Clouds planes filaments clusters outl

7、iers,Data Analysis:Finding and Interpreting such Patterns,多元數(shù)據(jù)分析方法概述,多元分析的目的:探索數(shù)據(jù)的模式(結(jié)構(gòu)) 多元數(shù)據(jù)分析的難點: 維度太多使我們難以發(fā)現(xiàn)規(guī)律、把握重點 多元分析方法的核心:概要和簡化 工具:矩陣代數(shù)、統(tǒng)計軟件,具體方法,聚類分析:按距離遠近分類 判別分析: 給定樣本定類親疏判別 主成分分析、因子分析、對應(yīng)分析:找出主要因素,化簡數(shù)據(jù) 方差分析 多元回歸分析 結(jié)構(gòu)方程模型,Grouping,Discriminating,Principle Component, Factoring,Correspondence,

8、Inferring推斷,exploring 探索數(shù)據(jù)模式,Structural Equation Model,課程內(nèi)容:,第一章 緒論 第二章 向量、矩陣與多維正態(tài)分布 第三章 聚類分析 第四章 判別分析 第五章 方差分析 第六章 回歸分析 第七章 主成分分析 第八章 因子分析 第九章 對應(yīng)分析 第十章 結(jié)構(gòu)方程模型,課程重點,強調(diào)方法的應(yīng)用而非理論推導(dǎo) 強調(diào)方法的內(nèi)涵與幾何解釋 強調(diào)SPSS軟件的應(yīng)用和結(jié)果的解釋,牢記: 從數(shù)據(jù)中獲取信息沒有確定的方法 具體問題具體分析,三、多元數(shù)據(jù)的描述,數(shù)據(jù)的計量尺度:告訴我們從數(shù)據(jù)中可獲得哪些信息。 品質(zhì)數(shù)據(jù):計算無意義 定類尺度:按窮盡和互斥原則將對

9、象某種特征歸類 通常用虛擬變量表示: 定序尺度 對象特征等級或順序差別的測度,三、多元數(shù)據(jù)的描述,數(shù)值數(shù)據(jù) 定距尺度:測度對象特征的間距,不能做絕對比較。 定比尺度:即可測度間距,又可做絕對比較。 數(shù)值數(shù)據(jù)的矩陣表示: 樣本數(shù)n,變量數(shù)p,數(shù)據(jù)的矩陣描述,注:若無特別說明,向量均指列向量,四、統(tǒng)計基本知識回顧:單變量分析,描述統(tǒng)計 參數(shù)估計 假設(shè)檢驗 相關(guān)與回歸,1. 描述統(tǒng)計,描述數(shù)據(jù)的集中趨勢 均值 中位數(shù) 眾數(shù) 描述數(shù)據(jù)的離散趨勢 極差 方差、標準差 變異系數(shù),異常點,目的:描述數(shù)據(jù)分布與正態(tài)分布的可能偏離 正態(tài)分布具有許多有利于統(tǒng)計的特性 一般獨立隨機事件的分布都服從正態(tài)分布 人的身高

10、,產(chǎn)品質(zhì)量 偏度:用來度量對稱性的指標 峰度:刻畫一個分布陡峭或平緩程度的指標,分布的偏度與峰度,標準化變量,對于任意變量x,將觀測值轉(zhuǎn)換成相應(yīng)Z值的過程稱為將該變量標準化,所得到的變量Z稱為標準化變量。,例:地區(qū)供電局數(shù)據(jù),基本概念,2、參數(shù)估計,基本概念(續(xù)),標準差:小 標準誤:小,標準差:大 標準誤:小,標準誤差 standard error,標準差 standard deviation,抽樣推斷:,從樣本統(tǒng)計量推斷總體參數(shù) 參數(shù)估計:在未知總體參數(shù)的情況下,利用樣本統(tǒng)計量來估計總體參數(shù)的方法。 參數(shù)點估計 參數(shù)區(qū)間估計 假設(shè)檢驗:先對總體參數(shù)作一個假設(shè),然后通過搜集樣本數(shù)據(jù),用樣本統(tǒng)

11、計量判斷對總體參數(shù)的假設(shè)是否成立,參數(shù)估計:總體參數(shù)的點估計,假設(shè)在總體X中, 為未知參數(shù)(均值、方差、成數(shù)等)。由樣本(x1、x2xn )構(gòu)造統(tǒng)計量 來估計未知參數(shù),稱 為的點估計量。 將某次抽樣的樣本觀測值,代入 即得該估計量的一個點估計值 。,矩估計法 極大似然估計法 最小二乘法,設(shè)為待估計的總體參數(shù), 為樣本統(tǒng)計量,則的優(yōu)良標準為:,點估計量的優(yōu)良性標準,如果隨著樣本容量n的增大,樣本估計量在概率意義下越來越接近于總體真實值,則稱該估計量是待估參數(shù)的一致估計量。,一致性,一致性是對一個估計量的最起碼要求?!叭绻阍趎趨于無窮大時還不能正確地得到它,那你就不應(yīng)該做這件事”葛蘭杰,置信度(

12、1-)反映了估計的可靠程度。根據(jù)樣本指標和抽樣極限誤差可以得到滿足一定置信度的總體指標的可能范圍,設(shè)總體參數(shù)為,L、U為由樣本確定的兩個統(tǒng)計量,對于給定的(01),有P(LU)=1-,則稱(L, U)為參數(shù)的置信度為1-的置信區(qū)間,參數(shù)估計:參數(shù)的區(qū)間估計,可靠度,精確度,為什么要做區(qū)間估計?,任意抽出一個婦女,試猜測其體重,猜對贏50元,猜錯輸50元 如何猜?輸贏概率如何?,例:20個婦女的體重資料如表, 平均體重:123.6pound,標準差:15.5,猜均值上下一個標準差:贏的概率?輸?shù)母怕?猜均值上下兩個標準差:輸贏概率?,區(qū)間估計原理,0.6827,落在范圍內(nèi)的概率為68.27%,置

13、信度1-=0.6827,區(qū)間估計原理,0.9545,落在范圍內(nèi)的概率為95.45%,樣本抽樣分布曲線,原總體分布曲線,置信度1-=0.9545,置信區(qū)間一覽表,總體分布知,正態(tài)總體方差未知 (大樣本),例 某保險公司從投保人中隨機抽取36人,計算出此36人平均年齡為39.5歲,已知投保人年齡近似正態(tài)分布,標準差7.2歲,試以99%的可靠度求所有投保人平均年齡的置信區(qū)間。如果將可靠度降低到95%的水平呢?,解:求所有投保人平均年齡的置信區(qū)間?,F(xiàn)有一個點估計量,在點估計量基礎(chǔ)上,構(gòu)造投保人平均年齡的置信區(qū)間,關(guān)鍵是置信區(qū)間的寬度是多少。置信區(qū)間寬度取決于置信度和抽樣平均誤差:,根據(jù)置信度查表得到,

14、在99%的置信度下,投保人年齡總體均值的置信區(qū)間為: (39.5-3.1, 39.5+3.1)36.442.6,置信度95%,Z/2=1.96, =1.96*1.2=2.35, 置信區(qū)間(37.2,41.9),3、假設(shè)檢驗,采用邏輯上的反證法 先認為假設(shè)為真,觀察在此前提下所抽到樣本的出現(xiàn)是否合理。若合理則判斷假設(shè)可接受,反之拒絕假設(shè)。 判斷是否合理的依據(jù)統(tǒng)計上的小概率原理(即這里的反證法是基于一定概率的反證法)。,假設(shè)檢驗的步驟,提出原假設(shè)和備擇假設(shè): 收集樣本數(shù)據(jù),確定適當(dāng)?shù)臋z驗統(tǒng)計量及其分布 規(guī)定顯著性水平,確定拒絕域和接受域 計算檢驗統(tǒng)計量的值 作出統(tǒng)計決策,假設(shè)的三種形式:,在原假設(shè)

15、為真的前提下,出現(xiàn)觀察到的樣本以及更極端樣本的概率。 P值(P-value):拒絕原假設(shè)的最小顯著性水平。,如果檢驗的統(tǒng)計量為t,c是從樣本得到的統(tǒng)計量的值。 左側(cè)檢驗時,P值= ptc 右側(cè)檢驗時,P值= ptc 雙側(cè)檢驗中,P值=單側(cè)P值的2倍。,精確p值,例:某機器制造出的肥皂厚度為5公分。今欲了解機器性能是否良好,隨機抽取10塊肥皂為樣本,測得平均厚度為5.3公分,樣本標準差為0.3公分。試以0.05的顯著性水平檢驗機器性能良好的假設(shè)。,建立假設(shè),檢驗統(tǒng)計量,接受域:,利用 P 值進行決策,若P值 ,不能拒絕 H0 若P值 , 拒絕 H0,4、相關(guān)與回歸,相關(guān)關(guān)系與確定性關(guān)系 相關(guān)與回

16、歸 相關(guān)分析:兩個變量間的關(guān)聯(lián)程度 回歸分析:一變量對一組變量的依賴關(guān)系 相關(guān)關(guān)系因果關(guān)系:“虱子使人健康”?,“一個統(tǒng)計關(guān)系式不管多強,也不管多么有啟發(fā)性,永遠不能確立因果方面的聯(lián)系:對因果關(guān)系的理念必須來自統(tǒng)計學(xué)之外,最終來自這種或那種理論” 肯達爾和斯圖亞蒂,定性分析,是依據(jù)研究者的理論知識和實踐經(jīng)驗,通過編制相關(guān)表、繪制相關(guān)圖,對客觀現(xiàn)象之間是否存在相關(guān)關(guān)系,以及何種相關(guān)關(guān)系作出判斷,定量分析,在定性分析的基礎(chǔ)上,計算相關(guān)系數(shù)與判定系數(shù)等方法,來判斷現(xiàn)象之間相關(guān)的方向、形態(tài)及密切程度,相關(guān)關(guān)系的測定,正 相 關(guān),負 相 關(guān),非線性相關(guān),不 相 關(guān),又稱散點圖,用直角坐標系的x軸代表自變

17、量,y軸代表因變量,將兩個變量間相對應(yīng)的變量值用坐標點的形式描繪出來,用以表明相關(guān)點分布狀況的圖形。,相關(guān)圖,線性相關(guān),線性相關(guān)的條件下,用以反映兩變量間相關(guān)密切程度的統(tǒng)計指標。,相關(guān)系數(shù),總體相關(guān)系數(shù),符號,相關(guān)系數(shù)的取值范圍:-11,樣本相關(guān)系數(shù),有容量為n的樣本(xi,yi)i=1,2,n,相關(guān)系數(shù)的假設(shè)檢驗,實際研究中,相關(guān)系數(shù)一般都是利用樣本數(shù)據(jù)計算得到的,因而隨樣本的變化而變化,具有一定的隨機性。 從樣本相關(guān)系數(shù)推斷總體相關(guān)系數(shù)需要進行假設(shè)檢驗。 相關(guān)系數(shù)的檢驗分為兩類: 總體相關(guān)系數(shù)是否為0的檢驗,即總體是否相關(guān)的檢驗 相關(guān)系數(shù)等于某一給定值的檢驗,相關(guān)系數(shù)的顯著性檢驗(t檢驗法),提出假設(shè):,目的,檢驗總體兩變量間線性相關(guān)性是否顯著,步 驟,構(gòu)造檢驗統(tǒng)計量:,相關(guān)系數(shù)的顯著性檢驗(t檢驗法), 根據(jù)給定的顯著性水

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論