版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、馬昕 經(jīng)濟學(xué)教研室 電話Email: ,應(yīng)用統(tǒng)計學(xué),教材:何曉群多元統(tǒng)計分析,中國人民大學(xué)出版社,2004,參考書 何曉群現(xiàn)代統(tǒng)計分析方法與應(yīng)用,中國人民大學(xué)出版社,1998 王學(xué)民應(yīng)用多元分析,上海財經(jīng)大學(xué)出版社 Jams M Lattin等著,多元數(shù)據(jù)分析(英文版),機械工業(yè)出版社 考核方法: 讀書報告:30分(考試前交) 期末考試(開卷) :70分,課程內(nèi)容:,第一章 緒論 第二章 向量、矩陣與多維正態(tài)分布 第三章 聚類分析 第四章 判別分析 第五章 方差分析 第六章 回歸分析 第七章 主成分分析 第八章 因子分析 第九章 對應(yīng)分析 第十章 結(jié)構(gòu)方程模型,第一章
2、 緒論,多元數(shù)據(jù)分析的必要性 多元數(shù)據(jù)分析方法概論 多元數(shù)據(jù)的描述 統(tǒng)計基本知識回顧,一、多元數(shù)據(jù)分析的必要性,信息時代數(shù)據(jù)時代,決策:經(jīng)驗科學(xué) 經(jīng)濟發(fā)展 科學(xué)研究 軍事 企業(yè)組織信息組織 市場分析 投資決策 設(shè)備管理,你的直覺判斷 總是正確的嗎?,基于數(shù)據(jù)分析的決策,對La Quinta旅館進行以 回歸分析為基礎(chǔ)的選址,數(shù)據(jù)分析,從大量數(shù)據(jù)中發(fā)現(xiàn)盡可能多的有用信息,從而把握事物特征的過程 每個數(shù)據(jù):反映某個事物某一方面的特征,統(tǒng)計學(xué):單變量/雙變量分析,描述統(tǒng)計 集中趨勢 離散趨勢 變量分布 異常點 推斷統(tǒng)計:從樣本統(tǒng)計量推斷總體參數(shù) 參數(shù)估計:樣本均值估計總體均值, 假設(shè)檢驗:總體均值或方
3、差的檢驗,兩總體均值/方差相等的檢驗 相關(guān)分析:兩個隨機變量間的(線性)相關(guān)程度 回歸分析:一個隨機變量和一組隨機變量間的依存/相關(guān)關(guān)系,為什么需要多元數(shù)據(jù)?,一般來說事物通常具有多面性,即每一事物有多方面特征 例:學(xué)生的能力、物種、國家經(jīng)濟實力、企業(yè)競爭力 僅從一個方面往往不足以反映事物特性或個體之間的差異 必須全面考慮事物的各個方面,才能對其正確認(rèn)識。,Simpsons Paradox,Example: 44% of male applicants are admitted by a university, but only 33% of female applicants Does th
4、is mean there is unfair discrimination? University investigates and breaks down figures for Engineering and English programmes,為什么需要多元數(shù)據(jù)-續(xù),兩變量分析有時會得到虛假結(jié)果,Simpsons Paradox,No relationship between sex and acceptance for either programme So no evidence of discrimination Why? More females apply for the
5、English programme, but it it hard to get into More males applied to Engineering, which has a higher acceptance rate than English Must look deeper than single cross-tab to find this out,兩變量分析有時會得到虛假結(jié)果,Simpsons Paradox,In this example, the bivariate analysis (cross-tabulation or correlation) gave misl
6、eading results Introducing another variable gave a better understanding of the data It even reversed the initial conclusions,二、多元數(shù)據(jù)分析過程及方法,行為數(shù)據(jù)結(jié)構(gòu),蠓:身體長度、翅膀長度、翅膀?qū)挾?、觸角長度、,翅膀長度、觸角長度,定比數(shù)據(jù),Some Common Patterns in Point Clouds planes filaments clusters outliers,Data Analysis:Finding and Interpreting such
7、Patterns,多元數(shù)據(jù)分析方法概述,多元分析的目的:探索數(shù)據(jù)的模式(結(jié)構(gòu)) 多元數(shù)據(jù)分析的難點: 維度太多使我們難以發(fā)現(xiàn)規(guī)律、把握重點 多元分析方法的核心:概要和簡化 工具:矩陣代數(shù)、統(tǒng)計軟件(SAS,SPSS, Stata等),具體方法,聚類分析:按距離遠近分類 判別分析: 給定樣本定類親疏判別 主成分分析、因子分析、對應(yīng)分析:找出主要因素,化簡數(shù)據(jù) 方差分析 多元回歸分析 結(jié)構(gòu)方程模型,Grouping,Discriminating,Principle Component, Factoring,Correspondence,Inferring推斷,exploring 探索數(shù)據(jù)模式,St
8、ructural Equation Model,課程重點,強調(diào)方法的應(yīng)用而非理論推導(dǎo) 強調(diào)方法的內(nèi)涵與幾何解釋 強調(diào)SPSS軟件的應(yīng)用和結(jié)果的解釋,牢記: 從數(shù)據(jù)中獲取信息沒有確定的方法 具體問題具體分析,三、多元數(shù)據(jù)的描述,數(shù)據(jù)的計量尺度(measurement scale):告訴我們從數(shù)據(jù)中可獲得哪些信息。 品質(zhì)數(shù)據(jù):計算無意義 定類尺度:按窮盡和互斥原則將對象某種特征歸類 通常用虛擬變量表示: 定序尺度 對象特征等級或順序差別的測度,三、多元數(shù)據(jù)的描述,數(shù)值數(shù)據(jù) 定距尺度:測度對象特征的間距,不能做絕對比較。 定比尺度:即可測度間距,又可做絕對比較。 數(shù)值數(shù)據(jù)的矩陣表示: 樣本數(shù)n,變量
9、數(shù)p,數(shù)據(jù)的矩陣描述,注:若無特別說明,向量均指列向量,四、統(tǒng)計基本知識回顧:單變量分析,描述統(tǒng)計 參數(shù)估計 假設(shè)檢驗,1. 描述統(tǒng)計,描述數(shù)據(jù)的集中趨勢 均值 中位數(shù) 眾數(shù) 描述數(shù)據(jù)的離散趨勢 極差 方差、標(biāo)準(zhǔn)差 變異系數(shù),異常點,均值的代表性,目的:描述數(shù)據(jù)分布與正態(tài)分布的可能偏離 正態(tài)分布具有許多有利于統(tǒng)計的特性 一般獨立隨機事件的分布都服從正態(tài)分布 人的身高,產(chǎn)品質(zhì)量 偏度:用來度量對稱性的指標(biāo) 峰度:刻畫一個分布陡峭或平緩程度的指標(biāo),分布的偏度與峰度,標(biāo)準(zhǔn)化變量,對于任意變量x,將觀測值轉(zhuǎn)換成相應(yīng)Z值的過程稱為將該變量標(biāo)準(zhǔn)化,所得到的變量Z稱為標(biāo)準(zhǔn)化變量。,例:地區(qū)供電局?jǐn)?shù)據(jù),基本概
10、念,2、參數(shù)估計,基本概念(續(xù)),標(biāo)準(zhǔn)差:小 標(biāo)準(zhǔn)誤:小,標(biāo)準(zhǔn)差:大 標(biāo)準(zhǔn)誤:小,標(biāo)準(zhǔn)誤差 standard error,標(biāo)準(zhǔn)差 standard deviation,抽樣推斷:,從樣本統(tǒng)計量推斷總體參數(shù) 參數(shù)估計:在未知總體參數(shù)的情況下,利用樣本統(tǒng)計量來估計總體參數(shù)的方法。 參數(shù)點估計 參數(shù)區(qū)間估計 假設(shè)檢驗:先對總體參數(shù)作一個假設(shè),然后通過搜集樣本數(shù)據(jù),用樣本統(tǒng)計量判斷對總體參數(shù)的假設(shè)是否成立,參數(shù)估計:總體參數(shù)的點估計,假設(shè)在總體X中, 為未知參數(shù)(均值、方差、成數(shù)等)。由樣本(x1、x2xn )構(gòu)造統(tǒng)計量 來估計未知參數(shù),稱 為的點估計量。 將某次抽樣的樣本觀測值,代入 即得該估計量的
11、一個點估計值 。,矩估計法 極大似然估計法 最小二乘法,設(shè)為待估計的總體參數(shù), 為樣本統(tǒng)計量,則的優(yōu)良標(biāo)準(zhǔn)為:,點估計量的優(yōu)良性標(biāo)準(zhǔn),如果隨著樣本容量n的增大,樣本估計量在概率意義下越來越接近于總體真實值,則稱該估計量是待估參數(shù)的一致估計量。,一致性,一致性是對一個估計量的最起碼要求。“如果你在n趨于無窮大時還不能正確地得到它,那你就不應(yīng)該做這件事”葛蘭杰,置信度(1-)反映了估計的可靠程度。根據(jù)樣本指標(biāo)和抽樣極限誤差可以得到滿足一定置信度的總體指標(biāo)的可能范圍,設(shè)總體參數(shù)為,L、U為由樣本確定的兩個統(tǒng)計量,對于給定的(01),有P(LU)=1-,則稱(L, U)為參數(shù)的置信度為1-的置信區(qū)間,
12、參數(shù)估計:參數(shù)的區(qū)間估計,可靠度,精確度,為什么要做區(qū)間估計?,任意抽出一個婦女,試猜測其體重,猜對贏50元,猜錯輸50元 如何猜?輸贏概率如何?,例:20個婦女的體重資料如表, 平均體重:123.6pound,標(biāo)準(zhǔn)差:15.5,猜均值上下一個標(biāo)準(zhǔn)差:贏的概率?輸?shù)母怕?猜均值上下兩個標(biāo)準(zhǔn)差:輸贏概率?,置信區(qū)間估計方法一覽表,總體分布知,正態(tài)總體方差未知 (大樣本),區(qū)間估計原理,0.6827,落在范圍內(nèi)的概率為68.27%,置信度1-=0.6827,區(qū)間估計原理,0.9545,落在范圍內(nèi)的概率為95.45%,樣本抽樣分布曲線,原總體分布曲線,置信度1-=0.9545,例 某保險公司從投保人
13、中隨機抽取36人,計算出此36人平均年齡為39.5歲,已知投保人年齡近似正態(tài)分布,標(biāo)準(zhǔn)差7.2歲,試以99%的可靠度求所有投保人平均年齡的置信區(qū)間。如果將可靠度降低到95%的水平呢?,解:求所有投保人平均年齡的置信區(qū)間?,F(xiàn)有一個點估計量,在點估計量基礎(chǔ)上,構(gòu)造投保人平均年齡的置信區(qū)間,關(guān)鍵是置信區(qū)間的寬度是多少。置信區(qū)間寬度取決于置信度和抽樣平均誤差:,根據(jù)置信度查表得到,在99%的置信度下,投保人年齡總體均值的置信區(qū)間為: (39.5-3.1, 39.5+3.1)36.442.6,置信度95%,Z/2=1.96, =1.96*1.2=2.35, 置信區(qū)間(37.2,41.9),3、假設(shè)檢驗,采用邏輯上的反證法 先認(rèn)為假設(shè)為真,觀察在此前提下所抽到樣本的出現(xiàn)是否合理。若合理則判斷假設(shè)可接受,反之拒絕假設(shè)。 判斷是否合理的依據(jù)統(tǒng)計上的小概率原理(即這里的反證法是基于一定概率的反證法)。,假設(shè)檢驗的步驟,提出原假設(shè)和備擇假設(shè): 收集樣本數(shù)據(jù),確定適當(dāng)?shù)臋z驗統(tǒng)計量及其分布 規(guī)定顯著性水平,確定拒絕域和接受域 計算檢驗統(tǒng)計量的值 作出統(tǒng)計決策,假設(shè)的三種形式:,在原假設(shè)為真的前提下,出現(xiàn)觀察到的樣本以及更極端樣本的概率。 P值(P-value):拒絕原假設(shè)的最小顯著性水平。,如果檢驗的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高1上學(xué)期-地理期末模擬卷(新高考通15+4)含答案
- 2026中國航空工業(yè)集團有限公司華東審計中心崗位招聘18人參考考試試題附答案解析
- 2026四川宜賓翠屏產(chǎn)業(yè)創(chuàng)新發(fā)展有限公司第一批員工招聘2人參考考試試題附答案解析
- 2026上半年昭通學(xué)院招聘碩士研究生26人參考考試題庫附答案解析
- 2026廣東深圳市龍崗區(qū)婦幼保健院招聘142人(2026年第一批次)備考考試題庫附答案解析
- 2026江蘇蘇州大學(xué)科研助理崗位招聘7人參考考試題庫附答案解析
- 2026廣東中山市公安局橫欄分局輔警招聘9人參考考試題庫附答案解析
- 集成芯片介紹
- 2026廣西來賓市事業(yè)單位統(tǒng)一公開招聘工作人員923人備考考試試題附答案解析
- 2026浙江麗水市云和縣民政和人力資源社會保障局招聘編外用工1人備考考試試題附答案解析
- 2026貴州省省、市兩級機關(guān)遴選公務(wù)員357人考試備考題庫及答案解析
- 北京通州產(chǎn)業(yè)服務(wù)有限公司招聘備考題庫必考題
- 第五版-FMEA-新版FMEA【第五版】
- 眼科學(xué)-眼科常用檢查法
- GB 25199-2015生物柴油調(diào)合燃料(B5)
- DB32/T+4396-2022《勘察設(shè)計企業(yè)質(zhì)量管理標(biāo)準(zhǔn)》-(高清正版)
- 臺州市街頭鎮(zhèn)張家桐村調(diào)研報告
- 壓力排水管道安裝技術(shù)交底
- 電梯檢驗安全導(dǎo)則
- 糖代謝紊亂生物化學(xué)檢驗
- 科技基礎(chǔ)性工作專項項目科學(xué)數(shù)據(jù)匯交方案編制
評論
0/150
提交評論