《統(tǒng)計(jì)學(xué) 》課件-第三章 統(tǒng)計(jì)學(xué)的變量_第1頁(yè)
《統(tǒng)計(jì)學(xué) 》課件-第三章 統(tǒng)計(jì)學(xué)的變量_第2頁(yè)
《統(tǒng)計(jì)學(xué) 》課件-第三章 統(tǒng)計(jì)學(xué)的變量_第3頁(yè)
《統(tǒng)計(jì)學(xué) 》課件-第三章 統(tǒng)計(jì)學(xué)的變量_第4頁(yè)
《統(tǒng)計(jì)學(xué) 》課件-第三章 統(tǒng)計(jì)學(xué)的變量_第5頁(yè)
已閱讀5頁(yè),還剩73頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)Statistics統(tǒng)計(jì)與信息學(xué)院第三章統(tǒng)計(jì)學(xué)的變量主要內(nèi)容變量含義變量類型變量構(gòu)造變量功能3.1統(tǒng)計(jì)學(xué)變量的定義1、統(tǒng)計(jì)變量定義。統(tǒng)計(jì)學(xué)中的變量(variable)指所研究對(duì)象(個(gè)體,人、物體、地點(diǎn))可觀測(cè)的特征(characteristic),變量是因?yàn)椴煌瑢?duì)象(objects)具有不同的變化特征屬性(properties)值,具有多個(gè)值的特征和現(xiàn)象。變量是可測(cè)的(measurable)概念,其在幅度上、強(qiáng)度上的變化程度是可加以度量的。2、變量代表數(shù)據(jù)的變異性。統(tǒng)計(jì)數(shù)據(jù)要求有變異性,變量說明數(shù)據(jù)是變化的。如成績(jī)是變量,說明學(xué)生的成績(jī)是變化的。統(tǒng)計(jì)變量是調(diào)查項(xiàng)目,是調(diào)查表格中的列名稱,也稱字段名(field)。3、變量代表一列數(shù)據(jù)。統(tǒng)計(jì)學(xué)用變量代表數(shù)據(jù)集合中的一列數(shù)據(jù)。統(tǒng)計(jì)學(xué)分析數(shù)據(jù)其實(shí)分析變量,所以變量在統(tǒng)計(jì)學(xué)概念中是極為重要的。是統(tǒng)計(jì)進(jìn)行數(shù)據(jù)分析研究的基礎(chǔ)。4、一個(gè)個(gè)體可以有多個(gè)變量。一個(gè)調(diào)查個(gè)體可以擁有多個(gè)變量。如研究對(duì)象是居民時(shí),特征變量可以是性別,民族,收入等;如研究對(duì)象是企業(yè)時(shí),特征變量可以是產(chǎn)值,人數(shù),資產(chǎn),利潤(rùn),所得稅等。例如:一個(gè)人的生理特征變量,如年齡、體重和身高,心理特征變量,如態(tài)度和智力,社會(huì)屬性變量,如社會(huì)地位和領(lǐng)導(dǎo)能力,經(jīng)濟(jì)特征變量,有收入,消費(fèi)等3.1.2統(tǒng)計(jì)變量與數(shù)學(xué)變量的區(qū)別區(qū)別統(tǒng)計(jì)變量數(shù)學(xué)變量組成一般由三個(gè)組成部分,變量名稱,代碼,意義(量綱,計(jì)算公式)一般只有代碼,且不重要,名稱與意義均可無(wú)測(cè)量必須是可測(cè)量的,直接測(cè)量或間接測(cè)量不關(guān)心測(cè)量數(shù)值。分布不需要先假設(shè)變量分布需要假設(shè)隨機(jī)變量的分布數(shù)據(jù)變量分析需要有真實(shí)調(diào)查數(shù)據(jù)變量可以不要數(shù)據(jù),由假設(shè)推導(dǎo)性質(zhì)也可以模擬數(shù)據(jù),編造數(shù)據(jù)計(jì)算需要根據(jù)數(shù)據(jù)類型,不能隨意進(jìn)行各類統(tǒng)計(jì)計(jì)算。抽象數(shù)據(jù)可以進(jìn)行任何計(jì)算順序根據(jù)研究目的先確定因變量,后找自變量提供輔助信息數(shù)學(xué)模型y=F(x)是因變量與自變量同時(shí)出現(xiàn)統(tǒng)計(jì)分析主要是對(duì)變量進(jìn)行分析,分析變量的特征,分析變量的分布,分析變量的變化,分析變量間的影響,研究變量變化的趨勢(shì)、方向和程度,用模型刻畫變量間的關(guān)系。

2、統(tǒng)計(jì)變量與數(shù)學(xué)變量的舉例例如:設(shè)有一個(gè)隨機(jī)變量X。(x1,x2,x3,…,xn)是簡(jiǎn)單隨機(jī)樣本。這是數(shù)學(xué)變量,可以進(jìn)行任意計(jì)算。例如:設(shè)隨機(jī)變量Y服從N(u,σ2)的正態(tài)分布,研究其在(a,b)區(qū)間的概率。這是數(shù)學(xué)的變量。例如:設(shè)有一組隨機(jī)變量x1,x2,x3,服從N(0,1)分布,,這是數(shù)學(xué)變量。數(shù)學(xué)上設(shè)一個(gè)隨機(jī)變量X,這個(gè)抽象變量可以進(jìn)行各種數(shù)學(xué)計(jì)算,可以計(jì)算平均,方差等等。這就造成了錯(cuò)誤地認(rèn)為所有的變量均可計(jì)算平均值與方差。但在統(tǒng)計(jì)上有些變量雖然可以計(jì)算平均,但結(jié)果并無(wú)任何意義,所以就不能平均。例如:將中國(guó)人口1949到2013年的數(shù)據(jù)平均,平均值為107534.78萬(wàn)人,這個(gè)數(shù)據(jù)能說明什么?不是任何一年的人口數(shù),不能代表所有的數(shù)據(jù)。例如:某人將從一歲到18歲的身高數(shù)據(jù)平均,平均身高為1.55米,這個(gè)結(jié)果你想能說明什么?例如:將兩個(gè)國(guó)家的人口、面積進(jìn)行平均,其結(jié)果可以說明什么?例如:將產(chǎn)品等級(jí)用1,2,3表示一級(jí)品、合格品、不合格品,數(shù)據(jù)能進(jìn)行平均嗎?區(qū)分統(tǒng)計(jì)變量與數(shù)學(xué)變量的真正意義是不能隨意照搬數(shù)學(xué)公式進(jìn)行統(tǒng)計(jì)計(jì)算。犯此類錯(cuò)誤的現(xiàn)象比比皆是,屢見不鮮,不知就里,照貓畫虎。先有變量還是先有數(shù)據(jù)?我認(rèn)為是先有變量后有數(shù)據(jù)。研究一個(gè)社會(huì)經(jīng)濟(jì)現(xiàn)象,首先要確定測(cè)量這個(gè)現(xiàn)象的變量。如研究經(jīng)濟(jì)形勢(shì),需要選擇的變量有GDP,價(jià)格指數(shù)CPI,就業(yè)率(失業(yè)率),外貿(mào)進(jìn)出口量等等。選擇變量是在對(duì)社會(huì)經(jīng)濟(jì)現(xiàn)象進(jìn)行初步研究之后才能提出的。先有變量,才能確定調(diào)查項(xiàng)目和搜集目標(biāo),而后才有數(shù)據(jù)。3、統(tǒng)計(jì)變量的說明格式統(tǒng)計(jì)學(xué)變量的構(gòu)成:代碼,變量名稱,變量意義,取值說明變量代碼變量名稱(標(biāo)簽)類型說明SEX性別字符型C1=男,2=女AGE年齡數(shù)值型Neducation學(xué)歷字符C0=文盲,1=初中,2=高中與中專,3=大專,4=本科以上表3-2變量說明表格式英文漢字下列調(diào)查問卷說明變量與變量值你的性別()

1男2女你的年齡()

1:16以下,2:16—25,3:26—35,4:36—45,5:45以上你的教育程度()A高中以下B高中或中專C大專D本科及本科以上你的月收入()A2000元以下B2000---5000元C50000元以上變量代碼變量名稱類型說明XB性別NL年齡XL學(xué)歷SR收入調(diào)查表的變量說明3.2統(tǒng)計(jì)學(xué)變量類型3.2.1變量類型與數(shù)據(jù)類型變量的類型由對(duì)應(yīng)數(shù)據(jù)的類型決定。例如成績(jī)是變量,成績(jī)的類型是有多種的,當(dāng)成績(jī)由數(shù)值表示時(shí),如百分制的80分,變量是數(shù)值型;當(dāng)成績(jī)用等級(jí)“優(yōu)秀、良好、中等、及格、不及格”表示時(shí),成績(jī)變量是有序字符型;當(dāng)成績(jī)用“及格,不及格”表示時(shí),成績(jī)變量是分類字符型。例如年齡是變量,當(dāng)年齡用數(shù)值表示,80歲,是數(shù)值型;當(dāng)年齡分成幾段“20歲以下,20—30,30—40,40—50,50歲以上”則年齡變量是有序字符型,若年齡劃分為“老齡,非老齡”則是屬于是分類字符型。有時(shí)為了得到真實(shí)的數(shù)據(jù),將數(shù)值型劃分為字符型,填表人顧慮會(huì)少,會(huì)真實(shí)填寫。如較敏感的數(shù)據(jù)收入,年齡等。3.2.2變量的分類圖3-1變量分類圖定性變量(qualitative)也稱字符型變量,其數(shù)據(jù)是不具計(jì)算能力的文字?jǐn)?shù)據(jù)類型,用字母C或字符串string表示。它包括中文字符、英文字符、數(shù)字等??梢苑譃橛行蜃兞浚∣rdinal)和屬性變量(Nominal)。(1)屬性變量(Attributevariable),分類變量(categorical),名義數(shù)據(jù)(nominaldata)說明事物類別的一個(gè)名稱,其取值是分類數(shù)據(jù)。如:性別、行業(yè)、音樂(古典音樂、鄉(xiāng)村音樂、民間、爵士、搖滾),為名義分類變量編的序號(hào)代碼沒有統(tǒng)計(jì)意義。如用1代表男,2代表女可以隨意編號(hào),但統(tǒng)計(jì)學(xué)不能依據(jù)這些數(shù)據(jù)計(jì)算分析。(2)有序變量:說明事物有序類別的一個(gè)名稱,其取值是順序數(shù)據(jù)。如汽車可以分為(小型、中型、大型),學(xué)歷可以分為(文盲、小學(xué)、,初中,高中,大專、本科、研究生)、職稱(初級(jí)、中級(jí)、高級(jí))等??梢杂脭?shù)字1,2,3,表示這些類,但不能計(jì)算兩類間的距離,可以依據(jù)代碼排序。2.定量變量(quantitative)也稱數(shù)值型(Numeric)變量,用字母N表示,數(shù)據(jù)由數(shù)字、小數(shù)點(diǎn)、正負(fù)號(hào)和字母E組成,科學(xué)計(jì)數(shù)法,如1.2E-5=1.2×10-5

也可分為區(qū)間變量(intervalvariables)和比例變量(ratiovariables)數(shù)值變量可以計(jì)算任意兩個(gè)數(shù)值間距離。如血壓,年收入,年齡、溫度等。科學(xué)記數(shù)法,浮點(diǎn)法(1)個(gè)體數(shù)值變量。反映個(gè)體特征的數(shù)值變量??芍涫杖?,食品消費(fèi)支出等。數(shù)值由調(diào)查個(gè)體測(cè)量或觀測(cè)得到的。個(gè)體時(shí)間序列是對(duì)同一個(gè)體多次重復(fù)測(cè)量的數(shù)據(jù),比如醫(yī)生一個(gè)月內(nèi)每天測(cè)的病人的血壓值;個(gè)體截面數(shù)據(jù),每個(gè)個(gè)體只有一個(gè)測(cè)量值,比如被試的性別。(2)絕對(duì)數(shù)變量。加法得到絕對(duì)數(shù)變量。由集合、組織或者集體數(shù)據(jù)匯總得到的數(shù)值,一般稱為指標(biāo)。一般不用于進(jìn)行總體間比較。分為截面數(shù)據(jù)與時(shí)間序列。時(shí)間序列總量指標(biāo)可分為時(shí)點(diǎn)與時(shí)期。時(shí)間序列總量可以分為時(shí)點(diǎn)(存量stock)與時(shí)期(流量flow)變量。流量和存量是經(jīng)濟(jì)分析中的兩個(gè)重要概念。流量是指帶有時(shí)間跨度或在一個(gè)時(shí)段上所累積變動(dòng)的量,是指一定時(shí)期內(nèi)發(fā)生的變量變動(dòng)的數(shù)值。好比通過一個(gè)河段的水流量。存量則指在某一個(gè)時(shí)點(diǎn)上某一變量的量值,是指在一定時(shí)點(diǎn)上存在的變量的數(shù)值,如同湖中所盛的水。流量與存量只是對(duì)總量指標(biāo)而言的存量和流量是互為對(duì)稱的概念。例如:M2就是存量概念,GDP是流量概念。時(shí)間序列總量指標(biāo)(3)相對(duì)數(shù)變量。除法得到相對(duì)變量可分為三類;頻率或比例,強(qiáng)度,比率。①比例變量(頻率)是內(nèi)部結(jié)構(gòu)變量。用部分除以全體。國(guó)內(nèi)生產(chǎn)總值GDP有三種計(jì)算方法,即生產(chǎn)法、收入法和支出法,有三種結(jié)構(gòu)比例。例:GDP=第一產(chǎn)業(yè)增加值+第二產(chǎn)業(yè)增加值+第三產(chǎn)業(yè)增加值表3-3結(jié)構(gòu)比例表格式變量增加值(億元)比例%GDP518942.1100第一產(chǎn)業(yè)52373.610.1第二產(chǎn)業(yè)235162.45.3第三產(chǎn)業(yè)231406.544.6②強(qiáng)度變量。兩個(gè)相關(guān)絕對(duì)變量的比例如:?jiǎn)挝粐?guó)內(nèi)生產(chǎn)總值能耗是每生產(chǎn)一個(gè)單位的國(guó)內(nèi)生產(chǎn)總值所消耗的能源。計(jì)算公式為:絕對(duì)數(shù)相對(duì)數(shù)③比率變量比率;兩個(gè)相關(guān)但不同類別變量數(shù)值的比。(一般不包括內(nèi)部與整體的比)。如:資產(chǎn)報(bào)酬率=稅前凈利/平均資產(chǎn)總額×100%。資產(chǎn)報(bào)酬率,也稱投資盈利率。指公司資產(chǎn)總額中平均每100元所能獲得的純利潤(rùn)。稅前凈利=凈利潤(rùn)+利息費(fèi)用+所得稅;平均資產(chǎn)總額=(期初資產(chǎn)總額+期末資產(chǎn)總額)/2。如:流動(dòng)比率=流動(dòng)資產(chǎn)合計(jì)/流動(dòng)負(fù)債合計(jì)*100%變量的測(cè)度層次從高到底依次是區(qū)間變量、有序變量,名義變量.底層次的變量的統(tǒng)計(jì)分析方法可以用到高層次變量,但高層次變量的統(tǒng)計(jì)分析方法不可以用到底層次變量。(1)宏觀經(jīng)濟(jì)變量

例:國(guó)內(nèi)生產(chǎn)總值:第一產(chǎn)業(yè)(農(nóng)林牧漁),第二產(chǎn)業(yè)(工業(yè),建筑業(yè)),第三產(chǎn)業(yè)(交通運(yùn)輸、倉(cāng)儲(chǔ)和郵政業(yè),批發(fā)和零售業(yè),住宿和餐飲業(yè),金融業(yè),房地產(chǎn)業(yè)),外貿(mào)貨物進(jìn)出口總額,能源消費(fèi)總量等??杀容^的相對(duì)變量:三次產(chǎn)業(yè)所占比例,三次產(chǎn)業(yè)貢獻(xiàn)率,來華旅游人數(shù)外國(guó)人結(jié)構(gòu)3變量類型舉例(2)工業(yè)經(jīng)濟(jì)變量工業(yè)總產(chǎn)值,資產(chǎn)總計(jì),主營(yíng)業(yè)務(wù)收入,主營(yíng)業(yè)務(wù)成本,利潤(rùn)總額,全部從業(yè)人員,本年應(yīng)交增值稅。工業(yè)經(jīng)濟(jì)可比較的相對(duì)變量:工業(yè)增加值率,總資產(chǎn)貢獻(xiàn)率,流動(dòng)資產(chǎn)周轉(zhuǎn)次數(shù)(次/年),成本費(fèi)用利潤(rùn)率,產(chǎn)品銷售率,工業(yè)利稅貢獻(xiàn)率,全員勞動(dòng)生產(chǎn)率(元/人),凈資產(chǎn)收益率,主營(yíng)業(yè)務(wù)收入工業(yè)貢獻(xiàn)率,資產(chǎn)負(fù)債率。(3)農(nóng)業(yè)經(jīng)濟(jì)變量總量指標(biāo):農(nóng)用機(jī)械總動(dòng)力,有效灌溉面積,化肥施用量,農(nóng)村用電量,農(nóng)作物總播種面積,糧食總產(chǎn)量??杀容^的農(nóng)業(yè)變量:糧食單產(chǎn),(4)居民生活變量居民收入與消費(fèi)變量,城鎮(zhèn)人均住房建筑面積,城鎮(zhèn)居民人均可支配收入,3.3統(tǒng)計(jì)變量的功能分類3.3.1因變量與自變量

1.因變量。因變量是研究者感興趣的變量,要研究的變量。一項(xiàng)研究一般先確定因變量,為了研究因變量變化的原因,再去尋找自變量,因變量比自變量重要的多,不在一個(gè)層次上。研究不同的因變量,就會(huì)尋找不同的自變量。因變量在模型中稱為被解釋變量,作為模型分析研究對(duì)象的變量。在經(jīng)濟(jì)單一模型中,因變量就是內(nèi)生變量是指該模型所要決定的變量。內(nèi)生變量——其數(shù)值由模型所決定,是模型求解的結(jié)果。在模型關(guān)系式y(tǒng)=f(x)中,此式表示Y隨X的變化而變化。Y是因變量,X是自變量因變量的變化會(huì)隨著自變量而變化,因變量是由于自變量變動(dòng)而直接(由目的決定)引起變動(dòng)的量。2.自變量。是為因變量提供信息的輔助變量,是為研究因變量變化提供輔助信息、尋找變化原因、提高預(yù)測(cè)精度的變量。。在模型y=f(x)中自變量是解釋變量,說明被解釋變量Y變動(dòng)原因的變量,是外生變量,由模型以外的因素所決定的已知變量,它是模型據(jù)以建立的外部條件。外生變量數(shù)值的變化能夠影響內(nèi)生變量的變化,內(nèi)生變量卻不能反過來影響外生變量。自變量X是指研究者主動(dòng)選擇、操縱、掌握的,在模型中能引起因變量Y發(fā)生變化的因素或條件,因此自變量被看作是因變量的原因。研究的目的是探討因果關(guān)系,找出事件發(fā)生的原因,自變量是與“果”相聯(lián)系的一個(gè)測(cè)量變量,因變量是與“因”相聯(lián)系的一個(gè)測(cè)量變量。因變量和自變量地位是不同的,因變量要比自變量先確定要重要的多,是因?yàn)橐芯恳蜃兞坎胚x取了自變量,自變量是輔助變量,可以提高預(yù)測(cè)的精度。因果關(guān)系模型選擇解釋變量的原則:(1)因果關(guān)系要根據(jù)社會(huì)與經(jīng)濟(jì)理論和行為規(guī)律確定(2)要考慮解釋變量的可計(jì)量性和數(shù)據(jù)的可得性(3)盡量使得解釋變量間是獨(dú)立的,避免模型的共線性。(4)模型類別與自變量類型有關(guān)。自變量有連續(xù)變量和類別變量之分,如果自變量是連續(xù)變量,則模型是函數(shù)型。如自變量是類別變量,則分析模型是因素型的,如方差分析模型,需要引入虛擬變量。3.3.2顯變量與潛變量顯變量與潛變量是統(tǒng)計(jì)研究中經(jīng)常用到的變量。潛變量(LatentVariable)是指不能被直接精確觀測(cè)或雖能被觀測(cè)但尚需通過其它方法加以綜合的變量。社會(huì)經(jīng)濟(jì)研究有些現(xiàn)象是不能直接測(cè)量得到變量值,如幸福程度。顯變量(ManifestVariable)是可以直接測(cè)量的變量。如人均消費(fèi)支出。例如:盈利能力(潛變量)是由營(yíng)業(yè)利潤(rùn)率、成本費(fèi)用利潤(rùn)率、盈余現(xiàn)金保障倍數(shù)、總資產(chǎn)報(bào)酬率、凈資產(chǎn)收益率和資本收益率六個(gè)顯變量來度量。潛變量是實(shí)際工作中無(wú)法直接測(cè)量到的變量,包括比較抽象的概念和由于種種原因不能準(zhǔn)確測(cè)量的變量。如工作態(tài)度,智力等。一個(gè)潛變量往往對(duì)應(yīng)著多個(gè)顯變量,可以看作其對(duì)應(yīng)顯變量的抽象和概括,顯變量則可視為特定潛變量的反應(yīng)變量。在結(jié)構(gòu)方程模型中主要包括這兩種變量。3.3.3虛擬變量虛擬變量又稱虛設(shè)變量名義變量或啞變量,用以反映質(zhì)的屬性的一個(gè)人工變量,通常取值為0或1。虛擬變量可以作自變量,也可以做因變量。模型中引入啞變量可使字符變量進(jìn)入模型,虛擬變量在模型中只能取0或者1,虛擬變量個(gè)數(shù)是類的個(gè)數(shù)減1。如季節(jié)是四個(gè),要用三個(gè)虛擬變量。D1=1,代表春季,其它為0;d2=1,代表夏季,其它季節(jié)D2=0,d3=1代表秋季,D3=0代表其它季節(jié)。當(dāng)所有的虛擬變量為0時(shí)就是冬季。例如,反映文化程度的虛擬變量education可設(shè)為:education=1表示本科學(xué)歷;education=0表示非本科學(xué)歷。例如,要研究性別影響收入的模型,就要將性別改成虛擬變量引入模型,sex=1為男,sex=0為女。虛擬變量可將兩個(gè)樣本比較的T檢驗(yàn)用回歸模型分析,將方差分析也換成線形回歸模型分析。虛擬變量為因變量時(shí)一般選用LOGISTIC模型等。3.3.4指標(biāo)體系的維度統(tǒng)計(jì)學(xué)一般不獨(dú)立的、孤立的用一個(gè)變量研究社會(huì)經(jīng)濟(jì)現(xiàn)象,而是用指標(biāo)體系全面的、全方位的研究社會(huì)經(jīng)濟(jì)現(xiàn)象。指標(biāo)體系是由一組相關(guān)變量組成的一個(gè)體系。一般一個(gè)指標(biāo)體系分為多個(gè)維度,每個(gè)維度內(nèi)所含的多個(gè)變量稱為指標(biāo),一個(gè)高層次維度包括多個(gè)低層次指標(biāo)。研究指標(biāo)體系是社會(huì)經(jīng)濟(jì)分析中統(tǒng)計(jì)變量研究的主要內(nèi)容。例:分析社會(huì)經(jīng)濟(jì)發(fā)展水平評(píng)價(jià)指標(biāo)體系。表3-4指標(biāo)體系與維度維度指標(biāo)指標(biāo)解釋或計(jì)算公式經(jīng)濟(jì)x1第三產(chǎn)業(yè)比重X11第三產(chǎn)業(yè)產(chǎn)值/GDP(%)人均GDPX12GDP/總?cè)丝跀?shù)居民消費(fèi)占GDP比重X13居民消費(fèi)額/GDP城鎮(zhèn)化率X14城鎮(zhèn)人口/總?cè)丝谌珕T勞動(dòng)生產(chǎn)率X15總產(chǎn)值/總勞動(dòng)人數(shù)人均可支配收入X16可支配收入=(家庭總收入-交納的所得稅-個(gè)人交納的社會(huì)保障支出-記帳補(bǔ)貼)/家庭人口固定資產(chǎn)投資增長(zhǎng)率X17年固定資產(chǎn)增長(zhǎng)情況,%社會(huì)平均工資X18在崗職工年平均工資,元/年恩格爾系數(shù)X19食品支出總額/家庭或個(gè)人消費(fèi)支出總額社會(huì)x2城鎮(zhèn)人均居住面積X21住宅使用面積/居民總數(shù),平方米/人財(cái)政性教育經(jīng)費(fèi)支出X22財(cái)政性教育支出總額/財(cái)政性支出總額人均醫(yī)療保健支出X23醫(yī)療保健支出/家庭或個(gè)人消費(fèi)支出總額每萬(wàn)人擁有醫(yī)生數(shù)X24從業(yè)醫(yī)生總數(shù)/城市人口數(shù),個(gè)生態(tài)x3人均公園綠地X31公園綠地面積/城市人口數(shù),平方米/人單位GDP能耗X32城市能源消耗總量/城市GDP,噸標(biāo)準(zhǔn)煤/萬(wàn)元單位GDP用水量X33城市用水總量/城市GDP工業(yè)用水重復(fù)率X34重復(fù)用水占工業(yè)總用水的比重%3.4變量的變換與構(gòu)造3.4.1變量的構(gòu)造變量構(gòu)造是指由多個(gè)變量通過計(jì)算產(chǎn)生一個(gè)新變量的方法。例:體重指數(shù)(BodyMassIndex,簡(jiǎn)稱BMI),是用體重(公斤)數(shù)除以身高(米)數(shù)平方得出的數(shù)值,是目前國(guó)際上常用的衡量人體胖瘦程度以及是否健康的一個(gè)標(biāo)準(zhǔn)。BMI=體重(千克)/身高平方(米)BMI大于28肥胖。小于18.5太輕,24—27太重18.5—23.9正常一個(gè)人的身高為1.75米,體重為68千克,他的BMI=68/(1.75^2)=22.2(千克/米^2)當(dāng)BMI指數(shù)為18.5~23.9時(shí)屬正常變量構(gòu)造主要方法:1、相對(duì)數(shù)(除法)構(gòu)造。構(gòu)造變量達(dá)到可比性,如性別之比,反映性別結(jié)構(gòu)是否正常。如家庭住房面積不可比,但人均住房面積可比。行業(yè)工資總額不可比,但行業(yè)人均工資可比。如:資產(chǎn)負(fù)債率=是期末負(fù)債總額除以資產(chǎn)總額的百分比,也就是負(fù)債總額與資產(chǎn)總額的比例關(guān)系。如果資產(chǎn)負(fù)債比率超過100%說明公司已經(jīng)沒有凈資產(chǎn)或資不抵債!2、強(qiáng)度法構(gòu)造。兩個(gè)相關(guān)總量的比。借用物理方法:?jiǎn)挝幻娣e電力線數(shù)為電場(chǎng)強(qiáng)度。單位面積人數(shù),人口密度=居住的人口總數(shù)/土地總面積。通常以每平方千米常住人口數(shù)表示。世界上的陸地面積為14800萬(wàn)平方千米,以世界70.57億人口計(jì),平均人口密度約為每平方千米47人。中國(guó)每平方公里平均人口密度為130人,且中國(guó)人口密度分布很不均衡:東部沿海地區(qū)人口密集,每平方公里超過400人。強(qiáng)度指標(biāo)如:人均耕地面積,人均水資源量。3、加權(quán)法構(gòu)造。將多個(gè)變量通過加權(quán)求和形成一個(gè)新的變量。如:人類發(fā)展指數(shù)(HDI——HumanDevelopmentIndex)是由聯(lián)合國(guó)開發(fā)計(jì)劃署(UNDP)在《1990年人文發(fā)展報(bào)告》中提出。即用平均預(yù)期壽命、嬰兒死亡率、識(shí)字率三項(xiàng)指標(biāo),按照加權(quán)計(jì)算方法,得出的綜合指標(biāo)變量。統(tǒng)計(jì)指數(shù)(index)是加權(quán)構(gòu)造法的主要應(yīng)用。如消費(fèi)價(jià)格指數(shù)CPI。如拉氏綜合質(zhì)量指標(biāo)指數(shù)。如股票價(jià)格指數(shù)是反映股價(jià)綜合變動(dòng)情況的加權(quán)構(gòu)造指標(biāo)。4、彈性法構(gòu)造。彈性系數(shù)是一定時(shí)期內(nèi)相互聯(lián)系的兩個(gè)經(jīng)濟(jì)指標(biāo)增長(zhǎng)速度的比率,它是衡量一個(gè)經(jīng)濟(jì)變量的增長(zhǎng)幅度對(duì)另一個(gè)經(jīng)濟(jì)變量增長(zhǎng)幅度的依存關(guān)系。能源生產(chǎn)彈性系數(shù)是研究能源生產(chǎn)增長(zhǎng)速度與國(guó)民經(jīng)濟(jì)增長(zhǎng)速度之間關(guān)系的指標(biāo)年份能源生產(chǎn)比電力生產(chǎn)比國(guó)內(nèi)生產(chǎn)總值比能源生產(chǎn)電力生產(chǎn)上年增長(zhǎng)(%)上年增長(zhǎng)(%)上年增長(zhǎng)(%)彈性系數(shù)彈性系數(shù)20067.414.612.70.581.1520076.514.514.20.461.0220085.45.69.60.560.5820095.47.19.20.590.7720108.113.310.40.781.2820117.112.09.30.761.2920124.45.87.70.570.75注:國(guó)內(nèi)生產(chǎn)總值增長(zhǎng)速度按不變價(jià)格計(jì)算(下表同)表3-5彈性計(jì)算表5、結(jié)構(gòu)比例法構(gòu)造,如第一產(chǎn)業(yè)人數(shù)比例,及格率,可以進(jìn)行縱向與橫向比較。恩格爾系數(shù)(Engel'sCoefficient)=食品支出總額占個(gè)人消費(fèi)支出總額的比重。成人識(shí)字率是指15歲及以上人口中有一定理解、閱讀、使用文字能力的人口占總?cè)丝诘陌俜直取?、綜合得分構(gòu)造法。對(duì)多個(gè)變量進(jìn)行維度壓縮得到一個(gè)綜合得分變量。如因子得分法、主成分得分法。3.4.2變量的變換根據(jù)一個(gè)已知變量通過數(shù)學(xué)變換產(chǎn)生一個(gè)新變量的方法稱為變量變換。1、對(duì)數(shù)變換.取對(duì)數(shù)lnx=ln(x),可以減少方差和異方差,時(shí)間序列可化為直線,截面數(shù)據(jù)可化為正態(tài)2、COX-BOX變換。當(dāng)數(shù)據(jù)不是正態(tài)分布時(shí)用于變換成正態(tài)分布。Box-Cox變換是統(tǒng)計(jì)建模中常用的一種數(shù)據(jù)變換,用于連續(xù)的響應(yīng)變量不滿足正態(tài)分布的情況。缺點(diǎn)是變換后的變量實(shí)際經(jīng)濟(jì)意義不明晰。最優(yōu)取值可由R軟件計(jì)算出。3、標(biāo)準(zhǔn)化變換,最常用的變換,用于消除量綱影響,是一種統(tǒng)計(jì)距離。變換后的均值為0,標(biāo)準(zhǔn)差為1。R軟件變換函數(shù):scale(x,scale=T)4、線性變換,y=a+bx,如計(jì)量單位(量綱)的變換,如將“萬(wàn)元”換成“億元”則y=a+b/10000。5、規(guī)范變換常用于消除量綱單位的影響。在[0,1]范圍內(nèi)

6、求秩法變換。用秩替換原來數(shù)據(jù)的變換。秩(rank)是排位的數(shù)字,排名次。EXCEL函數(shù)RANK得到一個(gè)數(shù)字在數(shù)字列表中的排位:數(shù)字的排位是其大小與列表中其他值的比較;如果多個(gè)值具有相同的排位,則將返回平均排位。秩變換法是用數(shù)據(jù)的秩代替原始數(shù)據(jù)進(jìn)行分析,避免極端影響。7、分組降級(jí)法。由區(qū)間變量變換成有序變量,這時(shí)信息量會(huì)有些損失。如:將數(shù)值型變量X1收入分組,則化為有序變量XX1低收入2中下收入3中上收入4高收入X12000元以下2000-4000元4000-6000元6000元以上如,收入低于360美元為貧困戶,則化為貧困與非貧困的分類變量。其他的一些常用的變量變換如移動(dòng)平均,指數(shù)平滑、環(huán)比,同比等

環(huán)比變換環(huán)比:本期統(tǒng)計(jì)數(shù)據(jù)與上期比較。如計(jì)算一年內(nèi)各環(huán)比。各月與前一個(gè)月對(duì)比,即2月比1月,3月比2月,4月比3月……12月比11月,說明逐月的發(fā)展程度。同比變換同比:與歷史同時(shí)期比較,一般是上一年的同期。例如2014年7月份與2013年7月份相比,叫同比。3.5.1變量的數(shù)據(jù)概括統(tǒng)計(jì)方法用一個(gè)數(shù)據(jù)代表或概括所有的數(shù)據(jù)。最好的代表性數(shù)據(jù)就是平均值mean,它具有最優(yōu)的數(shù)學(xué)性質(zhì)。其次中位數(shù)median。反映變量離散程度的概括值是標(biāo)準(zhǔn)差,其次是中位數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論