Stata統(tǒng)計分析命令_第1頁
Stata統(tǒng)計分析命令_第2頁
Stata統(tǒng)計分析命令_第3頁
Stata統(tǒng)計分析命令_第4頁
Stata統(tǒng)計分析命令_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Stata統(tǒng)計分析常用命令匯總

一、winsorize極端值處理

范圍:一般在1%和99%分位做極端值處理,對于小于1%,的數(shù)用1%的值賦值,對于大于99%

的數(shù)用99%的值賦值。

1、Stata中的單變量極端值處理:

stata11.0?在命令窗口輸入"finditwinsor”后,系統(tǒng)彈出一個窗口,安裝winsor模決

安裝好模塊之后,就可以調(diào)用winsor命令,命令格式:winsorvarl,gen(newvar)p(0.31)

或者在命令窗口中輸入:sscinstallwinsor安裝winsor命令。winsor命令不能進行批量處

理。

2、批量進行winsorize極端值處理:

打開鏈接:http:〃Dersonal.〉/iudson.caskey/data.html,找到winsorizeJ,點擊

右鍵,另存為到stata中的ado/plus/目錄下即可。命令格式:winsorizeJvarlvar2var3,suffix(w)

即可,這樣會生成三個新變量,varlwvar2wvar3w,而且默認的是上下l%winsorize。如果

要修改分位點,則寫成如下格式:winsorizeJvar1var2var3,suffix(w)cuts(595)。

3、Excel中的極端值處理:(略)

winsor2命令使JI]說明

簡介:winsor2winsorizeortrim(iftrimoptionisspecified)thevariablesinvarlistatparticular

percentilesspecifiedbyopiioncuts(##).Indefult,newvariableswillbegeneratedwithasuffix

"_w"orwhichcanbechangedbyspecifyingsuffix()option.Thereplaceoptionreplacesthe

variableswiththeirwinsorizedortrimmedones.

相比于winsor命令的改進:

(1)可以批量處理多個變量;

(2)不僅可以winsor,也可以trimming;

⑶附加了by()選項,可以分組winsor或trimming;

(4)增加了replace選項,可以不必生成新變量,直接替換原變量。

范例:

*-winsorat(plp99),getnewvariable"wage_w"

.sysusenlsw88,clear

.winsor2wage

*-Ie代-trimmingat2thpercentile

.winsor2wage,cuts(2100)trim

*-winsorvariablesby:industrysouth),overwritetheoldvariables

.winsor2wagehours,replaceby(industrysouth)

使用方法:

1.請將winsor2.ado和winsor2.sthlp放置于stata12\ado\base\w文件夾下;

2.輸入helpwinsor2可以查看幫助文件;

二、描述性統(tǒng)計

1、summarize

命令格式:su、sum或者summarize[varlist][if][in][weight][options]

如果summarize或sum后不加任何變晟,則默認對數(shù)據(jù)中的所有變最進行描述統(tǒng)計

options選項:detail表示產(chǎn)生更加詳細的統(tǒng)計變量

Separator(n)表示每n個變量畫一條分界線,n=0表示禁止使用分界線

Summarize描述統(tǒng)計輸出表中包含:樣本容量、平均數(shù)、標準差、最小值和最大值

2.tabstat

命令格式:tabstat[varlist][if][in][weight][,options]

options選項:stat(statname)表示設(shè)定所需要的統(tǒng)計量

col(stat)或c(s)表示將結(jié)果報表轉(zhuǎn)置

統(tǒng)計量:

mean:平均數(shù)count/n:觀測值數(shù)目sum:加總

max/min:最大值/最小值range:極差sd:標準差cv:變異系數(shù)

semean:平均標準誤差skewness:偏度var:方差

kurtosis:峰度median/p50:中位數(shù)p#:#%白.分位數(shù)

例如:tabstat[varlist],stat(countmeansdmedianminmaxrange)col(stat)

3、描述性統(tǒng)計結(jié)果輸出到word或Excel

用sum做的描述性統(tǒng)計:logout,save(miaoshutongji)wordreplace:sum

用tabstat做的描述性統(tǒng)計:logout,save(miaoshutongji)wordreplace:tabstat

[varlist],stat(countmeansdmedianminmaxrange)col(stat)

分組描述:bysortvar:

三、相關(guān)性分析

(-)相關(guān)性分析

lxPearson相關(guān)系數(shù)命令格式:correlate(簡寫:cor或corr)[varlist][if][in][weight][,options]

、相關(guān)系數(shù)命令格式:

2spearmanspearman[varlist]zstats(rhop)

3、在Stata中,命令corr用于計算一組變量間的協(xié)方差或相關(guān)系數(shù)矩陣;

4、命令pwcon?可用于計算一組變量中兩兩變量的相關(guān)系數(shù),同時還可以對相關(guān)系數(shù)的顯著

性進行檢驗;option選項中加上sig可顯示顯著性水平:pwcorr[varlist],sig

5、命令pcorr用于計算一組變量中兩兩變量的偏相關(guān)系數(shù)并進行顯著性檢驗。

6、Spearman和Pearson檢驗同在一個表的命令:corrtbl[varlist],corrvars([varlist])

輸出結(jié)果中,上三角為Spearman相關(guān)系數(shù)和顯著水平,卜三角為Pearson系數(shù)利顯著水平。

(二)輸出相關(guān)系數(shù)表到word或Excel中

例如:logout,save(mytable)wordreplace:pwcorr_apricempgrep78headroomtrunk,

starl(O.Ol)star5(0.05)starlO(O.l)

四、截面數(shù)據(jù)單方程線性回歸模型的Stata實現(xiàn)

命令格式:regress(簡寫:reg)depvarindepvars[if][in][weigh][option]

(depvar表示因變量,indepvars表示自變量)

五、異方差的檢驗與處理

1、檢驗異方差命令格式:hettest

2、判斷異方差的標準:

.hettest

Breusch-Pagan/cook-weisbergtestforheteroskedasticity

HO:constantvariance

variables:fittedvaluesofLpfms

chi2(1)=0.55

Prob>Chi2=0.4584

看P值的大小來判斷,如果P值小于0.05,則不能排除異方差的可能,上圖中P值等于

0.4584>0.05,因此,可以排除異方差的可能性。

3、處理異方差命令格式:在reg命令后加上“萬”或者robust”即可。經(jīng)異方差處理后的

回歸不顯示調(diào)整后的R?(adj-R2),如果要查看調(diào)整后的R2,再輸入命令:die(r2_a)

六、多重共線性(自變量之間高度相關(guān))命令格式:vif

(一)判斷多重共線性的標準(兩個標準必須同時滿足):

1、最大的vif大于10;

2、平均的vif大于1。

(二)多重共線性的修正

1、采用逐步回歸進行修正,命令格式:swregdepvsrindepvar,pr(0.05)

2、對于含二次項的,使用“對中”的方法,既可以保留二次項,乂可以在一定程度上克服

多重共線性的問題:先定義兩個變量,分別為該變量減去其均值和該變量的平方,命令如下:

sumvar

genvarl=var-r(mean)

genvar2=varA2

再用新變量代替原來的變量進行回歸處理

七、內(nèi)生性的檢驗與處理(內(nèi)生性是指自變最與誤差項之間有關(guān)系)

1、內(nèi)生性的檢驗:ovtest

?ovtest

RamseyRESETtestusingpowersofthefittedvaluesofLpfms

Ho:modelhasnoomittedvariables

F(3,379)=0.84

Prob>F=0.4717

看P值的大小來判斷,如果P值小于0.05,則不能排除內(nèi)生性的n]■能,上圖中P值等于

0.4717>0.05,因此,可以排除內(nèi)生性的可能。

2、內(nèi)生性的處理:使用工具變量法:ivreg

內(nèi)生性的二個來源:測量誤差、遺漏變量和雙向因果。

1、變量的內(nèi)生性。

這個是沒有辦法單獨檢驗的。當有合適工具變展?時候,是可.以檢驗的,就是hausman檢驗

2、工具變量的外生性。

這個也是沒辦法檢驗的。當有很多工具變量時候,可以檢驗是否有不是外生的,就是“過度

識別”問題

3、工具變量的相關(guān)性。

這個可以說成是“弱工具變量”問題,檢驗可以通過一階段的F值。還可以利用PartialR2。

4、估計方法

stata里面有這么幾個2sls,2slssmaklimLgmm,各自適用情況:small適合小樣本;liml

適合弱工具變量;gmm適合異方差。

【例子】

webusehsng2

*Fitaregressionvia2SLS,requestingsmall-samplestatistics

ivregress2slsrentpcturban(hsngval=famineiregion),small

*FitaregressionusingtheLIMLestimator

ivregresslimlrentpcturban(hsngval=famineiregion)

*FitaregressionviaGMMusingthedefaultheteroskedasticity-robustweightmatrix

ivregressgmmrentpcturban(hsngval=famineiregion)

*FitaregressionviaGMMusingaheteroskedasticity-robustweightmatrix,requestingnonrobust

standarderrors

ivregressgmmrentpcturban(hsngval=famineiregion),vce(unadjusted)

*檢驗

estatafirststage,allforcenonrobust\\\可以查看第一階段F值,已經(jīng)partialR2

estatoverid\\\查看是否過度識別

estatendogenous\\\查看是否異方差

regress2slsrentpcturbanhsngval

eststoreml

ivregress2slsrentpcturban(hsngval=famineiregion)

eststorem2

hausmanmlm2\\\內(nèi)生檢驗

八、線性方程組的回歸分析

命令格式:sureg(depvarlvarlistl)(depvar2varlist2)...(depvarNvarlistN)[if][in][weigh]

九、聯(lián)立方程組

命令格式:reg3(depvarlvarlistl)(depvar2varlist2)...(depvarNvarlistN)[if][in][weigh]

十、面板數(shù)據(jù)的固定效應(yīng)和隨機效應(yīng)

Xtset

固定效應(yīng)命令格式:xtregdepvarindepvars[if][in]Je[FE_options]

隨機效應(yīng)命令格式:xtregdepvarindepvars[if][in],re[FE_options]

hausman檢驗固定效應(yīng)還是隨機效應(yīng)?

【例子】

xtregyvarlvar2var3,fe

eststorefe

xtregyvarlvar2var3,re

eststorere

hausmanfere,sigmamore

hausmanfere,sigmaless

*sigmamore利用有效估計量方差,即re

?sigmaless利用一致估計最方差,即fe

H^一:Stata回歸結(jié)果的導(dǎo)出

1、在命令窗口中輸入:sscinstallesttab,安裝命令esttab

2sreg口1歸

3、esttabusingfilename.rtf將以word形式輸出回歸結(jié)果,后綴改成.xls或者.CSV則以Excel

格式輸出,輸出內(nèi)容為變量名稱和相應(yīng)的回歸系數(shù),t值,顯著性水平標識。系統(tǒng)默認顯著

性水平是。001,0.01和0.05,若要改成。。,0.05和0.1,則輸出esttabmlm2usingaaa.rtf,

star(*0.10**0.05***0.01)。

4、批量輸出回歸結(jié)果:每運行一個regression,存起來:eststoremloml是你要改的,第

?個model所以我叫ml,第二個的話指令就變成eststorem2,依次類推,最后運行指令:

esttabmlm2...usingtest.rtf。

esttabmlllllusingaaaaa.rtf,star(*0.10**0.05***0.01)b(%6.4f)

5、outreg2可以將回歸結(jié)果導(dǎo)入word、excle、latex等,而且可以根據(jù)自己需要改變格式:

sscinstalloutreg2

useauto,clear

[varlist]

eststoreml

outreg2[ml]usingtest.doczreplace

十二、合并樣本(將關(guān)鍵詞相同的多個樣本合并為一個)

命令格式:duplicatesdropvarlistzforce

例如將同一企業(yè)在同一天發(fā)生的多起并購合為一起,可根據(jù)證券代碼和公告日期關(guān)鍵詞,將

其合并,命令:duplicatesdropcompanyjdevent_date,force

十三、均值t檢驗

命令格式:ttestCARI==CAR2,unpaired

十四、中位數(shù)Z檢驗(非參數(shù)Wilcoxon秩和檢驗)

命令格式:ranksumvar,by(groupvar)

groupvar為分組變量

I玉、檢驗兩組均值的顯著性差異,在t檢驗的后面數(shù)值上面加星號

可以用ttest命令執(zhí)行檢驗,它會直接報告星號。

亦可采用外部命令meantab執(zhí)行檢驗,自己根據(jù)t值大小標注星號。

helpmeantab〃這個最好用

sysusenlsw88,clear

meantabcoIlgradwagehoursttl_exptenure,///

over(union)tstatdiffnoncells

另有一個李春濤老師編寫的命令,可以直接標注星號:

finditttable〃多變量,兩組差異

十六、刪除有缺失值的樣本

egenmis=rowmiss(_all)

dropifmis

條件語句:cond

例如:cond(missing(x),cond(x>2,50,70))returns.ifxismissing,returns50ifx>2,andreturns

70ifx<2

十七、中心化處理與標準化處理

1、安裝命令:finditcenter

2、中心化:

centervarlist(注:生成的新變量默認加前置”j〃,可一次對多個變量進行處理)

或:centervar,g(newvar)(注:只能對,個變量進行口心化,并生成給定名稱的新變量)

3、標準化:

centervarlist,prefix(z_)standardize(注:生成的新變量加前置“z_”,可多個,可更改)

十八、恢復(fù)數(shù)據(jù)命令

preserve(處理數(shù)據(jù)前使用該命令,否則沒有數(shù)據(jù)可恢復(fù))

dropvarl-varlOO(處理數(shù)據(jù))

restore(恢復(fù)數(shù)據(jù))

十九、genicv產(chǎn)生交叉項

【問題】

有時候,想生成很多交叉項,但是又不愿意一個一個寫。

有時候,想看一個交叉項,但是又不愿意生成。

【方法】

genicv可以一鍵生成很多交叉項

##可以直接表示交叉項。

【例子】

sscinstallgenicv

sysuseauto,clear

genicvlengthweightforeign〃會生成4個交叉項,所有可能情況,并且有l(wèi)abel

regpricelengthweightlength_weight

*如果不愿意生成,直接用

regpricec.length##c.weight\\\和上面回歸一樣一樣的

二十、用stata統(tǒng)計變量的個數(shù),但是要去掉重復(fù)的部分

bysid:gn=_n

countifn==l

二H^一、stata中的主成分分析法

1、首先,需要對變量進行哪些檢驗?KMO?還有什么?KMO檢驗結(jié)果符合什么條件才能繼

續(xù)進行主成分分析?

答:首先使用KMO檢驗和SMC檢驗。

KMO的判斷為,UsingtheKaiser(1974)characterizationofKMOvalues,

0.00to0.49unacceptable

0.50to0.59miserable

0.60to0.69mediocre

0.70to0.79middling

0.80to0.89meritorious

0.90to1.00marvelous

SMC即一個變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC

比較高表明變量的線性關(guān)系越強,共性越強,主成分分析就越合適。

命令是

estatkmo

estatsmc

確定是否需要進行土成分分析。如果有些KMU或者5MC值太小,則要考慮要不要將它們放

入主成分中。

然后進行主成分回歸。

使用命令為:

peavarlist(不清楚就helppea)

2、例如,對Y的5各指標執(zhí)行了命令peayly2y3y4y5得出結(jié)果方差貢獻率(proportion)

就是權(quán)重嗎?

答:不是。假如設(shè)定方差貢獻率為95%,那么,累積方差超過95%的那幾個特征值、所對

應(yīng)的特征變量,就是權(quán)重,

3、看有的帖子上回復(fù)說,需要接著執(zhí)行predictyly2y3V4y5,score,這是為了得到每個指標

的主成分得分嗎?為什么我執(zhí)行了一下,只生成了一個yl,別y2、y3、y4、y5都沒生成呢

答:直接"predictyl-y4”就可以。生成的四個就是得分。

4、不知道你要問什么?

總之,主成分的步驟為

1、先通過KMO檢驗和SMC檢驗確定是否需要主成分分析

2、進行主成分分析,通過累計貢獻率確定需要的哪幾個主成分

3、根據(jù)情況看是否需要rotate

4、通過predict進行得分?;蛘咄ㄟ^scoreplot看得分分布圖。

二十二、將一般的數(shù)據(jù)轉(zhuǎn)化為面板數(shù)據(jù)

原數(shù)據(jù)的形式(excel中)是:2008一張sheet,2009一張sheet。。。。。即:

1DFH

YitKitLit

12261224623

230273276416.5

32062354178262503

43179401120180770

5868023159175.5

626953041840553

71574767060190

.2935791452078

9-191242417

10127737522240

1127906141347979866.5

1248629260428.5

1376127622567319.5

141251951335669

然后改成這樣的數(shù)據(jù)形式是:

ABCDEFGHIJ

公司名稱Yit2008Yit2009Yit2010Kit2008Kit2009Kit2010Lit2008Lit2009Lit2010

122611860B.251105.42522464986.5984108.495232331

23027340102.0660248.7227645657.7326843.39816.511.520

3206235428925143033013178262296385.6332315.3503458489

431794014225323634362612018096017.53305598.8770381.5739

586802563322.7559918.131591819.58839254.86175.514.5134

6269530354939.736459.574184043796.9141070.62553504.5434

7157476290664.9200974.470605902.06235080.8619057158

8293579228195.9479237.51452025136.0843561.92786075.5

919124773.196537.3593424778.35052010.2351710.518

:10127737113150.593694.9852229156.70110556.81402020

112790614107232401216146713479799964001137663866.52208.52518

124862957061.8672251.7926041845.3614833.16328.512.531.5

13761276134907510718942256734651.55125246.7319.5155201

14125195114422.7182454.5133562805.15516806.336933.579

15442694332010.3395230.33708527943.331281.47469403.5327.5

粘貼在stata里就是這樣的形式(注意:變量名字一定要改):其中Y為因變量,可以是很多

個,XI、X2為自變量,也可以是很多個,stata中的變量名依次為:id、Y2008、Y2009、Y2010、

X12008>X12009>X12010、X22008.X22009、X22010

idY2008Y2009Y2010X12008X12009X12010X22008X22009X22010

11226118608.21105.4222464986.64108.5232331

223027340102.160248.727645657.736843.416.511.520

332.1e-t062.95063.0B+06178262296386332315503458489

443.2e+064.2e+066.3e+0612018096017.5305599770381.5739

558680256332355991831591819.5939254.9175.514.5134

6626953035499036459.64184043796.941070.6SS3504.5434

7715747629066520097470605902.0635080.919057158

882935792281964792371452025136.143561.9786075.5

9919124773.2537.35942477B.3512010.241710.518

10101277371131519369552229156.710556.8402020

11112.8506l.let07-07l?3e+06996400l.let06866.52208.52518

12124862957061.972251.826041845.364833.1628.512.531.5

1414125195114423182454133562805.1516806.66933.S79

15154426943320103952303708527943.331281.5469403.5327.5

161620805767.019501.5427722352.582790.1720.51419

1717820842.2685796.3211921721.652713.41232526

在stata中輸入命令:

reshapelongYXIX2,i(id)j(year)回車即可,變?yōu)?

idyearYXIX2

120082261224623

1200918608.24986.623

120101105.424108.531

2200830273276416.5

2200940102.15657.7311.5

2201060248.76843.420

320082.1e-t-06178262503

320092.9506296386458

320103.0e+06332315489

420083.2e+06120180770

420094.2e+0696017.5381.5

420106.3C+06305599739

52008868023159175.5

520095633231819.5914.5

5201055991839254.9134

6200826953041840553

6200935499043796.9504.5

6201036459.641070.6434

720081574767060190

720092906655902.0657

7201020097435080.9158

二十三、關(guān)于數(shù)值型轉(zhuǎn)換為字符型的問題

1、股票代碼導(dǎo)入STATA后都變成數(shù)值型,現(xiàn)想用tostring命令變回字符型,但長度小于6位的代防在

變回字符型后在前面補夠不足6位的Oo

方法:formatvariable%06s

這只是在顯示上補充了0,沒有在值.上補充。以下可以改變x的值:

replacex=substr("000000"+x,-6,6)

2、將個12位的數(shù)值轉(zhuǎn)換為字符,再從字符里提取前五個字符,轉(zhuǎn)成字符后以科學(xué)計數(shù)法顯示,提取前

五位數(shù)是提取的科學(xué)計數(shù)法的前五位,如將110102002016轉(zhuǎn)成字符后顯示為1.10e+11,提取時提的是

而不是我想要的“11010”

HM

gy=substr(string(x,%12.0f),115)

3、將字符型轉(zhuǎn)化為數(shù)值型命令為:destringvar,replace(轉(zhuǎn)換后替換原來的值)

若字符型中含其他符號并要生成新變量則用:destringvarlist,gen(newvarlist)ignore(u$,%")

二十四、分組

均分四組:sortvar

xtileprop=varznq(x)(括號中的x代表分成的group數(shù))

例如:

sortinsto_ma

xtileprop=insto_ma,nq(4)//以insto_ma的四分位點分成四組

sortpropinsto_msd

egenstdl=xtile(insto_msd),by(prop)nq(4)〃按prop,以insto_msd的四分位點分成四組

二十五、估計殘差

做完回歸后,使用命令predicte,r

排列組合計算=3,=6:dicomb(3,2),dicomb(4z2)

取整:

l.ceil(x),returnstheuniqueintegernsuchthatn-1<x<=n.returnsx(notifxismissing,

meaningthatceil(.a)=.a

2.floor(x),returnstheuniqueintegernsuchthatn<=x<n+1,returnsx(notifxismissing,

meaningthatfloor(.a)=.a

3.int(x),returnsth

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論