版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計軟件SAS教程(金融)統(tǒng)計科學(xué)與科學(xué)統(tǒng)計Lies,damnedlies,andstatistics.
一句著名的西方諺語。主要描述數(shù)字的說服能力,特別是用來諷刺一些使用統(tǒng)計數(shù)字支持、但毫無說服力的分析報告,以及人們傾向于貶低那些不支持其立場的統(tǒng)計結(jié)論?!跃S基百科統(tǒng)計科學(xué)與科學(xué)統(tǒng)計
其名言部分來自19世紀(jì)英國首相本杰明·迪斯雷利,此后經(jīng)美國著名文豪馬克·吐溫之筆,被廣泛傳誦,原句載馬克·吐溫的《我的自傳》:“(統(tǒng)計)數(shù)字經(jīng)常欺騙我,特別是我自己整理它們時候。在此類情況下本杰明·迪斯雷利的評述經(jīng)常正確有效:“世界上有三種謊言:謊言,該死的謊言,統(tǒng)計數(shù)字。”(Therearethreekindsoflies:lies,damnedlies,andstatistics.)”。但其原句并沒有發(fā)現(xiàn)在本杰明·迪斯雷利的演說稿或者其他作品中。——摘自維基百科
第一章導(dǎo)言
一、統(tǒng)計的科學(xué)性(一)統(tǒng)計推斷的基本內(nèi)容:1.點(diǎn)估計待估參數(shù)β
的點(diǎn)估計量為β2.區(qū)間估計以點(diǎn)估計值為中心確定誤差范圍β±△3.確定信度確定誤差范圍的置信概率(二)統(tǒng)計為什么存在謬誤:1.真實(shí)的謊言使用違反數(shù)據(jù)特性的統(tǒng)計方法。2.對謊言求真沒有取得真實(shí)數(shù)據(jù)3.用謊言制造謊言制造數(shù)據(jù)二、統(tǒng)計軟件可以做什么統(tǒng)計計算數(shù)據(jù)管理數(shù)據(jù)挖掘統(tǒng)計調(diào)查三、如何用統(tǒng)計軟件進(jìn)行計算1.根據(jù)菜單提示進(jìn)行選擇工作2.人機(jī)互動式工作3.編程進(jìn)行程序式工作輸入處理輸出四、為什么要使用統(tǒng)計軟件統(tǒng)計軟件的使用過程,不是簡單的輸入數(shù)據(jù),取得結(jié)果。而是在統(tǒng)計學(xué)理論指導(dǎo)下,實(shí)現(xiàn)統(tǒng)計思想的系統(tǒng)過程,。例1-1:散戶投資者股票收益的均值檢驗。例1-2:散戶投資者與大戶投資者股票收益的均值檢驗
SAS系統(tǒng)22:24Monday,July22,20101VariableMethodVariancesDFtValuePr>|t|xPooledEqual181.740.0996xSatterthwaiteUnequal171.740.1005EqualityofVariancesVariableMethodNumDFDenDFFValuePr>FxFoldedF991.620.4838
五、常用的統(tǒng)計軟件1.常用的統(tǒng)計軟件SASSPSSBMDPStataEPINFOMinitabStatisticaS-PLUSR六、SAS軟件簡況發(fā)展歷史:1966年開始研制1976年由美國SAS公司實(shí)現(xiàn)商業(yè)化1985年推出PC版本2006推出版本為V9客觀評價國際公認(rèn)的最優(yōu)秀統(tǒng)計軟件最昂貴的統(tǒng)計軟件應(yīng)用領(lǐng)域:統(tǒng)計、金融、商業(yè)、經(jīng)濟(jì)、社會、醫(yī)學(xué)、生物、教育等。SASV9主要產(chǎn)品SAS/BASE(基礎(chǔ))——初步的統(tǒng)計分析SAS/STAT(統(tǒng)計)——廣泛的統(tǒng)計分析SAS/QC(質(zhì)量控制)——質(zhì)量管理方面的專門分析計算SAS/OR(規(guī)劃)——運(yùn)籌決策方面的專門分析計算SAS/ETS(預(yù)測)——計量經(jīng)濟(jì)的時間序列方面的專門分析計算SAS/IML(矩陣運(yùn)算)——提供了交互矩陣語言SAS/GRAPH(圖形)——提供了許多產(chǎn)生圖形過程并支持眾多圖形設(shè)備SAS/ACCESS(外部數(shù)據(jù)庫接口)——提供了與大多數(shù)流行數(shù)據(jù)庫管理系統(tǒng)的方便接口并自身也能進(jìn)行數(shù)據(jù)管理SAS/ASSIST(面向任務(wù)的通用菜單驅(qū)動界面)——方便用戶以菜單方式進(jìn)行操作SAS/AF(面向?qū)ο缶幊痰膽?yīng)用開發(fā)工具)第一章SAS入門一、SAS安裝和啟動二、SAS的工作窗口PROGRAMEDIT:程序窗口LOG:監(jiān)視窗口OUTPUT:輸出窗口GRAPH:圖形窗口EXPLORER:環(huán)境窗口1.程序窗口這是一個全屏幕程序編輯窗口,用戶在這個窗口輸入要運(yùn)行的程序,使用SAS系統(tǒng)提供的編輯工具對程序進(jìn)行修改、運(yùn)行、調(diào)試。當(dāng)執(zhí)行運(yùn)行(提交)程序命令時,該窗口的程序被執(zhí)行。2.監(jiān)視窗口
該窗口記錄了SAS程序運(yùn)行過程的主要信息。如程序語句的語法錯誤,運(yùn)行中的邏輯錯誤和警告信息,使用和建立的數(shù)據(jù)集、庫文件,程序運(yùn)行時間等。這些信息為程序調(diào)試提供了幫助。3.輸出窗口
該窗口用于顯示程序的統(tǒng)計分析結(jié)果,還可以在該窗口對計算結(jié)果進(jìn)行輸入、輸出、編輯、修改,以及文件格式轉(zhuǎn)換等操作。該窗口由被執(zhí)行的SAS程序自動調(diào)出。4.圖形窗口
該窗口用于顯示程序的圖形分析結(jié)果,還可以在該窗口對計算結(jié)果進(jìn)行輸入、輸出、編輯、修改等操作。該窗口由被執(zhí)行的SAS程序自動調(diào)出。5.環(huán)境窗口該窗口用于顯示程序所在系統(tǒng)的文件目錄結(jié)構(gòu)。此外,該窗口還記錄了每次程序的運(yùn)行結(jié)果。例:熟悉SAS窗口參考程序exle三、SAS程序的結(jié)構(gòu)與語法1.程序結(jié)構(gòu): SAS程序采用模塊化結(jié)構(gòu),模塊間相互獨(dú)立,每個模塊完成一個任務(wù)。
模塊分兩種類型,數(shù)據(jù)模塊和程序模塊。數(shù)據(jù)模塊以英文單詞Data為起始,程序模塊以Proc(Pprocedure的縮寫)為起始。模塊通常用語句“run;”作為結(jié)束。
一個程序中可包含多個數(shù)據(jù)模塊和程序模塊。程序?qū)嵗鼶ataa;inputx@@;cards;6.111.041.302.603.515.205.411.823.642.213.383.77Run;Procunivariatedata=anormalplot;varx;Run;2.程序語法標(biāo)識符或數(shù)據(jù)之間用空格分隔,例如:inputs$;使用分號分隔語句;使用“Run”分隔模塊;自定義名稱最多包含8個符號,首字符為英文字母,名稱不能有保留符號,如:空格-.,;…$等;缺失數(shù)據(jù)“.”表示;文本變量名首次出現(xiàn)時使用“$”作為后綴;程序可以包含注釋語句,以“/*”開始,以“*/”結(jié)束,或以“*”作為行始符表示該行為注釋語句;除數(shù)據(jù)外,SAS程序不區(qū)分英文字母大小寫。例:找出程序中的語法錯誤Dataainputx-1,x-2,y’@@;CarDs;6.111.041.302.603.515.205.411.823.642.213.383.77;Procunivariatedata=anormalplot;varx;;四、SAS運(yùn)算符號
算術(shù)運(yùn)算符號關(guān)系運(yùn)算符號邏輯運(yùn)算符號五、SAS程序調(diào)試(注:參考程序exle)第二章SAS數(shù)據(jù)文件操作一、數(shù)據(jù)文件基本知識1.文件的邏輯結(jié)構(gòu)與物理結(jié)構(gòu)OBSFPUGNPFZHU1996236146.97451997241152.42561998245266.40651999248773.96862000251794.29992.名詞解釋文件:數(shù)據(jù)的集合;記錄的集合;記錄:關(guān)于一個實(shí)體的信息集合。一次統(tǒng)計觀測可能對應(yīng)一個記錄,也可能對應(yīng)多個。對應(yīng)多記錄時應(yīng)使用關(guān)系連接記錄。字段:各記錄相同數(shù)據(jù)項的集合。一個字段通常對應(yīng)一個變量,或統(tǒng)計觀測的一個指標(biāo)。索引:用于記錄分類的標(biāo)識字段或字段組合。關(guān)鍵字:用于唯一標(biāo)識記錄的字段或字段組合。二、數(shù)據(jù)文件的基本操作建立:在內(nèi)存或外存中存儲數(shù)據(jù)文件輸出:顯示數(shù)據(jù)文件的邏輯結(jié)構(gòu)投影:從文件中選擇出所需要的字段(變量)。篩選:從文件中選擇出所需要的記錄。投影和篩選可以組合使用。垂直連接:兩個或多個文件按字段對應(yīng)關(guān)系縱向連接,目的是增加樣本量。水平連接:兩個或多個文件按記錄對應(yīng)關(guān)系橫向連接,目的是增加變量。1.建立文件基本工作要點(diǎn):說明文件名說明變量包括變量名稱、類型、排列順序、格式等信息說明。說明數(shù)據(jù)位置并為變量賦值(1)建立臨時文件dataexle;數(shù)據(jù)文件名inputs$xyz;輸入語句cards;A123數(shù)據(jù)區(qū)B456C789run;臨時文件特點(diǎn):建立簡單、存儲在內(nèi)存、不共享。(2)建立永久文件libnamep“c:\mydir”;定義庫(路徑)datap.exle;inputs$xyz;cards;A123B456C789run;注:c:\mydir為已經(jīng)建立的磁盤文件目錄。文件特點(diǎn):存儲在外存、共享。(3)數(shù)據(jù)導(dǎo)入讀取異質(zhì)數(shù)據(jù)文件。PROCIMPORTOUT=WORK.aa
DATAFILE="D:\sasv9\data\Book1.xls"DBMS=EXCEL2000REPLACE;SHEET="Sheet1$";GETNAMES=YES;RUN;讀取文本格式數(shù)據(jù)文件語句:infile“c:\mydir\a.txt”firstobs=ndlm=“c”;dataexle;infile“c:\mydir\a.txt”firstobs=2;inputs$xyz;run;格式化輸入——緊湊格式dataexle;inputs$xyz@@;cards;A123B456C789run;格式化輸入——固定列格式dataexle;infile“c:\mydir\a.txt”;inputs$1-5x8y10-12z13-15;run;2.輸出文件Procprintdata=exle;Varxyzs$;Run;輸出結(jié)果:123A456B789C3.
投影學(xué)號姓名班級電話家庭年收入(萬元)20070001李明統(tǒng)計0701130222620070002張華統(tǒng)計0701130223720070003林紅精算0701130224520070004王成精算07011302256學(xué)號家庭年收入(萬元)200700016200700027200700035200700046SAS的投影命令Dataexle(keep=snm);infile“c:\sasv9\data\a.txt”;inputsn$n$c$t$m;*dropn$c$t$;Run;4.
篩選學(xué)號姓名班級電話家庭年收入(萬元)20070001李明統(tǒng)計0701130222620070002張華統(tǒng)計0701130223720070003林紅精算0701130224520070004王成精算07011302256學(xué)號姓名班級電話家庭年收入(萬元)20070001李明統(tǒng)計0701130222620070002張華統(tǒng)計07011302237SAS的篩選操作Dataexle;infile"c:\sasv9\data\a.txt”;inputsn$n$c$t$m;ifc^=”統(tǒng)計0701”thendelete;Run;5.垂直連接學(xué)號班級家庭年收入(萬元)20070001統(tǒng)計0701620070002統(tǒng)計0701720070003精算0701520070004精算07016學(xué)號班級家庭年收入(萬元)20070005精算0702220070006精算070230學(xué)號班級家庭年收入(萬元)20070001統(tǒng)計0701620070002統(tǒng)計0701720070003精算0701520070004精算0701620070005精算0702220070006精算070230SAS的垂直連接操作Libnamepd:\mysasDataexle;setp.f1p.f2;Run;注:f1和f2已存在6.水平連接例:文件f1記錄了學(xué)生基本情況,文件f2來自對學(xué)生支出情況的調(diào)查,請對學(xué)生消費(fèi)情況進(jìn)行統(tǒng)計分析。學(xué)號姓名家庭年收入成績名次20070001李明61920070002張華7620070003林紅53120070004王成623學(xué)號項目月支出/元20070001飯費(fèi)30020070001通訊3020070001交通2020070001網(wǎng)絡(luò)5020070001旅游30連接結(jié)果學(xué)號姓名項目月支出/元家庭年收入成績名次20070001李明飯費(fèi)30061920070001李明通訊3061920070001李明交通2061920070001李明網(wǎng)絡(luò)5061920070001李明旅游3061920070002張華飯費(fèi)5307620070002張華通訊1007620070002張華交通107620070002張華網(wǎng)絡(luò)907620070002張華旅游6076SAS的水平連接Libnamep”d:\mysas”Procsortdata=p.f1;bysn;Run;Procsortdata=p.f2;bysn;Run;Dataexle;mergef1f2;bysn;Run;三、數(shù)據(jù)格式
數(shù)據(jù)格式通常用于輸出數(shù)據(jù),也可以用于輸入數(shù)據(jù)。
數(shù)據(jù)按照規(guī)定的格式說明進(jìn)行組織,以達(dá)到更為精確的描述目的。1.數(shù)值數(shù)據(jù)格式格式描述w.d說明有效位數(shù),w<32,d<wEw.科學(xué)記數(shù)法COMMAw.d含有逗號、小數(shù)點(diǎn)的數(shù)值數(shù)據(jù)型格式DOLLARw.d含有美元號$、逗號和小數(shù)點(diǎn)的數(shù)值數(shù)據(jù)型格式Romanw.羅馬數(shù)字SSNw.社會保險號碼BESTw.
SAS最佳表示法2.字符數(shù)據(jù)格式格式描述$w.標(biāo)準(zhǔn)字符串,w<200$CHARw.含有空格字符串$HEXw.十六進(jìn)制字符串3.日期數(shù)據(jù)格式格式描述Datew.ddMMMyy時期格式DDMMYYw.DDMMYY日期格式Timew.d.小時、分、秒DateTimew.d.時期和時間值為便于統(tǒng)計計算,日期值存儲為與日間的天數(shù)。如被存儲為797(66+365+31+28+7)。時間值存儲為從午夜開始的秒數(shù)。如9:54被存儲為35640(9×60×60+54×60)。日期時間值存儲為午夜開始至此時的秒數(shù)四、Data部的控制語句一般情況下程序語句按出現(xiàn)順序向下執(zhí)行。控制語句可以改變程序順序執(zhí)行方式,以便完成更復(fù)雜的數(shù)據(jù)處理。主要控制語句判斷語句(條件語句)循環(huán)語句(重復(fù)語句)子程序調(diào)用語句1.判斷語句條件語句語句語句YNIfx>0theny=1;Ifx>0theny=1;elsey=-1;IF語句1.判斷語句條件語句語句語句Select語句語句……Select語句Select表達(dá)式;When值1語句1;When值2語句2;…When值n語句n;Otherwise語句n+1;End;復(fù)合語句DoDo;語句1;語句2;…語句n;End;2.循環(huán)語句條件語句語句體Do語句Doi=初值to終值by增加值;語句體;End;DoWhile語句DoWhile條件表達(dá)式;語句體;End;DoUntil語句DoUntil條件表達(dá)式;語句體;End;3.子程序調(diào)用語句語句語句體語句Link語句Link標(biāo)號;例:LinkMark1;…Mark1:語句1;語句體;Rtturn;例:IF用法datasale1sale2;inputname$salesregion$type$;iftype=’p’thenoutputsale1;elseoutputsale2;cards;(數(shù)據(jù)略)run;例:Select用法datasale;inputname$salesregion$type$;select;when(sales<20000)group=10000;when(20000<=salesandsales<40000)group=30000;when(40000<=salesandsales<60000)group=50000;when(60000<=salesandsales<80000)group=70000;otherwisegroup=90000;end;cards;(數(shù)據(jù)略)run;例:Do循環(huán)用法dataa;inputx@@;doi=1to10;y=x*x;end;cards;12345678run;例:Link用法dataa;inputStudentID$test1$test2$test3$@@;test=test1;linkrecord;test1=test;test=test2;linkrecord;test2=test;test=test3;linkrecord;test3=test;Record:iftest='E'thentest='F';return;cards;1ABC2EDC3ABF4CDE5EEE6ABA7CCF8DEDrun;第三章描述性統(tǒng)計一、SAS程序的一般形式Proc過程名過程選擇項;語句1/語句選擇項;語句2/語句選擇項;……語句n/語句選擇項;Run;例:計算描述性統(tǒng)計量Procmeansdata=a
alpha=0.01; Varxy; Weightw;Run;二、常用的描述性統(tǒng)計過程
1.計算描述性統(tǒng)計量PROCMEANSStatementBYStatementCLASSStatementFREQStatementIDStatementOUTPUTStatementTYPESStatementVARStatementWEIGHTStatement功能:該過程用于常規(guī)的描述性統(tǒng)計計算。包括分組統(tǒng)計,加權(quán)計算等。計算結(jié)果可以輸出到屏幕,也可以輸出到數(shù)據(jù)文件。Means程序的主要選擇項DATA=定義使用的數(shù)據(jù)庫ALPHA=value0<value<1,缺省值為0.05MAXDEC=value定義小數(shù)位,value為小于9的整數(shù)MISSING考慮缺失數(shù)據(jù)的計算VARDEF=DF|N|WDF|WEIGHTStatistic
Keyword:定義計算的統(tǒng)計量描述統(tǒng)計量:MAXMINMEANNNMISSRANGECSSSTDDEVCVVARUSSSKEWNESSKURTOSISSTDERRLCLMUCLMSUMSUMWGT分位數(shù):MEDIANP1P5P10P25P75P90P95P99QRANGE總體均值為零的T檢驗:PROBTT例:變量的統(tǒng)計概要NameGenderStatusYearSectionScoreFinalGradeAbbottF297A9087BranfordM198A9297CrandellM298B8171DennisonM197A8572EdgarF198B8980FaustM197B7873GreeleyF297A8291HartF198B8480IsleyM297A8886JasperM197B9193Means程序的主要語句DATA=定義使用的數(shù)據(jù)庫ALPHA=value0<value<1,缺省值為0.05MAXDEC=value定義小數(shù)位,value為小于9的整數(shù)MISSING考慮缺失數(shù)據(jù)的計算VARDEF=DF|N|WDF|WEIGHTStatistic
Keyword:定義計算的統(tǒng)計量描述統(tǒng)計量:MAXMINMEANNNMISSRANGECSSSTDDEVCVVARUSSSKEWNESSKURTOSISSTDERRLCLMUCLMSUMSUMWGT分位數(shù):MEDIANP1P5P10P25P75P90P95P99QRANGE總體均值為零的T檢驗:PROBTTBy語句功能:定義分組變量。格式:By分組變量。By語句必須與Sort過程聯(lián)合使用。例:Procsortdata=a;Bys;Run;Procmeansdata=a;Varxy;Run;CLASS語句功能:定義分類變量。格式:class變量名稱;例:classc;功能:定義頻數(shù)變量。格式:freq變量名稱;例:dataa;inputxyz;cards;1212
…run;procmeansdata=a;freqz;(相當(dāng)于1212…共12組)run;FREQ語句功能:定義用于分析的變量,如果省略VAR語句,SAS程序?qū)?shù)據(jù)集中的所有數(shù)值變量都作為要分析變量。格式:var變量名稱串;例:varxyz;VAR語句TYPE語句功能:定義分類組合形式。格式:TYPE變量1*變量2;需要與Sort過程聯(lián)用。例:SortProcsortdata=a;TYPE
x*y;Run;功能:定義權(quán)數(shù)變量。格式:weight變量名稱;例:dataa;inputxyz;cards;120.2
…run;procmeansdata=a;weightz;(使用變量Z為權(quán)變量)run;WEIGHT語句功能:輸出計算結(jié)果到指定文件。格式:OUT=SAS文件;例:dataa;inputxyz;cards;120.2
…run;procmeansdata=a; OUT=SASArun;OUTPUT語句ID語句功能:在輸出統(tǒng)計結(jié)果列表時,同時顯示觀測中ID規(guī)定,的變量值,以便于對結(jié)果定位。格式:ID變量名稱串;2.數(shù)據(jù)探索
探索性數(shù)據(jù)分析通常是諸如建模、數(shù)據(jù)分布檢驗、建立數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、參數(shù)與非參數(shù)估計方法選擇、及建立有效的統(tǒng)計報告等工作的第一步。通??梢允褂帽砀?、直方圖和樣本分布擬合等手段,尋找總體分布的主要特點(diǎn)。Univariate過程PROCUNIVARIATEBYvariable;CLASSvariable;FREQvariable;HISTOGRAMvariable/option;IDvariable;INSETkeywordDATA=dataset/option;OUTPUTOUT=dataset;PROBPLOTvariable/option;QQPLOTvariable/option;VARvariable;WEIGHTvariable;提供計算描述性統(tǒng)計量、可視化高分辨率圖形顯示和統(tǒng)計歸納、分布擬合功能。語句功能HISTOGRAM畫直方圖INSET在圖中插入求和PROBPLOT使用概率圖考察變量分布QQPLOT使用分位數(shù)(QQ)圖考察變量分布例:Univariate1.美國人口普查數(shù)據(jù)分析。變量:州,1990、2000城市人口,1990、2000非城市人口,區(qū)域2.重復(fù)測驗數(shù)據(jù)分析學(xué)生姓名、首次測試成績、二次測試成績、最終成績3.生成隨機(jī)分布基本統(tǒng)計測度
通常利用樣本矩來估計總體中相應(yīng)的參數(shù).例如用一階樣本原點(diǎn)矩來估計總體的期望而用二階樣本中心矩來估計總體的方差.
分布檢驗資料對比分析2.相關(guān)分析
相關(guān)是度量變量之間是否存在某種共同變化趨勢的一種測度。通常情況下,兩個變量之間關(guān)系可以是,無關(guān)、存在線性關(guān)系、存在非線性關(guān)系。相關(guān)系數(shù)通常用于測度兩個變量之間線性關(guān)系的強(qiáng)弱。Corr過程PROCCORRoptions; VARvariables; WITHvariables; PARTIALvariables; WEIGHTvariable; FREQvariable; BY
variables;
該過程計算數(shù)值型隨機(jī)變量之間相關(guān)性的統(tǒng)計測度。包括Pearson積差相關(guān)系數(shù),三種非參數(shù)相關(guān)性測度,以及對應(yīng)相關(guān)性檢驗的概率。提供三種相關(guān)系數(shù)的計算方法。以及相關(guān)性可靠性系數(shù)計算。例:PROCCORRdata=a;VARxyz;RUN;PROCCORRdata=a;VARab;WITHxyz;RUN;例:PROCCORRdata=a;VARxy;PARTIALab;RUN;PROCCORRdata=apearson;VARxyz;RUN;Pearson相關(guān)性測度pearson相關(guān)系數(shù)也稱為簡單相關(guān)系數(shù),pearson積差相關(guān)系數(shù),是用來反映兩個變量線性相關(guān)程度的統(tǒng)計量。雙尾檢驗原假設(shè)為:H0:r=0,備擇假設(shè)H1:r≠0例:PROCCORRdata=apearson;VARxyz;RUN;Spearman相關(guān)性測度
Spearman相關(guān)分析又稱秩相關(guān)分析、等級相關(guān)分析。是利用兩個變量的秩次大小作線性相關(guān)分析,屬于非參數(shù)統(tǒng)計方法,適用范圍較廣。用于某些不能準(zhǔn)確地測量指標(biāo)值而只能以嚴(yán)重程度、名次先后、反應(yīng)大小等定出的等級資料,也適用于某些不呈正態(tài)分布或難于判斷分布的定量資料。取值范圍在-1和1之間。服從Pearson相關(guān)系數(shù)的數(shù)據(jù)亦可計算Spearman相關(guān)系數(shù),但統(tǒng)計效能要低一些。
PROCCORRdata=aspearman;
VARxyz;
RUN;Kendall相關(guān)性測度用于反映分類變量相關(guān)性的指標(biāo),適用于兩個分類變量均為有序分類的情況,對相關(guān)的有序變量進(jìn)行非參數(shù)相關(guān)檢驗。也適用于某些不呈正態(tài)分布或難于判斷分布的定量資料。取值范圍在-1和1之間。
PROCCORRdata=aKendall;VARxyz;RUN;Hoeffding相關(guān)性測度適用于兩個分類變量均為有序分類的情況,對相關(guān)的有序變量進(jìn)行非參數(shù)相關(guān)檢驗。也適用于某些不呈正態(tài)分布或難于判斷分布的定量資料。取值范圍在-0.5和1之間,1表示完全相關(guān)。
PROCCORRdata=aHOEFFDING;VARxyz;RUN;Cornbach相關(guān)性測度
由Cronbach在1951提出,通常是作為調(diào)查信度的測量指標(biāo)。用于誤差分析、問卷信度可靠性分析等。取值在負(fù)數(shù)和1之間,1表示存在較高的相關(guān)性,等于或小于0表示相關(guān)性較低。
PROCCORRdata=aalpha;
VARxyz;
RUN;3.相關(guān)分析1.Gplot(gplot_stock)功能:GPLOT過程用于繪制散點(diǎn)圖,兩個觀察變量的值分別作為橫、縱坐標(biāo),用二維空間展示變量之間的關(guān)系。語句格式:PROCGPLOT選項;PLOT選項;
PLOT2選項;
三
繪制統(tǒng)計圖表
圖性格式描述語句例:goptionsreset=globalgunit=pctcback=whiteborderhtitle=6htext=3ftext=swissbcolors=(back);Reset:清除以前設(shè)置Gunit:定義TitleSymbol語句定義高度的測量單位Cback:圖形背景色Border:繪制邊框Htitle(Ftitle,Ctitle):標(biāo)題行高度、字形、顏色Htext(Ftext,Ctext):輸出文本行高度、字形、顏色Colors:打印顏色
Symbol-圖性格式描述語句I=連線方式Join:連直線Needle:向橫軸連垂線Spline:連平滑線Rl:連一次回歸線Rq:連二次回歸線Rc:連三次回歸線Hiloc:連股票價格線C=連線顏色L=連線線型(1-46)V=坐標(biāo)符號(plus,x,star,square,dot,circle..)Axis-圖性坐標(biāo)描述語句例:axis1label=('Volume')order=(0to700000by100000)offset=(0,50);Label:定義坐標(biāo)軸Order:定義坐標(biāo)Offset:定義原點(diǎn)高度三、繪制統(tǒng)計圖表1.Gchart用于繪制常用的統(tǒng)計圖形,包括條形圖、塊形圖、餅形圖和星形圖等。使用這些圖形可以直觀地表示變量的描述性分布特性。主要統(tǒng)計計算有:頻數(shù)、累計頻數(shù)頻率、累計頻率總計均值通過以上圖表分析,可以了解隨機(jī)變量取值、分布、異常值情況等。(1)語句格式:PROCGCHART選項;例:ProcGchartdata=a;BLOCK變量/選項;Piex;HBAR變量/選項;Run;VBAR變量/選項;PIE變量/選項;STAR變量/選項;
RUN;(2)分組變量:Gchart過程需要使用一個分組變量。如果分組變量值為有限個,則對每個值計算由選擇項規(guī)定的統(tǒng)計量。統(tǒng)計量可以是關(guān)于分組變量的,如頻數(shù)統(tǒng)計。也可以是關(guān)于另一個變量的,如均值統(tǒng)計。如果分組變量值是連續(xù)的,系統(tǒng)將首先對其進(jìn)行分組,然后再執(zhí)行圖表分析。(3)選擇項:TYPE=Value:說明計算的統(tǒng)計量,Value=FREQ|CFREQ|PERCENT|CPERCENT|SUM|MEAN。SUMVAR=VARIABLE:說明要分析的變量。FREQ|CFREQ|PERCENT|CPERCENT|SUM|MEAN|NOSTATS:說明在圖形中顯示(或不顯示)統(tǒng)計量值。MIDPOINTS=Value:自定義中點(diǎn)值。LEVELS=Value:自定義分組數(shù)。GROUP=VARIABLE:分組統(tǒng)計。SUBGROUP=VARIABLE:貢獻(xiàn)分析(Bar)。LEGENDn=Text:對SUBGROUP的說明。AXIS=Value1toValue2byStep:說明坐標(biāo)軸。RAXIS=Value1,Value2,......:說明坐標(biāo)軸。REF=Value1,Value2,......:參考值表。三、繪制統(tǒng)計圖表(3)選擇項(續(xù)):EXPLODE=Value:說明對應(yīng)組的扇面離開中心。INVISIBLE=Value:說明對應(yīng)組的扇面隱藏。PERCENT=ARROW|INSIDE|NONE|OUTSIDE:說明在圖形中顯示值的方法(pie)
。2.Gplot用于繪制散點(diǎn)圖。用于觀察:變量的周期性變化兩個變量的相關(guān)性變量的分布情況異常值情況
三、繪制統(tǒng)計圖表(1)格式:PROCGPLOT選項;
PLOT變量1*變量2/選項;
PLOT2變量1*變量2/選項;
BUBBLE變量1*變量2=變量3/選項;
BUBBLE2變量1*變量2=變量3/選項;SYMBOLn選項;
AXISn選項;BY變量;RUN;三、繪制統(tǒng)計圖表(2)語句說明:PLOT變量1*變量2/選項;
PLOT2變量1*變量2/選項;
用于繪制變量1對變量2的散點(diǎn)圖。BUBBLE變量1*變量2=變量3/選項;
BUBBLE2變量1*變量2=變量3/選項;
用于繪制變量3對變量1*變量2的相關(guān)圖。三、繪制統(tǒng)計圖表(2)語句說明(AXISn):Label=Text:說明坐標(biāo)軸標(biāo)志。Order=(value1tovalue2bystep):說明刻度。Offect(m,n):說明軸上第一個刻度到原點(diǎn)的位移量。三、繪制統(tǒng)計圖表(3)PLOT,BUBBLE選擇項:OVERLAY:把本語句做的圖畫在同一坐標(biāo)系下。HAXIS=Value1toValue2bySTEP:定義橫坐標(biāo)軸。VAXIS=Value1,Value2......:定義縱坐標(biāo)軸。HAXIS=AXISn|VAXIS=AXISn:用前面定義的坐標(biāo)軸定義當(dāng)前坐標(biāo)軸。HREF=Value1,Value2,......:參考值表。VREF=Value1,Value2,......:參考值表。LHREF=1..46:定義參考線型。LVREF=1..46:定義參考線型。CHREF=1..46:定義參考線顏色。CVREF=1..46:定義參考線顏色。
VREVERSE縱軸向下。三、繪制統(tǒng)計圖表(3)SYMBOL選擇項:I=NONE|JOIN|NEEDLE|SPLINE|RL|RQ|RC:說明點(diǎn)之間連線方式。CLMnn:繪制置信限。CV,CI規(guī)定符號和連線顏色。L定義線型。V=PLUS|X|STAR|DOT|CIRCLE|字母|數(shù)字:說明繪點(diǎn)符號。STEPL|STEPR|STEPC|:繪制階梯線。HILOC:極值、均值連線。STD1|STD2|STD3|:標(biāo)準(zhǔn)差倍數(shù)點(diǎn)連線。REGEQN顯示回歸方程Gchart直方圖選項Type=mean|sum|freq|cfreq|percent|cpercent指定計算內(nèi)容Subvar=變量指定計算變量Subgroup=變量指定子組分類變量第四章統(tǒng)計推斷
一、回歸分析研究關(guān)于因變量(也稱被解釋變量)對一組自變量(也稱解釋變量)的依賴關(guān)系。目的是通過解釋變量的已知數(shù)據(jù),推斷和預(yù)測被解釋變量的總體特征。
使用軟件進(jìn)行回歸分析的一般工作步驟是,設(shè)定模型、估計參數(shù)、對模型進(jìn)行診斷、使用模型預(yù)測。1.線性回歸
(1)模型設(shè)定指根據(jù)研究目的,確定模型的試驗過程。模型設(shè)定的理由例:根據(jù)石油經(jīng)濟(jì)評價理論,原油開采成本受以下因素影響:產(chǎn)量、井深、注水量、原油含水量、原油粘度、井口壓力、井下壓力、滲透率、土壤類型、勞動力成本、管理成本、交通……。常用的模型設(shè)定方法向前選擇法,向后消去法,逐步篩選法,最大R2增量法,最小R2增量法,R2選擇法,調(diào)整后的R2選擇法,MallowsCp選擇法。向前選擇法
初始模型沒有任何自變量。對每個可能的自變量計算其進(jìn)入模型的F值貢獻(xiàn),如超過設(shè)定值則將其引入模型。如此循環(huán)直到?jīng)]有滿足條件的變量時為止。R2選擇法
根據(jù)用戶給定的最大或最小自變量數(shù)目,尋找能最佳預(yù)測因變量的自變量子集。
按照R2準(zhǔn)則,其對樣本的擬合是最優(yōu)的。(2)參數(shù)估計給出模型形式給定權(quán)數(shù)給定約束條件標(biāo)準(zhǔn)化回歸(3)模型診斷模型的顯著性檢驗變量的顯著性檢驗經(jīng)濟(jì)計量學(xué)檢驗強(qiáng)影響點(diǎn)分析殘差分析(4)預(yù)測均值預(yù)測單值預(yù)測預(yù)測值的置信區(qū)間(5)Reg回歸過程格式:PROCREG<options>;BYvariable;MODELdependents=<regressors></options>;FREQvariable;IDvariables;VARvariables;WEIGHTvariable;ADDvariables;DELETEvariables;MTEST<equation,...,equation></options>;OUTPUTOUT=SAS-data-set;PAINTcondition/options;PLOTyvariable*xvariable/options;PRINToptions;REFIT;RESTRICTequation,...,equation;REWEIGHTcondition/options;TESTequation/option;MODEL語句用法:例:MODELy=x1x2/SELECTION=FORWARD;MODEL語句的重要選項:SELECTION=forward,backward,stepwise,rsquare,cp,maxr,minr,adjrsq,noneNoint截距項=0Include=n模型必須包含前n個自變量Slentry=規(guī)定SELECTION的顯著性水平,forward選項的缺省值為0.5Stop=n最優(yōu)子集變量最大數(shù)目Best=n最優(yōu)子集變量數(shù)Stb計算標(biāo)準(zhǔn)化回歸系數(shù)MODEL語句用法(續(xù)):AIC,SAWA,BAYESIAN,PC一組信息準(zhǔn)則Collin共線性檢驗Collinoint共線性檢驗Spec異方差檢驗DW自相關(guān)檢驗Influence強(qiáng)影響點(diǎn)分析P計算預(yù)測值Cli計算預(yù)測值的置信區(qū)間Clm計算預(yù)測值的置信區(qū)間R殘查分析WEIGHT語句——加權(quán)最小二乘法 WEIGHT規(guī)定的變量是加權(quán)最小二乘擬合對應(yīng)的權(quán)數(shù)。如權(quán)數(shù)值小于等于零,相應(yīng)觀測不參加計算。
使用REWEIGHT語句可以重新賦權(quán):格式:REWEIGHTCONDITION/OPTION;例:REWEIGHTALLOBS/WEIGHT=0.1;REWEIGHTALLOBS/RESET;恢復(fù)初始權(quán)數(shù)設(shè)置REWEIGHTT=“2000”;對應(yīng)觀測不參加回歸計算REWEIGHTALLOBS/WEIGHT=0.1
STATUS;在LOG窗口列出重新賦權(quán)的觀測RESTRICT——使用約束條件
格式:RESTRICT約束方程例:RESTRICTA+B=1,INTERCEPT+C=1約束方程中的變量必須為MODEL語句中出現(xiàn)的變量,表示其系數(shù)被施加約束。TEST——變量的聯(lián)合檢驗常規(guī)檢驗TEST子句規(guī)定的檢驗例:TEST1:TESTB1+B2+INTERCEPT=1;B1,B2為MODEL語句中的變量,F(xiàn)檢驗被施加于對應(yīng)系數(shù)。TEST2=TESTB1=0,B2=0表示進(jìn)行聯(lián)合檢驗共線性檢驗在MODEL語句中使用COLLIN,COLLINOINT選擇項對模型進(jìn)行共線性檢驗。共線性檢驗的主要方法有:特征值法:若有N個特征值近似為0,則模型有N個共線關(guān)系。條件指數(shù)法:最大特征值與每個特征值之比。條件指數(shù)大意味共線性嚴(yán)重。方差膨脹因子VIF法VIF=1/(1-R2(i))R2(i)為Xi的偏相關(guān)系數(shù)。VIF大說明共線性嚴(yán)重。強(qiáng)影響點(diǎn)分析在MODEL語句中使用INFLUENCE選擇項對模型進(jìn)行強(qiáng)影響點(diǎn)分析。主要的檢驗統(tǒng)計量有:Cook'sD:大于0.3為影響點(diǎn)RSTUDENT,DFBETAS:大于2為影響點(diǎn)DEFFIT:大于2或大于SQRT(P/N)為影響點(diǎn)。P為參數(shù)數(shù)目,N為樣本量殘差分析常規(guī)分析:在MODEL語句中使用R選項PLOT子句繪制殘差分析圖例:PLOT
RESIDUAL.*X;PLOTRESIDUAL.*PREDICTED.;PLOTRESIDUAL.*NQQ.;繪制殘差正態(tài)性檢驗圖ORTHOREG—共線性時的估計方法PROCORTHOREGoptions;MODELdependent=independents/option;BYvariables;CLASSvariablesoption;WEIGHTvariable;2.非線性回歸分析
迭代法擬合非線性模型的基本原理:
設(shè)β
為模型待估參數(shù),β(0)為其一組可能的待估參數(shù)值。按某種迭代算法使用β(0)+△代替β(0),如果新擬合模型的殘差平方和更小,則β(0)+△是較β(0)為優(yōu)的解。依此類推,直到無法找到使殘差平方和更小的解為止。SAS使用的算法有:梯度法、牛頓法、修正的高斯-牛頓法、麥夸特法等。NLIN過程簡介
格式:PROCNLIN<options>;MODELdependent=expression;PARAMETERSparameter=values;BOUNDSinequality;BYvariables;DER.parameter=expression;DER.parameter.parameter=expression;IDvariables;OUTPUTOUT=SAS-data-setkeyword=names<,...,keyword=names>;CONTROLvariable<=values><...variable<=values>>;MODEL語句模型定義語句。例:模型
Y=b0×(1-e-b1X)表示為,ModelY=b0*(1-exp(-b1*X));或,Temp=exp(-b1*X);ModelY=b0*(1-Temp);PARAMETERS語句說明迭代初值。例:PARAMETERSb0=0b1=3;PARAMETERSb0=0.2to0.6by0.2b1=3,4;BOUNDS語句說明參數(shù)范圍。例:BOUNDSb0<=15,1<b1<10;DER語句說明函數(shù)的一階或二階導(dǎo)數(shù)。例:Y=b0×(1-e-b1X)說明一階導(dǎo)數(shù)DER.b0=1-exp(-b1*X)DER.b1=b0*X*exp(-b1*X)說明二階導(dǎo)數(shù)DER.bo.b1=-DER.b1*X例:估計如下模型Y=a+bx+cx2,如果X<X0Y=P
,如果X>=X0設(shè):X0=-b/2c,P=a-b2/4c九、不同水平下數(shù)據(jù)的差異性比較例:五種5年期銀行理財產(chǎn)品(用代碼D1-D5表示)的收益率如下,D121D121D145D133D127D236D251D236D254D254D342D354D354D357D357D457D475D466D457D469D521D530D533D545D533試對上述理財產(chǎn)品進(jìn)行收益分析。收益分析內(nèi)容不同理財產(chǎn)品的平均收益率不同理財產(chǎn)品的風(fēng)險評估不同理財產(chǎn)品之間收益的差異比較進(jìn)行差異性比較的統(tǒng)計方法—方差分析
方差分析(analysisofvariance)方法由著名統(tǒng)計學(xué)家R.A.Fisher提出的,是對兩個或兩個以上樣本均值差異進(jìn)行比較的統(tǒng)計檢驗方法。也常用于研究關(guān)于因變量對一組性質(zhì)自變量(具有有限個取值)的依賴關(guān)系。方差分析的基本思想
方差分析首先把全部樣本數(shù)據(jù)作為一類,計算數(shù)據(jù)間的總的變差(一般采用離差平方和計算),稱總變差或總離差平方和。然后把每個樣本作為子類,計算樣本內(nèi)的變差,稱為組內(nèi)變差或組內(nèi)離差平方和。再計算各組之間的變差,稱為組間變差或組間離差平方和。通過各類變差間的比較完成統(tǒng)計檢驗。單因素方差分析
研究只有一個影響因素(控制變量),其不同取值水平是否對因變量產(chǎn)生影響。例如不同職業(yè)投資者證券投資收益。多因素方差分析
多因素方差分析用來研究兩個或兩個以上影響因素,其不同取值水平是否對因變量產(chǎn)生影響。多因素方差分析不僅要分析每個因素對因變量的影響,還要分析多個因素相互作用的影響。例如,不同職業(yè)及不同教育程度投資者證券投資收益研究。多因素的交互作用
例:不同職業(yè)及不同教育程度投資者證券投資收益研究。職業(yè):工、農(nóng)、商、學(xué)、兵教育程度:小學(xué)、中學(xué)、大學(xué)職業(yè)+教育程度:工(小學(xué)、中學(xué)、大學(xué))……單因素方差分析的統(tǒng)計檢驗方法
設(shè)ST為總平方和,SA為,SR為組內(nèi)平方和,樣本量為n,因素類別數(shù)為k。則,ST=SA+SR可以證明,當(dāng)假設(shè)H0成立時,統(tǒng)計量多因素方差分析方法SOURSE來源SS離差平方和Df自由度MS均方差FF統(tǒng)計量因素ASAI-1MSA=SA/(I-1)FA=MSA/MSE因素BSBJ-1MSB=SB/(J-1)FB=MSB/MSEAB相互作用SAB(I-1)(J-1)MSAB=SAB/(I-1)(J-1)FAB=MSAB/MSE誤差SRIJ(K-1)MSE=SR/IJ(K-1)總和STIJK-1方差分析的基本假定(1)樣本是隨機(jī)的;(2)各樣本之間相互獨(dú)立;(3)樣本分別來自正態(tài)分布總體,各樣本方差相同。
1.ANOVA過程—齊次樣本方差分析PROCANOVA<options>;CLASSvariables</option>;MODELdependents=effects</options>;BYvariables;FREQvariable;MANOVA<test-options></detail-options>;MEANSeffects</options>;REPEATEDfactor-specification</options>;TEST<H=effects>E=effect;CLASS語句:說明分類變量。例:CLASSabc;MODEL語句:說明分類變量。例:MODELY=aba*b;MEANS語句:說明計算每個效應(yīng)對應(yīng)的因變量均值。在該語句中還可以規(guī)定對主效應(yīng)進(jìn)行均值檢驗。例:MEANSaba*b/DUNCANALPHA=0.1CLM;
2.GLM過程—非齊次樣本方差分析PROCGLM<options>;CLASSvariables</option>;MODELdependents=independents</options>;BYvariables;FREQvariable;IDvariables;WEIGHTvariable;MEANSeffects</options>;OUTPUT<OUT=SAS-data-set>;RANDOMeffects</options>;REPEATEDfactor-specification</options>;TEST<H=effects>E=effect</options>;
3.Ttest過程—兩個總體均值比較PROCTTEST<options>;CLASSvariable;BYvariables;VARvariables;FREQvariable;WEIGHTvariable;
例:
某制鞋廠生產(chǎn)兩種型號的運(yùn)動鞋,各隨機(jī)抽取10雙,發(fā)給兩組志愿者人。要求每位志愿者每天穿其領(lǐng)取的鞋徒步行走3小時。30天后測試所有20雙鞋的磨損程度,測試數(shù)據(jù)如下:
A:27351939343215261817B:23281631383017221516
試比較兩種鞋的耐用程度。解法二——配對檢驗
使各隨機(jī)抽取10雙鞋,分給每人A、B型號各一雙。規(guī)定其使用方法,記錄他們穿鞋的磨損情況,并進(jìn)行比較。
配對檢驗有可能對研究對象的信息利用更充分。以上面檢驗問題為例,考慮不同志愿者在身體條件、生活習(xí)慣等方面的差異,也會導(dǎo)致鞋的磨損程度不同,因此可以考慮采用配對檢驗。Freq-頻數(shù)統(tǒng)計語句格式:PROCFREQ選項;TABLES變量組合/選項;WEIGHT變量;BY分組變量表;Freq語句選項DATA=數(shù)據(jù)文件ORDER=Freq|Data|Internal|Formatted
例:下面是一組關(guān)于性別與個人股票投資收益情況的調(diào)查數(shù)據(jù),試分析性別與個人股票投資收益之間的分布,以及性別與個人股票投資收益之間是否相關(guān)(獨(dú)立性檢驗,H0=獨(dú)立)。三、多元統(tǒng)計分析
關(guān)于多元隨機(jī)變量問題的研究。1.主成分分析
主成分分析是將研究對象的多個相關(guān)變量化為少數(shù)幾個不相關(guān)變量的多元統(tǒng)計方法。例:雙因素變量的主成分圖示X1X2P1P2主成分的方差貢獻(xiàn)率
設(shè)原始變量集為X1,X2……Xk,其主成分為P1,P2……Pk,則∑σi2=∑λi其中σi2為Xi的方差,λi為Pi的方差(λ1≥
λ2……≥λp)。主成分Pi的方差貢獻(xiàn)率定義為,ai=
λi/∑λi前n個主成分的累計方差貢獻(xiàn)率為∑ai,反映了主成分概括原始變量信息的大小。主成分分析過程—PRINCOMPPROCPRINCOMP<options>;BYvariables;FREQvariable;PARTIALvariables;VARvariables;WEIGHTvariable;PRINCOMP的常用選項COV從協(xié)方差陣出發(fā)計算主成分N=規(guī)定計算的主分量個數(shù)OUT=文件名輸出原始數(shù)據(jù)及主成分得分到文件;OUTSTAT=文件名輸出特征向量到文件;例:區(qū)域經(jīng)濟(jì)效益評價
評價區(qū)域經(jīng)濟(jì)效益。能夠收集的數(shù)據(jù)如下:每百元固定資產(chǎn)原值實(shí)現(xiàn)的利稅,資金利稅率,產(chǎn)值利稅率,每百元銷售收入實(shí)現(xiàn)的利稅,每百元銷售成本實(shí)現(xiàn)的利潤,流動資金周轉(zhuǎn)次數(shù)。例:含缺失數(shù)據(jù)的分析十名評委對35個競爭者進(jìn)行評分,試進(jìn)行主成分分析,得出一個綜合變量作為評價結(jié)果。每個評委評分時只給出了其認(rèn)為較好的競爭者的排名。主成分回歸
設(shè)Y為
因變量,X1,X2,……Xm為自變量,其主成分為P1,P2,……PK。則主成分回歸模型為,Y=f(P1,P2,……PK)+U又設(shè)Pi為模型中第i個主成分,其對應(yīng)的特征向量為ei’=,X*為自變量的標(biāo)準(zhǔn)化向量,則Pi=ei’X*2.因子分析
例:學(xué)生成績的系統(tǒng)影響可以表示為,Xi=aiF+ui其中F是對所有課程都起作用的公因子(其解釋了課程的“相關(guān)”效應(yīng)),ui為影響某門課程的特殊因子。1234561.語文2.寫作3.英語4.數(shù)學(xué)5.自然6.音樂1.83.78.70.66.631.67.67.65.571.64.54.511.54.511.41模型的一般形式
P個變量X1…Xp受m個公因子影響,且每個變量還單獨(dú)受一個特殊因子影響,如這些影響是線性的,則有:X1=a11F1+a12F2+…a1mFm+u1X2=a21F1+a22F2+…a2mFm+u2…Xp=ap1F1+ap2F2+…apmFm+upX=AF+UA稱為因子載荷矩陣,aij稱為變量Xi在公因子j上的載荷。正交因子模型
若X=(X1…Xp)的均值為U=(u1…up),協(xié)方差陣為∑,
X中心化的因子分析模型可寫為,X-U=AF+U假設(shè)存在E(F)=0,COV(F)=IE(U)=0,COV(U)=φ=diag(φ12,φ22,…φp2)COV(U,F(xiàn))=0則稱上述模型為正交因子模型。正交因子模型的共同度
可以證明,對于正交因子模型有
∑=AA’+φ
(1) COV(X,F(xiàn))=A(2)由(1)式知,σii2=VAR(Xi)=ai12+ai22+…+aim2+φi2ai12+ai22+…+aip2是因子載荷矩陣第i行元素平方和,記為hi2。則,σii2=hi2+φi2hi2描述了全部公因子對Xi方差貢獻(xiàn)和,稱為對Xi的共同度。稱φi2為特殊度。公因子重要性的度量及意義解釋
令gj2為因子載荷矩陣第j列元素平方和,則gj2=a1j2+a2j2+…+apj2gj2描述了公因子Fj對全部變量方差貢獻(xiàn),反映了其對所有原始變量的影響。從前面公式(2)可以看出,COV(Xi,F(xiàn)j)=aij如原始變量已經(jīng)標(biāo)準(zhǔn)化,則它是原始變量和公因子之間的相關(guān)系數(shù)。這就為解釋公因子的含義提供了依據(jù)。因子載荷矩陣及特殊方差的估計
極大似然法主成分法主因子解法……因子正交旋轉(zhuǎn)
當(dāng)m大于1時,正交因子載荷矩陣不唯一。但可以證明,若F*是由F經(jīng)過正交旋轉(zhuǎn)獲得,則兩者具有相同的共同度。因子分析程序—Factor格式:PROCFACTOR<options>;VARvariables;PRIORScommunalities;PARTIALvariables;FREQvariable;WEIGHTvariable;BYvariables;Factor程序選項(1)METHOD=PRINCIPAL缺省選則。說明使用主分量法提取因子。如規(guī)定PRIORS語句,或PRIORS選項不等于1,則執(zhí)行主因子分析。ML最大似然法。要求相關(guān)陣非奇異。PRINIT迭代主因子分析?!璓RIORS=規(guī)定計算先驗證公因子方差計算方法。MAXIER=N,規(guī)定最大迭代次數(shù)。NFACTORS=N,規(guī)定提取的最大因子數(shù)?!璅actor程序選項(2)ROTATE=旋轉(zhuǎn)方法選則。M,使用均方最大旋轉(zhuǎn)。P,使用PROMAX旋轉(zhuǎn)。Q,使用四次方最大旋轉(zhuǎn)。V,使用方差最大旋轉(zhuǎn)?!璅actor程序子句PRIORS數(shù)值;對每個變量規(guī)定先驗公因子方差。數(shù)值順序?qū)?yīng)VAR語句中的變量順序。例:VARX1-X3;PRIORS.7.8.9;例:
收集了12個社區(qū)的以下社會經(jīng)濟(jì)統(tǒng)計資料:總?cè)丝?,平均入學(xué)年齡,就業(yè)人數(shù),服務(wù)點(diǎn)數(shù)目,房價。試進(jìn)行因子分析。3、聚類分析
將研究對象的一批個體,依據(jù)其指標(biāo)特征劃分為若干類型。根據(jù)研究目標(biāo)不同,劃分標(biāo)準(zhǔn)可能采用不同方法。經(jīng)常使用的方法有:根據(jù)個體之間的距離進(jìn)行劃分;根據(jù)個體的相關(guān)性進(jìn)行劃分。既可以對于數(shù)值變量進(jìn)行聚類,也可以對性質(zhì)變量進(jìn)行聚類。常用聚類方法系統(tǒng)聚類法:從每個個體自成一類開始,每次將最接近的類合并,再將聚合的類再次合并,直到剩余類均不滿足聚合條件為止。分解聚類法:從全部個體為一類開始,依此分解為2類、3類……,直到不能再根據(jù)分離條件劃分新類為止。動態(tài)聚類法:在大樣本時,先進(jìn)行粗分類,然后再進(jìn)行調(diào)整的聚類方法。劃分類別的常用標(biāo)準(zhǔn)
1.距離
距離用于度量類之間的遠(yuǎn)近程度。常用的基于尺度意義的距離,如p維空間的點(diǎn)X和X’之間的明考夫斯基距離的計算公式為:DXX’=(∑|Xi-X’i|m)1/m其中m>0,i=1…p。類別之間的尺度距離
設(shè)A和A’表示兩個類,Dij表示A中的點(diǎn)i和A’的點(diǎn)j之間的距離。則常用的類間距離有:最小距離:用兩類中個體之間的最小距離度量。D=MIN(Dij)最大距離:用兩類中個體之間的最大距離度量。D=MAX(Dij)重心距離:用兩類重心之間的距離度量。D=Dāā’類平均距離:用兩類中兩兩個體之間的距離平均值度量。D=∑∑(Dij)/(nAnā’)類別之間的離差平方和距離
設(shè)A和A’表示兩個類,SA,Sā’,S分別A和A’及兩個類合并后的離差平方和。則兩類之間的距離可以表示為,DSAā’=S-(SA+Sā’)稱為類別之間的離差平方和距離。劃分類別的常用標(biāo)準(zhǔn)
2.相關(guān)性
有些研究對象個體之間具有很大的相似性,僅是尺度相差較大。此時,使用相關(guān)性作為劃分類別的標(biāo)準(zhǔn)更有意義。常用的度量方法有相關(guān)系數(shù)法;變量夾角余弦法。性質(zhì)變量的聚類標(biāo)準(zhǔn)
1.匹配系數(shù)
設(shè)二值變量的取值為0和1。當(dāng)兩點(diǎn)的取值同為0,或同為1時稱為匹配。否則,稱為不匹配。當(dāng)存在如下列聯(lián)表時,匹配系數(shù)可定義為,Dij=(n1+n4)/(n1+n2+n3+n4)1010n1n2n3n4性質(zhì)變量的聚類標(biāo)準(zhǔn)
2.相合系數(shù)
設(shè)二值變量的取值為0和1,當(dāng)存在如下列聯(lián)表時,相合系數(shù)可定義為,(n1n4-n2n3)DRij=(n1+n2)(n1+n3)(n2+n4)(n3+n4)1010n1n2n3n4聚類結(jié)果判別統(tǒng)計量
判別聚類結(jié)果的統(tǒng)計量主要有信息類統(tǒng)計量和檢驗統(tǒng)計量。信息統(tǒng)計量如R2統(tǒng)計量,定義為R2=1-PG/T其中T=∑||Xi-E(X)||2為向量的歐式距離,P
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 化工行業(yè)水處理及安全相關(guān)知識AA001單元測試試卷
- 醫(yī)療質(zhì)量考核與持續(xù)改進(jìn)實(shí)施方案
- 2026年上半年黑龍江事業(yè)單位聯(lián)考省地震局招聘2人參考考試題庫附答案解析
- 2026福建泉州石獅市自然資源局招聘編外工作人員1人備考考試題庫附答案解析
- 2026新疆博爾塔拉州博樂市中西醫(yī)結(jié)合醫(yī)院面向全市選聘義務(wù)行風(fēng)監(jiān)督員備考考試題庫附答案解析
- 2026湖北武漢市江岸區(qū)事業(yè)單位招聘財務(wù)人員1人備考考試題庫附答案解析
- 2026中國人民警察大學(xué)招聘27人參考考試試題附答案解析
- 2026年上半年黑龍江省林業(yè)科學(xué)院事業(yè)單位公開招聘工作人員55人參考考試題庫附答案解析
- 2026吉林松原市生態(tài)環(huán)境局所屬事業(yè)單位選拔10人備考考試試題附答案解析
- 2026山東濟(jì)寧高新區(qū)教育系統(tǒng)急需緊缺人才招聘10名備考考試試題附答案解析
- 高碳鉻鐵生產(chǎn)流程
- 2025漂浮式海上風(fēng)電場工程可行性研究報告編制規(guī)程
- 路基工程施工方案(2016.11.6)
- UL676標(biāo)準(zhǔn)中文版-2019水下燈具和接線盒UL標(biāo)準(zhǔn)中文版
- 醫(yī)學(xué)教材 常見心律失常診治(基層醫(yī)院培訓(xùn))
- 體溫單模板完整版本
- 武漢市2024屆高中畢業(yè)生二月調(diào)研考試(二調(diào))英語試卷(含答案)
- 天然美肌無添加的護(hù)膚品
- 湖南省長沙市外國語學(xué)校 2021-2022學(xué)年高一數(shù)學(xué)文模擬試卷含解析
- 3D車載蓋板玻璃項目商業(yè)計劃書
- 阿米巴經(jīng)營管理培訓(xùn)課件
評論
0/150
提交評論