R語(yǔ)言與回歸分析.ppt_第1頁(yè)
R語(yǔ)言與回歸分析.ppt_第2頁(yè)
R語(yǔ)言與回歸分析.ppt_第3頁(yè)
R語(yǔ)言與回歸分析.ppt_第4頁(yè)
R語(yǔ)言與回歸分析.ppt_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余66頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、R語(yǔ)言與回歸分析,R簡(jiǎn)介 R語(yǔ)言分析一個(gè)簡(jiǎn)單的線(xiàn)性模型 總結(jié)與展望 作業(yè),R簡(jiǎn)介,1.S語(yǔ)言與R 2.R的安裝與運(yùn)行 3. R程序包的安裝及使用 4. R語(yǔ)言中的幾點(diǎn)注意事項(xiàng),S語(yǔ)言與R,R是一個(gè)有著強(qiáng)大統(tǒng)計(jì)分析及作圖功能的軟件系統(tǒng) R語(yǔ)言可以看作是貝爾實(shí)驗(yàn)室開(kāi)發(fā)的S語(yǔ)言的一種實(shí)現(xiàn)或形式 S語(yǔ)言主要內(nèi)含在S-PLUS軟件中,可將R和S-PLUS視為S語(yǔ)言的兩種形式 S/S-PLUS方面的文檔都可以直接用于R,R的安裝與運(yùn)行,R的安裝:從網(wǎng)址/ 下載R的安裝程序和R程序包 (R下載地址:/bin/win

2、dows/base/) /,單擊download R單擊Windows ,在單擊base 單擊Download R 2.11.1 for Windows,R程序包的安裝,(1)菜單方式:聯(lián)網(wǎng)條件下,按程序包 安裝程序包 選擇CRAN鏡像服務(wù)器 選擇程序包 (2)命令方式:install.packages(“PKname”) (3)本地安裝:下載需要的程序包及與之關(guān)聯(lián) 的程序包,再用“程序包”菜單中的“用本機(jī)的zip文件安裝程序包”,R程序包的使用,除R的標(biāo)準(zhǔn)程序包外,新安裝的程序包使用前必須載入,兩種載入方式: 菜單方式: 通過(guò)“程序包”菜單中的“

3、載入程序包”,再?gòu)囊延谐绦虬羞x定需要的一個(gè)加載; (2) 命令方式: 在命令提示符后鍵入 libiary(“PKname”) # 或 libiary(PK name) ,libiary(PKname),R語(yǔ)言中的幾點(diǎn)注意事項(xiàng),R語(yǔ)言區(qū)分大小寫(xiě),即A與a不同;正常情況下所有字母和數(shù)字都是可用的。 命令由(;)分隔,或另起新行。 基本命令由(和)合并成復(fù)合表達(dá)式 注釋以(#)開(kāi)始,到行末結(jié)束。 命令未結(jié)束,R給出提示符(+)。,R語(yǔ)言與線(xiàn)性回歸,線(xiàn)性回歸模型的簡(jiǎn)單回顧 如何應(yīng)用R語(yǔ)言進(jìn)行回歸分析,線(xiàn)性回歸模型的簡(jiǎn)單回顧,Y通常稱(chēng)為因變量或響應(yīng)變量,X稱(chēng)為自變量或預(yù)報(bào)變量。Y值由兩部分組成,一部分

4、由X決定是X的函數(shù),記為f(X);另一部分由其他為考慮因素所產(chǎn)生的影響被稱(chēng)為隨機(jī)誤差,記為e。模型記為: Y=f(X)+e 要求 E(e)=0,特別的f(X)取為線(xiàn)性函數(shù)。,線(xiàn)性回歸模型的簡(jiǎn)單回顧,回歸分析的主要目的是探尋因變量與自變量之間的關(guān)系。 最常用的函數(shù)形式是線(xiàn)性函數(shù),含有p個(gè)自變量的一般線(xiàn)性模型: 其中 為常數(shù)項(xiàng), 為第j個(gè)解釋型變量 的回歸系數(shù),它意味著,若 變化一個(gè)單位,可以預(yù)期 變化多少單位。,線(xiàn)性回歸模型的簡(jiǎn)單回顧,對(duì)此普通線(xiàn)性模型做如下假定: (1)獨(dú)立性:不同觀(guān)測(cè)值之間相互獨(dú)立的;殘差項(xiàng)同解釋性變量之間是獨(dú)立的。 (2)常方差:即殘差 的方差不依賴(lài)于自變量的取值,為一個(gè)常

5、數(shù)。 (3)正態(tài)性:即殘差項(xiàng) 是服從正態(tài)分布的。,案例介紹,背景、目標(biāo)、變量和分析,案例背景,目前中國(guó)的資本市場(chǎng)逐漸成熟,投資于股市成為眾多企業(yè)乃至個(gè)人的重要理財(cái)方式。因此利用上市公司當(dāng)年的公開(kāi)的財(cái)務(wù)指標(biāo)對(duì)其來(lái)年盈利狀況予以預(yù)測(cè)就成為投資人最重要的決策依據(jù)。 本案例隨機(jī)抽取深市和滬市2002年和2003年各500個(gè)樣本,對(duì)上市公司的凈資產(chǎn)收益率(return on equity, ROE)進(jìn)行預(yù)測(cè)。,案例目標(biāo)與變量,目標(biāo):盈利預(yù)測(cè) 因變量:下一年的凈資產(chǎn)收益率(ROE) 自變量:當(dāng)年的財(cái)務(wù)信息 樣本容量:2002年500;2003年500,自變量,ROEt: 當(dāng)年凈資產(chǎn)收益率 ATO: 資產(chǎn)周

6、轉(zhuǎn)率(asset turnover ratio) LEV: 債務(wù)資本比率(debt to asset ratio)反映公司基本債務(wù)狀況 PB: 市倍率(price to book ratio)反映公司預(yù)期未來(lái)成長(zhǎng)率 ARR: 應(yīng)收賬款/主營(yíng)業(yè)務(wù)收入(account receivable over total income)反映公司的收入質(zhì)量,對(duì)模型的進(jìn)一步分析,哪個(gè)自變量在預(yù)測(cè)方面最有用? 哪個(gè)自變量是最重要的? 如何使用模型進(jìn)行預(yù)測(cè)?,描述分析,獲得對(duì)數(shù)據(jù)的整體性認(rèn)識(shí),數(shù)據(jù)讀取,(1)使用函數(shù)read.table()創(chuàng)建數(shù)據(jù)框 rm(list=ls() #清理當(dāng)前工作空間 a-read.ta

7、ble(D:暑期建模CH1roe.txt,header=T) (2)使用函數(shù)scan()比read.table()更靈活,并且可以指定變量的類(lèi)型,Excel數(shù)據(jù)讀取,(1)利用剪切板:打開(kāi)Excel電子表格,選中需要數(shù)據(jù),復(fù)制到剪切板。然后鍵入命令 alibrary(RODBC) b-odbcConnectExcel(d:/暑期建模/CH1/roe.xls) a-sqlFetch(b,roe),數(shù)據(jù)保存, save(a,file=a.RData) load(d:我的文檔a.RData)#調(diào)用以保存數(shù)據(jù) write.table(a, a.txt)#保存為文本文檔 write.csv(a, a.c

8、sv) a1=aa$year=2002,-1 save(a1,file=a1.RData),顯示數(shù)據(jù),變量的概括性度量,a1=aa$year=2002,-1 #從a中選出year為2002的數(shù)據(jù),并刪除第1列,然后賦值給a1 Mean=sapply(a1,mean) #計(jì)算a1中各列的均值 Min=sapply(a1,min)#計(jì)算a1中各列的最小值 Median=sapply(a1,median) #計(jì)算a1中各列的中位數(shù) Max=sapply(a1,max) #計(jì)算a1中各列的最大值 SD=sapply(a1,sd) #計(jì)算a1中各列的標(biāo)準(zhǔn)差 cbind(Mean,Min,Median,M

9、ax,SD) #將均值、最小值、中位數(shù)、最大值、標(biāo)準(zhǔn)差集中在一起展示,試驗(yàn)結(jié)果,變量間的相關(guān)性,散點(diǎn)圖是一種最簡(jiǎn)單的相關(guān)分析工具 通過(guò)函數(shù) pairs()觀(guān)察各個(gè)變量間的相關(guān)性 命令: pairs(a,panel=panel.smooth) 隨機(jī)變量樣本的相關(guān)系數(shù) round(cor(a),3) 相關(guān)性檢驗(yàn) ,使用函數(shù)cor.test(),應(yīng)用R語(yǔ)言命令:plot(a1$ROEt,a1$ROE) 繪制散點(diǎn)圖,可以看出ROEt與ROE的相關(guān)性,模型的建立,模型、假設(shè)和參數(shù)估計(jì),模型形式及假設(shè),線(xiàn)性回歸模型 模型假設(shè) (1)獨(dú)立性假設(shè) (2)同方差假設(shè) (3)正態(tài)性假設(shè),參數(shù)估計(jì),模型: 最小二乘

10、估計(jì)量: 方差估計(jì)量:,參數(shù)估計(jì),用矩陣形式表示線(xiàn)性模型記為 其中 是回歸系數(shù)變量, 是因變量向量, 是隨機(jī)擾動(dòng)向量,而X為設(shè)計(jì)矩陣。 當(dāng) 存在時(shí),回歸參數(shù) 的最小二乘估計(jì)為 。,參數(shù)估計(jì)的R軟件實(shí)現(xiàn),R語(yǔ)句:使用函數(shù)lm() lm1=lm(ROEROEt+ATO+PM+LEV+GROWTH+PB+ARR+INV+ASSET,data=a1) summary(lm1) 注:我們采用2002年數(shù)據(jù)擬合模型,擬合優(yōu)度,總平方和 殘差平方和 計(jì)算殘差函數(shù)residuals() R-Square,顯著性檢驗(yàn),F檢驗(yàn)、T檢驗(yàn),F檢驗(yàn),假設(shè) 檢驗(yàn)統(tǒng)計(jì)量 拒絕域,T檢驗(yàn),假設(shè) 檢驗(yàn)統(tǒng)計(jì)量 拒絕域,各個(gè)結(jié)果的

11、含義,第一列:參數(shù)的估計(jì)值 第二列:各個(gè)參數(shù)估計(jì)的標(biāo)準(zhǔn)差 第三列:通過(guò)樣本計(jì)算得T檢驗(yàn)統(tǒng)計(jì)量的值 第四列:通過(guò)T檢驗(yàn)計(jì)算的值 Residual standard error(殘差標(biāo)準(zhǔn)誤) R-squared(判別系數(shù)),顯著性檢驗(yàn)的結(jié)論,從F檢驗(yàn)的結(jié)果看,模型的線(xiàn)性關(guān)系是顯著的。 從T檢驗(yàn)的結(jié)果看,ROEt和LEV兩個(gè)變量通過(guò)了檢驗(yàn),GROWTH變量在顯著性水平降至0.1時(shí)也可以通過(guò)檢驗(yàn),因此這三個(gè)變量與因變量的線(xiàn)性關(guān)系較為顯著。 注意,這不說(shuō)明應(yīng)該刪除其它變量!,模型的診斷,異方差性、非正態(tài)性、異常值,同方差性檢驗(yàn),正常的殘差圖,同方差性檢驗(yàn),觀(guān)測(cè)值不獨(dú)立,同方差性檢驗(yàn),方差齊性不成立(即方

12、差相等假設(shè)不成立),同方差性檢驗(yàn),應(yīng)改為曲線(xiàn),正態(tài)性檢驗(yàn),若 , 并且 則有,正態(tài)性檢驗(yàn),進(jìn)一步,可得到 以及 所以在正態(tài)性假設(shè)下,殘差 與 應(yīng)該成線(xiàn)性關(guān)系。,正態(tài)性檢驗(yàn),Q-Q 圖 殘差: 將殘差排序: Y: X:,將上面的方法應(yīng)用于本案例,目標(biāo)1:檢驗(yàn)?zāi)P褪欠穹先齻€(gè)假設(shè) 目標(biāo)2:找出異常值 R語(yǔ)句:par(mfrow=c(2,2)#設(shè)置畫(huà)圖為2x2的格式 plot(lm1,which=c(1:4) #畫(huà)出lm1中對(duì)應(yīng)于模型檢驗(yàn)的4張圖,包括殘差圖、QQ圖和Cook距離圖 檢驗(yàn)發(fā)現(xiàn)47號(hào)數(shù)據(jù)為異常值,需要將其消除 語(yǔ)句:a1=a1(-47),應(yīng)用上述方法,繪制擬合模型的診斷圖,異常點(diǎn)的識(shí)別

13、,一般把標(biāo)準(zhǔn)化殘差的絕對(duì)值大于等于2的觀(guān)測(cè)點(diǎn)認(rèn)為是可疑點(diǎn);而標(biāo)準(zhǔn)化殘差的絕對(duì)值大于等于3的觀(guān)測(cè)點(diǎn)認(rèn)為是異常點(diǎn)。,剔除異常點(diǎn),a1=a1-47, #刪除a1中第47行的觀(guān)測(cè) lm2=lm(ROEROEt+ATO+PM+LEV+GROWTH+PB+ARR+INV+ASSET,data=a1) #用上一行命令得到的新數(shù)據(jù)a1再次擬合線(xiàn)型回歸模型,結(jié)果賦值給lm2 plot(lm2,which=c(1:4)#畫(huà)出lm2中對(duì)應(yīng)于模型檢驗(yàn)的4張圖,包括殘差圖、QQ圖和Cook距離圖,擬合結(jié)果,47為異常點(diǎn)去掉之后,擬合模型診斷圖如下,多重共線(xiàn)性,含義及檢驗(yàn),共線(xiàn)性含義,共線(xiàn)性問(wèn)題是指擬合多元線(xiàn)性回歸時(shí),自變量之間存在線(xiàn)性關(guān)系或近似線(xiàn)性關(guān)系。 自變量間的線(xiàn)性關(guān)系將隱蔽變量的顯著性,增加參數(shù)估計(jì)的誤差,會(huì)產(chǎn)生不穩(wěn)定的模型,一個(gè)例子,假如有兩個(gè)變量x1和x2,用最小二乘法得到如下參數(shù)估計(jì)量。,方差膨脹因子,定義下面的回歸形式為輔助回歸 令 為輔助回歸的判定系數(shù) 則方差膨脹因子為: 它反映了在多大程度上第i個(gè)自變量所包含的信息被其他自變量覆蓋,方差膨脹因子,R語(yǔ)句:函數(shù)vif() 所有的VIF值都小于10且接近1,所以沒(méi)有多重共線(xiàn)性問(wèn)題。 注:VIF10,表明模型中有很強(qiáng)的共線(xiàn)性問(wèn)題,變量選擇,AIC準(zhǔn)則、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論