版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第十章第十章 一元線性回歸分析與相關分析一元線性回歸分析與相關分析10.1 回歸與相關關系回歸與相關關系 回歸這個術語是由英國著名統(tǒng)計學家Francis Galton在19世紀末期研究孩子及他們的父母的身高時提出來的。Galton發(fā)現(xiàn)身材高的父母,他們的孩子也高。但這些孩子平均起來并不像他們的父母那樣高。對于比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高。 Galton把這種孩子的身高向中間值靠近的趨勢稱之為一種回歸效應,而他發(fā)展的研究兩個數值變量的方法稱為回歸分析。 在現(xiàn)實問題中,處于同一個過程中的一些變量,在現(xiàn)實問題中,處于同一個過程中的一些變量,
2、往往是相互依賴和相互制約的,它們之間的相互關系往往是相互依賴和相互制約的,它們之間的相互關系大致可分為兩種:大致可分為兩種: 相關關系問題相關關系問題 (1 1)確定性關系)確定性關系函數關系;函數關系; (2 2)非確定性關系)非確定性關系相關關系;相關關系; 相關關系表現(xiàn)為這些變量之間有一定的依賴關,但這種關相關關系表現(xiàn)為這些變量之間有一定的依賴關,但這種關系并不完全確定,它們之間的關系不能精確地用函數表示出來,系并不完全確定,它們之間的關系不能精確地用函數表示出來,這些變量其實是隨機變量,或至少有一個是隨機變量。這些變量其實是隨機變量,或至少有一個是隨機變量。相關和回歸分析是生物學研究中
3、最為常用的統(tǒng)計分析方法之一。相關和回歸分析是生物學研究中最為常用的統(tǒng)計分析方法之一。10.2 相關和回歸分析基本概念回歸分析(Regression Analysis)是研究一個依變數與一個或多個自變數之間數量關系的統(tǒng)計方法。在建立(線性)回歸模型的條件下,以離回歸平方和最小(最小二乘法)為目標求解模型統(tǒng)計數,獲得優(yōu)化回歸方程和離回歸標準誤。從而能依據自變數x的數據對目標變數y進行預測或插值。相關分析(Correlation Analysis)是用來考察兩個變量間(x與y)的相互變化的關聯(lián)關系,x與y的地位是平等的,兩變量間沒有因果關系?;貧w分析依自變數個數的多少分為一元回歸和多元回歸;依依變數
4、和自變數之間關系的性質分為線性回歸和非線性回歸。相關分析計算反映各個變數之間相關密切程度和性質的統(tǒng)計數。線性相關和回歸分析的SAS過程主要有相關分析(CORR)、回歸分析(REG)和廣義線性模型(GLM)。 相關關系舉例相關關系舉例 例如:在氣候、土壤、水利、種子和耕作技術等條件基本例如:在氣候、土壤、水利、種子和耕作技術等條件基本相同時,某農作物的畝產量相同時,某農作物的畝產量 Y Y 與施肥量與施肥量 X X 之間有一定的關系,之間有一定的關系,但施肥量相同,畝產量卻不一定相同。但施肥量相同,畝產量卻不一定相同。畝產量是一個隨機變量。畝產量是一個隨機變量。 又如:人的血壓又如:人的血壓 Y
5、 Y 與年齡與年齡 X X 之間有一定的依賴關系,一之間有一定的依賴關系,一般來說,年齡越大,血壓越高,但年齡相同的兩個人的血壓不般來說,年齡越大,血壓越高,但年齡相同的兩個人的血壓不一定相等。一定相等。血壓是一個隨機變量。血壓是一個隨機變量。 農作物的畝產量與施肥量、血壓與年齡之間的這農作物的畝產量與施肥量、血壓與年齡之間的這種關系稱為相關關系,在這些變量中,施肥量、年齡種關系稱為相關關系,在這些變量中,施肥量、年齡是可控變量,畝產量、血壓是不可控變量。一般在討是可控變量,畝產量、血壓是不可控變量。一般在討論相關關系問題中,論相關關系問題中,可控變量稱為自變量,不可控變可控變量稱為自變量,不
6、可控變量稱為因變量或響應變量。量稱為因變量或響應變量。函數關系與相關關系的區(qū)別函數關系與相關關系的區(qū)別 相關關系相關關系x影響影響Y的值,的值,xY函數關系函數關系唯一決定唯一決定的值,的值, 因此,統(tǒng)計學上討論兩變量的相關關系時,是設法因此,統(tǒng)計學上討論兩變量的相關關系時,是設法確定:在給定自變量確定:在給定自變量 的條件下,因變量的條件下,因變量 的的條件數學期望條件數學期望xX Y(| )E Y x不能唯一確定。不能唯一確定。10.3 一元線性相關1.回答兩個變量間的線性關系有多么密切?2.利用相關系數 :總體相關系數總體相關系數 的值在的值在 1 1 與與 1 1 之間之間度量線性相關
7、的程度度量線性相關的程度)()(),(YVarXVarYXCOV3.樣本的相關系數用樣本的相關系數用r表示表示,r的值在的值在 1 與與 1 之間之間相關系數的值相關系數的值相關系數的值相關系數的值相關系數的值相關系數取值相關系數實例Y YX XY YX XY YX XY YX Xr = 1r = -1r = .89r = 0判定判定兩變量兩變量線性相關程度線性相關程度 簡單相關系數簡單相關系數一般地一般地,|r| 越接近越接近 1 ,X 與與Y 的關系越密切的關系越密切,但嚴格的意義上要作但嚴格的意義上要作相關系數的顯著性測驗相關系數的顯著性測驗,設零假設為設零假設為X 與與Y沒有線性相關關
8、系,沒有線性相關關系,則對給定的檢驗水平則對給定的檢驗水平 ,查以,查以df=n2相關系數檢驗表得拒絕域相關系數檢驗表得拒絕域 ,則相關關系在給定的檢驗水平,則相關關系在給定的檢驗水平下下,有統(tǒng)計意義;否則沒有顯著性的相關關系有統(tǒng)計意義;否則沒有顯著性的相關關系. )2(nrr若若相關系數檢驗1.檢驗兩個變量之間是否存在線性關系2.跟檢驗總體斜率1有同樣的結論3. 假設零假設零假設H0: = 0 (不相關)(不相關) 備擇假設備擇假設Ha: 0 (相關)(相關)例例10-1:試求橡膠樹幼苗期刺檢干膠量與正式割試求橡膠樹幼苗期刺檢干膠量與正式割膠量之間的相關系數。膠量之間的相關系數。刺檢干膠量(
9、x毫克)與正式割膠量(y克)數據如下x 77 64 62 72 71 83 79 94 104 96 61y 8.8 7.9 8.9 7.7 8.6 8.1 9.1 5.6 8.5 7.6 4.9x 90 81 122 65 130 111 160 188 81 92y 8.1 12.0 15.7 11.9 11.1 6.5 15.3 17.7 5.9 10.6x 80 63 105 89 73y 8.3 6.0 8.5 10.1 3.5 樣本樣本n=26, , , , , 代入公式得代入公式得 查相關系數顯著性表,得在檢驗水平為查相關系數顯著性表,得在檢驗水平為0.01 臨界值為臨界值為0.
10、4959 ,因,因0.71020.4959 ,故推斷為相關關系極具顯著性。故推斷為相關關系極具顯著性。 由由 10.4 一元線性回歸的SAS實現(xiàn)一、REG過程u1. 語句格式uProc reg data= 數據集名 【選項】u選項u(1)data=指定分析的sas數據集u(2)outest=輸出數據集u(3)outsscp=輸出相關矩陣u(4)model 因變量=自變量、【選擇項】u例例10-1Data ex; input x y ;Cards;778.8908.1808.3647.98112636628.912215.71058.5727.76511.98910.1718.613011.17
11、33.5838.11116.5967.6799.116015.3614.9945.618817.79210.61048.5815.9;Proc reg; model y=x/xpx I; Run;F=24.42,P0.05,說明回歸方程在0.05水平上有意義,R2=0.5044,表明回歸模型較好?;貧w方程:y=1.9683+0.0776x,回歸系數t檢驗,t=4.94,P |r| under H0: Rho=0 x y x 1.00000 0.71019 .0001 y 0.71019 1.00000 .0001因為P=0.0010.01,故拒絕相關系數r=0的原假設.例題例題10-210-2
12、 許多害蟲的發(fā)生都和氣象條件有一定的關系。許多害蟲的發(fā)生都和氣象條件有一定的關系。1964197319641973年年1010年間測定年間測定7 7月下旬的溫雨系數月下旬的溫雨系數( (雨量雨量mm/mm/平均平均溫度溫度) )和大豆第二代造橋蟲發(fā)生量和大豆第二代造橋蟲發(fā)生量( (每百株大豆上的蟲數每百株大豆上的蟲數) )的關系如下表,試求相關系數。的關系如下表,試求相關系數。溫雨系數溫雨系數蟲口密度蟲口密度溫雨系數溫雨系數蟲口密度蟲口密度1.581.581801802.412.411751759.989.98282811.0111.0140409.429.4225251.851.851601
13、601.251.251171176.046.041201200.30.31651655.925.928080data new2;input x y ;cards;1.58 180 2.41 175 9.98 28 11.01 40 9.42 25 1.85 160 1.25 117 6.04 120 0.3 165 5.92 80;proc corr;var x y;run;基本概念協(xié)方差分析解決的問題為多組(多個處理)x, y雙變數資料,其自變數(協(xié)同變數)x往往對目標變數y有一定的線性回歸效應。協(xié)方差分析是把線性回歸與方差分析結合起來,檢驗兩個或多個修正均數間有無差別的方法。如研究不同的飼
14、料對動物體重的增長情況,但每只動物的進食量是不同的,對體重的增長是有影響的,進食量即為混雜因素,亦稱為協(xié)變量。協(xié)方差分析檢驗的意義是,用直線回歸的方法找出食量(協(xié)變量x)與所增體重(應變量y)的線性關系,求得當食量化為相等時(即扣除食量的影響),各飼料組動物所增體重的修正均數,然后用方差分析檢驗各修正均數間的差別。要真正反映目標變數y的處理效應,應先將不易控制的自變數x對目標變數y的影響剔除,再進行方差分析,這種分析即是協(xié)方差分析。利用回歸分析的原理分析目標變數y與自變數x之間的關系,從而將方差分析和相關、回歸分析結合起來。簡單的說,協(xié)方差分析是扣除協(xié)變量影響,再對修正y的均值進行方差分析。協(xié)
15、方差分析的SAS過程為廣義線性模型(GLM)。例例8:為研究:為研究A、B、C三種肥料對于蘋果樹三種肥料對于蘋果樹的增產效果,選了的增產效果,選了24株同齡的蘋果樹,記下各樹株同齡的蘋果樹,記下各樹基礎生產力基礎生產力(上年度的產量,上年度的產量,X),將每種肥料隨,將每種肥料隨機施于機施于8株蘋果樹上,記下當年產量株蘋果樹上,記下當年產量(Y,公斤,公斤)。得結果于下表。試作協(xié)方差分析。得結果于下表。試作協(xié)方差分析。 肥料肥料變數變數觀察值觀察值AX:4758534649565444Y:5466635156666150BX:5253645859616366Y:5453676262636469
16、CX:4448465059575853Y:5258546170646866分析方法先對x、y進行方差分析,檢驗其差異顯著性,然后對處理內(誤差)項做回歸分析,測驗去除處理影響的x與y是否存在顯著的線性回歸關系。若無,表明x對y無影響,對y作方差分析即能說明3種肥料對蘋果樹產量的效應差異顯著性。若x和y之間存在線性回歸關系,說明基礎生產力對來年產量有影響,不能用原有的y值進行方差分析,必須消去x的不同對y帶來的影響,即通過求y依x的線性回歸方程,將各處理的yi都矯正到x在同一水平時的值。最后對矯正平均數作方差分析,比較3種肥料對蘋果樹產量的影響有無顯著差異。GLM過程過程格式PROC GLM 選
17、項;CLASS 變量表;MODEL 依變量=效應/選項;MEANS 效應/選項;LSMEANS 效應/選項;RUN;語句說明PROC GLM語句選項為可設定分析數據集等。CLASS 語句指明分類變量,協(xié)方差分析時必須設立,且必須出現(xiàn)在MODEL語句之前。MODEL 語句定義協(xié)方差分析的線性數學模型。例如:MODEL y=a t;選項SOLUTION給出參數的估計值。MEANS 語句用于計算依變量的平均數。選項用于多重比較。LSMEANS 語句計算效應的最小二乘估計的平均數(LSM)。選項E=效應,設定測驗誤差項,缺省為試驗分析誤差。STDERR給出LSM的標準誤。TDIFF,PDIFF要求顯示
18、測驗H0:LSM(i)=LSM(j)的t值和概率值。結果輸出包括依變量的方差分析表、參數估計值和最小二乘估計的平均數等。例 程序1data xfc;do a=1 to 3; do i=1 to 8;input x y ;output ;end;end;cards;47 54 58 66 53 63 46 51 49 56 56 6654 61 44 50 52 54 53 53 64 67 58 6259 62 61 63 63 64 66 69 44 52 48 5846 54 50 61 59 70 57 64 58 69 53 66;proc print;proc glm;class a;model y=x a/solution;/*指定協(xié)方差分析模型,SOLUTION給出參數的估計值*/means a/t; /*計算a各個水平均值,用t檢驗進行多重比較*/lsmeans a/stderr pdiff tdi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 村級小市場管理制度(3篇)
- 現(xiàn)代種業(yè)園區(qū)管理制度(3篇)
- 疫情期間員工工作管理制度(3篇)
- 管理制度方法和技巧論文(3篇)
- 觀光農場常態(tài)化管理制度(3篇)
- 酒店前臺經理員工管理制度(3篇)
- 長沙無人機管理制度(3篇)
- 納稅風險管控培訓課件
- 《GAT 1054.7-2017公安數據元限定詞(7)》專題研究報告
- 養(yǎng)老院護理服務質量規(guī)范制度
- GB/T 21526-2025結構膠粘劑粘接前金屬和塑料表面處理導則
- 飲料廠品控安全培訓內容課件
- 天然氣管道應急搶修技術方案
- 2024廣東職業(yè)技術學院教師招聘考試真題及答案
- (2025年標準)情侶欠錢協(xié)議書
- 柳鋼除塵灰資源綜合利用項目環(huán)境影響報告表
- 長租公寓消防知識培訓課件
- 部隊普通車輛裝卸載課件
- GB/T 11803-2025船用交流低壓配電板
- 2025年“地球小博士”全國地理科普知識大賽歷年參考題庫含答案詳解(5卷)
- 喉癌解剖結構講解
評論
0/150
提交評論