版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第8章回歸分析基本概念回歸分析2事物間聯(lián)系,變量間的聯(lián)系確定性關系不確定關系可以用函數(shù)關系來表達自變量的變化,因變量相應地確定地變化相關關系相互獨立存在一定的依賴關系,但相關關系不確定相關關系達不到能由自變量準確確定因變量的程度通過回歸分析來研究回歸分析源自英國生物學家統(tǒng)計學家高爾頓對子女身高研究的結果例如人體身高和體重之間的關系:身高高,體重也會重一些;但又不確定血壓與年齡之間的關系:年齡大,血壓會相對高些,但又不是年齡大就一定血壓就高水稻產量受施肥量、播種量和種子有關系,但又不能完全確定這樣的關系,就可以通過回歸分析進行描述3回歸分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法。是通過一個或多個自變量對因變量進行解釋和預測的統(tǒng)計分析方法。是一種建模及預測性應用的技術4應用預測分析,時間序列模型以及發(fā)現(xiàn)變量之間的因果關系司機的魯莽駕駛與道路交通事故數(shù)量之間的關系預測某新產品的廣告費用所能夠帶來的銷售數(shù)量氣象預報上根據(jù)溫度、濕度和氣壓等預測風速對股票指數(shù)進行時間序列的預測5與相關分析相區(qū)別6相關分析回歸分析不區(qū)分自變量、因變量分自變量(預測變量、解釋變量)、因變量(結果變量、被解釋變量)討論變量的共同變化趨勢和強度描述相關關系,自變量對因變量的解釋和預測能力相關系數(shù)回歸方程回歸分析的分類7關系類型線性回歸分析非線性回歸分析自變量數(shù)量一元回歸分析多元回歸分析一元線性回歸分析第8章回歸分析回歸算法回歸分析算法過程根據(jù)數(shù)據(jù),確定其中某些變量之間的定量關系式,建立數(shù)學模型并估計其中的未知參數(shù);對模型關系式的可信程度進行檢驗;判斷和選擇自變量對因變量的影響關系中較為顯著的自變量構建模型,剔除影響不顯著的自變量,使模型反映最主要的控制因素。利用所求出的回歸模型關系式對某一過程進行預測或控制。估計參數(shù)的常用方法是最小二乘法在確定影響顯著性水平時,通常采用逐步回歸、向前回歸和向后回歸等方法一元線性回歸分析僅有一個自變量與一個因變量由因變量Y和自變量X之間的關系確定一條直線的方程,使得所有的數(shù)據(jù)點盡可能接近這條擬合的直線。10前提是,因變量Y和自變量X之間存在高度的正相關關系,且大致上可用一條直線表示一元線性回歸分析11設y是一個可觀測的隨機變量,它受到一個非隨機變量因素x和隨機誤差ε
的影響。若y
與x
有如下線性關系:
β0,β1為回歸系數(shù)。也稱β0為回歸直線的截距,
β1為回歸直線的斜率則定義y為因變量,x為自變量,稱此y與x之間的函數(shù)關系表達式為一元線性回歸模型。一元線性回歸分析12【例】x=400
一元線性回歸分析13最小二乘法一元線性回歸分析14【例】一元線性回歸分析15【例】一元線性回歸分析16【例】多元線性回歸分析多元線性回歸是簡單線性回歸的推廣,指的是多個因變量對多個自變量的回歸。其中最常用的是只限于一個因變量但有多個自變量的情況,也叫多重回歸。一般形式:17……多元線性回歸分析【例】18
多元線性回歸分析【例】19
非線性回歸數(shù)據(jù)分析漸近回歸模型二次曲線模型雙曲線模型20非線性回歸數(shù)據(jù)分析漸近回歸模型21非線性回歸數(shù)據(jù)分析二次曲線模型22非線性回歸數(shù)據(jù)分析雙曲線模型23Logistic回歸不一樣的回歸分析因變量為分類型的變量很難找到非線性函數(shù)y=f(x)不符合線性回歸分析的假設條件轉換思路,分析因變量y的取值出現(xiàn)的概率p與自變量x之間的關系,即尋找一個連續(xù)函數(shù)p(x)。當x變化時,其對應的函數(shù)值p不超出[0,1]的范圍Logisitc回歸模型符合上述條件24Logistic回歸25Logistic回歸分析屬于概率型非線性回歸。假設在自變量x的作用下,因變量y為取值為1和0的二值變量,其發(fā)生概率為p,則可以表示成:則該事件不發(fā)生的概率為:Logistic回歸26
Logistic回歸27[例]WEKA:SimpleLogisticClassyes:no:Intercept5.57-5.57outlooksunny-0.650.65outlookovercast2.82-2.82temperature-0.020.02humidity-0.060.06windyFALSE1.38-1.38Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoLogistic回歸28[例]Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoplaynoünoüyesüno?yesüyes?yesünoüyesüyesüno?yesüyesünoüThreshold=0.5ü11?379%Logistic回歸29[例]Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoThreshold=?Positive=‘yes’Positive=‘no’Threshold=0.5642Threshold=0.5788ROCLogistic回歸30[例]Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoplaynoünoüyesüno?yesünoüyesünoüyesüyesüno?yesüyesünoüThreshold=0.57ü12?286%Logistic回歸31[例]outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoClass:nooutlooksunny6.4257outlookovercast-13.5922outlookrainy5.6562temperature0.0776humidity0.1556windyTRUE3.7317Intercept-22.234WEKA:LogisticLogit(p)p(yes|X)play-0.2820.430noü-4.40370.012noü19.73551.000yesü-0.06010.485no?2.58470.930yesü0.64180.655yes?20.74581.000yesü-0.82920.304noü3.29360.964yesü2.04150.885yesü-0.90370.288no?16.2351.000yesü21.60231.000yesü-3.09140.043noüLogistic回歸32[例]SPSSClassno截距19.378outlookovercast-38.698outlookrainy.000temperature68-38.698temperature69-38.698temperature70-38.698temperature75-38.698Logit(p)p(yes|X)play19.3781.000noü19.3781.000noü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü19.3781.000noü-19.3200.000yesü19.3781.000noü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü19.3781.000noüoutlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoLogistic回歸33多元分類的情況無序多分類有序多分類香蕉、蘋果、大鴨梨老虎、棒子、雞…….優(yōu)、良、中、差L、M、S…….Logistic回歸無序多分類對于自變量x=(x1,x2,…,xm)和因變量y(假設y的類別取值為0,1,…,n-1),y取值為
k的概率可以表示為:34根據(jù)訓練數(shù)據(jù),可以建立回歸模型,計算得出回歸系數(shù)。對于未知分類實例,可以由公式計算出其各個分類的概率值,取概率最大的分類作為未知實例的類別。無序多分類[例]35“素材_無序Logistic回歸數(shù)據(jù).csv”WEKA:Logistic
Variableclass012x11.44896.8735-1.0137x2-4.7166-3.0751.5973x3-41.907-28.715-9.3459Intercept22.792517.21366.8179對實例數(shù)據(jù)x={x1=0.269264168,
x2=0.494347528,
x3=0.708105393},進行分類預測無序多分類[例]36
建立Logistic回歸模型時,還應進行似然比檢驗,即檢驗放入或不放入自變量時,模型質量均一樣(H0假設)。計算結果應得出P值小于0.05,拒絕原假設,也就是說明構建模型時放入的自變量具有有效性,模型構建有意義。對實例數(shù)據(jù)x={x1=0.269264168,
x2=0.494347528,
x3=0.708105393},進行分類預測WEKA:Logistic
Variableclass012x11.44896.8735-1.0137x2-4.7166-3.0751.5973x3-41.907-28.715-9.3459Intercept22.792517.21366.8179Logistic回歸
37對于未知分類實例,可以由公式計算出其各個分類的概率值,取概率最大的分類作為未知實例的類別。有序多分類[例]38專家評議同行評價學生評價等級0.280.060.1000.090.280.190…………0.230.220.0300.170.120.1710.040.340.010…………0.120.380.0900.430.480.5510.310.400.5920.310.440.4210.440.500.4810.430.580.573…………將訓練數(shù)據(jù)按照分類等級進行二元劃分,按照y為y≥1:{0,1/2/3}y≥2:{0/1,2/3}y≥3:{0/1/2,3}三種方式進行劃分,分別建立Logistic回歸模型,求出回歸系數(shù)。x={專家評議,同行評價,學生評價},所確定的有序等級為y
=0,1,2,3?!八夭腳教師評級數(shù)據(jù).csv”有序多分類[例]x={專家評議,同行評價,學生評價},所確定的有序等級為y=0,1,2,3。39專家評議同行評價學生評價等級0.280.060.1000.090.280.190…………0.230.220.0300.170.120.1710.040.340.010…………0.120.380.0900.430.480.5510.310.400.5920.310.440.4210.440.500.4810.430.580.573…………劃分{0,1/2/3}{0/1,2/3}{0/1/2,3}y010101回歸參數(shù)專家評議5.44930-7.66330-0.01960同行評價1.841804.38380-0.81960學生評價13.7416021.621012.36390Intercept-5.73040-11.46510-9.21240有序多分類[例]x={專家評議,同行評價,學生評價},所確定的有序等級為y=0,1,2,3。40對于一個未評級實例x={專家評議=0.59,
同行評價=0.63,
學生評價=0.57},得:p(y=1|x)=0.2889
p(y=0|x)=0.7111
p(y=1|x)=0.9985p(y=0|x)=0.0015
等級
y=1劃分{0,1/2/3}{0/1,2/3}{0/1/2,3}y010101回歸參數(shù)專家評議5.44930-7.66330-0.01960同行評價1.841804.38380-0.81960學生評價13.7416021.621012.36390Intercept-5.73040-11.46510-9.21240小結一元線性回歸多元線性回歸一元非線性回歸漸進二次雙曲線Logistic回歸數(shù)據(jù)—模型—預測最小二乘法數(shù)據(jù)—模型—分類最大似然法多分類無序有序41第8章回歸分析評估與檢驗評估與檢驗誤差檢驗R方系數(shù)統(tǒng)計檢驗F檢驗T檢驗R方系數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年及未來5年市場數(shù)據(jù)中國名俗文化行業(yè)市場深度研究及投資策略研究報告
- 2026年及未來5年市場數(shù)據(jù)中國吉林省農村城鎮(zhèn)化建設行業(yè)發(fā)展前景預測及投資方向研究報告
- 青州護士考試題及答案
- 贛州市中心血站2026年第二批勞務派遣制工作人員招聘備考考試試題及答案解析
- 2026中國科學院地球環(huán)境研究所特別研究助理(博士后)人才招聘備考題庫附答案詳解
- 2026年西雙版納州招聘事業(yè)單位工作人員(334人)筆試備考題庫及答案解析
- 2026云南臨滄臨翔區(qū)第三中學城鎮(zhèn)公益性崗位人員招聘3人備考考試試題及答案解析
- 中科培訓考試試題及答案
- 2025-2030中國地毯背涂層行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2026廣東茂名市公安局濱海新區(qū)分局招聘警務輔助人員20人備考題庫(第一次)及1套參考答案詳解
- 二手房提前交房協(xié)議書
- 2025年高考物理 微專題十 微元法(講義)(解析版)
- 2025年國家能源投資集團有限責任公司校園招聘筆試備考題庫含答案詳解(新)
- 形位公差培訓講解
- 醫(yī)學影像肺部結節(jié)診斷與處理
- 藥店物價收費員管理制度
- 數(shù)據(jù)風險監(jiān)測管理辦法
- 2025年數(shù)字經濟下靈活就業(yè)發(fā)展研究報告-新京報-202605
- 兒童語言發(fā)育遲緩課件
- 2025年河南省鄭州市中考一模英語試題及答案
- 防爆箱技術協(xié)議書
評論
0/150
提交評論