《數(shù)據(jù)挖掘原理與應用 第2版 》課件 8.2回歸分析-回歸算法_第1頁
《數(shù)據(jù)挖掘原理與應用 第2版 》課件 8.2回歸分析-回歸算法_第2頁
《數(shù)據(jù)挖掘原理與應用 第2版 》課件 8.2回歸分析-回歸算法_第3頁
《數(shù)據(jù)挖掘原理與應用 第2版 》課件 8.2回歸分析-回歸算法_第4頁
《數(shù)據(jù)挖掘原理與應用 第2版 》課件 8.2回歸分析-回歸算法_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第8章回歸分析回歸算法回歸分析算法過程根據(jù)數(shù)據(jù),確定其中某些變量之間的定量關系式,建立數(shù)學模型并估計其中的未知參數(shù);對模型關系式的可信程度進行檢驗;判斷和選擇自變量對因變量的影響關系中較為顯著的自變量構建模型,剔除影響不顯著的自變量,使模型反映最主要的控制因素。利用所求出的回歸模型關系式對某一過程進行預測或控制。估計參數(shù)的常用方法是最小二乘法在確定影響顯著性水平時,通常采用逐步回歸、向前回歸和向后回歸等方法一元線性回歸分析僅有一個自變量與一個因變量由因變量Y和自變量X之間的關系確定一條直線的方程,使得所有的數(shù)據(jù)點盡可能接近這條擬合的直線。3前提是,因變量Y和自變量X之間存在高度的正相關關系,且大致上可用一條直線表示一元線性回歸分析4設y是一個可觀測的隨機變量,它受到一個非隨機變量因素x和隨機誤差ε

的影響。若y

與x

有如下線性關系:

β0,β1為回歸系數(shù)。也稱β0為回歸直線的截距,

β1為回歸直線的斜率則定義y為因變量,x為自變量,稱此y與x之間的函數(shù)關系表達式為一元線性回歸模型。一元線性回歸分析5【例】x=400

一元線性回歸分析6最小二乘法一元線性回歸分析7【例】一元線性回歸分析8【例】一元線性回歸分析9【例】多元線性回歸分析多元線性回歸是簡單線性回歸的推廣,指的是多個因變量對多個自變量的回歸。其中最常用的是只限于一個因變量但有多個自變量的情況,也叫多重回歸。一般形式:10……多元線性回歸分析【例】11

多元線性回歸分析【例】12

非線性回歸數(shù)據(jù)分析漸近回歸模型二次曲線模型雙曲線模型13非線性回歸數(shù)據(jù)分析漸近回歸模型14非線性回歸數(shù)據(jù)分析二次曲線模型15非線性回歸數(shù)據(jù)分析雙曲線模型16Logistic回歸不一樣的回歸分析因變量為分類型的變量很難找到非線性函數(shù)y=f(x)不符合線性回歸分析的假設條件轉換思路,分析因變量y的取值出現(xiàn)的概率p與自變量x之間的關系,即尋找一個連續(xù)函數(shù)p(x)。當x變化時,其對應的函數(shù)值p不超出[0,1]的范圍Logisitc回歸模型符合上述條件17Logistic回歸18Logistic回歸分析屬于概率型非線性回歸。假設在自變量x的作用下,因變量y為取值為1和0的二值變量,其發(fā)生概率為p,則可以表示成:則該事件不發(fā)生的概率為:Logistic回歸19

Logistic回歸20[例]WEKA:SimpleLogisticClassyes:no:Intercept5.57-5.57outlooksunny-0.650.65outlookovercast2.82-2.82temperature-0.020.02humidity-0.060.06windyFALSE1.38-1.38Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoLogistic回歸21[例]Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoplaynoünoüyesüno?yesüyes?yesünoüyesüyesüno?yesüyesünoüThreshold=0.5ü11?379%Logistic回歸22[例]Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoThreshold=?Positive=‘yes’Positive=‘no’Threshold=0.5642Threshold=0.5788ROCLogistic回歸23[例]Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoplaynoünoüyesüno?yesünoüyesünoüyesüyesüno?yesüyesünoüThreshold=0.57ü12?286%Logistic回歸24[例]outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoClass:nooutlooksunny6.4257outlookovercast-13.5922outlookrainy5.6562temperature0.0776humidity0.1556windyTRUE3.7317Intercept-22.234WEKA:LogisticLogit(p)p(yes|X)play-0.2820.430noü-4.40370.012noü19.73551.000yesü-0.06010.485no?2.58470.930yesü0.64180.655yes?20.74581.000yesü-0.82920.304noü3.29360.964yesü2.04150.885yesü-0.90370.288no?16.2351.000yesü21.60231.000yesü-3.09140.043noüLogistic回歸25[例]SPSSClassno截距19.378outlookovercast-38.698outlookrainy.000temperature68-38.698temperature69-38.698temperature70-38.698temperature75-38.698Logit(p)p(yes|X)play19.3781.000noü19.3781.000noü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü19.3781.000noü-19.3200.000yesü19.3781.000noü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü19.3781.000noüoutlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoLogistic回歸26多元分類的情況無序多分類有序多分類香蕉、蘋果、大鴨梨老虎、棒子、雞…….優(yōu)、良、中、差L、M、S…….Logistic回歸無序多分類對于自變量x=(x1,x2,…,xm)和因變量y(假設y的類別取值為0,1,…,n-1),y取值為

k的概率可以表示為:27根據(jù)訓練數(shù)據(jù),可以建立回歸模型,計算得出回歸系數(shù)。對于未知分類實例,可以由公式計算出其各個分類的概率值,取概率最大的分類作為未知實例的類別。無序多分類[例]28“素材_無序Logistic回歸數(shù)據(jù).csv”WEKA:Logistic

Variableclass012x11.44896.8735-1.0137x2-4.7166-3.0751.5973x3-41.907-28.715-9.3459Intercept22.792517.21366.8179對實例數(shù)據(jù)x={x1=0.269264168,

x2=0.494347528,

x3=0.708105393},進行分類預測無序多分類[例]29

建立Logistic回歸模型時,還應進行似然比檢驗,即檢驗放入或不放入自變量時,模型質量均一樣(H0假設)。計算結果應得出P值小于0.05,拒絕原假設,也就是說明構建模型時放入的自變量具有有效性,模型構建有意義。對實例數(shù)據(jù)x={x1=0.269264168,

x2=0.494347528,

x3=0.708105393},進行分類預測WEKA:Logistic

Variableclass012x11.44896.8735-1.0137x2-4.7166-3.0751.5973x3-41.907-28.715-9.3459Intercept22.792517.21366.8179Logistic回歸

30對于未知分類實例,可以由公式計算出其各個分類的概率值,取概率最大的分類作為未知實例的類別。有序多分類[例]31專家評議同行評價學生評價等級0.280.060.1000.090.280.190…………0.230.220.0300.170.120.1710.040.340.010…………0.120.380.0900.430.480.5510.310.400.5920.310.440.4210.440.500.4810.430.580.573…………將訓練數(shù)據(jù)按照分類等級進行二元劃分,按照y為y≥1:{0,1/2/3}y≥2:{0/1,2/3}y≥3:{0/1/2,3}三種方式進行劃分,分別建立Logistic回歸模型,求出回歸系數(shù)。x={專家評議,同行評價,學生評價},所確定的有序等級為y

=0,1,2,3?!八夭腳教師評級數(shù)據(jù).csv”有序多分類[例]x={專家評議,同行評價,學生評價},所確定的有序等級為y=0,1,2,3。32專家評議同行評價學生評價等級0.280.060.1000.090.280.190…………0.230.220.0300.170.120.1710.040.340.010…………0.120.380.0900.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論