版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、.廣義線性模型結(jié)課論文學(xué)院:基礎(chǔ)科學(xué)學(xué)院班級:130802班學(xué)生學(xué)號:20132891學(xué)生姓名:白冰指導(dǎo)教師:單娜.摘要基于廣義線性模型的本科畢業(yè)生去向的分析摘要:線性回歸模型中是要求因變量是定量變量,而不是定性變量。 但許多實際問題中,經(jīng)常出現(xiàn)因變量是定性變量的情況。 Logistic 回歸分析,處理分類因變量的統(tǒng)計方法。 Logistic 回歸模型是根據(jù)單個或多個連續(xù)型或離散型自變量來分析和預(yù)測離散型因變量的多元分析方法,是當(dāng)前常用統(tǒng)計方法。本文對 Logistic回歸模型的概況,分類,參數(shù)估計進行了分析綜述,并用SAS軟件進行數(shù)據(jù)分析從而對模型進行了評價及對回歸系數(shù)做了統(tǒng)計推斷。得到了很
2、好的預(yù)期效果。關(guān)鍵詞: 累計 Logistic回歸模型;多項Logit模型;最大似然估計;擬合優(yōu)度檢驗.目錄1.前言42.數(shù)據(jù)來源及介紹53.基本概念63.1 累積 logit 模型73.2 多項 logit 模型74.實證分析84.1 數(shù)據(jù)處理84.2 累積 Logit 分析84.2.1SAS 程序84.2.2 結(jié)果分析943 多項 logit 模型分析124.3.1SAS 程序124.3.2 結(jié)果分析135綜述15參考文獻16.1.前言高校大學(xué)畢業(yè)生作為人才資源中較高層次的一類, 其就業(yè)過程是國家高層次人力資源配置最為重要的一個環(huán)節(jié)。 當(dāng)前,大學(xué)畢業(yè)生就業(yè)已成為社會普遍關(guān)注的問題。大學(xué)生就
3、業(yè)難問題的原因非常復(fù)雜, 而且還隱含著深層次的社會問題。在當(dāng)前新形勢下, 解決高校畢業(yè)生就業(yè)難問題也需要政府, 學(xué)校及整個社會的努力, 要解決這些問題也不能是一蹴而就, 只能通過全社會的努力, 創(chuàng)新觀念,完善制度和改進工作方式,不斷深化改革來完成。大學(xué)生畢業(yè)之后的不同走向,很大程度決定定其在大學(xué)里的學(xué)習(xí)方向。大學(xué)生明確自己的畢業(yè)走向, 有利于提高自己大學(xué)學(xué)習(xí)的效率, 以及獲取各類就業(yè)信息的目的性, 從而對自己的大學(xué)生活有一個更好的規(guī)劃?,F(xiàn)在大學(xué)生普遍面臨巨大的就業(yè)壓力, 從而不可避免的導(dǎo)致了大學(xué)生畢業(yè)走向的多樣化,為了加深對大學(xué)生今后走向的一個初步了解, 本文選擇了一個含有 40 個樣本的數(shù)據(jù)
4、集, 因變量為本科生畢業(yè)去向, 分為 3 類,分別為工作、 讀研、出國留學(xué);考察專業(yè)課成績、 英語成績、性別和月生活費這 4 個自變量對本科生畢業(yè)去向的影響。 使用 SAS9.3 軟件對數(shù)據(jù)進行處理, 利用 Logistic 回歸分析影響畢業(yè)生去向的因素。.2.數(shù)據(jù)來源及介紹1、所用數(shù)據(jù)來源于應(yīng)用回歸分析第三版第十章課后習(xí)題。2、如表所示, 數(shù)據(jù)中包括 40 位本科畢業(yè)生相關(guān)信息 的數(shù)據(jù),其中:畢業(yè)去向 y:“ 1” =工作,“2”=讀研,“3”=出國留學(xué)X1: 專業(yè)課成績 X2: 英語 X3: 性別 X4: 月生活費40 位本科畢業(yè)生相關(guān)信息序號X1X2X3X4Y19565160022636
5、208501382530700246088085035726517501685850100037959501200289292195029636308501107875190011190780500112828317502138065185031483750600215609006503167590180021763831700118857507502197386095022086661150032193630130022273720850123866019502247663011001259686075022671751100012763721850228608806501296795150
6、0130869305501.316376065013286860750233768516501348292195033573600800136828517502377575075013872631650139818808503409296195023.基本概念logistic回歸比較常用的是因變量為二分類的logistic回歸,這也是比較簡單的一種形式。但在現(xiàn)實中,因變量的分類有時候多于兩類, 如療效可能是“無效”“顯效”“痊愈”三類, 你當(dāng)然可以把其中兩類進行合并, 然后仍然按照二分類 logistic 回歸進行分析,但是合并的弊端是顯而易見的,它可能損失一定的信息。而多分類則充分利用了完整
7、的信息,可能提供更多的結(jié)果。多分類 logistic回歸也有兩種,一種是有序分類,一種是無序分類。有序和無序的劃分不一定完全按照字面意思理解。比如療效,聽起來似乎是有序的,因為它是按等級劃分的, 但真正分析時還是需要結(jié)合具體的數(shù)據(jù)結(jié)構(gòu)、 使用條件和研究目的綜合考慮。一般來講,有序分類的 logistic回歸可以采用比例優(yōu)勢模型 ( proportionalodds model),又稱累積 logit模型或累積比數(shù)模型。無序分類的logistic回歸采用多項 logit模型( polynomial logit model)。基于研究目的與資料類型的不同特點,多水平統(tǒng)計模型有著不同的表達形式。當(dāng)所
8、研究的資料為多分類離散型數(shù)據(jù)時,其相應(yīng)的多水平統(tǒng)計模型被稱作多水平多項式模型,其模型中的鏈接函數(shù)可以選擇logit或者 log-log。由于多分類反應(yīng)變量分為無序分類與有序分類兩種,其多水平模型的具體形式也會有所不同。.3.1 累積 logit模型其定 如下:*?Y =+ ?+?=1? ?其中, Y*表示 象的內(nèi)在 ,它并不能被直接 量,? 差 ;表示常數(shù) , ?表示系數(shù) 。 果 量 Y為J個等 的有序 量, J個等 分 用 1,2,?j 表示,xT=(x 1 ,x2,xp) 自 量。 等 j(j=l,2?k) 的概率 : P(y=j| x), 等 小于等于 J(J=l ,2,k) 的概率 :
9、 P(y j|x)=P(y=1| x)+ ?+P(y=j|x) 。等 小于等于 j 的累 概率。做 logit :logitPj =logitP(yj|x)=lnP(yj|x)j=1,2, ,k-11-P(yj|x)有序分 果的 Logistic回 定 :logitPj= logitP(yj|x)=-j ?j=l ?2, k-1+?=1? ?exp?(- j+? )等價于 P(y j|x)=?=1 ? ?)1+exp?( - j+?=1 ? ?3.2 多項 logit模型 于有 J=1,2,?,J 的非次序反 量,多 Logit 模型可以通 以下 Logit 形式形容:lnP(y=j|x)j
10、?=+?=11-P(y=J|x)?在多 Logit 模型中,Logit 是由反 量中的不重復(fù)的 的 比所形成的。當(dāng)反 量有 J 多 Logit 模型中便有 J一1個Logit 在累 Logistic回 模型中有 J一 1個累 Logit 函數(shù)的截距估 ,但是只有一套斜率系數(shù)的估 自 量。而在多 式 Logit 模型中,不 有 J一 1個截距而且有 J一1套斜率系數(shù)估 同一套自 量。 上式中有每一個斜率系數(shù)都有兩個下角 的原因。其中第一個下角 志不同的 Logit ,第二個下角 志不同的自 量。在有 J 個 的多 Logit模型中, J-1 個 Logit可表述 :.lnlnP(y=1|x)1?
11、 ?=+1-P(y=J|x)?=1 1? ?P(y=2|x)2? ?=+?=11-P(y=J|x)2? ?.lnP(y=(J-1)|x)J-1?1-P(y=J|x)=+?=1( J-1)?其中最后一個類別 ( 即第 J個類別 ) 被作為參照類, 對于有 J個類別的反應(yīng)變量, 歸入因變量中第 j 類的概率可以有下列公式進行估計:exp?( j+? ? )P(y=j|x)=?-1?=1?)1+? ?=1exp?( j+?=1?4.實證分析4.1 數(shù)據(jù) 理在數(shù)據(jù)來源介紹部分, 專業(yè)課成績、英語成績、性別、月生活費分別作為自變量,其中兩門課成績和月生活費為數(shù)值型變量,在此為了應(yīng)用軟件分析方便,將這三個
12、變量變換成定性變量。X1專業(yè)課成績X2 英語成績X3 月生活費6080x1=06080x2=0500800 x3=080 以上 x1=180 以上 x2=1800 以上 x3=1對處理過后的數(shù)據(jù)應(yīng)用SAS軟件來進行累計Logit回歸分析。4.2 累 Logit 分析數(shù)據(jù)集包含 5 個變量, y,x1-x4 。響應(yīng)變量 y 包含響應(yīng)的等級;累計Logit模型用來研究本科畢業(yè)生畢業(yè)去向的影響因素。以下用SAS語句調(diào)用 Logistic過程來擬合這個模型。4.2.1SAS 程序datawork.bai;.inputy x1-x4;cards;10001710010210011121110121000
13、3210011310112301001311111;proclogisticdata=work.bai1;freqf;classx1-x4;modely=x1-x4;run;4.2.2 結(jié)果分析.檢驗比例優(yōu)比的得分卡方統(tǒng)計量的值是7.7685 ,相對于 4 個自由度的卡方分布這是不顯著的( p=0.1004),因此說明累積 logit模型對于擬合這組數(shù)據(jù)是合適的。模型僅有截距項時的AIC、SC和-2ln (L)的值均大于模型中同時含有截距和協(xié)變量時的模型,根據(jù)其值最小原則,選擇協(xié)變量進入模型是有效的。模型總體檢驗結(jié)果,包括似然比檢驗、得分檢驗和Wald 檢驗,該模型有顯著性意義( P0.01)
14、,較好的擬合了此研究數(shù)據(jù)。.以上為最大似然估計的參數(shù)檢驗結(jié)果和幾個描述統(tǒng)計量、參數(shù)的OR值,以及 95%可信區(qū)間。結(jié)果表面自變量 x1(p0.05 )、x2( p0.05 )、x4(p0.05 )的回歸系數(shù)未通過檢驗,認為性別及月生活費對本科生畢業(yè)去向無顯著影響?;貧w模型系數(shù)的解釋:優(yōu)比估計值中, OR( x1)=16.42 ,表示在其他條件不變的情況下,專業(yè)課成績高的畢業(yè)生選擇考研的概率是專業(yè)課成績低的 16.42 倍, OR(x2) =7.69 ,表示在其他條件不變的情況下, 英語課成績高的同學(xué)選擇出國留學(xué)的概率是英語課成績低的 7.69 倍。因變量 y 對自變量 x1 和 x2 的累積
15、Logistic回歸模型如下:p2=p(y=2|x )= exp?( 2.121+2.7985x1+2.0399x2)1+?xp?( 2.121+2.7985x1+2.0399x2)p3=p(y 3|x )= exp?( 5.0062+2.7985x1+2.0399x2)1+?xp?(5.0062+2.7985x1+2.0399x2)p2=p(y=2) =p2, p3=p( y=3) =p3-p2,p1=p( y=1)=1-p3.4 3 多項 logit模型分析在上述分析中若把因變量的三個類別看作是有序的,所建立回歸模型, 其中x4(月生活費)未通過檢驗,這顯然與現(xiàn)實實際情況不符,接下來考慮把
16、響應(yīng)變量看作是無序多類別變量,建立多項logit模型。應(yīng)用 SAS9.3軟件調(diào)用 logistic過程步來進行建模。4.3.1SAS 程序datawork.bai;inputy x1-x4;cards;100017100102100111211101210003210011310112301001311111;proclogisticdata =work.bai;modely( ref=1)=x1-x4/link =glogit;run;注釋: link=glogit擬合無序多分類 logistic回歸模型; ref=指明參照的類別。.4.3.2 結(jié)果分析.針對無序響應(yīng)變量, 建立的多項 Lo
17、git模型中是以 y=1(工作)為參照組。從參數(shù)估計表中看到, 與參加工作的同學(xué)相比, 讀研的同學(xué)的專業(yè)課成績更好(x1 的 p 值=0.0011 ),而英語成績( x2 的 p 值=0.1566 )和經(jīng)濟狀況( x4 的 p值 =0.9322)沒有顯著差異;出國留學(xué)的同學(xué)其專業(yè)課的成績 (x1 的 p 值 =0.4055)和參加工作的同學(xué)沒有顯著差異, 英語成績( x2 的 p 值=0.0281 )和經(jīng)濟狀況(x4的 p 值=0.0134 )則更好 .對 y=2(讀研),exp?( -2.7955+3.8861?1+1.9069?2+0.7388?4)2 =1+exp ( -2.7955+3
18、.8861?1+1.9069?2+0.7388?4)+exp?(-5.1625+3.6194?1+3.4172?2+2.6733?4)對 y3(出國留學(xué)),3 = exp?(-5.1625+3.6194?1+3.4172?2+2.6733?4 )1+exp ( -2.7955+3.8861?1+1.9069?2+0.7388?4 )+exp?(-5.1625+3.6194?1+3.4172?2+2.6733?4).5綜述多項 Logit 模型中, Logit 是由反應(yīng)變量中的不重復(fù)的類別對的對比所形成的。然后,對每一個 Logit 分別建模。若反應(yīng)變量有 J 個類別,多項 Logit 模型中便有 J-1 個 Logit ,且有 J-1 套斜率系數(shù)估計對應(yīng)同一套自變量。與之形成對比的是,在累積 Logitistic 回歸模型中,雖然有 J-1 個累計 Logit 函數(shù)的截距估計,但只有一套斜率系數(shù)的估計對應(yīng)自變量。本文結(jié)合現(xiàn)實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 35922-2025不透性石墨浸漬耐蝕作業(yè)技術(shù)規(guī)范
- 2026春招:學(xué)習(xí)成長企劃顧問題目及答案
- 2026年橋梁設(shè)計中的地震動參數(shù)研究
- 2026年橋梁設(shè)計中的非線性分析與優(yōu)化
- 2026年未來電氣傳動控制的研究方向
- 2026春招:維修技術(shù)員筆試題及答案
- 販毒與吸毒的法律問題
- 住院部病患護理質(zhì)量評估
- 2026年邯鄲科技職業(yè)學(xué)院單招綜合素質(zhì)考試備考試題帶答案解析
- 2026年黑龍江旅游職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試參考題庫帶答案解析
- 2025年青島衛(wèi)生局事業(yè)單位考試及答案
- 紀委檔案規(guī)范制度
- 杭州錢塘新區(qū)建設(shè)投資集團有限公司2025年度第三次公開招聘工作人員備考題庫及完整答案詳解
- 眼科質(zhì)控課件
- 安徽信息會考題庫及答案
- 2025年中級消防監(jiān)控題庫及答案
- 隧道施工廢水處理人員培訓(xùn)方案
- 2025年射頻識別技術(shù)面試題庫及答案
- 揀貨主管年終總結(jié)
- 糖尿病重癥患者腸內(nèi)營養(yǎng)血糖調(diào)控方案
- CSR社會責(zé)任管理手冊
評論
0/150
提交評論