版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
STYLEREF"標(biāo)題1"腦卒中(cerebralstroke)又稱中風(fēng)、腦血管意外(cerebralvascularaccident,CVA),是一種急性腦血管疾病,是由于腦部血管突然破裂或因血管阻塞導(dǎo)致血液不能流入大腦而引起腦組織損傷的一組疾病。腦卒中作為一類常見(jiàn)的神經(jīng)系統(tǒng)疾病,具有發(fā)病率高、死亡率高以及致殘率高的特點(diǎn),給家庭和社會(huì)帶來(lái)了沉重的經(jīng)濟(jì)負(fù)擔(dān)[1,2,3],主要分為缺血性腦卒中和出血性腦卒中,其中缺血性腦卒中占腦卒中患病總數(shù)的60%以上[4]。腦卒中是多個(gè)影響因素長(zhǎng)期并且綜合作用引起的疾病。腦卒中發(fā)病風(fēng)險(xiǎn)與影響因2020年5月18日目錄TOC\o"1-2"\h\u摘要 3前言 6資料與方法 81數(shù)據(jù)來(lái)源 82研究方法 82.1數(shù)據(jù)預(yù)處理 82.2臨床診斷模型 112.2.1自變量單因素分析 112.2.2多因素logistic回歸模型 132.3集成學(xué)習(xí)模型 132.4隨機(jī)森林模型 142.5神經(jīng)網(wǎng)絡(luò)模型 142.6支持向量機(jī)模型 14結(jié)果 153.1單因素分析結(jié)果 153.2多因素logistic建模分析及模型預(yù)測(cè)結(jié)果 173.3集成學(xué)習(xí)模型分析以及模型預(yù)測(cè)結(jié)果 243.4隨機(jī)森林模型分析以及模型預(yù)測(cè)結(jié)果 263.5神經(jīng)網(wǎng)絡(luò)模型分析以及模型預(yù)測(cè)結(jié)果 303.6支持向量機(jī)模型分析以及模型預(yù)測(cè)結(jié)果 323.7機(jī)器學(xué)習(xí)模型之間的比較 343.8臨床診斷模型與支持向量機(jī)模型的比較 353.9自變量的多重共線性檢驗(yàn)及說(shuō)明 36致謝 39參考文獻(xiàn) 40
高血壓患者腦卒中風(fēng)險(xiǎn)及影響因素研究——基于臨床診斷預(yù)測(cè)模型與機(jī)器學(xué)習(xí)模型摘要目的:分析影響高血壓患者發(fā)生腦卒中的危險(xiǎn)因素,首先建立多因素臨床診斷預(yù)測(cè)模型,通過(guò)ROC曲線、Calibration曲線、以及臨床決策曲線CDA的繪制進(jìn)行模型分析與評(píng)價(jià),隨后分別采用集成學(xué)習(xí)、隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法建模,通過(guò)計(jì)算模型的預(yù)測(cè)錯(cuò)誤率與ROC曲線下面積來(lái)進(jìn)行模型的分析與評(píng)價(jià)。方法:(1)采用單因素分析高血壓患者中發(fā)生腦卒中的危險(xiǎn)因素,找出有統(tǒng)計(jì)學(xué)意義的危險(xiǎn)因素;(2)采用logistic回歸對(duì)高血壓并發(fā)腦卒中進(jìn)行多因素分析及預(yù)測(cè),繪制危險(xiǎn)因素列線圖;(3)采用機(jī)器學(xué)習(xí)方法,分別用集成學(xué)習(xí)、隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)的方法根據(jù)高血壓腦卒中的影響因素分別進(jìn)行分析建模并計(jì)算各模型的預(yù)測(cè)錯(cuò)誤率;(4)將機(jī)器學(xué)習(xí)中的最優(yōu)模型與多因素臨床診斷預(yù)測(cè)模型進(jìn)行對(duì)比分析。結(jié)果:(1)單因素分析結(jié)果:性別、年齡、職業(yè)、病程、煙酒史、低密度脂蛋白數(shù)量、載脂蛋白A1數(shù)量以及患者平時(shí)的健康狀況等為主要的影響因素;(2)logistics回歸中顯著變量有性別、職業(yè)、病程、年齡、煙酒史、健康狀況等,繪制危險(xiǎn)因素評(píng)分表(3)集成學(xué)習(xí),隨機(jī)森林,支持向量機(jī),神經(jīng)網(wǎng)絡(luò)建模的總體預(yù)測(cè)錯(cuò)誤率分別為0.081、0.115、0.267、0.118。結(jié)論:通過(guò)比較發(fā)現(xiàn),集成學(xué)習(xí)與支持向量機(jī)的總體錯(cuò)誤率最小,故而兩種方法在預(yù)測(cè)結(jié)果時(shí)具有較好的預(yù)測(cè)準(zhǔn)確性,且有較高精度;基于性別、職業(yè)、年齡、健康狀況、病程、載脂蛋白A1、直接膽紅素和葡萄糖構(gòu)建的列線圖預(yù)測(cè)模型可以為評(píng)估高血壓患者并發(fā)腦卒中風(fēng)險(xiǎn)提供臨床診斷輔助作用,可以促進(jìn)篩查和早期識(shí)別腦卒中風(fēng)險(xiǎn)較高的高血壓患者。關(guān)鍵字:高血壓性腦卒中;多因素分析;臨床診斷模型;機(jī)器學(xué)習(xí)Studyontheriskandinfluencingfactorsofstrokeinpatientswithhypertension--BasedonclinicaldiagnosispredictionmodelandmachinelearningmodelAbstractObjective:Inordertoanalyzetheriskfactorsofstrokeinpatientswithhypertension,amulti-factorclinicaldiagnosispredictionmodelwasestablishedatfirst,thenthemodelwasanalyzedandevaluatedbydrawingROCcurve,calibrationcurve,andclinicaldecisioncurve(CDA).Themachinelearningmethodsofintegratedlearning,randomForest,supportvectormachine,andneuralnetworkwereusedtoestablishdifferentmodelsrespectively.ThepredictionerrorrateandtheareaunderROCcurveareusedtoanalyzeandevaluatethemodelsbuiltbytheclinicaldiagnosispredictionmodelmethodandmachinelearning.Methods:(1)singlefactoranalysiswasusedtofindouttheriskfactorsofstrokeinpatientswithhypertension;(2)logisticregressionwasusedtoanalyzeandpredicttheriskfactorsofstrokeinpatientswithhypertensionanddrawthenomogramwhichformedbyriskfactors;(3)machinelearningwasconsistingofintegratelearning,randomforest,supportvectormachineandneuralnetworkmethods:accordingtotheinfluencingfactorsoftheriskofstrokeinhypertensionpatients,themethodsofcollateralswereusedtomodelandcalculatethepredictionerrorrateofeachmodel;(4)theoptimalmodelchosenfrommachinelearningmethodwascomparedwiththemulti-factorclinicaldiagnosispredictionmodel.Results:(1)theresultsofsinglefactoranalysis:gender,age,occupation,courseofdisease,historyoftobaccoandalcohol,numberofLDL,numberofapolipoproteinA1andpatients'usualhealthstatuswerethemaininfluencingfactors;(2)thesignificantvariablesinlogisticregressionincludedgender,occupation,courseofdisease,age,historyoftobaccoandalcohol,healthstatus,etc.,andthescoreofriskfactorswasdrawn(3)integratedlearning,randomForest,supportvectormachineandneuralnetworkmodelinghadtheoverallpredictionerrorratesof0.081,0.115,0.267and0.118respectively.Conclusion:thetotalerrorrateofintegratedlearningandsupportvectormachinewastherelativelysmaller,suggestingthetwomethodshadbetterpredictionaccuracyandhigheraccuracyinpredictingtheresults.Thenomogrampredictionmodelbasedongender,occupation,age,healthstatus,courseofdisease,ApolipoproteinA1,directbilirubinandglucosecouldbeusedtoevaluatetheriskpfstrokeinpatientscomplicatedwithhypertensionandprovideclinicaldiagnosisassistance,whichcanpromotethescreeningandearlyrecognitionofhypertensionpatientswithhighstrokerisk.Keywords:Hypertensivestroke;multivariateanalysis,;clinicaldiagnosismodel;machinelearning前言腦卒中(cerebralstroke)又稱中風(fēng)、腦血管意外(cerebralvascularaccident,CVA),是一種急性腦血管疾病,是由于腦部血管突然破裂或因血管阻塞導(dǎo)致血液不能流入大腦而引起腦組織損傷的一組疾病。腦卒中作為一類常見(jiàn)的神經(jīng)系統(tǒng)疾病,具有發(fā)病率高、死亡率高以及致殘率高的特點(diǎn),給家庭和社會(huì)帶來(lái)了沉重的經(jīng)濟(jì)負(fù)擔(dān)[1,2,3],主要分為缺血性腦卒中和出血性腦卒中,其中缺血性腦卒中占腦卒中患病總數(shù)的60%以上[4]。腦卒中是多個(gè)影響因素長(zhǎng)期并且綜合作用引起的疾病。腦卒中發(fā)病風(fēng)險(xiǎn)與影響因素暴露密切相關(guān)[5]。研究表明高血壓是腦卒中的首要危險(xiǎn)因素[6]。高血壓作為最常見(jiàn)的慢性非傳染性疾病,是心腦血管疾病最常見(jiàn)的病因,是以體循環(huán)動(dòng)脈血壓(收縮壓和/或舒張壓)增高為主要特征的,可伴有心、腦、腎等器官功能或器質(zhì)性損害的臨床綜合征[4]。芬蘭的一項(xiàng)隨訪研究顯示,未堅(jiān)持藥物降壓患者組與降壓患者組相比,腦卒中死亡的風(fēng)險(xiǎn)比(oddsratio,OR)明顯升高,2年和10年隨訪期間分別為3.81和3.01倍[7]。所以明確高血壓患者發(fā)生腦卒中的危險(xiǎn)因素,進(jìn)行積極有效的預(yù)防,是降低卒中發(fā)病率的重要措施之一。全球無(wú)論是高收入國(guó)家或中低收入國(guó)家,腦卒中都是危害健康的主要疾病。腦卒中已成為第二大死亡原因[8]。在1990年至2010年期間,高收入國(guó)家的發(fā)病率和死亡率有所下降。但是,在中低收入國(guó)家,發(fā)病率沒(méi)有顯著變化,在那段時(shí)間中風(fēng)死亡的絕對(duì)數(shù)量增加了[9,10]。2012年世界衛(wèi)生組織(WHO)公布的全球前十位主要死亡原因中,腦卒中僅次于缺血性心臟病,排名第二位,因腦卒中死亡人數(shù)達(dá)到670萬(wàn),占總死亡的比例是11.9%[11]。Barker-Collo等[12]對(duì)188個(gè)國(guó)家的卒中研究顯示,1990-2013年,腦卒中的發(fā)病率整體呈下降趨勢(shì),缺血性腦卒中(ischemicstroke,IS)的發(fā)病率在男女中均呈下降趨勢(shì),在男性人群中,IS由1990年的147.40/10萬(wàn)下降至2013年的132.77/10萬(wàn),在女性人群中,IS由1990年的113.31/10萬(wàn)下降至2013年的98.85/10萬(wàn)。出血性腦卒中(hemorrhagicstroke,HS)的發(fā)病率在男性人群中呈下降趨勢(shì)(65.31%vs64.89%),而在女性中略有增加(44.25%vs45.48%)。發(fā)達(dá)國(guó)家的腦卒中發(fā)病率高于發(fā)展中國(guó)家,均隨著年齡的增長(zhǎng)而增加。發(fā)展中國(guó)家IS在49歲以后發(fā)病率增加,而HS發(fā)病率卻在39歲以后增加[13]。Feigin等[13]研究顯示,世界范圍內(nèi)腦卒中年齡標(biāo)化死亡率由1990年的141.60/10萬(wàn)下降至2013年的110.10/10萬(wàn),IS(1990年的71.3/10萬(wàn)至2013年的57.3/10萬(wàn))與HS(1990年的59.8/10萬(wàn)至2013年的52.8/10萬(wàn))均明顯下降。女性IS的死亡率從1990年的69.0/10萬(wàn)下降至2013年的52.9/10萬(wàn),男性則由73.4/10萬(wàn)下降至62.1/10萬(wàn);女性HS的死亡率從1990年的63.9/10萬(wàn)下降至2013年的45.7/10萬(wàn),男性則由77.9/10萬(wàn)下降至20.2/10萬(wàn)[12]。在全球范圍內(nèi),死于腦卒中的女性多于男性[14]。發(fā)展中國(guó)家的IS死亡率有所增加,從1990年的63.7/10萬(wàn)上升至2013年的65.1/10萬(wàn),而發(fā)展中國(guó)家的HS死亡率、發(fā)達(dá)國(guó)家的IS和HS死亡率均呈下降趨勢(shì)。發(fā)展中國(guó)家的腦卒中死亡率占全球67%。腦卒中已成為嚴(yán)重威脅中國(guó)居民健康的重大社會(huì)問(wèn)題。2008年心血管病趨勢(shì)及決定因子監(jiān)測(cè)研究顯示,我國(guó)腦卒中的發(fā)病率為248.3/10萬(wàn),與1984年相比,平均以每年6.7%的速率上升,IS的上升速率(8.7%)高于HS(1.7%)[15]。2012年一項(xiàng)全國(guó)性的調(diào)查顯示,我國(guó)65~74歲人群腦卒中發(fā)病率為971/10萬(wàn),接近發(fā)達(dá)國(guó)家的水平(990/10萬(wàn)),遠(yuǎn)高于發(fā)展中國(guó)家平均水平(670/10萬(wàn))[16]。2013年首次完成我國(guó)規(guī)模最大并有全國(guó)代表性的腦血管病流行病學(xué)專項(xiàng)調(diào)查(NationalEpidemiologicalSurveyofStrokeinChina,Ness-China)。Ness-China研究是我國(guó)首次有全國(guó)代表性的腦卒中現(xiàn)況調(diào)查,填補(bǔ)了國(guó)內(nèi)腦卒中流行病學(xué)數(shù)據(jù)的空缺。全國(guó)157個(gè)監(jiān)測(cè)點(diǎn)抽樣60萬(wàn)人群的腦血管疾病流行病學(xué)調(diào)查報(bào)告顯示[17]:腦卒中患病率為1287.3/10萬(wàn),40歲以上人群男性患病率明顯高于女性,農(nóng)村地區(qū)患病率明顯高于城市,以此推算的我國(guó)腦卒中生存患者約為1100萬(wàn)左右。腦卒中發(fā)病率為274.4/10萬(wàn),其中各年齡段男性發(fā)病率均明顯高于女性,農(nóng)村地區(qū)腦卒中發(fā)病率高于城市。腦卒中死亡率為126.4/10萬(wàn),農(nóng)村地區(qū)死亡率高于城市地區(qū)。腦卒中亞型分布結(jié)果顯示,缺血性腦卒中占腦卒中總?cè)后w的69.6%、腦出血占23.8%,蛛網(wǎng)膜下隙出血占4.4%。2014年我國(guó)腦卒中會(huì)議公布的數(shù)據(jù)顯示,我國(guó)腦卒中患者患病率每年以8.7%的速度增長(zhǎng),與發(fā)達(dá)國(guó)家相比,我國(guó)腦卒中患病群體呈現(xiàn)年輕化趨勢(shì),腦卒中住院患者平均年齡比美國(guó)等國(guó)家高10歲[18]。2015年國(guó)內(nèi)卒中協(xié)會(huì)發(fā)布的數(shù)據(jù)顯示,我國(guó)每年新發(fā)腦卒中患者約270萬(wàn),且呈持續(xù)上升趨勢(shì),每年死于腦卒中患者約120萬(wàn),腦卒中給中國(guó)每年帶來(lái)的經(jīng)濟(jì)負(fù)擔(dān)達(dá)400億[19]。因此,在今后一段時(shí)期內(nèi),我國(guó)腦卒中的防控工作仍然應(yīng)該受到足夠的重視。病因?qū)W的研究是醫(yī)學(xué)研究中的重要課題,疾病的預(yù)后、診斷、治療都與病因有關(guān)。而病因?qū)W研究又需要在高發(fā)現(xiàn)場(chǎng)和高發(fā)人群中進(jìn)行,原因之一是此處人群的風(fēng)險(xiǎn)因素在部分個(gè)體中被富集而易于檢出。裴靜等采用多元回歸分析的方法探討新疆地區(qū)急性腦卒中患者相關(guān)危險(xiǎn)因素[20]。蔡堅(jiān)等探討了新疆部分地區(qū)急性腦卒中患者就診時(shí)間延遲的相關(guān)因素及就診時(shí)間對(duì)預(yù)后的影響[21]。曹麗霞等人采用logistic回歸分析來(lái)探討新疆維吾爾族人群缺血性腦卒中發(fā)病風(fēng)險(xiǎn)與相關(guān)血液生化指標(biāo)的關(guān)系[22]。因此,我們對(duì)2016年-2019年在新疆烏魯木齊市新疆醫(yī)科大學(xué)第一附屬醫(yī)院就診的高血壓患者資料進(jìn)行回顧性研究,通過(guò)建立臨床診斷預(yù)測(cè)模型來(lái)了解高血壓患者腦卒中發(fā)病影響因素及輔助臨床診斷,為預(yù)防高血壓患者發(fā)生腦卒中提供理論依據(jù)。資料與方法1數(shù)據(jù)來(lái)源本文所有數(shù)據(jù)來(lái)源:2016年-2019年新疆醫(yī)科大學(xué)第一附屬醫(yī)院就診患者,共31303名患者。納入標(biāo)準(zhǔn):(1)主診斷為高血壓的患者;(2)ICD編號(hào)為:ICD-10(抽取腦血管?。?、I60(蛛網(wǎng)膜下出血)、I61(腦內(nèi)出血)、I62(其他非創(chuàng)性顱內(nèi)出血)、I63(腦梗死)、I64(腦卒中,未特指出血或梗死)、I65(入腦前動(dòng)脈的閉塞和狹窄,未造成腦梗死)為腦卒中患者。排除標(biāo)準(zhǔn):(1)患有高血壓但主診斷不是高血壓的患者;(2)先天性高血壓患者。2研究方法2.1數(shù)據(jù)預(yù)處理(1)個(gè)體因素的指標(biāo):患者的年齡、性別、煙酒史、婚姻狀況、職業(yè)、平素身體狀況、甘油三脂水平、膽固醇水平、低密度脂蛋白數(shù)量等資料。其中高血壓患者的類型分為y=1不患有腦卒中的高血壓患者及y=2患有腦卒中的高血壓患者。詳細(xì)見(jiàn)表1。(2)性別、年齡、病程、職業(yè)、健康狀況、煙酒史、血清膽紅素、血小板計(jì)數(shù)進(jìn)行了分類處理:性別為1(男性)、2(女性);年齡為1(<20歲)、2(20-35歲)、3(35-50)、4(50-65)、5(65-80)、6(>80);病程為1(<5年)、2(5-10年)、3(10-25年)、4(25-35年)、5(>35年);職業(yè)為1(個(gè)體)、2(退休人員)、3(管理層人員及政府)、4(農(nóng)牧民)、5(律師教師醫(yī)生職員工程師)、6(其他);健康狀況為1(良好)、2(一般)、3(差);煙酒史為1(既沒(méi)有吸煙也沒(méi)有飲酒行為的)2(有過(guò)吸煙或飲酒歷史,戒煙戒酒也算為有);血清膽紅素為1(陽(yáng)性)、2(陰性);血小板計(jì)數(shù)為1(低于100×109/L)、2(正常水平)、3(高于350×109/L),詳細(xì)見(jiàn)表2。(3)本文共收集高血壓患者31303例,未患有腦卒中的患者共為20519例,患有腦卒中的高血壓患者為10784例,由于樣本量足夠,對(duì)于存在缺失值的樣本進(jìn)行了刪除處理,刪除缺失值后共有22233例樣本,其中未患腦卒中的高血壓患者為16687例,患有腦卒中的高血壓患者為5546例。圖1為缺失值可視化圖形。表1.變量中英文對(duì)照表本文英文變量英文全稱中文對(duì)照yY=0Y=1SDHDISTIMEHEALGLUUACIDA1SexTGNDBiLHDLCreaHbDBiLALTASTUREALDLTCDLASYSAGEBCareerPLATDBiLSex(male)Sex(female)Career(individual)Career(retiree)Career(managers)Career(farmersandherdman)Career(staff)Career(others)PLA(normal)PLA(<100)PLA(>350)TDBiL(positive)TDBiL(negative)AGE(<20)AGE(20-35)AGE(35-50)AGE(50-65)AGE(65-80)AGE(>80)HEAL(good)HEAL(normal)HEAL(bad)DISTIME(<5)DISTIME(5-10)DISTIME(10-25)DISTIME(25-35)DISTIME(>35)SDH(yes)SDH(no)ResultHypertensionHypertensionwithcerebralstrokeHistoryofalcoholandtobaccocourseofdiseasehealthglucoseUricacidApolipoproteinA1SextriglyceridesNonconjugatedbilirubinHighdensitylipoproteincreatininehemoglobinDirectbilirubinAlanineaminotransferaseaspartateaminotransferaseureaLowdensitylipoproteinTotalcholesterolDiastolicbloodpressureSystolicbloodpressureAgeApolipoproteinBCareerPlateletcountSerumbilirubinSex(male)Sex(female)Career(individual)Career(retiree)Career(managers)Career(farmersandherdman)Career(staff)Career(others)Plateletcount(normal)Plateletcount(<100)Plateletcount(>350)Serumbilirubin(positive)Serumbilirubin(negative)Age(<20)Age(20-35)Age(35-50)Age(50-65)Age(65-80)Age(>80)Health(good)Health(normal)Health(bad)courseofdisease(<5)courseofdisease(5-10)courseofdisease(10-25)courseofdisease(25-35)courseofdisease(>35)Historyofalcoholandtobacco(yes)Historyofalcoholandtobacco(no)結(jié)局無(wú)腦卒中的高血壓患者患有腦卒中的高血壓患者煙酒史病程健康狀況葡萄糖尿酸載脂蛋白A1性別甘油三脂非結(jié)合膽紅素高密度脂蛋白肌酐血紅蛋白直接膽紅素丙氨酸氨基轉(zhuǎn)移酶門(mén)冬氨酸氨基轉(zhuǎn)移酶尿素低密度脂蛋白總膽固醇舒張壓收縮壓年齡載脂蛋白B職業(yè)血小板計(jì)數(shù)血清膽紅素性別男性別女職業(yè)個(gè)體自由人員職業(yè)離職退休人員職業(yè)管理層人員職業(yè)農(nóng)牧民職業(yè)律師醫(yī)生老師職工職業(yè)其他血小板計(jì)數(shù)正常血小板計(jì)數(shù)小于100血小板計(jì)數(shù)高于350血清膽紅素陽(yáng)性血清膽紅素陰性年齡小于10歲年齡20-35歲年齡35-50歲年齡50-65歲年齡65-80歲年齡大于80歲健康狀況良好健康狀況一般健康狀況差病程小于5年病程5-10年病程10-25年病程25-35年病程35年以上煙酒史有煙酒史無(wú)表2.變量的分類及編碼含義變量分類ySexCareerPLATDBiLAGEHEALDISTIMESDH結(jié)局性別職業(yè)血小板計(jì)數(shù)血清膽紅素年齡健康狀況病程煙酒史0=高血壓,1=高血壓腦卒中1=男性,2=女性1=個(gè)體,2=退休人員,3=管理層人員及政府,4=農(nóng)牧民,5=律師教師醫(yī)生職員工程師,6=其他1<100×109/L,2=(100-350)×109/L,3>350×109/L1=陽(yáng)性,2=陰性1<20歲,2=20-35歲,3=35-50歲,4=50-65歲,5=65-80歲,6>80歲1=良好,2=一般,3=差1<5年,2=5-10年3=10-25年,4=25-35年,5>35年1=既沒(méi)有吸煙也沒(méi)有飲酒行為,2=有吸煙或飲酒行為的圖1.缺失值可視化2.2臨床診斷模型本文共收集31303例患者數(shù)據(jù),經(jīng)過(guò)刪除缺失值的處理后,最終有22233例用來(lái)進(jìn)行模型的建立及驗(yàn)證與評(píng)價(jià)。2.2.1自變量單因素分析隨機(jī)抽出總樣本的三分之二(14822例)為建模人群,三分之一(7411例)為驗(yàn)證人群,首先對(duì)性別、年齡、職業(yè)、病程、健康狀況、煙酒史、血小板計(jì)數(shù)、血清膽紅素八種分類變量進(jìn)行處理。年齡分為男女;職業(yè)分為六類:個(gè)體,農(nóng)牧民,退休人員,管理人員,guan'li職工(教師,醫(yī)生等)以及其他;健康狀況分為良好,一般,較差;病程分為五組:少于5年,5至10年,10至25年,25至35年,以及大于35年;煙酒史分為有無(wú)等。詳細(xì)見(jiàn)下表3。表3.變量的基線表變量建模人群(n=14822)驗(yàn)證人群(n=7411)Sexmale8718(58.82%)4395(59.3%)female6104(41.18%)3016(40.6%)Careerindividual1145(7.73%)572(7.7%)retiree6294(42.4%)3123(42.1%)managers2238(15%)1179(15.7%)farmersandherdman1103(7.4%)535(7.2%)staff2671(18%)1267(17.0%)others1371(9.2%)744(10.0%)Hb132.52±34.75132.80±32.12AST21.78±19.5622.32±59.04TG1.85±1.611.82±1.45TC4.20±1.074.16±1.00HDL1.14±0.331.14±0.33LDL2.70±0.862.68±0.83A11.21±0.351.21±0.35B0.87±0.250.86±0.25ALT24.66±24.0224.33±36.79UREA5.75±2.385.70±7.27Crea82.08±69.0080.15±243.99UACID301.25±130.47301.52±140.52TDBiL1.99±0.101.99±0.071DBiL3.90±4.353.88±3.30NDBil8.60±6.368.70±5.88GLU5.92±3.105.94±2.45PLA<100404(27.0%)1995(26.9%)100-35010496(70.8%)5261(70.9%)>350233(2.1%)155(2%)AGE<2069(0.4%)33(0.4%)20-35554(3.7%)239(3.2%)35-503645(24.5%)1789(24.1%)50-655807(39.1%)2931(39.5%)65-804014(27%)1990(26.8%)>80733(4.9%)429(5.7%)DLA136.76±20.15136.79±20.19SYS81.23±13.1281.28±15.00HEALgood10599(71.5%)5290(71.3%)normal3664(24.7%)1845(24.8%)bad559(3.7%)276(3.7%)DISTIME<55691(38.3%)2843(38.3%)5-102518(16.9%)1286(17.3%)10-252353(15.8%)1156(15.5%)25-351003(6.7%)466(6.2%)>353257(21.9%)1660(22.3%)SDHyes4139(27.9%)2069(27.9%)no10683(72.1%)5342(70.2%)首先對(duì)性別、年齡、職業(yè)、病程、健康狀況、煙酒史、血小板計(jì)數(shù)、血清膽紅素八種分類變量進(jìn)行預(yù)處理,采用logistic單因素回歸分析對(duì)患者的25種可能影響因素進(jìn)行分析,挑選出顯著性變量。2.2.2多因素logistic回歸模型Logistic回歸為概率型非線性回歸模型,是研究因變量是二分類觀察結(jié)果時(shí),其與一些影響因素之間關(guān)系的一種多變量分析方法。通常的問(wèn)題是,研究某些因素條件下某個(gè)結(jié)果是否發(fā)生。設(shè)p個(gè)自變量為X1,X2,···,Xp,這里X1,X2,···,Xp是每個(gè)樣本的p個(gè)特征,考慮具有p個(gè)獨(dú)立變量的向量X1,XP=exp?(β等式的右邊稱為L(zhǎng)ogistic回歸函數(shù),它是參數(shù)β1Logit(p)=ln(p1+p)=P的變化范圍是(0,1),而ln(p1+p在進(jìn)行第一次多因素logistic分析后,剔除不顯著變量,進(jìn)行第二次建模,直到模型內(nèi)所有變量均為顯著變量。對(duì)于最終構(gòu)建的模型分別用ROC曲線、calibration以及臨床決策曲線DCA分別對(duì)建模人群與驗(yàn)證人群進(jìn)行模型評(píng)價(jià)。由于數(shù)據(jù)質(zhì)量,變量之間存在多重共線性,導(dǎo)致了年齡與病程出現(xiàn)了現(xiàn)實(shí)情況相反的情況,煙酒史在回歸方程中也存在過(guò)大的現(xiàn)象,在本文后面有詳細(xì)共線性檢測(cè)。2.3集成學(xué)習(xí)模型集成學(xué)習(xí)是近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域中的研究熱點(diǎn)之一,集成學(xué)習(xí)是以某種方式將若干個(gè)基分類器的驗(yàn)證結(jié)果進(jìn)行綜合[6],以便達(dá)到顯著提升分類效果的目的,在本文,我們使用R語(yǔ)言adabag包中的boosting函數(shù)來(lái)進(jìn)行建模。隨機(jī)抽出四分之三的模型為建模人群(16675例),四分之一的人群為驗(yàn)證人群(5558例)。根據(jù)各變量在模型中的重要性比重,不斷建立模型并進(jìn)行篩選,選擇至每一個(gè)變量的重要性都大于0為最終所的模型。2.4隨機(jī)森林模型隨機(jī)森林是一種比較新的機(jī)器學(xué)習(xí)模型,是一個(gè)屬性分類器{h(x,βk),k=1,2,……}的集合[7,8],其中分類器h(x,βk)是用CART算法構(gòu)建的沒(méi)有剪枝的分類決策樹(shù):x是輸入向量;βk是獨(dú)立同分布的隨機(jī)向量,決定了每一棵樹(shù)的生長(zhǎng)過(guò)程;森林的輸出采用的是簡(jiǎn)單多數(shù)投票法,或者是靠每一棵樹(shù)輸出結(jié)果的簡(jiǎn)單平均所得到的[9]。其具有以下優(yōu)點(diǎn):1)具有極高的準(zhǔn)確率;2)隨機(jī)性的引入,使得隨機(jī)森林不容易過(guò)度擬合;3)有較好的抗噪聲能力;4)能處理很高維度的數(shù)據(jù),且不用做特征選擇;擇5)既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無(wú)需規(guī)范化;6)訓(xùn)練速度快,可以得到變量重要性排序;7)容易實(shí)現(xiàn)并行化。隨機(jī)森林在運(yùn)算量沒(méi)有顯著提高的前提下提高了預(yù)測(cè)精度,并且對(duì)多元共線性不敏感。隨機(jī)森林模型的關(guān)鍵就在于樹(shù)節(jié)點(diǎn)預(yù)選的變量個(gè)數(shù)和隨機(jī)森林中樹(shù)的個(gè)數(shù)。2.5神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)可以很容易地解決具有上百個(gè)參數(shù)的問(wèn)題,這是一種基于數(shù)學(xué)統(tǒng)計(jì)學(xué)類型的學(xué)習(xí)方法得以優(yōu)化,所以其是數(shù)學(xué)統(tǒng)計(jì)方法的一種實(shí)際應(yīng)用。在進(jìn)行建模之前。我們首先要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,即將所有的數(shù)據(jù)都轉(zhuǎn)化為[0,1]之間的樹(shù),目的是為了取消各維度數(shù)據(jù)間數(shù)量級(jí)的差別,可以避免因?yàn)檩斎胼敵鰯?shù)量級(jí)差別較大而造成網(wǎng)絡(luò)預(yù)測(cè)較大。數(shù)據(jù)歸一化的方法主要有兩種:(1)最大最小法,函數(shù)行使如下:Xk=(Xk-Xmin)/(Xmax-Xmin),其中Xmin為數(shù)據(jù)序列中的最小數(shù),Xmax為數(shù)據(jù)序列中的最大數(shù);(2)平均數(shù)方差法,函數(shù)形式如下:Xk=(Xk-Xmean)/Xvar,其中Xmean為數(shù)據(jù)序列的均值,Xvar為數(shù)據(jù)的方差。神經(jīng)網(wǎng)絡(luò)算法的關(guān)鍵是選取合適的隱藏層節(jié)點(diǎn)數(shù)和最優(yōu)的迭代次數(shù),也就是訓(xùn)練周期[12]。2.6支持向量機(jī)模型支持向量機(jī)的方法建立在統(tǒng)計(jì)學(xué)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)之上,根據(jù)有限樣本在模型之中的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,以期獲得最好的推廣能力。支持向量機(jī)的定義是,根據(jù)給定的數(shù)據(jù):T={(x1,y1),(x2,y2),...(xl,yl),}∈(X×Y)l其中,xi∈X=Rn,X是輸入空間,輸入空間中的每一個(gè)點(diǎn)xi由n個(gè)屬性特征組成,yi∈Y={-1,1},i=1,...,l。尋找Rn上的一個(gè)實(shí)值函數(shù)g(x),以便用分類函數(shù)F(x)=sgn(g(x))推斷任意一個(gè)模式x相對(duì)應(yīng)的y的值的問(wèn)題為分類問(wèn)題。通過(guò)對(duì)logistic回歸模型的相應(yīng)替換,我們就可以得到支持向量機(jī)模型。如在支持向量機(jī)中使用的結(jié)果標(biāo)簽是y=-1,y=1,以此替換在logistic回歸中使用的y=0,y=1,以及系數(shù)β的替換。SVM的求解過(guò)程,就是在一個(gè)n維向量空間中的點(diǎn),找到個(gè)“超平面”把兩種類型分開(kāi),并且“margin”最大。圖20.二維圖上圖20顯示的是一個(gè)二維“線性可分”的情況,圖中的那條黑線就是“超平面”,由此決定的兩條虛線間的距離最大,而虛線上的2個(gè)藍(lán)色點(diǎn)、2個(gè)紅色點(diǎn)決定了超平面位置,他們被叫做“支持向量”(supportvector)。 結(jié)果3.1單因素分析結(jié)果通過(guò)單因素分析可得出,女性高血壓患者得腦卒中的風(fēng)險(xiǎn)比男性高血壓患者得腦卒中的風(fēng)險(xiǎn)小(P<0.05),約是男性患者的0.8倍,不同職業(yè)的高血壓患者發(fā)生腦卒中情況的風(fēng)險(xiǎn)不同(P<0.05),職業(yè)為農(nóng)牧民的高血壓患者得腦卒中的風(fēng)險(xiǎn)是最大的,約是個(gè)體自由者的3.18倍,這可能是由于農(nóng)牧民長(zhǎng)時(shí)間的辛苦勞作有關(guān),血小板計(jì)數(shù)高于正常值范圍的比血小板低于正常值范圍的高血壓患者更容易患腦卒中類疾病,約為1.45倍(P<0.05),血清膽紅素呈現(xiàn)陰性的高血壓患者比陽(yáng)性患者得腦卒中得風(fēng)險(xiǎn)要?。≒<0.05),高血壓患者不同的健康水平也有不同的得腦卒中風(fēng)險(xiǎn)(P<0.05),平時(shí)身體健康水平較差得患者得腦卒中的風(fēng)險(xiǎn)約是平時(shí)身體健康水平較好得患者的6倍,不同年齡,不同病程等的高血壓患者得腦卒中的風(fēng)險(xiǎn)也不同(P<0.05),其中,尿素、肌酐、舒張壓在單因素分析中沒(méi)有意義(p>0.01)。詳細(xì)見(jiàn)下表4。表4.單因素分析表變量OR值P值Sex(female)Career(retire)Career(managers)Career(farmersandherdman)Career(staff)Career(others)PLA(nomal)PLA(>350)TDBiL(negative)HbASTTGTCLDLHDLA1BALTUREACreaUACIDDBiLNDBiLGLUAGE(20-35)AGE(35-50)AGE(50-65)AGE(65-80)AGE(>80)DLASYSHEAL(normal)HEAL(bad)SDHDISTIME(5-10)DISTIME(10-25)DISTIME(25-35)DISTIME(>35)0.80475240.97120280.42653893.18435220.67090611.60647100.82981471.44178630.420600.99712471.00616470.86416090.82608020.87570870.45012780.1983369-0.434591.00124040.99762931.010.99850521.03167141.03895611.12545630.19801980.13747410.16123200.22500890.22136421.10041520.99691361.30894466.11849093.870370.098181060.135539710.159030440.12325320<0.010.692<0.01<0.01<0.01<0.01<0.010.00272<0.01<0.01<0.01<0.01<0.01<0.01<0.01<0.01<0.01<0.010.3770.9<0.01<0.01<0.01<0.01<0.01<0.01<0.01<0.01<0.010.1320.0337<0.01<0.01<0.01<0.01<0.01<0.01<0.013.2多因素logistic建模分析及模型預(yù)測(cè)結(jié)果本研究運(yùn)用R語(yǔ)言,進(jìn)行多因素logistic回歸分析,求得個(gè)變量的系數(shù)及置信區(qū)間和其相對(duì)應(yīng)的OR值及置信區(qū)間,分析結(jié)果如表5、表6。表5.第一次logistics回歸中的各變量的系數(shù)和置信區(qū)間變量系數(shù)CI2.5%97.5%(Intercept)Sex(female)Career(retiree)Career(managers)Career(farmersandherdman)Career(staff)Career(others)PLA(normal)PLA(>350)TDBiL(negative)HbASTTGTCHDLLDLA1BALTUACIDDBiLNDBiLGLUSYSAGE(20-35)AGE(35-50)AGE(50-65)AGE(65-80)AGE(>80)HEAL(normal)HEAL(bad)DLADISTIME(5-10)DISTIME(10-25)DISTIME(25-35)DISTIME(>35)SDH(yes)0.39393860190.75818461860.0872149483-0.58873775921.0503098596-0.16706183840.45884089780.0966681919-0.1209752907-0.4319778071-0.00305272330.0013724689-0.19233974760.3421881256-0.4033693881-0.4091747392-0.60203283980.16184869740.0002541306-0.0011031852-0.02731322140.04277006880.08562141630.0028047954-1.6768415446-1.9461038582-1.6575339670-1.2268405725-1.11357402610.50645110181.5273026441-0.0024809625-2.1761012130-2.0040358331-1.6513344454-2.06252144794.4352256600-0.8870585470.597592037-0.181032043-0.8715837820.740671528-0.4258644080.168000570-0.046501446-0.535667799-1.192988621-0.004960674-0.001337600-0.2632854670.131104670-0.718209975-0.662559417-0.996052296-0.380649016-0.001975857-0.001586260-0.0501904780.0318903280.061518009-0.003947713-2.505275213-2.731533758-2.443787706-2.024130311-1.9462890740.3566225821.237425685-0.006614600-2.383775178-2.208316145-1.917628950-2.2417075844.2827468221.6588951960.9204021680.356652810-0.3063317361.3609764910.0924388440.7504066510.2405298580.2880152280.346175550-0.0011257780.003971230-0.1230475580.550999442-0.091319746-0.155028480-0.2048460000.7064230860.002350221-0.000624507-0.0052451130.0541905340.1092860720.009566655-0.824127908-1.134088355-0.845140950-0.404155380-0.2577901270.6563136691.8171862630.001635448-1.972552531-1.803413620-1.390309423-1.8862091024.591549134表6.第一次logistics各變量所對(duì)應(yīng)的OR值及置信區(qū)間變量ORCI2.5%97.5%(Intercept)Sex(female)Career(retiree)Career(managers)Career(farmersandherdman)Career(staff)Career(others)PLA(normal)PLA(>350)TDBiL(negative)HbASTTGTCHDLLDLA1BALTUACIDDBiLNDBiLGLUSYSAGE(20-35)AGE(35-50)AGE(50-65)AGE(65-80)AGE(>80)HEAL(normal)HEAL(bad)DLADISTIME(5-10)DISTIME(10-25)DISTIME(25-35)DISTIME(>35)SDH(yes)1.48280952.13439801.09113120.55502742.85853670.84614731.58223891.10149480.88605590.64922380.99695191.00137340.82502651.40802520.66806530.66419820.54769711.17568231.00025420.99889740.97305641.04369791.08939381.00280870.18696360.14282950.19060840.29321750.32838321.65939174.60573670.99752210.11348310.13479020.19179380.127133084.37116190.411865461.817736480.834408620.418288552.097343470.653204911.182937290.954563180.585278310.303313420.995051610.998663290.768522481.140087110.487624330.515530190.369334590.683417720.998026090.998415000.951048251.032404271.063449650.996060070.081653120.065119340.086831340.132108690.142803021.428496633.446729070.993407230.092201840.109885520.146954990.1062768772.439144415.25350352.51029971.42853980.73614243.89999981.09684612.11786111.27192291.33377761.41365080.99887491.00397910.88422161.73498620.91272580.85639080.81477282.02672881.00235300.99937570.99476861.05568571.11548141.00961260.43861730.32171530.42949680.66754040.77275741.92767326.15451691.00163680.13910130.16473560.24899820.151645698.6471295通過(guò)第一次logistic回歸建模后,按照P=0.01的水平對(duì)變量進(jìn)行篩選,可得出有顯著性的變量為性別、年齡、病程、煙酒史、健康狀況、載脂蛋白A1等,我們利用挑選出來(lái)的變量進(jìn)行第二次logistic回歸建模,模型中各變量的系數(shù)及置信區(qū)間與其所對(duì)應(yīng)的OR值及其置信區(qū)間見(jiàn)表7、表8。在第二次建模之后,模型中每一個(gè)變量均有顯著性意義(P<0.05)。由回歸模型所得的列線圖見(jiàn)圖2。表7.顯著性變量logistics回歸中的各變量的系數(shù)和置信區(qū)間變量系數(shù)CI2.5%CI97.5%(Intercept)0.198450308-0.6694020561.05894622Sex(female)0.7150506160.5685334790.86285991Career(retiree)0.074006181-0.1775246480.32672860Career(manager)-0.634417163-0.901231389-0.36797626Career(farmersandherdman)1.0780920730.7919548701.36534952Career(staff)-0.188144209-0.4318038120.05622342Career(others)0.4808655370.4808655370.75233654Hb-0.003396712-0.005164883-0.00161355TG-0.105594940-0.150466062-0.06223039A1-0.756495017-1.007862674-0.50641897UACID-0.001347403-0.001792556-0.00090465NDBiL0.0384037590.0294725210.04748457GLU0.1019609550.0799160070.12373547AGE(20-35)-1.666518785-2.443904215-0.87953920AGE(35-50)-1.909989773-2.648455433-1.16081342AGE(50-65)-1.663046839-2.403701231-0.91197102AGE(65-80)-1.353865242-2.105513871-0.59221422AGE(>80)-1.306918126-2.091019161-0.51392871HEAL(normal)0.4635315510.3267852580.60025682HEAL(bad)1.5640089811.2977415991.83103523DISTIME(5-10)-2.311709412-2.509956850-2.11724966DISTIME(10-25)-2.146251861-2.342763967-1.95327082DISTIME(25-35)-1.764654907-2.020351121-1.51401577DISTIME(>35years)-2.188995494-2.360266446-2.02046676SDH(yes)4.4080789394.2651603424.55435067表8.顯著性變量logistics回歸中的各變量的OR值和置信區(qū)間變量ORCI2.5%CI97.5%(Intercept)0.198450308-0.6694020561.05894622Sex(female)2.044290151.765675752.3699288Career(retiree)1.076813460.837340361.3864251Career(manager)0.530244440.406069320.6921336Career(farmersandherdman)2.939066672.207707993.9170919Career(staff)0.828495220.649336761.0578340Career(others)1.617473781.233914472.1219523Hb0.996609050.994848430.9983878TG0.899789040.860306930.9396664A10.469308470.364998270.6026498UACID0.998653500.998653500.9990958NDBiL1.039150711.029911131.0486300GLU1.107340241.083196081.1317165AGE(20-35)0.188903540.086821220.4149741AGE(35-50)0.148081900.070760420.3132313AGE(50-65)0.189560540.090382810.4017316AGE(65-80)0.258240170.121783080.5531012AGE(>80)0.270652890.123561140.5981410HEAL(normal)1.589678111.386503701.8225868HEAL(bad)4.777937563.661019286.2403435DISTIME(5-10)0.099091720.081271750.1203622DISTIME(10-25)0.116921580.096061760.1418095DISTIME(25-35)0.171245870.132608900.2200246DISTIME(>35years)0.112029230.094395070.1325936SDH(yes)82.1115705471.1763316095.0450196圖2.臨床驗(yàn)證模型的列線圖在建模人群中的ROC曲線面積為0.952,驗(yàn)證人群中的ROC曲線面積為0.950,ROC曲線面積大于0.75為較好;建模的calibration曲線的S:p為0.945,驗(yàn)證人群的calibration曲線的S:p為0.806;模型在建模人群與驗(yàn)證人群中的臨床決策CDA曲線都較好。如圖3、4、5、6、7、8。圖3.建模人群ROC曲線圖4.驗(yàn)證人群ROC曲線圖5.建模人群calibration曲線圖6.驗(yàn)證人群calibration曲線圖7.建模人群臨床決策DCA曲線
圖8.驗(yàn)證人群臨床決策DCA曲線3.3集成學(xué)習(xí)模型分析以及模型預(yù)測(cè)結(jié)果第一次建模將所有的變量納入到模型中,求得各變量的重要性。見(jiàn)表9。表9.第一次建模各變量的重要性變量重要性ALTDISTIMELDLNDBiLTGHDLHEALASTAGEUACIDGLUSYSDLASexHbTDBILPLTSDHA1BDBiLCareerTC0.000000017.52484700.00000000.00000000.00000000.00000002.15436640.00000001.33481191.05821782.80867990.00000000.30588903.29361910.00000000.00000000.000000070.87377520.64579370.00000000.00000000.00000000.0000000根據(jù)各變量在模型中的重要性比重,我們選擇重要性大于0的變量,進(jìn)行第二次boosting建模,使得模型中每一個(gè)變量的重要性都大于0,求得第二次建模的模型中各變量的重要性,并將其進(jìn)行可視化。見(jiàn)表10、圖9。表10.再次建模后各變量的重要性變量重要性A1AGEDBilDISTIMEDLAGLUHEALSDHSexUACID0.86548631.55094240.138750415.98978530.45378121.89659582.814073872.34340062.76371601.1834682圖9.再次建模后各變量的重要性柱狀圖對(duì)剩下的四分之一人群(5558例)進(jìn)行模型的驗(yàn)證,得到混淆矩陣,并計(jì)算總體錯(cuò)誤率、陽(yáng)性驗(yàn)證錯(cuò)誤率、陰性驗(yàn)證錯(cuò)誤率,繪制驗(yàn)證人群ROC曲線。在挑選變量之后重新建模,得到驗(yàn)證結(jié)果,其中高血壓患者被驗(yàn)證正確的有4044例,驗(yàn)證錯(cuò)誤的有293例,患有腦卒中的高血壓患者被成功驗(yàn)證的有1065例,驗(yàn)證錯(cuò)誤的有156例,得到的總體錯(cuò)誤率約為0.0808,模型錯(cuò)誤率較小,ROC曲線下面積為0.954,面積為0.75以上為較好,故而集成學(xué)習(xí)模型擬合效果較好。分別見(jiàn)表11、12,圖10。表11.預(yù)測(cè)結(jié)果混淆矩陣(集成學(xué)習(xí))實(shí)際情況模型預(yù)測(cè)結(jié)果高血壓腦卒中高血壓高血壓腦卒中高血壓10652931564044表12.預(yù)測(cè)結(jié)果錯(cuò)誤率(集成學(xué)習(xí))錯(cuò)誤率整體錯(cuò)誤率陽(yáng)性錯(cuò)誤率陰性錯(cuò)誤率0.080784450.21575850.03714286圖10.集成學(xué)習(xí)ROC曲線3.4隨機(jī)森林模型分析以及模型預(yù)測(cè)結(jié)果從22233例中隨機(jī)抽取15000的數(shù)據(jù)用來(lái)進(jìn)行建模。首先我們進(jìn)行樹(shù)節(jié)點(diǎn)預(yù)選變量個(gè)數(shù)的篩選,在R語(yǔ)言中,通過(guò)循環(huán)不斷改變所選變量個(gè)數(shù),計(jì)算模型誤判率的均值,選擇誤判率的均值最小的。不同節(jié)點(diǎn)變量個(gè)數(shù)模型的誤判率詳見(jiàn)表13。表13.不同節(jié)個(gè)數(shù)的模型誤判率均值節(jié)點(diǎn)個(gè)數(shù)誤判率均值89101112131415161718192021222324250.06477920.064957210.065046380.065205970.065475810.06566630.065245790.06537370.06589050.065793490.066192480.066002420.066272720.066010870.066484780.066459390.066385870.06653152通過(guò)比較得出,當(dāng)節(jié)點(diǎn)變量個(gè)數(shù)為8時(shí),模型的誤判率均值最小。設(shè)置節(jié)點(diǎn)變量個(gè)數(shù)為8,通過(guò)循環(huán)進(jìn)行決策樹(shù)數(shù)量的選擇。OBB為總體錯(cuò)誤率,1代表模型的陰性預(yù)測(cè)錯(cuò)誤率,2代表陽(yáng)性預(yù)測(cè)錯(cuò)誤率。見(jiàn)圖11、12。圖11.決策樹(shù)的數(shù)目與錯(cuò)誤率
圖12.不同錯(cuò)誤率與決策樹(shù)數(shù)量關(guān)系通過(guò)可視化分析,我們可以觀察到錯(cuò)誤率曲線在決策樹(shù)的數(shù)量達(dá)到100棵左右時(shí),誤判率逐漸趨向于穩(wěn)定。在300棵左右時(shí)出現(xiàn)最低點(diǎn),我們把樹(shù)的數(shù)量為300棵。選擇節(jié)點(diǎn)處變量為8,選擇決策樹(shù)的數(shù)目為300棵進(jìn)行建模。運(yùn)用建模人群進(jìn)行預(yù)測(cè)后得到混淆矩陣,通過(guò)計(jì)算可得建模人群中陽(yáng)性預(yù)測(cè)錯(cuò)誤率約為0.06,陰性預(yù)測(cè)錯(cuò)誤率約為0.26,即正確預(yù)測(cè)高血壓腦卒中3210例,錯(cuò)誤預(yù)測(cè)為無(wú)腦卒中的高血壓患者為1121例,在高血壓患者中,被正確預(yù)測(cè)的有10569例,錯(cuò)誤的被預(yù)測(cè)為患有腦卒中的患者有663例,總體錯(cuò)誤率約為0.11,模型擬合效果較好。見(jiàn)表14。表14.隨機(jī)森林混淆矩陣實(shí)際情況模型預(yù)測(cè)結(jié)果高血壓腦卒中高血壓高血壓腦卒中高血壓3210663112110569各變量在模型中的重要值是不同的,重要值一共有兩種類型,第一種類型代表采用精度平均減少值作為度量標(biāo)準(zhǔn),第二種代表采用節(jié)點(diǎn)不純度的平均減少值作為度量標(biāo)準(zhǔn),根據(jù)模型我們可求得模型中各變量的重要值,以及兩種類型重要值的總和并進(jìn)行降序排序,對(duì)最終模型進(jìn)行每克決策樹(shù)得節(jié)點(diǎn)數(shù)展示并對(duì)模型進(jìn)行預(yù)測(cè)評(píng)價(jià),求得ROC曲線下面積約為0.911,ROC曲線下面積大于0.75為較好。見(jiàn)表15,圖13、14、15。表15.模型中各變量重要值變量Type1Type2Type1+Type2SDHDISTIMEHEALGLUUACIDA1SexTGNDBiLHDLCreaHbDBiLALTASTUREALDLTCDLASYSAGEBCareerPLATDBiL368.8897259129.100276559.331106127.090543719.753759224.472892945.834804220.323067114.650817224.376489916.665431516.38036212.56246049.698243612.364101311.3096420.409097518.032589310.471946613.983518323.772805618.21752179.35906854.618966-0.77155911800.622017483.774525114.692167129.88741120.066328112.67629282.62584491.15991690.46731580.28681385.21518178.27393380.40963979.67475376.42782276.56229864.41032965.88522672.14892767.15892654.45374659.93658938.02992412.3564841.7221432169.512642.8748174.0233156.9779139.8201137.1492128.4606111.483105.1181104.6633101.880694.654392.972189.37388.7919287.8718484.8194383.9178282.6208781.1424478.2265578.1541147.3889916.975450.950584圖13.變量的重要值展示圖14.每棵樹(shù)的節(jié)點(diǎn)數(shù)圖15.隨機(jī)森林ROC曲線3.5神經(jīng)網(wǎng)絡(luò)模型分析以及模型預(yù)測(cè)結(jié)果隨機(jī)抽取百分之七十(15563例)為訓(xùn)練集進(jìn)行建模,其余百分之三十(6667例)為測(cè)試集,數(shù)據(jù)歸一化之后,首先進(jìn)行隱藏層節(jié)點(diǎn)數(shù)的選擇,一般隱藏節(jié)點(diǎn)數(shù)設(shè)置為變量個(gè)數(shù)的1.2-1.5倍,故而我們將循環(huán)次數(shù)設(shè)為1-35之間,通過(guò)訓(xùn)練集和測(cè)試集錯(cuò)誤率與節(jié)點(diǎn)數(shù)之間的關(guān)系,我們將隱藏層的節(jié)點(diǎn)數(shù)選為22個(gè)。見(jiàn)圖16。圖16.隱藏節(jié)點(diǎn)個(gè)數(shù)與模型誤判率的關(guān)系圖選出恰當(dāng)?shù)碾[藏節(jié)點(diǎn)數(shù)后,再進(jìn)行迭代次數(shù)的選擇,迭代次數(shù)不宜選擇過(guò)大,否則會(huì)出現(xiàn)擬合過(guò)度的現(xiàn)象,當(dāng)訓(xùn)練周期達(dá)到一定的次數(shù)之后,隨著迭代次數(shù)的增多,模型的誤判率會(huì)增加。如圖17。圖17.迭代周期與模型誤判率的關(guān)系經(jīng)過(guò)篩選,最終選擇隱藏層節(jié)點(diǎn)數(shù)為22,迭代周期為300進(jìn)行建模。模型建立后,可計(jì)算得到其混淆矩陣,最終模型將高血壓患者正確預(yù)測(cè)3223例,有158例被誤判為患有腦卒中,在患有腦卒中的患者中,正確預(yù)測(cè)858例,錯(cuò)誤預(yù)測(cè)261例為無(wú)腦卒中的高血壓患者。見(jiàn)表16,我們計(jì)算出總體錯(cuò)誤率約為0.0931。繪制靈敏度/特異度圖像,繪制ROC曲線,得ROC曲線下面積為0.91,ROC曲線下面積大于0.75為較好,故而本模型擬合效果較好。見(jiàn)圖18、19。表16.神經(jīng)網(wǎng)絡(luò)測(cè)試集混淆矩陣實(shí)際情況模型預(yù)測(cè)結(jié)果高血壓腦卒中高血壓高血壓腦卒中高血壓8581582613223圖18.靈敏度與特異度曲線圖19.神經(jīng)網(wǎng)絡(luò)ROC曲線3.6支持向量機(jī)模型分析以及模型預(yù)測(cè)結(jié)果在本研究中選擇模型所用類別時(shí),由于數(shù)據(jù)質(zhì)量原因,出現(xiàn)擬合過(guò)度的現(xiàn)象,見(jiàn)表17,故而我們函數(shù)默認(rèn)分類方法進(jìn)行建模。下面我們利用全部數(shù)據(jù)訓(xùn)練進(jìn)行權(quán)重的選擇。表17.分類預(yù)測(cè)結(jié)果linearpolynomialradialsigmoidClassificationone-classificationnu-classification213011258302111031014802106812749020452112560通過(guò)調(diào)整權(quán)重,分別對(duì)默認(rèn)權(quán)重情況下和設(shè)結(jié)局事件為高血壓患者與患腦卒中的高血壓患者比重為1:1,1:10,1:100進(jìn)行建模,得到四個(gè)模型的混淆矩陣,見(jiàn)表18、19、20、21。表18.預(yù)測(cè)結(jié)局為默認(rèn)比重下的混淆矩陣(支持向量機(jī))實(shí)際情況模型預(yù)測(cè)結(jié)果高血壓腦卒中高血壓高血壓腦卒中高血壓4416113066016027在系統(tǒng)默認(rèn)權(quán)重下,患有腦卒中的高血壓患者被正確預(yù)測(cè)的有4416例,錯(cuò)誤預(yù)測(cè)的有660例,在無(wú)腦卒中的高血壓患者中,正確被預(yù)測(cè)為高血壓患者的有16027例,錯(cuò)誤預(yù)測(cè)的患者有1130,預(yù)測(cè)錯(cuò)誤率約為0.0805。表19.預(yù)測(cè)結(jié)局比重為1:1情況下的混淆矩陣(支持向量機(jī))實(shí)際情況模型預(yù)測(cè)結(jié)果高血壓腦卒中高血壓高血壓腦卒中高血壓4381116565616031權(quán)重為1:1時(shí),患有腦卒中的高血壓患者被正確預(yù)測(cè)的有4381例,錯(cuò)誤預(yù)測(cè)的有656例,在無(wú)腦卒中的高血壓患者中,正確被預(yù)測(cè)的有16031例,錯(cuò)誤預(yù)測(cè)的患者有1165,預(yù)測(cè)錯(cuò)誤率約為0.0819。表20.預(yù)測(cè)結(jié)局比重為1:10情況下的混淆矩陣(支持向量機(jī))實(shí)際情況模型預(yù)測(cè)結(jié)果高血壓腦卒中高血壓高血壓腦卒中高血壓5359187272413963默認(rèn)權(quán)重下,患有腦卒中的高血壓患者被正確預(yù)測(cè)的有5359例,錯(cuò)誤預(yù)測(cè)的有2724例,在無(wú)腦卒中的高血壓患者中,正確被預(yù)測(cè)的有13963例,錯(cuò)誤預(yù)測(cè)的患者有187,預(yù)測(cè)錯(cuò)誤率約為0.1309。表21.預(yù)測(cè)結(jié)局比重為1:100情況下的混淆矩陣(支持向量機(jī))實(shí)際情況模型預(yù)測(cè)結(jié)果高血壓腦卒中高血壓高血壓腦卒中高血壓55451594010747默認(rèn)權(quán)重下,患有腦卒中的高血壓患者被正確預(yù)測(cè)的有5545例,錯(cuò)誤預(yù)測(cè)的有5940例,在無(wú)腦卒中的高血壓患者中,正確被預(yù)測(cè)的有10747例,錯(cuò)誤預(yù)測(cè)的患者有1例,預(yù)測(cè)錯(cuò)誤率約為0.2672。可以觀察到,隨著權(quán)重的增加,患有腦卒中的高血壓緩則會(huì)被預(yù)測(cè)出的數(shù)量越來(lái)越多,但是模型預(yù)測(cè)的總體錯(cuò)誤率越來(lái)越大,我們最終選擇默認(rèn)權(quán)重的模型進(jìn)行建模。模型建立后,共尋找到7841個(gè)支持向量機(jī)。隨后用全人群進(jìn)行模型預(yù)測(cè),繪制ROC曲線,ROC曲線下面積為0.957(ROC曲線下面積大于等于0.75為較好)。ROC曲線見(jiàn)圖21。圖21.支持向量機(jī)ROC曲線3.7機(jī)器學(xué)習(xí)模型之間的比較經(jīng)過(guò)集成學(xué)習(xí)、隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法分別建模后,我們可以得到四個(gè)模型的總體錯(cuò)誤率,見(jiàn)表22。表22.不同機(jī)器學(xué)習(xí)方法錯(cuò)誤率錯(cuò)誤率整體錯(cuò)誤率(神經(jīng)網(wǎng)絡(luò))整體錯(cuò)誤率(集成學(xué)習(xí))整體錯(cuò)誤率(隨機(jī)森林)整體錯(cuò)誤率(支持向量機(jī))0.11800.08080.11460.0805通過(guò)比較發(fā)現(xiàn),集成學(xué)習(xí)與支持向量機(jī)的總體錯(cuò)誤率最小,分別為0.808與0.805,故而兩種方法在預(yù)測(cè)結(jié)果時(shí)具有較好的預(yù)測(cè)準(zhǔn)確性,且有較高精度。隨后比較四種機(jī)器學(xué)習(xí)模型的驗(yàn)證人群中的ROC曲線,見(jiàn)圖22。圖22.四種模型驗(yàn)證人群的ROC曲線綜合分析可得在機(jī)器學(xué)習(xí)中支持向量機(jī)的模型驗(yàn)證效果較好,錯(cuò)誤率較低,可能是由于其避開(kāi)了從歸納到演繹的傳統(tǒng)過(guò)程,實(shí)現(xiàn)了高效的“轉(zhuǎn)導(dǎo)推理”,大大簡(jiǎn)化了簡(jiǎn)單的回歸和分類問(wèn)題。3.8臨床診斷模型與支持向量機(jī)模型的比較臨床診斷模型是通過(guò)單因素篩選變量選入logistic回歸模型中進(jìn)行多因素分析,再根據(jù)模型中每個(gè)變量是否有意義進(jìn)行第二次的變量篩選,在多因素的分析模型中,煙酒史的OR值、年齡、病程的系數(shù)出現(xiàn)了異常,造成這種現(xiàn)象的原因是由于自變量之間的多重共線性(后續(xù)有共線性檢驗(yàn)),但是不論再建模人群還是驗(yàn)證人群中,模型的評(píng)價(jià)效果都較好,ROC分別為0.952、0.950。支持向量機(jī)是機(jī)器學(xué)習(xí)方法的一種,屬于無(wú)監(jiān)督學(xué)習(xí),其利用內(nèi)積核函數(shù)代替向高維空間的非線性映射,目標(biāo)是獲得特征空間劃分的最優(yōu)超平面,機(jī)器學(xué)習(xí)針對(duì)一些大樣本數(shù)據(jù)有較好的分析方法,在本文中其驗(yàn)證ROC曲線下面積達(dá)到0.957,擬合效果較好(圖23為臨床診斷模型與支持向量機(jī)模型的預(yù)測(cè)ROC曲線)。圖23.臨床診斷模型與支持向量機(jī)模型ROC對(duì)比3.9自變量的多重共線性檢驗(yàn)及說(shuō)明多重共線性是由于自變量之間的線性相關(guān),多重共線性可能會(huì)導(dǎo)致以下現(xiàn)象[16]:回歸系數(shù)的符號(hào)與實(shí)際不符;
(2)回歸系數(shù)的估計(jì)值與實(shí)際相差太大;
(3)回歸系數(shù)的標(biāo)準(zhǔn)誤太大,因而有些重要變量選不進(jìn)方程;
(4)整個(gè)方程有統(tǒng)計(jì)學(xué)意義,而每一個(gè)自變量均無(wú)統(tǒng)計(jì)學(xué)意義。對(duì)于自變量的共線性,我們采用R語(yǔ)言中的kappa函數(shù)進(jìn)行檢驗(yàn),.計(jì)算條件數(shù)kappa(X),k<100,說(shuō)明共線性程度?。蝗绻?00<k<1000,則存在較多的多重共線性;若k>1000,存在嚴(yán)重的多重共線性。采用此函數(shù)對(duì)本文數(shù)據(jù)進(jìn)行檢測(cè),測(cè)得k=
3871.403,存在較為嚴(yán)重的多重共線性。對(duì)于此可以采用主成分回歸、嶺回歸、逐步回歸等方法進(jìn)行變量的篩選,但由于時(shí)間有限,本文不做討論。需待進(jìn)一步研究分析。討論高血壓是全球心血管疾?。–VD)和死亡的主要原因,可導(dǎo)致腦卒中、冠心病、心功能衰竭、腎功能衰竭,被稱之為新時(shí)期的流行病和重大公共問(wèn)題[23]。近年來(lái),腦卒中已經(jīng)占據(jù)我國(guó)死因首位,其病死率、致殘高等特點(diǎn),給患者、家庭及社會(huì)帶來(lái)嚴(yán)重的負(fù)擔(dān)。隨著社會(huì)不斷發(fā)展,飲食模式的改變,腦卒中發(fā)病率呈現(xiàn)逐年上升趨勢(shì),其實(shí)發(fā)病群體年輕化也是其主要特點(diǎn)[4]。腦卒中影響因素根據(jù)其干預(yù)可及性可分為不可改變因素(遺傳因素、年齡和性別、種族)、可改變因素(高血壓、糖尿病、吸煙和飲酒、心臟病、體力活動(dòng)缺乏、飲食與營(yíng)養(yǎng)、血脂異常和肥胖、高血壓伴同型半胱氨酸)和其他潛在因素(偏頭痛、代謝綜合征(metabolicsyndrome,MS)、阻塞性睡眠呼吸暫停綜合癥(obstructivesleepapneahypopneasyndrome,OSA)、高凝狀態(tài)與脂蛋白升高、藥物濫用和炎癥與感染)[24-28]。以往的研究[29]顯示新疆高血壓的患病率遠(yuǎn)遠(yuǎn)高于我國(guó)的一般水平。隨著年代高血壓患病率逐漸增高的變遷和青少年高血壓的患病趨勢(shì)不容樂(lè)觀,積極開(kāi)展人群高血壓的防控、遏制高血壓所導(dǎo)致的心腦血管病的流行迫在眉睫[30]。為研究新疆地區(qū)高血壓患者并發(fā)腦卒中的危險(xiǎn)因素,本研究回顧性分析新疆22277例高血壓患者的臨床資料。我們的結(jié)果表明,性別,年齡,職業(yè),健康狀況,高血壓病程,載脂蛋白A1,直接膽紅素和葡萄糖這些因素與高血壓患者發(fā)生腦卒中相關(guān)。這些危險(xiǎn)因素中有些是可以預(yù)防的,減少這些危險(xiǎn)因素對(duì)降低該地區(qū)高血壓患者腦卒中的發(fā)病將有積極作用?;谶@些風(fēng)險(xiǎn)因素的列線圖模型
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 包裝設(shè)計(jì)師安全技能知識(shí)考核試卷含答案
- 炭素配料工保密意識(shí)水平考核試卷含答案
- 啤酒花加工工安全宣傳測(cè)試考核試卷含答案
- 金融風(fēng)險(xiǎn)管理師標(biāo)準(zhǔn)化測(cè)試考核試卷含答案
- 醫(yī)療護(hù)理員道德水平考核試卷含答案
- 塑料編織工班組評(píng)比競(jìng)賽考核試卷含答案
- 寶玉石鑒別工崗前紀(jì)律考核試卷含答案
- 插花花藝師安全實(shí)操能力考核試卷含答案
- 催化劑生產(chǎn)工崗前班組建設(shè)考核試卷含答案
- 電線電纜制造工改進(jìn)考核試卷含答案
- 招標(biāo)代理公司企業(yè)管理制度
- 交通運(yùn)輸布局及其對(duì)區(qū)域發(fā)展的影響課時(shí)教案
- 自然元素設(shè)計(jì)分析
- 2025年中醫(yī)院護(hù)理核心制度理論知識(shí)考核試題及答案
- 建設(shè)監(jiān)理框架協(xié)議書(shū)
- 比亞迪儲(chǔ)能項(xiàng)目介紹
- 工廠托管協(xié)議書(shū)范本
- 2025年9月廣東深圳市福田區(qū)事業(yè)單位選聘博士11人備考題庫(kù)附答案
- 正視自己的不足課件
- 糖尿病足潰瘍VSD治療創(chuàng)面氧自由基清除方案
- 叉車作業(yè)安全培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論