版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究匯報(bào)人:指導(dǎo)教師:數(shù)據(jù)挖掘在體檢人群代謝綜合征智能甄別中的應(yīng)用研究目錄Contents內(nèi)容與方法結(jié)果討論前言1243前言1前言?xún)?nèi)容與方法結(jié)果討論1
研究背景體檢作為疾病的一級(jí)預(yù)防階段能較早地篩選患者,幫助患者積極采取干預(yù)措施,并有效防止并發(fā)癥的發(fā)生。隨著人們健康意識(shí)不斷提高,專(zhuān)業(yè)健康體檢機(jī)構(gòu)如雨后春筍般拓建。
近年來(lái),新疆地區(qū)主要城市遍布了數(shù)十家的專(zhuān)業(yè)健康體檢機(jī)構(gòu)。如何有效地利用和分析健康體檢數(shù)據(jù),以指導(dǎo)預(yù)防保健、健康管理及促進(jìn)醫(yī)學(xué)服務(wù)深入開(kāi)展,是健康體檢科研價(jià)值的體現(xiàn)。前言?xún)?nèi)容與方法結(jié)果討論1
研究背景01數(shù)據(jù)冗余體檢數(shù)據(jù):數(shù)據(jù)量大,指標(biāo)多數(shù)據(jù)挖掘中,冗余的體檢變量會(huì)減緩疾病分類(lèi)的效率,降低疾病分類(lèi)性能。02類(lèi)不平衡類(lèi)不平衡指在數(shù)據(jù)集中陽(yáng)性類(lèi)數(shù)量遠(yuǎn)小于陰性類(lèi)數(shù)量。不平衡類(lèi)分布下,分類(lèi)方法傾向于將待分類(lèi)樣本劃分為陰性,而陽(yáng)性樣本識(shí)別較差。陽(yáng)性類(lèi)樣本的正確分類(lèi)比陰性類(lèi)樣本的分類(lèi)更有價(jià)值。體檢數(shù)據(jù)面臨著兩大問(wèn)題:數(shù)據(jù)冗余,類(lèi)不平衡前言?xún)?nèi)容與方法結(jié)果討論2研究意義代謝綜合征(MetabolicSyndrome,MS)是以中心性肥胖、高血壓、糖尿病及高血脂多種代謝病集結(jié)于一身的病理狀態(tài)。隨著現(xiàn)代人生活方式的改變,日常攝入高熱量、高脂肪食物增多,導(dǎo)致如肥胖、高血壓、糖尿病、脂肪肝、血脂紊亂等嚴(yán)重危害人類(lèi)健康的慢性病逐漸增加,造成慢性代謝綜合性疾病的全球大流行。代謝綜合征的預(yù)防遠(yuǎn)比治療更能節(jié)約醫(yī)藥衛(wèi)生資源和改善個(gè)體的健康狀態(tài)。體檢作為一級(jí)預(yù)防階段能較早篩選代謝綜合征患者,幫助患者積極采取干預(yù)措施,防止并發(fā)癥發(fā)生。前言?xún)?nèi)容與方法結(jié)果討論研究目的
基于健康體檢大數(shù)據(jù),以代謝綜合征智能甄別(分類(lèi))為切入點(diǎn),探討與分析Lasso特征選擇與重采樣技術(shù)在醫(yī)療大數(shù)據(jù)分類(lèi)診斷中的可行性與應(yīng)用價(jià)值,并為解決醫(yī)療大數(shù)據(jù)挖掘中數(shù)據(jù)冗余及類(lèi)不平衡分類(lèi)問(wèn)題的研究提供方法學(xué)參考。2內(nèi)容與方法前言?xún)?nèi)容與方法結(jié)果討論1研究方法Lasso特征選擇目前數(shù)據(jù)挖掘領(lǐng)域中最熱門(mén)的特征選擇方法之一。剔除與類(lèi)別無(wú)關(guān)和冗余的變量,篩選與類(lèi)別強(qiáng)相關(guān)的體檢變量,達(dá)到降維目的。篩選出的體檢變量與類(lèi)別高度相關(guān),在其基礎(chǔ)上通過(guò)較低的計(jì)算復(fù)雜度建立更精確、更易理解的模型。降維特征抽?。哼m于小規(guī)模數(shù)據(jù)特征選擇:適于大規(guī)模數(shù)據(jù)前言?xún)?nèi)容與方法結(jié)果討論1研究方法數(shù)據(jù)層面:數(shù)據(jù)平衡分類(lèi)算法層面:數(shù)據(jù)分類(lèi)重采樣技術(shù)傳統(tǒng)分類(lèi)器設(shè)計(jì)新算法傳統(tǒng)分類(lèi)器改進(jìn)類(lèi)不平衡數(shù)據(jù)層面:計(jì)算復(fù)雜度低,應(yīng)用較廣泛算法層面:較強(qiáng)的數(shù)學(xué)功底,計(jì)算復(fù)雜度高研究趨勢(shì)重采樣技術(shù):隨機(jī)過(guò)采樣、隨機(jī)欠采樣、混合采樣前言?xún)?nèi)容與方法結(jié)果討論1研究方法BP神經(jīng)網(wǎng)絡(luò)C4.5決策樹(shù)
結(jié)構(gòu)簡(jiǎn)單,對(duì)疾病進(jìn)行非線性檢測(cè),在疾病診斷中占重要地位
具有自適應(yīng)學(xué)習(xí)和容錯(cuò)性強(qiáng)等優(yōu)點(diǎn),可處理多變的個(gè)體差異
無(wú)需任何領(lǐng)域知識(shí),在模型構(gòu)建和分類(lèi)過(guò)程不依賴(lài)樣本
分布類(lèi)型
分類(lèi)穩(wěn)定,精度高,結(jié)果可視化,量化提取規(guī)則前言?xún)?nèi)容與方法結(jié)果討論評(píng)價(jià)指標(biāo):F-value、G-mean、AUC交叉驗(yàn)證:10-折交叉驗(yàn)證隨機(jī)地將數(shù)據(jù)集分為10份,輪流將其中9份數(shù)據(jù)做訓(xùn)練集,1份數(shù)據(jù)做測(cè)試集,10次分類(lèi)性能的均值作為最終分類(lèi)性能的指標(biāo)。取值范圍[0,1],取值越大,分類(lèi)性能越優(yōu)。前言?xún)?nèi)容與方法結(jié)果討論2研究?jī)?nèi)容01.Lasso特征選擇未運(yùn)用Lasso特征選擇運(yùn)用Lasso特征選擇02.重采樣技術(shù)(1)不平衡數(shù)據(jù)集模擬(1,10,50,100)(2)未運(yùn)用Lasso特征選擇運(yùn)用Lasso特征選擇03.Lasso特征選擇與重采樣技術(shù)綜合分析(1)析因設(shè)計(jì)方差分析(2)C4.5決策樹(shù)的穩(wěn)健性對(duì)分類(lèi)性能的影響對(duì)分類(lèi)的影響重采樣技術(shù)3結(jié)果前言?xún)?nèi)容與方法討論結(jié)果
收集烏魯木齊市某體檢機(jī)構(gòu)2014~2016年漢族體檢者信息69267例,涉及54個(gè)體檢指標(biāo)。
根據(jù)中華醫(yī)學(xué)會(huì)糖尿病學(xué)分會(huì)的代謝綜合征診斷標(biāo)準(zhǔn),共篩選2735例代謝綜合征患者,患病率為4%,不平衡比例=24。前言?xún)?nèi)容與方法討論結(jié)果1Lasso特征選擇在智能甄別中的應(yīng)用血小板平均體積高密度脂蛋白膽固醇空腹血糖中性粒細(xì)胞百分比年齡圖3Lasso對(duì)該數(shù)據(jù)的特征序列圖前言?xún)?nèi)容與方法討論結(jié)果1Lasso特征選擇在智能甄別中的應(yīng)用表3C4.5決策樹(shù)和BP神經(jīng)網(wǎng)絡(luò)分類(lèi)Lasso特征選擇前后的代謝綜合征數(shù)據(jù)集C4.5決策樹(shù)F-valueG-meanAUC
未使用Lasso特征選擇0.9750.7940.802
使用Lasso特征選擇0.9790.8170.836BP神經(jīng)網(wǎng)絡(luò)
未使用Lasso特征選擇0.9700.7260.952
使用Lasso特征選擇0.9720.7260.964前言?xún)?nèi)容與方法討論結(jié)果表4C4.5決策樹(shù)和BP神經(jīng)網(wǎng)絡(luò)分類(lèi)不同不平衡比例數(shù)據(jù)集不平衡比例患病率F-valueG-meanAUCC4.5決策樹(shù)11/20.9200.9200.936101/110.9700.8790.921501/510.9930.8420.8941001/1010.9970.8400.892BP神經(jīng)網(wǎng)絡(luò)11/20.9660.9660.984101/110.9830.9470.960501/510.9940.8710.8751001/1010.9970.8470.8272.1不同比例的類(lèi)不平衡數(shù)據(jù)對(duì)分類(lèi)性能的影響前言?xún)?nèi)容與方法討論結(jié)果表5未運(yùn)用Lasso特征選擇C4.5決策樹(shù)和BP神經(jīng)網(wǎng)絡(luò)分類(lèi)重采樣前后的代謝綜合征數(shù)據(jù)集分類(lèi)算法數(shù)據(jù)集F-valueG-meanAUCC4.5決策樹(shù)原不平衡數(shù)據(jù)0.9750.7940.802
隨機(jī)過(guò)采樣0.9910.9900.991
隨機(jī)欠采樣0.9210.9210.914
混合采樣0.9890.9890.990BP神經(jīng)網(wǎng)絡(luò)原不平衡數(shù)據(jù)0.9700.7260.952
隨機(jī)過(guò)采樣0.9650.9640.981
隨機(jī)欠采樣0.8900.8900.953
混合采樣0.9580.9570.9792.2.1三種重采樣技術(shù)在代謝綜合征智能甄別中的應(yīng)用前言?xún)?nèi)容與方法討論結(jié)果2.2.2基于Lasso特征選擇三種重采樣技術(shù)在代謝綜合征智能甄別的應(yīng)用表6
Lasso特征選擇后C4.5決策樹(shù)和BP神經(jīng)網(wǎng)絡(luò)分類(lèi)重采樣前后的代謝綜合征數(shù)據(jù)集分類(lèi)算法數(shù)據(jù)集F-valueG-meanAUCC4.5決策樹(shù)不平衡數(shù)據(jù)集0.9790.8170.836
隨機(jī)過(guò)采樣0.9880.9880.990
隨機(jī)欠采樣0.9320.9320.953
混合采樣0.9850.9850.988BP神經(jīng)網(wǎng)絡(luò)不平衡數(shù)據(jù)集0.9720.7260.964
隨機(jī)過(guò)采樣0.9320.9320.974
隨機(jī)欠采樣0.9320.9320.972
混合采樣0.9320.9310.973前言?xún)?nèi)容與方法討論結(jié)果3.1Lasso特征選擇與重采樣技術(shù)分類(lèi)性能的優(yōu)劣評(píng)價(jià)前言?xún)?nèi)容與方法討論結(jié)果3.2基于C4.5決策樹(shù)對(duì)分類(lèi)性能的穩(wěn)健性評(píng)價(jià)圖5原始不平衡數(shù)據(jù)樹(shù)狀結(jié)構(gòu)圖前言?xún)?nèi)容與方法討論結(jié)果圖6未使用Lasso特征選擇的隨機(jī)過(guò)采樣樹(shù)狀結(jié)構(gòu)圖3.2基于C4.5決策樹(shù)對(duì)分類(lèi)性能的穩(wěn)健性評(píng)價(jià)前言?xún)?nèi)容與方法討論結(jié)果圖7Lasso特征選擇后隨機(jī)過(guò)采樣樹(shù)狀圖3.2基于C4.5決策樹(shù)對(duì)分類(lèi)性能的穩(wěn)健性評(píng)價(jià)4討論前言?xún)?nèi)容與方法結(jié)果討論1Lasso特征選擇代謝綜合征體檢變量分析Lasso特征選擇的變量是:空腹血糖、高密度脂蛋白膽固醇、年齡、中性粒細(xì)胞百分比、血小板平均體積。0102空腹血糖、高密度脂蛋白膽固醇與代謝綜合征的診斷密切相關(guān)。隨著年齡增大,人體代謝功能下降,生理系統(tǒng)衰老加速,機(jī)體更易受到疾病侵襲。03巨噬細(xì)胞活化在代謝功能失調(diào)中起關(guān)鍵作用,中性粒細(xì)胞作為巨噬細(xì)胞的代表與代謝綜合征密切相關(guān)。04代謝綜合征的低炎性狀態(tài)與血小板存在相互作用。前言?xún)?nèi)容與方法討論結(jié)果2重采樣技術(shù)對(duì)代謝綜合征分類(lèi)算法的影響分析不平衡數(shù)據(jù)分類(lèi)問(wèn)題受到諸多研究者的關(guān)注C4.5決策樹(shù)與BP神經(jīng)網(wǎng)絡(luò)在代謝綜合征分類(lèi)中的應(yīng)用價(jià)值隨機(jī)過(guò)采樣優(yōu)于其他重采樣技術(shù)123樣本量越大,分類(lèi)性能越優(yōu)BP神經(jīng)網(wǎng)絡(luò):定量變量;C4.5決策樹(shù):定性變量分類(lèi)性能:重采樣>不平衡數(shù)據(jù)不平衡比例嚴(yán)重:過(guò)采樣;反之,欠采樣F-value不穩(wěn)定:不平衡比例嚴(yán)重,F(xiàn)-value升高前言?xún)?nèi)容與方法討論結(jié)果3Lasso特征選擇與重采樣技術(shù)對(duì)代謝綜合征分類(lèi)性能的影響分析析因設(shè)計(jì)方差分析分類(lèi)性能存在差異重采樣技術(shù)>Lasso特征選擇原因:數(shù)據(jù)冗余決策樹(shù)的穩(wěn)健性分
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術(shù)規(guī)范:物聯(lián)網(wǎng)數(shù)據(jù)傳輸安全標(biāo)準(zhǔn)
- 2026年物流管理供應(yīng)鏈優(yōu)化與倉(cāng)儲(chǔ)管理試題
- 2026年職業(yè)素養(yǎng)與實(shí)踐能力提升試題
- 2026年食品衛(wèi)生安全法規(guī)考試題庫(kù)確保食品安全與健康
- 2026年電子通信電子設(shè)備調(diào)試與維護(hù)實(shí)操考試題
- 2026年5S環(huán)境管理標(biāo)準(zhǔn)下的辦公室管理測(cè)試
- 2026年機(jī)械原理與機(jī)械設(shè)計(jì)專(zhuān)業(yè)知識(shí)題庫(kù)
- 2026年語(yǔ)言矯治模擬題目發(fā)音糾正與語(yǔ)音清晰度訓(xùn)練
- 2026年AI技術(shù)專(zhuān)家認(rèn)證考試題集與答案詳解
- 2026年拼多多市場(chǎng)營(yíng)銷(xiāo)應(yīng)屆生面試題集
- 2026年齊齊哈爾高等師范專(zhuān)科學(xué)校單招職業(yè)技能測(cè)試題庫(kù)必考題
- 物業(yè)項(xiàng)目綜合服務(wù)方案
- 胖東來(lái)管理制度全公開(kāi)執(zhí)行標(biāo)準(zhǔn)
- 2025-2026學(xué)年北京市西城區(qū)初二(上期)期末考試物理試卷(含答案)
- 書(shū)法培訓(xùn)班安全制度
- 企業(yè)管理 華為會(huì)議接待全流程手冊(cè)SOP
- 供水企業(yè)制度流程規(guī)范
- 框架柱混凝土澆筑施工方案(完整版)
- 電廠?;钒踩嘤?xùn)課件
- 酸馬奶加工技術(shù)
- 護(hù)士常用設(shè)備儀器培訓(xùn)
評(píng)論
0/150
提交評(píng)論