醫(yī)學數(shù)據(jù)挖掘第1章課件_第1頁
醫(yī)學數(shù)據(jù)挖掘第1章課件_第2頁
醫(yī)學數(shù)據(jù)挖掘第1章課件_第3頁
醫(yī)學數(shù)據(jù)挖掘第1章課件_第4頁
醫(yī)學數(shù)據(jù)挖掘第1章課件_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(MedicalDataMining,MDM)第1章醫(yī)學數(shù)據(jù)挖掘概述(MedicalDataMining,MDM)第1章醫(yī)一、問題的提出隨著醫(yī)院數(shù)字化儀器的增加、醫(yī)院信息系統(tǒng)、電子病歷和電子健康檔案的使用,醫(yī)院的計算機中逐漸積累了大量的數(shù)據(jù),其量與日俱增。這些數(shù)據(jù)中蘊藏著的豐富的二次信息和業(yè)務(wù)知識,如何將它們有效的分析和挖掘出來,用以提高醫(yī)院的服務(wù)質(zhì)量和醫(yī)療水平,是醫(yī)院的管理者和醫(yī)生越來越關(guān)心的問題。當面對越來越多迅速膨脹的大型數(shù)據(jù)庫時,醫(yī)生們渴望去理解數(shù)據(jù)中包含的信息,盼望獲得有價值的知識!一、問題的提出隨著醫(yī)院數(shù)字化儀器的增加、醫(yī)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)

原有的決策支持系統(tǒng)(DSS)和領(lǐng)導執(zhí)行系統(tǒng)(EIS)已不能滿足需要。數(shù)據(jù)挖掘概念的提出,使人們有能力克服這些困難,去發(fā)掘出蘊藏在數(shù)據(jù)中的信息和知識。數(shù)據(jù)挖掘是目前國際上數(shù)據(jù)庫和信息決策領(lǐng)域的最前沿研究方向之一。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是存在交叉的兩個概念。

數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的一個階段,而且是核心階段。知識發(fā)現(xiàn),就是從大型數(shù)據(jù)庫中的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的、潛在有用的信息。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)原有的決策支持系統(tǒng)(DSS)和

如果把知識發(fā)現(xiàn)理解為一個過程或系統(tǒng),數(shù)據(jù)挖掘是這一過程或系統(tǒng)的一個可自動執(zhí)行的工具。從下圖看出,知識發(fā)現(xiàn)是需要人工參與的多環(huán)節(jié)的過程。*挖掘算法是數(shù)據(jù)挖掘重要的組成部分。為解決特定的問題,一種或多種算法需要被選擇、編譯,在適于挖掘的數(shù)據(jù)環(huán)境下實施挖掘任務(wù)。如果把知識發(fā)現(xiàn)理解為一個過程或系統(tǒng),數(shù)據(jù)挖掘是這1.1數(shù)據(jù)挖掘概念1.1.1數(shù)據(jù)挖掘的產(chǎn)生如何使人們能夠快速有效地獲取自己所需的知識,成為廣大信息工作者的重要研究課題。正是這種需求催生了一門目前在信息領(lǐng)域里最為活躍、最令人激動的領(lǐng)域——數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。1.1數(shù)據(jù)挖掘概念1.1.1數(shù)據(jù)挖掘的產(chǎn)生如何數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應(yīng)用越來越廣泛(1)在疾病診斷、治療、器官移植、基因研究、圖像分析、康復(fù)、藥物開發(fā)、科學研究等方面獲得可喜成果。南加州大學脊椎病醫(yī)院利用InformationDiscovery進行數(shù)據(jù)挖掘,該技術(shù)已應(yīng)用到腫瘤學、肝臟病理學、肝炎的生存幾率預(yù)測、泌尿?qū)W、甲狀腺病例診斷、風濕病學、皮膚病診斷、心臟病學、神經(jīng)心理學、婦科學、產(chǎn)科學等領(lǐng)域。數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應(yīng)用越來越廣泛(1)在疾病診斷、治數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應(yīng)用越來越廣泛(2)數(shù)據(jù)挖掘在醫(yī)學上的應(yīng)用有其自身的優(yōu)勢,醫(yī)學系統(tǒng)收集到的數(shù)據(jù)大多是實際診斷和運作數(shù)據(jù)真實可靠、不受其他因素影響的,這對于不斷提高挖掘的質(zhì)量是有利的條件。隨著電子病歷的推廣,用計算機存儲病案在醫(yī)院已經(jīng)比較普遍。如果各醫(yī)院將收集的數(shù)據(jù)進一步匯總,從些數(shù)據(jù)中發(fā)現(xiàn)各種疾病之間的相互關(guān)系、各種疾病的發(fā)展規(guī)律,分析各種治療方案的治療效果,對疾病的診斷、治療和醫(yī)學研究都非常有價值。數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應(yīng)用越來越廣泛(2)數(shù)據(jù)挖掘在醫(yī)學1.1.2數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習慣上又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下三個階段組成:(1)數(shù)據(jù)準備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。1.1.2數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,在人工智可以從幾個方面來了解數(shù)據(jù)挖掘。1.商業(yè)企業(yè)角度2.技術(shù)實現(xiàn)角度3.數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別4.數(shù)據(jù)挖掘和數(shù)據(jù)倉庫5.數(shù)據(jù)挖掘和OLAP6.數(shù)據(jù)挖掘,機器學習和統(tǒng)計可以從幾個方面來了解數(shù)據(jù)挖掘。1.商業(yè)企業(yè)角度1.2數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘可以解決大量的醫(yī)學研究問題?;谶@些醫(yī)學問題的性質(zhì),把這些問題分成下面幾種數(shù)據(jù)挖掘任務(wù)。1.分類分類是最常見的數(shù)據(jù)挖掘任務(wù)之一。疾病的診斷過程實際上就是一個疾病分類的過程,患者根據(jù)癥狀特征及不適部位定位到具體疾病類的具體疾病,這一過程與現(xiàn)實中的分類過程十分相似。1.2數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘可以解決大量的醫(yī)學研究問2.聚類“物以類聚”,它基于一組屬性對事例進行分組。在同一個聚類中的事例或多或少有相同的屬性值。例如,通過對醫(yī)藥市場的聚類分析,構(gòu)成多因素投資組合矩陣。依據(jù)市場吸引力的大、中、小,競爭能力的強、小、弱,分為9個區(qū)域,組成三種戰(zhàn)略地帶。2.聚類“物以類聚”,它基于一組屬性對事例進行分組。在同一個3.關(guān)聯(lián)規(guī)則起源:超市購物籃形式:X?Y(啤酒=>尿布)基本測度:支持度(Dsupp)置信度(Dconf)在原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。3.關(guān)聯(lián)規(guī)則起源:超市購物籃在原始交易數(shù)據(jù)的基礎(chǔ)上,4.回歸回歸任務(wù)類似于分類任務(wù),最大的區(qū)別是在回歸任務(wù)中可預(yù)測屬性是連續(xù)的?;貧w技術(shù)在統(tǒng)計學領(lǐng)域已經(jīng)廣泛研究了幾個世紀。線性回歸和邏輯回歸是最常用的回歸分析方法。其它的回歸分析技術(shù)包括回歸樹和神經(jīng)網(wǎng)絡(luò)?;貧w任務(wù)能解決很多醫(yī)學問題。例如,醫(yī)生可以通過身高、體重、肺活量、胸圍、肩寬、盆肩寬、脈搏、收縮壓、舒張壓等各項指標預(yù)測病人的健康情況。4.回歸回歸任務(wù)類似于分類任務(wù),最大的區(qū)別1.3數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘任務(wù)的完成需要相應(yīng)的數(shù)據(jù)挖掘技術(shù)。目前的數(shù)據(jù)挖掘算法主要來自3個領(lǐng)域:統(tǒng)計學、機器學習(人工智能)和數(shù)據(jù)庫。數(shù)據(jù)挖掘的焦點是自動或半自動的挖掘模式。有些機器算法應(yīng)用于數(shù)據(jù)挖掘,比如神經(jīng)網(wǎng)絡(luò)、遺傳算法等。數(shù)據(jù)庫技術(shù)是數(shù)據(jù)挖掘的第三種技術(shù)來源。因為數(shù)據(jù)挖掘需要處理大量數(shù)據(jù),如何對大量數(shù)據(jù)進行處理,需要數(shù)據(jù)庫技術(shù)。本書著重介紹決策樹算法、時序與回歸算法、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則和聚類分析,并結(jié)合數(shù)據(jù)挖掘工具——SQLServerBusinessIntelligenceDevelopmentStudio進行介紹。1.3數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘任務(wù)的完成需要相應(yīng)的數(shù)據(jù)挖掘技術(shù)。1.4數(shù)據(jù)挖掘工具——SQLServer20051.4數(shù)據(jù)挖掘工具——SQLServer20051.5數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應(yīng)用特點、現(xiàn)狀及展望1.醫(yī)學數(shù)據(jù)的特點以及醫(yī)學數(shù)據(jù)挖掘的獨特性

醫(yī)學信息蘊含了醫(yī)療過程和醫(yī)患活動的全部數(shù)據(jù)資源,既有有關(guān)臨床的醫(yī)療信息又有醫(yī)院管理的信息,尤其是前者反映了醫(yī)學的獨特性。這些信息具有模式的多態(tài)性(純數(shù)據(jù)、圖像、信號、文字記錄等)、不完整性(疾病信息的客觀不完整和描述疾病的主觀不完整)、較強時間性、復(fù)雜性和冗余性。加之其低數(shù)學特征、非規(guī)范化形式以及醫(yī)患信息的不對稱和醫(yī)學資料涉及較多的倫理、法律問題,從而決定了醫(yī)學數(shù)據(jù)挖掘的獨特性。2.數(shù)據(jù)挖掘在醫(yī)學領(lǐng)域中的應(yīng)用現(xiàn)狀基礎(chǔ)醫(yī)學領(lǐng)域:疾病的臨床診斷和治療方面流行病學研究和醫(yī)學統(tǒng)計方法學方面:醫(yī)院和衛(wèi)生事業(yè)管理方面:其它:1.5數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應(yīng)用特點、現(xiàn)狀及展望1.醫(yī)學(MedicalDataMining,MDM)第1章醫(yī)學數(shù)據(jù)挖掘概述(MedicalDataMining,MDM)第1章醫(yī)一、問題的提出隨著醫(yī)院數(shù)字化儀器的增加、醫(yī)院信息系統(tǒng)、電子病歷和電子健康檔案的使用,醫(yī)院的計算機中逐漸積累了大量的數(shù)據(jù),其量與日俱增。這些數(shù)據(jù)中蘊藏著的豐富的二次信息和業(yè)務(wù)知識,如何將它們有效的分析和挖掘出來,用以提高醫(yī)院的服務(wù)質(zhì)量和醫(yī)療水平,是醫(yī)院的管理者和醫(yī)生越來越關(guān)心的問題。當面對越來越多迅速膨脹的大型數(shù)據(jù)庫時,醫(yī)生們渴望去理解數(shù)據(jù)中包含的信息,盼望獲得有價值的知識!一、問題的提出隨著醫(yī)院數(shù)字化儀器的增加、醫(yī)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)

原有的決策支持系統(tǒng)(DSS)和領(lǐng)導執(zhí)行系統(tǒng)(EIS)已不能滿足需要。數(shù)據(jù)挖掘概念的提出,使人們有能力克服這些困難,去發(fā)掘出蘊藏在數(shù)據(jù)中的信息和知識。數(shù)據(jù)挖掘是目前國際上數(shù)據(jù)庫和信息決策領(lǐng)域的最前沿研究方向之一。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是存在交叉的兩個概念。

數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的一個階段,而且是核心階段。知識發(fā)現(xiàn),就是從大型數(shù)據(jù)庫中的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的、潛在有用的信息。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)原有的決策支持系統(tǒng)(DSS)和

如果把知識發(fā)現(xiàn)理解為一個過程或系統(tǒng),數(shù)據(jù)挖掘是這一過程或系統(tǒng)的一個可自動執(zhí)行的工具。從下圖看出,知識發(fā)現(xiàn)是需要人工參與的多環(huán)節(jié)的過程。*挖掘算法是數(shù)據(jù)挖掘重要的組成部分。為解決特定的問題,一種或多種算法需要被選擇、編譯,在適于挖掘的數(shù)據(jù)環(huán)境下實施挖掘任務(wù)。如果把知識發(fā)現(xiàn)理解為一個過程或系統(tǒng),數(shù)據(jù)挖掘是這1.1數(shù)據(jù)挖掘概念1.1.1數(shù)據(jù)挖掘的產(chǎn)生如何使人們能夠快速有效地獲取自己所需的知識,成為廣大信息工作者的重要研究課題。正是這種需求催生了一門目前在信息領(lǐng)域里最為活躍、最令人激動的領(lǐng)域——數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。1.1數(shù)據(jù)挖掘概念1.1.1數(shù)據(jù)挖掘的產(chǎn)生如何數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應(yīng)用越來越廣泛(1)在疾病診斷、治療、器官移植、基因研究、圖像分析、康復(fù)、藥物開發(fā)、科學研究等方面獲得可喜成果。南加州大學脊椎病醫(yī)院利用InformationDiscovery進行數(shù)據(jù)挖掘,該技術(shù)已應(yīng)用到腫瘤學、肝臟病理學、肝炎的生存幾率預(yù)測、泌尿?qū)W、甲狀腺病例診斷、風濕病學、皮膚病診斷、心臟病學、神經(jīng)心理學、婦科學、產(chǎn)科學等領(lǐng)域。數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應(yīng)用越來越廣泛(1)在疾病診斷、治數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應(yīng)用越來越廣泛(2)數(shù)據(jù)挖掘在醫(yī)學上的應(yīng)用有其自身的優(yōu)勢,醫(yī)學系統(tǒng)收集到的數(shù)據(jù)大多是實際診斷和運作數(shù)據(jù)真實可靠、不受其他因素影響的,這對于不斷提高挖掘的質(zhì)量是有利的條件。隨著電子病歷的推廣,用計算機存儲病案在醫(yī)院已經(jīng)比較普遍。如果各醫(yī)院將收集的數(shù)據(jù)進一步匯總,從些數(shù)據(jù)中發(fā)現(xiàn)各種疾病之間的相互關(guān)系、各種疾病的發(fā)展規(guī)律,分析各種治療方案的治療效果,對疾病的診斷、治療和醫(yī)學研究都非常有價值。數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應(yīng)用越來越廣泛(2)數(shù)據(jù)挖掘在醫(yī)學1.1.2數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習慣上又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下三個階段組成:(1)數(shù)據(jù)準備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。1.1.2數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,在人工智可以從幾個方面來了解數(shù)據(jù)挖掘。1.商業(yè)企業(yè)角度2.技術(shù)實現(xiàn)角度3.數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別4.數(shù)據(jù)挖掘和數(shù)據(jù)倉庫5.數(shù)據(jù)挖掘和OLAP6.數(shù)據(jù)挖掘,機器學習和統(tǒng)計可以從幾個方面來了解數(shù)據(jù)挖掘。1.商業(yè)企業(yè)角度1.2數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘可以解決大量的醫(yī)學研究問題。基于這些醫(yī)學問題的性質(zhì),把這些問題分成下面幾種數(shù)據(jù)挖掘任務(wù)。1.分類分類是最常見的數(shù)據(jù)挖掘任務(wù)之一。疾病的診斷過程實際上就是一個疾病分類的過程,患者根據(jù)癥狀特征及不適部位定位到具體疾病類的具體疾病,這一過程與現(xiàn)實中的分類過程十分相似。1.2數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘可以解決大量的醫(yī)學研究問2.聚類“物以類聚”,它基于一組屬性對事例進行分組。在同一個聚類中的事例或多或少有相同的屬性值。例如,通過對醫(yī)藥市場的聚類分析,構(gòu)成多因素投資組合矩陣。依據(jù)市場吸引力的大、中、小,競爭能力的強、小、弱,分為9個區(qū)域,組成三種戰(zhàn)略地帶。2.聚類“物以類聚”,它基于一組屬性對事例進行分組。在同一個3.關(guān)聯(lián)規(guī)則起源:超市購物籃形式:X?Y(啤酒=>尿布)基本測度:支持度(Dsupp)置信度(Dconf)在原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。3.關(guān)聯(lián)規(guī)則起源:超市購物籃在原始交易數(shù)據(jù)的基礎(chǔ)上,4.回歸回歸任務(wù)類似于分類任務(wù),最大的區(qū)別是在回歸任務(wù)中可預(yù)測屬性是連續(xù)的?;貧w技術(shù)在統(tǒng)計學領(lǐng)域已經(jīng)廣泛研究了幾個世紀。線性回歸和邏輯回歸是最常用的回歸分析方法。其它的回歸分析技術(shù)包括回歸樹和神經(jīng)網(wǎng)絡(luò)。回歸任務(wù)能解決很多醫(yī)學問題。例如,醫(yī)生可以通過身高、體重、肺活量、胸圍、肩寬、盆肩寬、脈搏、收縮壓、舒張壓等各項指標預(yù)測病人的健康情況。4.回歸回歸任務(wù)類似于分類任務(wù),最大的區(qū)別1.3數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘任務(wù)的完成需要相應(yīng)的數(shù)據(jù)挖掘技術(shù)。目前的數(shù)據(jù)挖掘算法主要來自3個領(lǐng)域:統(tǒng)計學、機器學習(人工

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論