基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái)構(gòu)建_第1頁(yè)
基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái)構(gòu)建_第2頁(yè)
基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái)構(gòu)建_第3頁(yè)
基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái)構(gòu)建_第4頁(yè)
基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái)構(gòu)建_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái)構(gòu)建

1基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究中醫(yī)臨床積累了豐富的信息,數(shù)據(jù)和相關(guān)性復(fù)雜。在研究某些問(wèn)題時(shí),只有在沒(méi)有相應(yīng)的支持技術(shù)的情況下,才能取得更大的困難和過(guò)程,并更多地預(yù)測(cè)結(jié)果。例如:要從大量的臨床病歷數(shù)據(jù)中歸納出一些知識(shí),以表達(dá)癥狀與疾病關(guān)系的密切程度,如果不采用合理的數(shù)據(jù)庫(kù)技術(shù)、高效的分析算法和完善的自我學(xué)習(xí)機(jī)制,則工作的開(kāi)展過(guò)程就象一盤(pán)散沙,結(jié)果將經(jīng)不起考驗(yàn)。到底如何更好地研究中醫(yī)診斷呢?筆者認(rèn)為數(shù)據(jù)挖掘技術(shù)的應(yīng)用,對(duì)中醫(yī)診斷學(xué)科研究具有舉足輕重的作用。基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究,最大的問(wèn)題就是需要相關(guān)的數(shù)據(jù)挖掘工具,使用好的數(shù)據(jù)挖掘算法。目前中醫(yī)藥專(zhuān)業(yè)應(yīng)用的專(zhuān)用數(shù)據(jù)挖掘工具還沒(méi)有,雖然有許多通用的數(shù)據(jù)挖掘工具可以選擇,可做多種模式的挖掘,挖掘什么、用什么來(lái)挖掘,都由用戶根據(jù)自己的應(yīng)用來(lái)選擇,但這些東西要融合到中醫(yī)診斷學(xué)的研究當(dāng)中還存在很多問(wèn)題。這些問(wèn)題直接影響數(shù)據(jù)挖掘及其相關(guān)技術(shù)在中醫(yī)當(dāng)中的應(yīng)用,主要問(wèn)題如下。1.1數(shù)據(jù)的前期處理通常原始的病歷數(shù)據(jù)是不能直接進(jìn)行挖掘處理的,需要通過(guò)一定的方法,將其表達(dá)為符合算法格式要求的數(shù)據(jù),即需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價(jià)值的模型,因此數(shù)據(jù)的前期處理工作占的時(shí)間很多,因?yàn)閷?duì)每一個(gè)不同的算法,均需要采用不同的數(shù)據(jù)格式進(jìn)行操作。1.2結(jié)果的可及性許多數(shù)據(jù)挖掘方法中輸出的數(shù)量往往很大,幾乎難以處置。中醫(yī)診斷專(zhuān)業(yè)人員很難評(píng)估大量的關(guān)聯(lián)規(guī)則。1.3參數(shù)調(diào)整算法參數(shù)是困難的1.4實(shí)踐過(guò)程的挑戰(zhàn)許多最優(yōu)的數(shù)據(jù)挖掘方法在實(shí)際應(yīng)用上與用戶交互作用并不理想,一種理想的方法要比試探式的方法需要設(shè)置的參數(shù)要少,但是往往費(fèi)時(shí)很多。在實(shí)踐中,數(shù)據(jù)挖掘是一個(gè)用戶交互過(guò)程,因此有效性非常重要。然而許多數(shù)據(jù)挖掘方法尚需要改進(jìn)。雖然使用數(shù)據(jù)挖掘工具可以不必掌握艱深的統(tǒng)計(jì)分析技術(shù),但仍然需要知道所選用的數(shù)據(jù)挖掘工具是如何工作的,其所采用的算法的原理是什么,所選用的技術(shù)和優(yōu)化方法會(huì)對(duì)發(fā)現(xiàn)模型的準(zhǔn)確度和生成速度產(chǎn)生很大影響。以上問(wèn)題直接影響到中醫(yī)研究的工作效率與結(jié)果。鑒于上述對(duì)數(shù)據(jù)挖掘在中醫(yī)診斷研究中的應(yīng)用認(rèn)識(shí),筆者認(rèn)為,以證素辨證研究為切入點(diǎn),以信息科學(xué)為指導(dǎo),建立基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái),為宏觀中醫(yī)辨證科研體系加入科學(xué)的實(shí)驗(yàn)工具,將能在很大程度上提升中醫(yī)診斷研究的科學(xué)水平。2證素的確認(rèn)證素辨證是中醫(yī)診斷的一種方法。所謂證素,即辨證的基本要素,“證素”是通過(guò)對(duì)“證候”(癥狀、體征等)的辨識(shí),而確定的病位和病性,是構(gòu)成“證名”的基本診斷單元。證素辨證研究的核心問(wèn)題是證素的確認(rèn),它是通過(guò)對(duì)臨床信息的認(rèn)識(shí)尋找構(gòu)成證的基本元素,它需要把握的是臨床信息基元,也就是當(dāng)一組癥狀群呈現(xiàn)出穩(wěn)定的相互關(guān)系,它所反映的是病位與病性的最小單位。而這種穩(wěn)定的相互關(guān)系的發(fā)現(xiàn)與確定。2.1輔助醫(yī)生決策的信息系統(tǒng)證素辨證方法的好壞,取決于其是否方便臨床使用。臨床使用的對(duì)象主要有兩種,一種是醫(yī)生,另一種是輔助醫(yī)生決策的信息系統(tǒng)。要快速、準(zhǔn)確地對(duì)疾病的病性與涉及的病位作出判斷,是中醫(yī)診斷中的難點(diǎn),因此,對(duì)證素決策方法的研究非常重要,已有從統(tǒng)計(jì)學(xué)、模糊數(shù)學(xué)、神經(jīng)網(wǎng)絡(luò)等方法開(kāi)展研究的,但由于方法的局限性,結(jié)果還不能為臨床所接受,需要綜合各種方法,進(jìn)一步地研究。2.2證候與證素的關(guān)聯(lián)程度可以提高醫(yī)生早發(fā)現(xiàn)病位和病性證素辨證中的關(guān)系主要包括證素與證候、證素之間、癥狀之間的關(guān)系。深入了解證素辨證中的各種關(guān)系,對(duì)疾病的診斷、病情轉(zhuǎn)歸的預(yù)測(cè)等有著舉足輕重的作用。臨床中,對(duì)疾病變化的認(rèn)識(shí)體現(xiàn)在對(duì)證的認(rèn)識(shí)上,而對(duì)證的認(rèn)識(shí)又是通過(guò)對(duì)證候的觀察,判斷疾病的病位與病性,病位與病性是與疾病密切相關(guān)的兩大要素,研究證候與證素在不同時(shí)間、不同條件下的關(guān)聯(lián)程度,可以讓醫(yī)生及早把握病病發(fā)展的方向。如:有兩個(gè)病人,開(kāi)始時(shí),病人A、B都是為脾陽(yáng)虛證,一段時(shí)間后,病人A被診斷為脾腎陽(yáng)虛證,病人B被診斷為心脾陽(yáng)虛證,那么,是否在病人發(fā)病初期就能預(yù)測(cè)到呢?又如:脾與陽(yáng)虛、肺與痰,在某一種疾病發(fā)生時(shí),它們之間同時(shí)存在的可能性有多大?這些關(guān)系研究的實(shí)質(zhì)是:在一定的約束條件下,測(cè)定某兩個(gè)變量的關(guān)聯(lián)程度,以反映疾病發(fā)展的趨向與規(guī)律,這種關(guān)系不僅包含靜態(tài)關(guān)系,還包含動(dòng)態(tài)關(guān)系;通常可用計(jì)算機(jī)仿真技術(shù),通過(guò)數(shù)學(xué)建模來(lái)完成。3研究平臺(tái)通過(guò)對(duì)證素辨證研究要點(diǎn)的分析,本研究設(shè)計(jì)了一個(gè)基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái)。3.1基于醫(yī)院臨床信息的數(shù)據(jù)庫(kù)建立通用病歷信息文件結(jié)構(gòu),整合數(shù)據(jù)挖掘工具,為開(kāi)展基于信息科學(xué)的中醫(yī)診斷宏觀辨證研究搭建一個(gè)平臺(tái)。針對(duì)數(shù)據(jù)倉(cāng)庫(kù),整合多種類(lèi)型的數(shù)據(jù)挖掘算法,并將數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作規(guī)范起來(lái),為解決中醫(yī)領(lǐng)域問(wèn)題的多樣性提供技術(shù)條件。通過(guò)這個(gè)技術(shù)平臺(tái),將會(huì)讓研究人員在高度共享的臨床信息的基礎(chǔ)上,應(yīng)用最新最科學(xué)的數(shù)據(jù)挖掘方法,解決好辨證論治的問(wèn)題。同時(shí),密切與計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)學(xué)科人員的交流,促進(jìn)中醫(yī)診斷學(xué)研究水平的快速提升。3.2醫(yī)療信息的編碼結(jié)構(gòu)化的中醫(yī)電子病歷系統(tǒng),可有效地管理病歷數(shù)據(jù),并方便數(shù)據(jù)挖掘;基本的統(tǒng)計(jì)功能,可支持研究者對(duì)數(shù)據(jù)庫(kù)的資料有一個(gè)總體的認(rèn)識(shí);經(jīng)典算法集,通過(guò)整合各類(lèi)優(yōu)秀的挖掘工具達(dá)到要求;方便的病歷數(shù)據(jù)篩選,以支持研究者快速獲取特定目標(biāo)的數(shù)據(jù);方便的可擴(kuò)展算法接口,可支持研究者自行加入針對(duì)中醫(yī)診斷專(zhuān)業(yè)的有效算法;方便的數(shù)據(jù)格式轉(zhuǎn)換,以支持各類(lèi)整合進(jìn)來(lái)的數(shù)據(jù)挖掘工具。其中,病歷信息文件結(jié)構(gòu)設(shè)計(jì)如下:一行為一個(gè)病人的記錄,每條記錄由8個(gè)字段構(gòu)成,字段之間以空格分開(kāi):標(biāo)志:a_;病人身份信息:身份號(hào)碼標(biāo)志:b_;望聞問(wèn)切診收集的病狀信息:癥狀字符串,長(zhǎng)度為4的倍數(shù)(每一個(gè)癥狀信息為4位編碼)標(biāo)志:c_;儀器檢查信息:標(biāo)識(shí)碼為區(qū)間中的任一個(gè),后接實(shí)際測(cè)量數(shù)據(jù)串,每一個(gè)數(shù)據(jù)由數(shù)據(jù)類(lèi)型編號(hào)+數(shù)據(jù)實(shí)測(cè)值,數(shù)據(jù)之間一以“#”號(hào)隔離開(kāi)字符號(hào)標(biāo)志:d_;中醫(yī)診斷結(jié)果:辨證結(jié)果,為證型術(shù)語(yǔ)的編碼(有標(biāo)準(zhǔn)按標(biāo)準(zhǔn),無(wú)標(biāo)準(zhǔn)要建立標(biāo)準(zhǔn));標(biāo)志:e_;西醫(yī)診斷結(jié)果:按ICD-10疾病編碼標(biāo)志:f_;處方:一位處方識(shí)別碼:0標(biāo)準(zhǔn)中藥方劑+/-中藥,1中成藥、2西藥標(biāo)志:g_;初復(fù)診標(biāo)志:兩位,00:表示初診,01~99表示復(fù)診的次數(shù)。標(biāo)志:h_;醫(yī)生:身份號(hào)碼。通過(guò)上述結(jié)構(gòu)的病歷信息文件,便于數(shù)據(jù)交換,如,生成中間文件,供SVM或ROUGHSETS程序使用:根據(jù)用戶需求自動(dòng)建立LIBSVM用訓(xùn)練集與測(cè)試集、根據(jù)用戶需求自動(dòng)建立ROSETTA軟件用決策表、調(diào)用LIBSVM和ROSETTA軟件的接口函數(shù)等。3.3比關(guān)系數(shù)據(jù)庫(kù)以CachR數(shù)據(jù)庫(kù)作為技術(shù)支持進(jìn)行設(shè)計(jì),因?yàn)樗鼘⒈汝P(guān)系數(shù)據(jù)庫(kù)(如:orecal,sqlserver等)能更好地表達(dá)復(fù)雜的中醫(yī)信息。下面給出利用CACHE’技術(shù)初步設(shè)計(jì)的數(shù)據(jù)庫(kù)(參見(jiàn)圖2),主要內(nèi)容如下。3.3.1電子疾病的主要類(lèi)別“err”以一個(gè)類(lèi)別為核心3.3.2醫(yī)生的“門(mén)診”和疾病患者的“patint”這兩個(gè)類(lèi)繼承于人類(lèi)“Person”,人類(lèi)里面嵌入了地址類(lèi)“Address”。3.3.4字典型ddosrule、dresil、net、sdyp和dw3.3.5工具類(lèi)utiliyi包括兩種方法4基于數(shù)據(jù)挖掘技術(shù)的實(shí)驗(yàn)方法對(duì)于中醫(yī)診斷目前中醫(yī)診斷學(xué)研究的核心問(wèn)題是如何科學(xué)地辨證,它涉及規(guī)范化研究、診斷的量化研究,病—證關(guān)系研究等。這些研究無(wú)論是從宏觀還是微觀的角度,都不可避免地要開(kāi)展對(duì)獲取數(shù)據(jù)的分析處理。許多研究都有這樣一個(gè)過(guò)程:設(shè)計(jì)一個(gè)實(shí)驗(yàn)→收集許多數(shù)據(jù)→統(tǒng)計(jì)分析→結(jié)果。這些研究存在的一個(gè)最大問(wèn)題是:數(shù)據(jù)獲取階段是在假設(shè)的基礎(chǔ)上開(kāi)展的,收集的數(shù)據(jù)都有針對(duì)性,而且數(shù)據(jù)量不可能很多,因而反映的問(wèn)題也不可能很全面。另外,在數(shù)據(jù)的篩選上,往往是通過(guò)人工方式從臨床收集,工作量大。引入數(shù)據(jù)挖掘技術(shù),建立中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái),將會(huì)徹底改變這樣的局面。這是由于數(shù)據(jù)挖掘的工作是建立在數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的,因此,為了采用數(shù)據(jù)挖掘技術(shù)必定會(huì)促使研究人員考慮科研數(shù)據(jù)的快捷收集與積累的方法,這勢(shì)必促進(jìn)臨床診療數(shù)據(jù)的規(guī)范研究。當(dāng)數(shù)據(jù)積累到一定程度時(shí),研究人員既可以利用計(jì)算機(jī)技術(shù)對(duì)各類(lèi)所需的數(shù)據(jù)進(jìn)行篩選,也可以應(yīng)用各類(lèi)挖掘工具開(kāi)展諸如:癥狀—癥狀的相關(guān)性研究;證素與證素的相關(guān)性研究;病—證的相關(guān)性研究;證—西醫(yī)檢查數(shù)據(jù)的對(duì)應(yīng)分析、數(shù)字化中醫(yī)診斷建模、診斷指標(biāo)量化研究等。中醫(yī)數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無(wú)論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。許多試探式的快速數(shù)據(jù)挖掘方法需要做很多的參數(shù)調(diào)整,用戶在使用上感到困難。本著方便、實(shí)用、可擴(kuò)展性強(qiáng)的設(shè)計(jì)理念,系統(tǒng)主要包括如下功能(如圖1所示)。一條記錄為某人一個(gè)時(shí)間的病人診療信息的記錄。3.3.3數(shù)據(jù)庫(kù)設(shè)計(jì)優(yōu)勢(shì)病狀類(lèi)“Symptoms”,證素類(lèi)“Items”,中醫(yī)診斷結(jié)果類(lèi)“CResults”,中醫(yī)治則類(lèi)“CRules”,西醫(yī)治則類(lèi)“WRules”:這5個(gè)類(lèi)屬于中間類(lèi),Emr和他們建立1對(duì)多的關(guān)系,EMR為1方,他們?yōu)槎喾健K麄冏陨聿槐4嫒魏沃?每一個(gè)對(duì)應(yīng)要素的值和代碼都是引用到相應(yīng)的字典類(lèi)的具體的值。所以,這5個(gè)類(lèi)里面存的是2個(gè)指針,一個(gè)是指向Emr類(lèi),一個(gè)是指向?qū)?yīng)的字典類(lèi)。統(tǒng)計(jì)的時(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論