版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于多標記學習的長期密閉環(huán)境下中醫(yī)證候診斷研究
1“長期密閉環(huán)境下”中醫(yī)診斷和證候研究的意義隨著我國載人航空航天三階段戰(zhàn)略的發(fā)展,以及載人空間站工程的長期運營,已成為人們今后發(fā)展的目標。為了有效保障航天員健康安全高效的工作,研究航天員的健康狀態(tài),評估與預(yù)警技術(shù)至關(guān)重要。中醫(yī)藥在悠久的發(fā)展歷史中形成了自己獨特的理論體系、思維模式和診療方法。中醫(yī)的整體觀、“天人相應(yīng)”、辨證論治等思想,特別是中醫(yī)對健康狀態(tài)的辨識和養(yǎng)生保健的調(diào)理干預(yù)措施,有望對長期太空飛行的健康保障做出獨特貢獻。在“火星500模擬載人飛行實驗”的“Mars500長期密閉環(huán)境人體中醫(yī)辨證研究”項目中,采取中醫(yī)“望、聞、問、切”的診法,研究長期密閉環(huán)境下人體生命活動的狀態(tài),闡釋其特點及變化規(guī)律,是運用中醫(yī)理論與技術(shù)研究航天員健康保障的一次具有重要科學意義的探索。這項研究力圖揭示長期密閉環(huán)境下的人體中醫(yī)辨證和證候演變規(guī)律,取得的研究結(jié)果為進一步地深入研究、解決長期載人航天飛行的健康保障問題奠定基礎(chǔ)。本項研究具有鮮明的中國科技原創(chuàng)特色,對于促進未來航天飛行中運用中醫(yī)技術(shù)進行監(jiān)測、診斷和進一步實時干預(yù)人體健康狀態(tài),形成具有中國特色的航天醫(yī)學保障體系,具有重要意義。數(shù)據(jù)挖掘是從海量、不完全、有噪聲、模糊、看似隨機的數(shù)據(jù)集合中,提取隱含其中、事先未預(yù)知、有價值的知識和規(guī)律的過程。目前,數(shù)據(jù)挖掘的主流算法有很多,這些算法各有特點,根據(jù)主題的不同可以采用不同的算法。如中醫(yī)方劑的研究多采用關(guān)聯(lián)規(guī)則分析找出復(fù)方中的配伍規(guī)律;中醫(yī)定量診斷可以用貝葉斯網(wǎng)絡(luò)或者多標記學習進行建模;對中醫(yī)醫(yī)案的挖掘可以應(yīng)用聚類分析等當前,已有越來越多中醫(yī)藥領(lǐng)域的研究工作引入最新的數(shù)據(jù)挖掘技術(shù)。例如,將特征選擇技術(shù)和證候預(yù)測方法應(yīng)用于肝硬化中醫(yī)診斷,以輔助肝硬化治療過程中的證候判斷;中醫(yī)領(lǐng)域中高維數(shù)據(jù)癥狀分類相似度計算建模和基于中醫(yī)癥狀和西醫(yī)風險因子的骨質(zhì)疏松癥患病風險建模屬于典型的中醫(yī)藥數(shù)據(jù)建模分析的相關(guān)研究。由于Mars500的實驗成本非常高,參試志愿者需要從事的科學任務(wù)非常繁重,時間寶貴,供本次研究采集實驗數(shù)據(jù)的時間較短,造成采集的實驗數(shù)據(jù)量非常少。參與實驗的各國志愿者總共只有6名,采集到的樣本數(shù)據(jù)只有222條,樣本特征數(shù)目比較多,常規(guī)方法很難適用,數(shù)據(jù)采集后得到的專家證候判讀結(jié)果是多標記情形。因此,本文通過特征選擇方法選出與辯證相關(guān)的重要特征,然后使用多標記分類器建立分類模型。2數(shù)據(jù)采集和預(yù)處理2.1原始數(shù)據(jù)的采集2.1.1境下志愿者的性別、年齡分布本文研究項目的信息采集對象是在Mars500密閉環(huán)境下的6名志愿者(其中黃種1人,白種5人)。男性,年齡在26歲~38歲之間,平均年齡為31.83歲。采集的基本信息包括姓名、性別、出生年月等。2.1.2志愿者的需求和數(shù)據(jù)采集系統(tǒng)采集設(shè)備為“DS01-T型中醫(yī)舌面脈問數(shù)據(jù)采集及輔助診斷系統(tǒng)”,如圖1所示,該設(shè)備對航天員志愿者的問診、望診(面色、舌象)、切診(脈象)數(shù)據(jù)進行采集,從2010年6月3日—2011年11月4日,每2周采集一次。2.2資質(zhì)合作協(xié)議數(shù)據(jù)特征的判讀與分析采用中醫(yī)專家判讀和軟件分析2種方式。中醫(yī)專家共3名,資質(zhì)要求為具有20年以上臨床經(jīng)驗的主任醫(yī)師。先單獨分析,如果三人一致者,則予以確定;如果發(fā)生有一人(或一人以上)不一致,則須另邀2名專家與前3位專家(資質(zhì)同上)共同協(xié)商確定。2.2.1對志愿者的舌診、面診特征進行比別專家對舌面望診信息的判讀,是對模擬艙內(nèi)逐次導(dǎo)出的舌面照片進行信息分析,給出舌面特征的定性描述及可能代表的中醫(yī)醫(yī)理意義。中醫(yī)專家對航天員志愿者的舌診、面診照片進行判讀要結(jié)合前期臨床采集的舌面診數(shù)據(jù)庫中確定的典型樣本,用類比法認定,減少經(jīng)驗誤差。專家判讀的結(jié)論作為辨證的依據(jù)之一。2.2.2通過數(shù)據(jù)分析解釋常見脈象,提出中醫(yī)意義的定案專家對脈象切診信息的判讀,是分析模擬艙內(nèi)逐次導(dǎo)出的脈圖,結(jié)合基于以往數(shù)據(jù)庫所建立的各種常見脈象模型,分析研究航天員志愿者的脈位、脈率、脈力、節(jié)律、脈形等脈圖信息,給出脈象特征的定性判讀及可能代表的中醫(yī)醫(yī)理意義,作為辨證的依據(jù)之一。2.2.3中醫(yī)臨床診斷標準術(shù)語首先需對“Mars500長期密閉環(huán)境條件下中醫(yī)基本證候癥狀量表”中部分癥狀描述用語的含義進行梳理,轉(zhuǎn)換成規(guī)范的中醫(yī)臨床診斷標準術(shù)語,如將“有饑餓感但吃不多”轉(zhuǎn)換為“饑不欲食”。中醫(yī)專家依據(jù)癥狀出現(xiàn)的頻次和程度并結(jié)合臨床經(jīng)驗確定主要癥狀和一般癥狀,對問診信息進行中醫(yī)判讀,分析實驗者的健康狀態(tài)。2.2.4中醫(yī)專家的證候?qū)徟兄嗅t(yī)專家對于問診、面色、舌象、脈象綜合信息進行四診合參證候的分析與判讀。2.2.5切診問卷數(shù)據(jù)集在數(shù)據(jù)采集期間,對6名宇航員志愿者各進行37次采樣,共得到222個樣本。其中,望診數(shù)據(jù)包括面色、舌色、苔色、舌形數(shù)據(jù)集;切診數(shù)據(jù)集包括:左手脈象和右手脈象;問診數(shù)據(jù)來自于中醫(yī)評測量表。進行初步預(yù)處理,剔除3個無效樣本,最終得到219個有效樣本。望診數(shù)據(jù)集共包含245個特征,切診數(shù)據(jù)集共有30個特征,望問切融合數(shù)據(jù)集共有389個特征。本次研究將專家辨證結(jié)果拆分為11個證素組成研究對象的類標集。3建模分析算法通過以上分析,本次研究對象是小樣本多標記問題,所以,需要對樣本進行特征子集的選擇和多標記建模預(yù)測。3.1特征算子的選擇傳統(tǒng)的特征選擇算法都是針對單標記學習的,而在本次研究中,每個樣本都帶有多個標簽,屬于多標記學習問題,因此,本文中使用多標記特征選擇算法來篩選最優(yōu)的特征子集。3.1.1homl優(yōu)化算法混合優(yōu)化多標記特征選擇(HOML)是結(jié)合多標記學習算法提出的一種混合優(yōu)化的技術(shù),該技術(shù)綜合了遺傳算法、模擬退火、蟻群算法等技術(shù)的優(yōu)勢,并利用學習器的預(yù)測結(jié)果選擇特征。對于小樣本問題,較之其他標準的互信息特征選擇方法在建模精度上有良好效果。HOML算法系統(tǒng)如圖2所示,其基本思想是先用模擬退火算法(SA)進行全局搜索。當溫度比較高時,SA接受每一個特征子集,從而在搜索空間上進行隨機近鄰搜索。而當溫度接近0℃時,SA只接受那些能提高解決問題效力的特征子集。SA占用HOML大約50%的時間,然后用遺傳算法(GA)進行優(yōu)化。遺傳算法的交叉算子使得評分高的特征子集之間可以交換信息,而變異算子為種群引入了新的基因,保持了基因多樣性。GA占用HOML大約30%的時間。最后在前2個階段產(chǎn)生的100個最佳特征子集中選出最優(yōu)的特征子集,用爬山貪婪算法進行k近鄰搜索(k代表特征的維度)。3.1.2預(yù)報風險的計算本文采用的MEFS算法是結(jié)合多標記學習算法提出的一種嵌入式特征選擇算法,其算法系統(tǒng)如圖3所示。其中,子集的搜索采用序列后向選擇搜索算法,特征的評價采用預(yù)報風險準則。預(yù)報風險準則:預(yù)報風險是對新觀察數(shù)據(jù)進行分類的預(yù)期性能的估計。在數(shù)據(jù)建模過程中,預(yù)報風險可用來估算模型預(yù)測精度和選擇模型,其中,最小化預(yù)報風險原則經(jīng)常被用于最優(yōu)模型的選擇。通過結(jié)合嵌入式的降維思想,將預(yù)報風險的方法用于特征選擇。通過計算當所有樣例在某個特征的數(shù)值被所有樣例在該特征的平均值代替時的訓練正確率的變化來評價各個特征,用Si表示此訓練正確率的變化,如下所示:其中,ACC表示訓練模型的訓練集上的預(yù)測精度;ACC(xi)表示將訓練集實例的第i個特征用該特征的平均值代替后的訓練精度。對應(yīng)Si值最小的特征將被刪除,因為該特征值的變化對結(jié)果的影響最小,也就是說該特征對區(qū)分類標的作用最小,甚至起負作用。預(yù)報風險用于嵌入式特征選擇的工作取得了很好的效果,所使用的分類器包括ML-KNN等。為了將預(yù)報風險準則用到多標記學習中,本文采取多標記學習性能的評價指標Averageprecision作為預(yù)報風險的計算指標。MEFS算法的描述如下:定義x∈RD表示D維的特征空間,降維的目標維數(shù)為d,特征子集u=[1,2,…,D],刪除特征的序列為r=[…],f(x)表示多標記學習模型在訓練集上的預(yù)測性能度量函數(shù),f(xi)表示將訓練集的第i個特征的所有實例的數(shù)值被該特征的平均值代替后,模型在訓練集上的預(yù)測性能度量。因此,MEFS算法的預(yù)報風險計算公式為:3.2算法的適應(yīng)方法在本文研究中,每個樣本都帶有多個標簽,而對每個樣本的標簽進行判定屬于多標記分類問題。多標記分類問題起源于文本的分類和醫(yī)學診斷的分類,并在機器學習領(lǐng)域得到關(guān)注?,F(xiàn)有的多標記分類算法可以分為2種:一種是問題轉(zhuǎn)化方法(problemtransfor-mationmethods);另一種是算法適應(yīng)方法(alogorithmadapta-tionmethods)。問題轉(zhuǎn)化方法將多標記分類問題轉(zhuǎn)化為一個或者多個單標記分類或者回歸問題,算法適應(yīng)方法對特定的學習算法進行擴展改進,使其能夠直接處理多標記數(shù)據(jù)。本文使用多標記k近鄰(ML-KNN)算法、分類器鏈(CC)算法和RAKEL(Randomk-Labelsets)算法。其中,ML-KNN屬于算法適應(yīng)方法,它將KNN算法擴展到多標記學習上,CC和RAKEL屬于問題轉(zhuǎn)化方法。3.2.1ml-knn算法多標記k近鄰(ML-KNN)算法是在KNN基礎(chǔ)上提出的一種多標記學習算法。其多標記學習特性適用的證候結(jié)果不是單純證,而是夾雜或者兼證的情況。其基本思想是采用k近鄰(k-nearestneighbors)分類準則,統(tǒng)計近鄰樣本的類別標記信息,通過最大化后驗概率(MaximumAPosteriori,MAP)的方式推理未知示例的標記集合。ML-KNN算法的具體流程如下:(1)計算與每個樣本關(guān)聯(lián)的每個類標的條件分布概率。(2)計算測試樣本xi與每個訓練樣本之間的距離,并找出與之最近的k個樣本,對每個測試樣本重復(fù)進行以上操作。(3)根據(jù)與xi最近的k個訓練樣本類標的條件概率來預(yù)測xi的類標,然后對每個測試樣本重復(fù)以上操作。(4)根據(jù)多標記學習的評價準則評估預(yù)測的結(jié)果。3.2.2cc算法標簽分類器鏈(CC)算法是在BR(BinaryRelevance)算法的基礎(chǔ)上提出的,依然使用BR所使用的二叉分類。CC與BR的最大不同是,CC考慮到訓練數(shù)據(jù)集中標簽之間的關(guān)聯(lián)關(guān)系,它將這些基分類器ci,i=1,2,…,n串聯(lián)起來形成一條鏈。CC算法的描述如下:CC為每一個標簽ci∈L={c1,c2,…,cn}學習一個分類器hi:x→{?ci,ci}。學習分類器hi時,CC把cn∈{c1,c2,…,ci-1}都當做特征。假設(shè)一個新的樣例x需要被分類,分類器h1判斷x是否屬于標簽c1,設(shè)其值為y∈{0,1},得出Pr(c1|x)。分類器h2判斷x是否屬于標簽c2,但是此時會將y1作為輸入得到Pr(c2|x,c1)。以此類推,當hi判斷x是否屬于標簽ci時,會將y1,y2,…,yi-1作為額外的信息輸入得到Pr(ci|x,c1,c2,…,ci-1)。這種鏈的方式使得標簽信息在分類器之間傳遞,考慮到標簽之間的關(guān)聯(lián)性,克服了BR的缺點,并且仍然保持BR計算復(fù)雜度低的優(yōu)點。在預(yù)測一個樣例是否具有某個標簽時,CC算法會將之前得到的所有標簽結(jié)果加入到樣例特征中,為預(yù)測該標記提供信息。表1給出了CC算法的執(zhí)行過程,為了表示方便,這里假設(shè)特征值由0/1表示,樣本x=[0,1,0,1,0,0,1,1,0]。3.2.3標記分類算法RAKEL(Randomk-Labelsets)使用隨機標簽組合的方法進行多標記分類,這是一種被廣泛使用的基于問題轉(zhuǎn)化的方法,它將訓練數(shù)據(jù)中的每種標簽重新組合,進行二進制編碼,從而形成全新的標簽,這種方法改進了LP(LabelPowerset)算法不可預(yù)測新標簽組合的缺點,并在一定程度上降低了計算復(fù)雜度。4結(jié)果與分析4.1實驗結(jié)果及分析本文首先利用ML-KNN、CC和RAKEL分類器對望問切融合數(shù)據(jù)、望診數(shù)據(jù)、切診數(shù)據(jù)進行分類,通過對比實驗結(jié)果找出最好的分類模型,然后再將HOML和MEFS特征選擇方法分別加入到最好的分類模型中進行實驗,之后通過實驗結(jié)果對比,將分類精度最高的模型作為最終的分類模型。在實驗中,ML-KNN分類器的K參數(shù)設(shè)置為10,平滑系數(shù)設(shè)置為1,實驗采用5倍交叉驗證。本文使用Averageprecision,Rankingloss,Oneerror,Hammingloss這4個評價指標進行結(jié)果分析。其各項指標的具體定義如下:Averageprecision:在樣本的概念標記排序序列中,排在隸屬于該樣本概念標記之前的標記仍屬于樣本標記集合的情況。Rankingloss:在樣本的概念標記排序序列中出現(xiàn)排序錯誤的情況。Oneerror:在樣本的概念標記排序序列中,序列最前端的標記不屬于樣本標記集合的情況,對應(yīng)于單標記學習問題中傳統(tǒng)的分類誤差。Hammingloss:樣本在單個概念類上的誤分類情況,即隸屬于該樣本的概念類未出現(xiàn)在標記集合中或者不屬于該樣本的概念類出現(xiàn)在標記集合中。其中,Averageprecision的值越大越好,其他指標越小越好。4.2homl和mefs特征選擇方法對望問切融合數(shù)據(jù)進行分類實驗使用ML-KNN、CC和RAKEL分類器對望問切融合數(shù)據(jù)、望診數(shù)據(jù)、切診數(shù)據(jù)進行分類,結(jié)果如表2、表3和表4所示。通過對實驗結(jié)果的分析對比,發(fā)現(xiàn)使用ML-KNN在這3組數(shù)據(jù)上的分類效果明顯比CC和RAKEL的分類效果好,并且ML-KNN在望問切融合數(shù)據(jù)上的分類結(jié)果是最好的。因此,將HOML和MEFS特征選擇方法加入到ML-KNN對于望問切融合數(shù)據(jù)的分類實驗中,實驗結(jié)果如表5和表6所示。使用HOML在望問切融合數(shù)據(jù)特征的選擇結(jié)果如表7所示,特征選擇所選結(jié)果所代表的醫(yī)學含義如表8所示。通過對比分析上述結(jié)果可以發(fā)現(xiàn),在使用ML-KNN、CC、RAKEL建立的模型中,融合數(shù)據(jù)的分類準確率都明顯高于單一診次的數(shù)據(jù),因此,在中醫(yī)辨證中,四診合參是十分重要的。將HOML和MEFS加入到ML-KNN對于望問切融合數(shù)據(jù)的分類中進行實驗,發(fā)現(xiàn)HOML對于ML-KNN的分類精度有所提升,MEFS對于ML-KNN的分類精度有所下降;同時,通過特征選擇選出對于分類有貢獻的重要特征。因此,可以將含有HOML和ML-KNN的模型作為最終的分類模型。4.3模型的穩(wěn)定性、準確性及高效性通過對以上實驗結(jié)果的對比表明,ML-KNN和HOML在望問切融合數(shù)據(jù)上的分類精度是最好的,為了驗證模型的穩(wěn)定性,將ML-KNN中的k分別設(shè)置為2,4,6,8,10進行實驗,結(jié)果如圖4所示。通過分析圖4,可以得出如下結(jié)論:(1)隨著k值的變化,各項指標的值都有所變化,但是變化的范圍很小,所以模型的穩(wěn)定性較好;(2)當k取值為4時,模型的性能在Averageprecision、OneError、Hamminglo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 儲備糧庫裝卸作業(yè)流程優(yōu)化方案
- 水電設(shè)備購置及使用方案
- 農(nóng)田作物生長模擬與預(yù)測方案
- 農(nóng)村小型風電場建設(shè)方案
- 土石方工程施工進度控制方案
- 兒童病房樓道改造方案
- 建筑材料檢測方案
- 消防應(yīng)急照明布置方案
- 農(nóng)村智能農(nóng)業(yè)設(shè)備應(yīng)用方案
- 施工現(xiàn)場冷卻水系統(tǒng)管理方案
- 婦科醫(yī)師年終總結(jié)和新年計劃
- 2026海南安保控股有限責任公司招聘11人筆試模擬試題及答案解析
- 裝飾裝修工程施工組織設(shè)計方案(二)
- 2026上海碧海金沙投資發(fā)展有限公司社會招聘參考題庫必考題
- 靜脈用藥調(diào)配中心(PIVAS)年度工作述職報告
- 保險業(yè)客戶服務(wù)手冊(標準版)
- 檢驗科內(nèi)控制度
- DB44-T 2771-2025 全域土地綜合整治技術(shù)導(dǎo)則
- nccn臨床實踐指南:宮頸癌(2025.v2)課件
- 淺談醫(yī)藥價格管理現(xiàn)狀透析
- 全屋定制合同協(xié)議模板2025年標準版
評論
0/150
提交評論