CDSS醫(yī)療決策支持系統(tǒng)全套_第1頁
CDSS醫(yī)療決策支持系統(tǒng)全套_第2頁
CDSS醫(yī)療決策支持系統(tǒng)全套_第3頁
CDSS醫(yī)療決策支持系統(tǒng)全套_第4頁
CDSS醫(yī)療決策支持系統(tǒng)全套_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

CDSS醫(yī)療決策支持系統(tǒng)一、臨床決策管理系統(tǒng)簡介醫(yī)療決策支持系統(tǒng)(CDSS)自誕生以來已經(jīng)經(jīng)歷了60余年,早期經(jīng)典的應(yīng)用就是專家系統(tǒng),利用計算機程序和醫(yī)學(xué)知識來模擬專家的思維。由此發(fā)展而來的CDSS大多數(shù)基于臨床指南、藥品說明書等的醫(yī)學(xué)知識,知識庫中的知識大多由可編譯的規(guī)則構(gòu)成。推理引擎作為CDSS的大腦,需要將患者實際信息與知識庫中的規(guī)則進行匹配,以達到模擬專家思維,提供決策支持服務(wù)的目的。研究表明,這種基于規(guī)則的CDSS以簡單的警告和提醒方式就可以對臨床活動產(chǎn)生有益的影響。隨著計算機技術(shù)的發(fā)展,現(xiàn)代臨床決策支持系統(tǒng)(CDSS)將計算機科學(xué)與AI技術(shù)和醫(yī)療領(lǐng)域知識相結(jié)合,利用數(shù)據(jù)分析以及算法模型對醫(yī)療信息進行處理,形成結(jié)構(gòu)化的醫(yī)學(xué)知識,再結(jié)合web開發(fā)技術(shù),通過簡單直觀的人機交互頁面來為醫(yī)護人員提供決策支持功能,經(jīng)驗證能夠為醫(yī)療救治率帶來顯著的提高。近年來,在相關(guān)政策的支持下,智能醫(yī)療蓬勃發(fā)展,在流行病預(yù)測、醫(yī)患身份核驗、醫(yī)療輔助診斷、精準外科手術(shù)、醫(yī)藥研發(fā)、智能健康管理等多個領(lǐng)域飛速發(fā)展。其中,流行病預(yù)測與醫(yī)療輔助診斷是重要的落地場景。智能醫(yī)療離不開醫(yī)療健康數(shù)據(jù),其具有體量大、多態(tài)性、不完整性、冗余性等特點,從中挖掘出的有用信息可以用作疾病診斷和決策支持。醫(yī)療健康數(shù)據(jù)的挖掘與應(yīng)用已經(jīng)成為智能醫(yī)療的重要步驟。隨著電子信息化在醫(yī)療領(lǐng)域的普及,海量電子醫(yī)療數(shù)據(jù)沉淀,數(shù)據(jù)類型和數(shù)據(jù)量持續(xù)增加。醫(yī)療健康數(shù)據(jù)可以在“海量數(shù)據(jù)”與“醫(yī)療問題”之間架起一條通道,提供健康管理、輔助診療等解決方案?,F(xiàn)如今,醫(yī)療數(shù)據(jù)的來源多種多樣,眾多醫(yī)療知識庫可以向大眾提供豐富的醫(yī)療知識,如百度百科、人衛(wèi)網(wǎng)知識庫等。此外,隨著HIS系統(tǒng)及EHR系統(tǒng)的廣泛使用,醫(yī)院內(nèi)沉淀了大量的臨床數(shù)據(jù),充分利用這些數(shù)據(jù),可以發(fā)掘巨大的實用價值。本文第二、三、四部分分別介紹了臨床決策系統(tǒng)的三個功能模塊,分別是知識圖譜可視化展示模塊,基于電子病歷的疾病診斷及相似病歷推薦模塊,以及醫(yī)學(xué)知識庫模塊。第五部分對剩余工作及未來計劃做了一個簡單說明。二、知識圖譜可視化展示模塊2.1知識圖譜相關(guān)理論從實際應(yīng)用的角度出發(fā),可以把知識圖譜簡單地理解為多關(guān)系圖(Multi-relationGraph),其包含多種類型的節(jié)點和多種類型的邊。定義一個有向圖來描述知識,其中是一組引用不同實體的頂點,是一組引用不同類型邊的實體間關(guān)系。知識圖譜中,圖的節(jié)點表示“實體(Entity)”、圖的“邊”表示“關(guān)系(Relation)”。實體指現(xiàn)實世界中的事物比如人、地點、藥品、公司等,關(guān)系指不同實體間的某種聯(lián)系。此外,實體和關(guān)系也會擁有各自的屬性,例如,定義“疾病”和“藥品”兩個實體,實體間的關(guān)系可表示為“適用于”。同時,可在“疾病”這一實體中定義“并發(fā)癥”、“是否流行病”等屬性。2.1.1知識圖譜構(gòu)建知識圖譜構(gòu)建通常有兩種思路,自底向上和自頂向下。前者的思路是先進行數(shù)據(jù)采集,再完善模式層體系架構(gòu);而后者的思路是先進行模式層設(shè)計,根據(jù)領(lǐng)域知識特點,預(yù)先定義實體及關(guān)系,形成一個知識圖譜框架,通過這個框架來規(guī)范后續(xù)知識收集和存儲工作。在構(gòu)建通用領(lǐng)域知識圖譜時,由于通用領(lǐng)域知識范圍較大,知識類型龐雜,因此適合采用自底向上的方式構(gòu)建,先抽取三元組,再根據(jù)三元組內(nèi)容來逐漸完善知識圖譜的體系架構(gòu)。而在構(gòu)建行業(yè)知識圖譜時,由于行業(yè)領(lǐng)域?qū)χR專業(yè)性和精度有較高要求,適合采用自頂向下的方式構(gòu)建,先對模式層進行設(shè)計,再據(jù)此進行后續(xù)的知識導(dǎo)入。知識圖譜的數(shù)據(jù)來源主要分為兩類,一類是結(jié)構(gòu)化數(shù)據(jù),如行業(yè)數(shù)據(jù)庫當前已有的表型數(shù)據(jù),可直接應(yīng)用于知識圖譜構(gòu)建;第二類是半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)包括各種文檔、資料中的自然語言文本,從該類數(shù)據(jù)中獲取實體和關(guān)系主要通過自然語言處理和神經(jīng)網(wǎng)絡(luò)等技術(shù)來實現(xiàn)。知識融合是對獲取到的實體進行實體對齊、實體消歧等操作,因為多個數(shù)據(jù)源中可能對于同一個實體有不同描述方式,而同一個實體也可能代表不同的含義,比如“蘋果”可以是一種水果,也可以是指“蘋果手機”。知識加工是指將知識以本體的形式進行存儲,再使用規(guī)則描述語言配合規(guī)則推理引擎對現(xiàn)有實體和關(guān)系進行歸納好挖掘的過程,能夠發(fā)現(xiàn)其中新的、隱含的實體關(guān)系,以豐富知識圖譜的廣度和深度。知識圖譜的構(gòu)建工作是一個持續(xù)性的過程,實體和關(guān)系越豐富,就越能發(fā)揮出知識圖譜的優(yōu)勢,因此需要通過后期不斷增加新的知識和內(nèi)容,來完善知識圖譜,才能在后續(xù)應(yīng)用中活的更好的效果。2.1.2知識圖譜存儲知識圖譜是對眾多客觀存在的信息之間進行關(guān)系創(chuàng)建進而形成的一個關(guān)系網(wǎng)絡(luò),為了能夠高效利用知識圖譜中豐富的語義關(guān)系,需要選擇適合的存儲方式,目前適用于知識圖譜存儲的數(shù)據(jù)庫主要有三類,包括RDF三元組數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫以及圖數(shù)據(jù)庫。使用上述三類數(shù)據(jù)庫存儲知識圖譜的優(yōu)缺點如表2-1所示。其中RDF類的數(shù)據(jù)庫是早期設(shè)計用于語義知識存取的數(shù)據(jù)庫,通過SPARQL查詢語言對三元組進行查詢,但是這類數(shù)據(jù)庫存在可擴展性差,查詢效率低的問題,不符合本文知識圖譜應(yīng)用需求。關(guān)系型數(shù)據(jù)庫操作具有復(fù)雜關(guān)系的數(shù)據(jù)時需要進行繁瑣的外鍵查詢,注定不適合大規(guī)模知識圖譜的存儲,如何從關(guān)系型數(shù)據(jù)庫中對語義知識進行抽取也是一個難點。而圖數(shù)據(jù)庫是近兩年數(shù)據(jù)庫發(fā)展的熱點,它的基本存儲結(jié)構(gòu)包括節(jié)點和節(jié)點之間的有向邊,這種特殊的數(shù)據(jù)結(jié)構(gòu)與知識圖譜非常契合,并且圖數(shù)據(jù)庫非常適合應(yīng)用于多對多關(guān)系的處理,借助于圖搜索算法,能夠以穩(wěn)定的速度便利圖中的節(jié)點和關(guān)系邊,圖的量級增加不會對查詢速度造成太大影響,因此本系統(tǒng)選用Neo4j圖數(shù)據(jù)庫來進行知識圖譜存儲。Neo4j作為圖數(shù)據(jù)庫中的佼佼者,近年來發(fā)展迅速,在實際業(yè)務(wù)中已經(jīng)具備比較成熟的使用環(huán)境,滿足一個數(shù)據(jù)庫的所有特性,比如事物的ACID原則,并且自帶一個友好的web前端樣式的圖形操作頁面,自帶的圖結(jié)構(gòu)查詢語言Cypher能夠便捷地進行數(shù)據(jù)查詢,并且它是由Java語言開發(fā)實現(xiàn)的,能夠很好地融入本系統(tǒng)的開發(fā)工作。表2-1知識圖譜存儲方案比較數(shù)據(jù)庫類型優(yōu)勢缺點RDF數(shù)據(jù)結(jié)構(gòu)清晰明了共享發(fā)布缺乏成熟的查詢搜索引擎數(shù)據(jù)結(jié)構(gòu)不靈活關(guān)系型數(shù)據(jù)庫應(yīng)用成熟,存儲方便小型知識圖譜查詢效率高復(fù)雜關(guān)系查詢效率低數(shù)據(jù)更新維護效率低圖數(shù)據(jù)庫豐富的查詢算法多級深度搜索效率高內(nèi)存空間消耗大2.2可視化展示知識圖譜構(gòu)建2.2.1數(shù)據(jù)庫設(shè)計該模塊所用到的數(shù)據(jù)均是從尋醫(yī)網(wǎng)爬取下來的,因為是采用先收集數(shù)據(jù),再構(gòu)建圖譜的方式進行,因此該圖譜采用自底向上的方式搭建。該知識圖譜的模式層構(gòu)建包括7個實體表、11個實體關(guān)系表,并導(dǎo)入Neo4j圖數(shù)據(jù)庫中,完成知識圖譜存儲。定義實體為了保證知識圖譜實體及實體關(guān)系定義的權(quán)威性與合理性,本模塊所定義的領(lǐng)域本體專業(yè)術(shù)語根據(jù)尋醫(yī)網(wǎng)爬取知識定義,最終確定為“藥品”、“食物”、“檢查”、“科室”、“生產(chǎn)商”、“疾病”、“癥狀”共計7種實體。定義實體關(guān)系實體關(guān)系表明了不同種類實體之間的聯(lián)系,根據(jù)對爬取數(shù)據(jù)的歸類總結(jié),共定義了11種實體關(guān)系,分別是:“科室-科室關(guān)系”、“疾病-忌吃食物關(guān)系”、“疾病-宜吃食物關(guān)系”、“疾病-推薦吃食物關(guān)系”、“疾病-通用藥品關(guān)系”、“疾病-熱門藥品關(guān)系”、“疾病-檢查關(guān)系”、“廠商-藥物關(guān)系”、“疾病癥狀關(guān)系”、“疾病-并發(fā)癥關(guān)系”、“疾病-科室關(guān)系”。圖2-2實體關(guān)系分類2.2.2界面設(shè)計本系統(tǒng)前端采用vue框架進行開發(fā),用到了Element-UI組件及d3.js或Eharts插件進行動態(tài)效果展示。當用戶在搜索框中輸入疾病、癥狀、藥品等關(guān)鍵字后,系統(tǒng)后臺會自動到圖數(shù)據(jù)庫中進行搜索,找出所有滿足條件的節(jié)點及其內(nèi)容,逐條展示到界面上。與此同時,每條顯示后面都跟隨一個“關(guān)系圖”按鈕,當用戶點擊該按鈕時,會彈出一個面板,在該面板上展示出該節(jié)點以及與該節(jié)點有關(guān)的所有關(guān)系與節(jié)點,當用戶單擊其中某一個節(jié)點時,又會以該節(jié)點為中心進行新的展示。該界面原型圖如圖2-3,及2-4所示。圖2-3知識圖譜查詢界面圖2-4知識圖譜展示彈框三、基于電子病歷的疾病診斷及相似病歷推薦模塊由于學(xué)習(xí)疾病的種類多種多樣,因此想通過一套模型準確定位出疾病種類,其數(shù)據(jù)量及復(fù)雜程度很大,因此可以將疾病進行簡單分類,如腫瘤診斷、慢性病查詢診斷等,再分別設(shè)計對應(yīng)的疾病診斷算法,提高模型查詢的準確度。本模塊以腫瘤診斷為例,設(shè)計了一套腫瘤領(lǐng)域疾病診斷的模型,今后是否補充其他模塊可以與專業(yè)臨床醫(yī)生咨詢,同時與領(lǐng)導(dǎo)溝通工作量,討論是否需要展開工作。3.1基于電子病歷的腫瘤診斷模塊該模塊數(shù)據(jù)來源為某腫瘤醫(yī)院中的中文電子病歷,根據(jù)業(yè)務(wù)需求和腫瘤電子病歷文本數(shù)據(jù)的特點,結(jié)合領(lǐng)域知識圖譜構(gòu)建的一般性流程,設(shè)計了如圖3-1所示的腫瘤知識圖譜構(gòu)建流程,包括模式層構(gòu)建、知識抽取、知識存儲與加工、知識圖譜應(yīng)用四個步驟。模式層構(gòu)建由于腫瘤領(lǐng)域知識圖譜具有較強的專業(yè)性要求,因此采用自頂向下的方式進行。首先根據(jù)病歷文本特征和業(yè)務(wù)需求完成知識圖譜的模式層構(gòu)建,由于決策支持系統(tǒng)是為腫瘤疾病診療工作服務(wù),因此知識圖譜構(gòu)建的目標主要是圍繞腫瘤疾病來進行,并且一份電子病歷所記錄的診療記錄等信息均為同一個病人的實際問診過程,可以據(jù)此定義實體之間的語義關(guān)系,最后再根據(jù)醫(yī)院方面醫(yī)生的評估意見,對模式層進行修改完善,形成一個腫瘤知識圖譜框架。知識抽取知識抽取是知識圖譜構(gòu)建的關(guān)鍵步驟,抽取出的腫瘤知識需要能夠支撐系統(tǒng)來為用戶提供腫瘤診療業(yè)務(wù)。首先要對原始的電子病歷數(shù)據(jù)進行處理,主要工作包括數(shù)據(jù)清洗、規(guī)約變化以及新的數(shù)據(jù)特征獲??;接著根據(jù)實際需要指定了實體標注規(guī)則,標注獲取到了結(jié)構(gòu)化的實體數(shù)據(jù),再通過代碼對實體數(shù)據(jù)進行Bio序列化標注,之后構(gòu)建了實驗數(shù)據(jù)對BiLSTM-CRF模型進行訓(xùn)練,最終抽取出知識圖譜構(gòu)建需要的實體數(shù)據(jù)。圖3-1腫瘤知識圖譜構(gòu)建流程知識加工與存儲在領(lǐng)域知識圖譜構(gòu)建的一般性流程中,知識加工包括實體消歧、實體對齊、知識推理等工作。考慮到腫瘤知識的準確性要求,并且知識圖譜的語義關(guān)系已經(jīng)足夠豐富,因此無需進行知識推理。同時文本構(gòu)建的知識圖譜時基于單一的數(shù)據(jù)來源構(gòu)建的,不存在一詞多義的情況,因此只需要考慮實體對齊的工作,該項任務(wù)通過構(gòu)建詞典來實現(xiàn)。因此可以用9個實體表和12個實體關(guān)系表表示,并導(dǎo)入Neo4j圖數(shù)據(jù)庫中,完成知識圖譜存儲。知識圖譜應(yīng)用構(gòu)建的知識圖譜將作為決策支持系統(tǒng)的底層數(shù)據(jù)支撐,為醫(yī)護人員提供應(yīng)用服務(wù)。其中知識圖譜管理模塊通過引入neo4j配置依賴并封裝Cypher語句來實現(xiàn)知識圖譜的可視化服務(wù)和語義搜索服務(wù);醫(yī)療輔助決策模塊通過知識圖譜的關(guān)系邊來存儲疾病各癥狀出現(xiàn)的頻次,進而計算癥狀之于疾病的權(quán)重,并將權(quán)重作為知識圖譜的癥狀-疾病關(guān)系邊的屬性進行存儲,最終實現(xiàn)疾病診斷功能;臨床治療路徑模塊通過為知識圖譜的輔助檢查、藥物、手術(shù)等節(jié)點創(chuàng)建倒排索引來為用戶提供迅速的診療項目添加功能。3.1.1知識圖譜模式層構(gòu)建腫瘤知識圖譜的模式層構(gòu)建包括定義腫瘤領(lǐng)域?qū)嶓w類、定義實體的數(shù)據(jù)屬性以及定義實體的對象屬性三部分。定義腫瘤領(lǐng)域?qū)嶓w通過查閱大量資料,本模塊定義出9種實體:“患者”、“疾病”、“科室”、“臨床癥狀”、“輔助檢查”、“治療方式”、“手術(shù)”、“藥物”、“護理方式”?;颊撸╬atient):患有腫瘤疾病的人。疾病(disease):疾病的名稱,圖譜的關(guān)鍵實體。下位類包括腫瘤疾病和腫瘤疾病在治療過程中引起的并發(fā)癥(非腫瘤疾?。?,并發(fā)癥同樣能帶來巨大的威脅,有的甚至更早的奪走了患者的生命。科室(department):以患者最終進行治療的科室作為患者所患疾病的對應(yīng)科室,后續(xù)將以科室為單位進行腫瘤疾病診斷,并且系統(tǒng)多個功能都會把科室作為篩選項。臨床癥狀(symptom):患有該腫瘤疾病患者的臨床表現(xiàn)。下位類包括癥狀和體征。癥狀是患者的主觀體驗,如眩暈、腹痛、惡心等;體征是患者經(jīng)過醫(yī)學(xué)手段檢查后所發(fā)現(xiàn)的身體指標及異常結(jié)果。輔助檢查(examination):針對該腫瘤疾病所需要采取的檢查措施,用于腫瘤疾病的診斷。包括常規(guī)的體格檢查和實驗室檢查以及進一步的影像學(xué)檢查和腫瘤標志物檢查等。治療方式(treatment):針對該腫瘤疾病的醫(yī)學(xué)處理方式。包括抑酸,霧化,保胃,抗凝等。藥物(medicine):在治療過程中使用的藥物。手術(shù)(operation):在治療過程中進行過的手術(shù)。護理方式(nursing):在患者康復(fù)住院階段進行過的護理工作。定義數(shù)據(jù)屬性數(shù)據(jù)屬性是類的內(nèi)部屬性,是類固有的性質(zhì),用于準確描述領(lǐng)域?qū)嶓w。根據(jù)腫瘤疾病特點和知識源,定義“患者”的數(shù)據(jù)屬性包括患者編號、性別、年齡、入院時間、出院時間、住院天數(shù),為了保證患者的隱私安全,采用數(shù)據(jù)脫敏技術(shù)隱去了患者的身份信息;“疾病”的數(shù)據(jù)屬性包括名稱、ICD-10編碼、治療周期、治療費用;“臨床癥狀”的數(shù)據(jù)屬性包括名稱、狀態(tài);由于數(shù)據(jù)中缺乏其他類的數(shù)據(jù)屬性,如藥物的用法、用量、價格,并且本文的主要目標是對于腫瘤實體之間關(guān)系的探索,因此對于其他類并未添加數(shù)據(jù)屬性。實體數(shù)據(jù)屬性具體情況如表3-1所示。表3-1腫瘤實體數(shù)據(jù)屬性類(實體)數(shù)據(jù)屬性患者患者編號(string)、性別(int)、年齡(Boolean)、入院時間(datatime)、出院時間(datatime)、住院天數(shù)(int)疾病名稱(string)、ICD-10(string)、治療周期(int)、治療費用(int)臨床癥狀名稱(string)、狀態(tài)(string)科室名稱(string)藥物名稱(string)手術(shù)名稱(string)治療方式名稱(string)輔助檢查名稱(string)護理方式名稱(string)定義對象屬性對象屬性是類的外部屬性,也就是腫瘤知識之間的語義關(guān)系,語義關(guān)系可以是雙邊的,也可以是單邊的,還可以是同類實體之間的。語義關(guān)系分為基本語義關(guān)系和領(lǐng)域語義關(guān)系,基本語義關(guān)系包括四類:部分與整體關(guān)系,上下位類間的從屬關(guān)系,實體類和實例間的從屬關(guān)系,實例和數(shù)據(jù)屬性關(guān)系;根據(jù)查閱大量資料,最終定義了總共12條腫瘤醫(yī)學(xué)實體之間的語義關(guān)系,具體情況如表3-2所示。表3-2腫瘤實體對象屬性實體1語義關(guān)系實體2患者患有(PHD)疾病疾病引起(DCD)疾病疾病屬于(DBD)科室疾病接受(DRC)輔助檢查疾病表現(xiàn)出(DSS)臨床癥狀疾病需要(DNT)治療方式疾病服用(DTM)藥物疾病接受(DRO)手術(shù)疾病采?。―AN)護理方式臨床癥狀表明(SID)疾病臨床癥狀需要(SNT)治療方式科室包含(DCS)臨床癥狀3.1.2數(shù)據(jù)采集本模塊所使用的數(shù)據(jù)為腫瘤電子病歷系統(tǒng)(EHR)導(dǎo)出的電子病歷數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括患者號、性別、年齡、入院時間、出院時間、住院天數(shù)、婚否、疾病名稱、治療周期、治療費用、體征數(shù)值等實體及數(shù)據(jù)屬性,需要對上述數(shù)據(jù)的異常值、空值進行清洗;非結(jié)構(gòu)化文本數(shù)據(jù)包括入院體察,診療計劃,診療經(jīng)過等,這些文本數(shù)據(jù)中包含需要的其他實體數(shù)據(jù),包括患者、疾病、科室、臨床癥狀、輔助檢查、治療方式、手術(shù)、藥物、護理方式等,后續(xù)通過自然語言處理算法來完成上述實體的識別工作。結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)清洗工作,通過pandas數(shù)據(jù)分析庫來進行,pandas提供了豐富的庫函數(shù),根據(jù)需求制定各項數(shù)據(jù)清洗規(guī)則,調(diào)用庫函數(shù)來完成數(shù)據(jù)清洗工作。數(shù)據(jù)清洗規(guī)則可根據(jù)數(shù)據(jù)質(zhì)量情況自行定義,以下是一些參考規(guī)則:將患者號為空的數(shù)據(jù)行標為異常,刪除該條數(shù)據(jù);將性別為空或不為1、2的數(shù)據(jù)行標記為異常,刪除該條數(shù)據(jù)。將年齡為空值,小于0或大于100標記為異常,以平均值插入填充。將出院時間和入院時間為空值,出院時間小于入院時間標為異常,刪除該條數(shù)據(jù)。將住院天數(shù)為空值,小于0的值標記為異常,以出院時間和入院時間的差值進行填充?;榉?、病灶大小不對后續(xù)推理造成影響,不做處理。疾病名稱將空值視為異常,刪除該條數(shù)據(jù)。治療周期以相同疾病住院天數(shù)的平均值進行填充。治療費用以相同疾病治療費用的平均值進行填充。體征除了包括常規(guī)數(shù)據(jù)清洗工作,還需要將數(shù)值映射為狀態(tài),患者與自身體征數(shù)據(jù)相關(guān)聯(lián),而疾病與抽象出來的異常體征狀態(tài)相關(guān)聯(lián),需要進行狀態(tài)映射的體征具體處理規(guī)則如表3-3所示。表3-3體征處理規(guī)則體征映射規(guī)則映射結(jié)果呼吸根據(jù)每分鐘呼吸次數(shù)來劃分狀態(tài)呼吸次數(shù)為12-20次視作呼吸正常,否則視作呼吸異常脈搏根據(jù)每分鐘脈搏跳數(shù)來劃分狀態(tài)脈搏跳數(shù)結(jié)余60-100視作脈搏正常,否則視作脈搏異常疼痛根據(jù)疼痛的數(shù)值進行分段,每段對應(yīng)一個狀態(tài)疼痛值介于1-3視作輕度疼痛,疼痛值介于4-6視作中度疼痛,疼痛值介于7-9視作重度疼痛體溫根據(jù)體溫具體數(shù)值來劃分狀態(tài)體溫介于36-37視作體溫正常,否則視作體溫異常血壓根據(jù)舒張壓和收縮壓的具體數(shù)值來劃分狀態(tài)舒張壓介于60-90并且收縮壓介于90-140視作血壓正常,否則視作血壓異常氧飽和根據(jù)氧飽和最大值和最小值的具體數(shù)值來劃分狀態(tài)氧飽和介于95-100視作氧飽和正常,否則視作氧飽和異常3.1.3命名實體識別算法設(shè)計命名實體識別(NER)任務(wù)是自然語言處理(NLP)的基礎(chǔ),本質(zhì)上是對標注的實體進行分類的分類任務(wù)。目前NER比較流行的算法模型時BiLSTM-CRF模型,使用BiLSTM作為詞的特征提取器對序列與標簽的關(guān)系進行預(yù)測,再加上CRF層,為輸出的詞標簽添加約束,減少無效標簽的輸出。3.1.3.1實驗數(shù)據(jù)處理(1)命名實體預(yù)標注在進行命名實體識別任務(wù)之前,需要先將文本數(shù)據(jù)中的實體標注出來,由于腫瘤領(lǐng)域具有極強的專業(yè)性,對于數(shù)據(jù)的質(zhì)量要求較高,因此采取人工標注的方式,來確保實體標注工作的有效性。標注規(guī)則可以由系統(tǒng)開發(fā)人員設(shè)計,以下規(guī)則可以用來參考:“未見”、“無”、“排除”、“未伴有”等關(guān)鍵字后續(xù)的癥狀實體,不進行標注。“否認”,“未使用”,“拒絕”等關(guān)鍵詞后續(xù)的疾病、手術(shù)實體不進行標注。保留對于疾病性質(zhì)的修飾詞,如關(guān)鍵詞“急性”、“惡性”、“高分化”、“低級別”。忽略對于癥狀程度的修飾詞,如關(guān)鍵詞“輕微”、“輕度”、“明顯”。對于不確定的情況不進行標注,如關(guān)鍵詞“可能”、“考慮”。對于特殊符號,僅對代表異常情況的實體進行標注,如在免疫組化染色顯示結(jié)果中“-”為陰性,“+”為陽性,則只標注陽性指標。考慮實體之間嵌套的情況,如“直腸癌根治術(shù)”只標注為“手術(shù)-直腸癌根治術(shù)”,而非“器官-直腸”或是“疾病-直腸癌”。由于標注工作十分繁瑣,因此可以考慮借助標注工具,如Colabeler。該工具支持TXT和Json格式的數(shù)據(jù)自行導(dǎo)入,能夠自定義實體類型,實體關(guān)系,可標注實體的相關(guān)屬性,病提供可視化標注界面,來簡化標注工作。標注工作完成之后,使用工具自帶的導(dǎo)出功能能夠?qū)俗⒑玫膶嶓w導(dǎo)出為Json格式。(2)命名實體序列化標注標注得到的結(jié)構(gòu)化實體數(shù)據(jù),還需要進行序列化標注,用于后續(xù)的算法模型訓(xùn)練。本實驗數(shù)據(jù)序列化標注按照BIO標注法進行,B-begin代表實體首個字符的標簽,I-inside代表實體中間部分及尾部字符的標簽,O-outside代表文本數(shù)據(jù)中非實體部分的標簽。序列化標注工作在前文已標注的結(jié)構(gòu)化文本數(shù)據(jù)的基礎(chǔ)上進行,按照實體的類型為實體打上相應(yīng)的序列化標簽,具體標簽表示情況如表3-4所示。表3-4序列化標簽表示情況實體名稱實例開始標簽中間和結(jié)尾標簽臨床癥狀惡心B-symI-sym科室婦科B-depI-dep疾病胃竇癌B-disI-dis治療方式抗凝B-treI-tre藥物奧沙利鉑B-medI-med輔助檢查胃鏡檢查B-supI-sup手術(shù)膽囊切除術(shù)B-opeI-ope護理方式二級護理B-nurI-nur序列化標注實現(xiàn)過程第一步是生成數(shù)據(jù)字典,將Colabeler標注好的json文件作為原始標注文本數(shù)據(jù),將每個實體及其數(shù)字標簽生成一個數(shù)據(jù)字典。接著將json文件中的數(shù)據(jù)打上標簽,實體首字符以B-開頭,中間及結(jié)尾字符以I-inside打標簽,其余非實體字符輸出O-other標簽。將標注完的腫瘤領(lǐng)域電子病歷文本按照7:3的比例分成訓(xùn)練集和測試集,用于后續(xù)命名實體識別算法模型訓(xùn)練工作。3.1.3.2模型選擇在命名實體識別任務(wù)中,BiLSTM-CRF是被驗證具有較好效果的一類算法模型,其模型結(jié)構(gòu)如圖3-2所示。圖3-2BiLSTM-CRF模型結(jié)構(gòu)模型整體分為三層,首先將腫瘤文本數(shù)據(jù)輸入embedding層轉(zhuǎn)換為詞向量作為BiLSTM層的輸入;BiLSTM層通過計算獲取每個單詞的標簽得分矩陣,進行標簽預(yù)測;CRF層可以根據(jù)實際需要來設(shè)置一系列約束,對最終輸出的預(yù)測標簽進行優(yōu)化。Embedding層模型的第一層是look-up層,將文本數(shù)據(jù)輸入后,會利用一個預(yù)訓(xùn)練好的embedding矩陣(也可能是隨機初始化的)將輸入文本中的每個字映射為低緯度的詞向量,將文本規(guī)格限制為256,每個批次處理的訓(xùn)練數(shù)據(jù)不可超過256字,最終將每個醫(yī)學(xué)實體映射為詞向量的形式,為避免過擬合,將詞向量輸入BiLSTM層之前會設(shè)置一個dropout。BiLSTM層模型的第二層是BiLSTM層,該層能夠進行句子特征自動提取。將上一層的詞向量序列作為BiLSTM的輸入,對于每個時刻的輸入都會計算正向LSTM輸出的隱狀態(tài)序列與反向LSTM輸出的隱狀態(tài)序列,并按照輸入時刻進行拼接,就能得到該時刻的完整隱狀態(tài)序列。BiLSTM層最終能夠得到一個標簽得分矩陣,即對該時間步輸入單詞的多標簽概率表示,可以利用softmax對各個輸入的詞向量進行單獨的標簽預(yù)測,然而這樣獲取到的預(yù)測標簽結(jié)果無法利用到之前獲取到的標注結(jié)果,忽略了上下文的聯(lián)系,因此無法保證每次輸出的標簽序列都是正確的,如輸出“B-SymptomI-Disease”就是一個無效標簽,因此添加了CRF層來優(yōu)化預(yù)測標簽。(3)CRF層模型的第三層是CRF層,其目的是為了減少上述的無效預(yù)測標簽。該層實現(xiàn)了句子級別的序列標注,通過自身的特征函數(shù)學(xué)習(xí)輸入的詞序列之間預(yù)先定義的邏輯規(guī)律,使用的參數(shù)是一個矩陣,表示從第m個標簽到第n個標簽的轉(zhuǎn)移得分,因此在為句子中某一個位置進行標注時能夠利用到與之相關(guān)的已標注標簽序列,通過這種方式來對預(yù)測標簽進行限制,使獲取到的結(jié)果更符合邏輯,避免出現(xiàn)非法的、無效的序列標簽。3.1.3.3實驗環(huán)境本實驗在一臺配置有Inteli5處理器,NVIDIAGeForceGTX1700顯卡,16GB內(nèi)存,以及Windows10操作系統(tǒng)的主機上進行,模型訓(xùn)練工作選擇Python作為編程語言,選用Pytorch/Tensorflow作為深度學(xué)習(xí)框架,編譯工作在Pycharm平臺進行。3.1.3.4評價指標命名實體識別是對文本中每個詞進行標簽分類預(yù)測,可以看做一個分類任務(wù),模型的實驗指標如下:TP(TruePositive):將真預(yù)測為真TN(TrueNegative):將假預(yù)測為假FP(FalsePositive):將假預(yù)測為真FN(FalseNegative):將真預(yù)測為假實驗的評價指標包括精確率(Precision)、召回率(Recall)和F1值(F1-Score),各指標意義和計算方式如下:精確率(P)在本實驗中代表預(yù)測正確的醫(yī)療實體標簽和預(yù)測為正確的醫(yī)療實體標簽的比值。召回率(R)在本實驗中代表預(yù)測正確的醫(yī)療實體標簽和實際標注的醫(yī)療實體標簽的比值。F1值是對召回率和精確率之間關(guān)系進行平衡的指標,F(xiàn)1值反映了模型整體的性能。3.1.4知識加工及存儲(1)實體表抽取實體抽取工作通過調(diào)用訓(xùn)練好的BiLSTM-CRF算法模型來完成,從清洗完成的電子病歷數(shù)據(jù)中導(dǎo)出需要的非結(jié)構(gòu)化文本數(shù)據(jù),之后利用算法模型進行實體抽取。由于每一份電子病歷中都可能多次出現(xiàn)相同的實體,為避免數(shù)據(jù)冗余,需要對一份病歷中抽取出的實體進行去重,之后將實體按照類別輸出為CSV表。根據(jù)預(yù)先定義好的實體類型,總共生成了8個實體表,對應(yīng)“疾病”、“科室”、“臨床癥狀”、“輔助檢查”、“治療方式”、“手術(shù)”、“藥物”、“護理方式”等8類腫瘤實體類。(2)實體對齊由于知識圖譜構(gòu)建時使用的數(shù)據(jù)均來源于單一的數(shù)據(jù)集,抽取出的實體所指代的醫(yī)療知識都是唯一的,不會出現(xiàn)一詞多義的情況,因此在進行知識融合時無需考慮知識消歧,只需要考慮實體對齊即可,也就是多類實體指代同一種醫(yī)療知識的情況,需要將這些具有相同意義的實體替換成標準實體,其本質(zhì)也是對實體去重的一個過程。此處,通過構(gòu)建字典的方式來完成該任務(wù),實體對齊的流程如圖3-3所示。圖3-3實體對齊流程圖在預(yù)先定義的實體中,“疾病”和“癥狀”實體將用于后續(xù)疾病診斷功能實現(xiàn),實體出現(xiàn)的頻次將會影響到實體關(guān)系三元組的數(shù)量,進而影響到診斷功能的效果,因此該兩類實體對于實體準確性具有較高要求;而“手術(shù)”、“藥物”、“治療方式”、“輔助檢查”等實體主要是用于后續(xù)臨床路徑創(chuàng)建時使用,通過為neo4j創(chuàng)建倒排索引來為用戶提供迅速的診療項目添加功能,在應(yīng)用的時候?qū)τ趯嶓w準確性并不作太高的要求,因此詞典構(gòu)建主要是針對“疾病”和“癥狀”這兩類實體進行。首先,利用從臨床醫(yī)學(xué)數(shù)據(jù)庫等醫(yī)療網(wǎng)站爬取到的“疾病”和“癥狀”相關(guān)數(shù)據(jù),構(gòu)建兩個詞典,詞典包括實體的別稱、縮寫名稱以及英文名稱,作為該實體的擴展實體名,每個擴展實體名都有一個對應(yīng)的標準實體名稱。之后將算法抽取出來的“疾病”和“癥狀”的原始實體表進行去重,再依次查詢?nèi)ブ刂蟮膶嶓w是否存在于詞典之中,如果在詞典中查詢到了擴展實體名,那么將該實體替換成擴展實體對應(yīng)的標準實體名稱再存入表中,如果在詞典中未能查詢到擴展實體名,那么將該原始實體存入表中,最終完成實體融合,形成融合實體表。(3)實體關(guān)系表抽取對于某一個病例抽取得到的實體,都是該患者在治療過程中實際的診療知識,因此可以認為各實體之間本身是相關(guān)聯(lián)的,在生成實體關(guān)系三元組時,可以直接按照定義好的實體關(guān)系為每一條病歷生成實體關(guān)系三元組,最終獲取到“疾病引起疾病”、“疾病屬于科室”、“疾病接受輔助檢查”、“疾病表現(xiàn)出臨床癥狀”、“疾病需要治療方式”、“疾病服用藥物”、“疾病接受手術(shù)”、“疾病采取護理方式”、“臨床癥狀表明疾病”、“臨床癥狀需要治療方式”、“科室包括臨床癥狀”等12個實體-關(guān)系表。(4)Neo4j導(dǎo)入將獲取到的CSV數(shù)據(jù)表導(dǎo)入Neo4j數(shù)據(jù)庫中以繪制腫瘤領(lǐng)域知識圖譜,通過Neo4j自帶的Cypher語句將實體表導(dǎo)入作為知識圖譜中的節(jié)點,將實體關(guān)系表導(dǎo)入作為知識圖譜中連接各節(jié)點的邊。在腫瘤實體數(shù)據(jù)表導(dǎo)入的過程中,Neo4j會自動對腫瘤實體表中重復(fù)的實體進行去重,保證腫瘤知識圖譜中每一個實體都是唯一的。而在導(dǎo)入實體關(guān)系三元組時,對于重復(fù)出現(xiàn)的實體關(guān)系,將會統(tǒng)計該條關(guān)系出現(xiàn)的頻次,并將之作為該條關(guān)系的一個屬性來進行存儲,后續(xù)用于疾病的癥狀權(quán)重計算。3.1.5基于知識圖譜的疾病診斷在實際腫瘤疾病診療過程中,首先會由患者描述自身存在的癥狀,醫(yī)生根據(jù)癥狀結(jié)合自身醫(yī)學(xué)知識來判斷最有可能引起患者所述癥狀的疾病,如果主訴癥狀是疾病的典型癥狀,那么醫(yī)生能很快為患者確診,而如果主訴癥狀并不典型或者癥狀數(shù)量較多,那么醫(yī)生很難迅速判斷出對應(yīng)的疾病。因此腫瘤疾病診療過程中,關(guān)鍵問題是如何根據(jù)患者所描述的多個癥狀來從多類疾病中判斷出最匹配的疾病類別。3.1.5.1基于TF-IDF的癥狀權(quán)重計算醫(yī)生在對多個癥狀進行分析時,這些癥狀可能是由某一疾病引起的概率是不同的,也就是癥狀之于疾病的權(quán)重不同,如何把每一個癥狀對于不同疾病的權(quán)重計算出來,是模擬醫(yī)生問診過程的關(guān)鍵。一般來講,一個癥狀如果在某一個疾病的所有病歷中出現(xiàn)的次數(shù)較多,那么出現(xiàn)該癥狀時醫(yī)生會很容易聯(lián)想到該疾?。欢绻粋€癥狀在所有疾病的病例中都經(jīng)常出現(xiàn),那么醫(yī)生很難將該癥狀和某一疾病對應(yīng)起來,這種思路和TF-IDF算法進行文本加權(quán)的思路是一致的,因此可以使用TF-IDF算法來計算癥狀的權(quán)重值,其主要思想可以歸納為:某一癥狀在某一疾病中記錄到的頻次在該疾病所有癥狀總頻次中占比越大,則該癥狀針對該疾病的權(quán)重越大??剖抑锌偟募膊?shù)量和出現(xiàn)某一癥狀的疾病數(shù)量占比越大,則該癥狀針對該科室疾病的區(qū)分能力越大。如前所述,在將抽取到的腫瘤實體存入圖數(shù)據(jù)庫的過程中,已經(jīng)對每一類疾病中出現(xiàn)某一個癥狀的頻次進行了數(shù)學(xué)統(tǒng)計并存入了該條疾病-癥狀關(guān)系邊上,癥狀對于疾病的權(quán)重將根據(jù)兩者之間出現(xiàn)的頻次來進行計算。在進行疾病診斷時,考慮到在實際使用的時候,患者只會選擇某一科室進行問診,并且同一科室各疾病之間的癥狀具有一定的相關(guān)性,因此針對某一科室使用TF-IDF算法進行疾病-癥狀權(quán)重計算會更有意義,因此本節(jié)將通過TF-IDF算法來對某一科室下所有癥狀和疾病之間的權(quán)重值進行計算。按照科室從構(gòu)建的知識圖譜中讀取該科室對應(yīng)的所有疾病和癥狀,取出該科室所有疾病共m個,將所有疾病癥狀做交集,取交集作為所有疾病的癥狀共n個。對于癥狀的TF-IDF值的計算方法是將TF值和IDF值相乘,TF值代表的是記錄到癥狀頻次在某一疾病總的癥狀頻次中的占比,癥狀的TF值能夠很好地反應(yīng)患有某種疾病患者表現(xiàn)出癥狀的概率,TF值的計算公式如(3-1)所示。(3-1)其中Count為該癥狀在該類疾病所有病歷中出現(xiàn)的頻次之和,Dn為該類疾病病歷中所有癥狀出現(xiàn)的頻次之和。癥狀的IDF值代表的是該科室中的疾病總數(shù)和出現(xiàn)了該癥狀的疾病數(shù)量的比值,IDF值能夠很好地反應(yīng)癥狀在科室中所有疾病中存在的普遍性,IDF值的計算公式如(3-2)所示。其中N為該科室疾病種類個數(shù),I(Si,Dn)表示該疾病的癥狀列表中是否包含當前癥狀,如果包含當前癥狀就取1,不包含就取0。考慮到如果當前癥狀在該科室的每一個疾病的癥狀列表中都有出現(xiàn)這一特殊情況,那么就有IDF=log1=0,將使得后續(xù)計算出來的TF-IDF值都為0,因此取一個平滑常數(shù)a=0.1來避免上述情況,因此有式(3-3)。則癥狀Si之于疾病Dn權(quán)重由TF值和IDF值的乘積計算得出,如公式(3-4)所示。后續(xù)的疾病診斷功能需要使用癥狀權(quán)重來實現(xiàn),因此同樣需要將算法計算得到的疾病-癥狀權(quán)重值存儲到知識圖譜相應(yīng)的關(guān)系邊上,在進行疾病診斷時調(diào)用。3.1.5.2基于癥狀的疾病診斷在腫瘤疾病診斷過程中,患者通常都會表現(xiàn)出多種臨床癥狀,并且患者最終確診情況也可能不止一個疾病,醫(yī)生進行診斷時首先會根據(jù)患者的臨床癥狀初步篩選出一個待匹配疾病列表,醫(yī)生會結(jié)合醫(yī)學(xué)知識和自身經(jīng)驗來判斷,這個過程不是排除疾病的過程,而是對整個待匹配疾病列表進行打分的過程,根據(jù)不同癥狀可能引起疾病的程度嗎,來對待匹配疾病進行綜合評分并排序,再根據(jù)排序結(jié)果來決定優(yōu)先考慮的病種。下面將結(jié)合疾病-癥狀權(quán)重來模擬這一算法。在實現(xiàn)過程中,假設(shè)輸入的癥狀集合為,從知識圖譜中獲取癥狀集合可能表明待排查的疾病集合,再從該集合中依次取出待排查疾病,并且定義Md,s為待排查疾病d和用戶輸入癥狀的匹配度取值,則對于該待排查疾病dj和用戶輸入癥狀匹配度的計算公式如(3-5)。公式(3-5)中為輸入的癥狀,在計算疾病dj和輸入癥狀的匹配度時,會首先讀取該疾病的癥狀生成一個疾病的癥狀列表,如果輸入的癥狀Si存在于疾病癥狀列表,那么Si取1,否則Si取0,是上一小節(jié)存入知識圖譜中的疾病-癥狀權(quán)重值,完整的腫瘤疾病診斷流程如圖3-4所示。圖3-4腫瘤疾病診斷流程Step1:用戶輸入換證所述癥狀后形成一個癥狀列表,系統(tǒng)將根據(jù)癥狀列表S從知識圖譜中讀取就診科室所有可能的疾病取并集后形成一個待匹配疾病列表。Step2:從待匹配疾病列表依次取出疾病dj,并從知識圖譜中獲取該疾病和患者癥狀的權(quán)重,按照公式(3-5)計算疾病dj和用戶輸入的患者主訴癥狀之間的相似度。Step3:如果當前參與計算的疾病不是待匹配疾病列表中最后一個疾病,則零j=j+1從疾病列表讀取下一個疾病,并重新進入Step2;如果當前計算的疾病是待匹配疾病列表中最后一個疾病,則計算完成后進入Step4。Step4:將疾病列表中所有疾病和輸入癥狀主訴匹配度值按照降序排列,輸出一個新的疾病列表。Step5:將新的疾病列表作為疾病診斷結(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論