基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案_第1頁
基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案_第2頁
基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案_第3頁
基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案_第4頁
基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 基于 Spark 的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案 目 錄 TOC o 1-3 h z u HYPERLINK l _Toc66544802 基于 Spark 的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案 PAGEREF _Toc66544802 h 1 HYPERLINK l _Toc66544803 一、醫(yī)療大數(shù)據(jù)項目可行性評估報告 PAGEREF _Toc66544803 h 3 HYPERLINK l _Toc66544804 1.1、醫(yī)療行業(yè)大數(shù)據(jù)的發(fā)展趨勢 PAGEREF _Toc66544804 h 3 HYPERLINK l _Toc66544805 1.2、大數(shù)據(jù)建設(shè)所面臨的問題 PAGEREF _T

2、oc66544805 h 4 HYPERLINK l _Toc66544806 1.3、項目價值 PAGEREF _Toc66544806 h 4 HYPERLINK l _Toc66544807 1.4、項目風(fēng)險管理 PAGEREF _Toc66544807 h 6 HYPERLINK l _Toc66544808 1.5、項目預(yù)算 PAGEREF _Toc66544808 h 7 HYPERLINK l _Toc66544809 1.6、產(chǎn)品選型 PAGEREF _Toc66544809 h 7 HYPERLINK l _Toc66544810 二、醫(yī)療大數(shù)據(jù)項目方案設(shè)計 PAGEREF

3、_Toc66544810 h 10 HYPERLINK l _Toc66544811 2.1、項目設(shè)計目標 PAGEREF _Toc66544811 h 10 HYPERLINK l _Toc66544812 2.2、項目數(shù)據(jù)建模 PAGEREF _Toc66544812 h 11 HYPERLINK l _Toc66544813 2.3、項目整體架構(gòu)設(shè)計 PAGEREF _Toc66544813 h 14 HYPERLINK l _Toc66544814 2.4、大數(shù)據(jù)分析平臺架構(gòu)設(shè)計 PAGEREF _Toc66544814 h 16 HYPERLINK l _Toc66544815 2.

4、5、關(guān)鍵技術(shù)難點分析 PAGEREF _Toc66544815 h 18 HYPERLINK l _Toc66544816 2.6、關(guān)鍵設(shè)備配置算法 PAGEREF _Toc66544816 h 18 HYPERLINK l _Toc66544817 2.7、關(guān)鍵設(shè)備選型 PAGEREF _Toc66544817 h 19 HYPERLINK l _Toc66544818 2.8、大數(shù)據(jù)分析軟件選型 PAGEREF _Toc66544818 h 19 HYPERLINK l _Toc66544819 2.9、建議軟硬件產(chǎn)品配置 PAGEREF _Toc66544819 h 20一、醫(yī)療大數(shù)據(jù)項

5、目可行性評估報告1.1、醫(yī)療行業(yè)大數(shù)據(jù)的發(fā)展趨勢醫(yī)院醫(yī)療費用在不斷上升,醫(yī)療費用的GDP占比逐年增加,全球平均60歲以上的老年人目前占11%,到2050年將達到21%,醫(yī)療大數(shù)據(jù)的價值達3千億美元并以每年0.75%增長,醫(yī)療行業(yè)在數(shù)字世界中占比達30%以上,每年以48%的速度增長,是增速最快的行業(yè)之一,從2009年到2020年醫(yī)療數(shù)據(jù)增長了44倍,醫(yī)療行業(yè)數(shù)據(jù)呈PB級增長,一個三甲醫(yī)院每年的醫(yī)療影像數(shù)據(jù)將增加數(shù)十TB,根據(jù)估算,中國一個中等城市(一千萬人口計算)50年累計的醫(yī)療數(shù)據(jù)量將達到10PB級。醫(yī)療行業(yè)大數(shù)據(jù)可以實現(xiàn)醫(yī)生與病人、醫(yī)生與護士、大型醫(yī)院與社區(qū)醫(yī)院、醫(yī)療與保險、醫(yī)療機構(gòu)與衛(wèi)生管

6、理部門、醫(yī)療機構(gòu)與藥品管理之間的協(xié)同,逐步構(gòu)建智慧化醫(yī)療服務(wù)體系。醫(yī)療行業(yè)大數(shù)據(jù)的作用如下圖:醫(yī)療行業(yè)大數(shù)據(jù)的作用1.2、大數(shù)據(jù)建設(shè)所面臨的問題1.概述某醫(yī)院是成立60多年的三級甲等醫(yī)院,是集醫(yī)療、教學(xué)、科研、預(yù)防、保健、康復(fù)為一體的綜合型醫(yī)院,現(xiàn)有員工8000多人,編制床位5000多張,年門急診量300多萬人次,打造出一張以某醫(yī)院為核心,橫跨全省的醫(yī)療協(xié)作網(wǎng)絡(luò)。最近幾年來,醫(yī)院的數(shù)據(jù)呈現(xiàn)出爆炸性增長的趨勢,海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)快速增加且結(jié)構(gòu)復(fù)雜。隨著醫(yī)院信息數(shù)據(jù)的增長,醫(yī)院信息中心越來越關(guān)注數(shù)據(jù)的集中平臺建設(shè)和大數(shù)據(jù)的技術(shù)應(yīng)用。數(shù)據(jù)大集中可以使醫(yī)院更好的將數(shù)據(jù)管理起來,統(tǒng)一病患數(shù)據(jù),為大

7、數(shù)據(jù)應(yīng)用打下基礎(chǔ)。大數(shù)據(jù)成為醫(yī)院和社會所關(guān)注的重要戰(zhàn)略資源,大數(shù)據(jù)可以使醫(yī)院在病情分析、臨床決策和醫(yī)療服務(wù)質(zhì)量等方面起到關(guān)鍵作用。2.醫(yī)院大數(shù)據(jù)建設(shè)所面臨的問題1)海量數(shù)據(jù)的存儲問題急需解決:數(shù)據(jù)來自醫(yī)院各個不同的信息系統(tǒng),包括檢驗結(jié)果、住院信息、影像數(shù)據(jù)、診療數(shù)據(jù)和臨床數(shù)據(jù)等,每年呈幾何形式增長。2)數(shù)據(jù)種類復(fù)雜:結(jié)構(gòu)化數(shù)據(jù)包括病人電子病歷、診療和臨床數(shù)據(jù)等信息,非結(jié)構(gòu)化數(shù)據(jù)包括醫(yī)學(xué)影像(心電圖、腦電圖、B超、彩超,病理切片等 )、視頻(教學(xué)、監(jiān)控)及文獻等。3)數(shù)據(jù)不統(tǒng)一:各個業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫割裂,很難滿足數(shù)據(jù)的一致性要求和信息安全共享。4)服務(wù)的實時性需要提高:醫(yī)院信息服務(wù)中會存在大量在線

8、或?qū)崟r數(shù)據(jù)分析處理的需求,例如臨床中的診斷和用藥建議、健康指標預(yù)警等。實時數(shù)據(jù)分析,而非傳統(tǒng)的批量處理分析 ,數(shù)據(jù)以流的方式進入系統(tǒng),進行抽取和分析 ,對于實時運行中的每個時間節(jié)點產(chǎn)生影響,而不是事后處理。5)提高大數(shù)據(jù)的價值:醫(yī)療數(shù)據(jù)對國家乃至全球的疾病防控、新藥研發(fā)和頑疾攻克都有著巨大的作用。醫(yī)院傳統(tǒng)的數(shù)據(jù)中心已經(jīng)不能滿足醫(yī)療行業(yè)大數(shù)據(jù)發(fā)展的要求,需要建設(shè)數(shù)據(jù)集成平臺并尋求一套具有高可靠性、高擴展性,高性價比并且能支持開展更多高級分析、建立更多大數(shù)據(jù)功能的IT基礎(chǔ)架構(gòu)。1.3、項目價值1.大數(shù)據(jù)建設(shè)的業(yè)務(wù)價值1)大數(shù)據(jù)分析獲取最佳性價比治療方案:通過全面分析病人特征數(shù)據(jù)和療效數(shù)據(jù),然后比較

9、多種干預(yù)措施的有效性,可以找到針對特定病人的最佳治療途徑。研究表明,對同一病人來說,醫(yī)療服務(wù)提供方不同,醫(yī)療護理方法和效果不同,成本上也存在很大差異。將有可能減少過度治療(比如避免那些副作用比療效明顯的治療方式),以及治療不足。2)臨床決策支持系統(tǒng),提高準確性,減少醫(yī)療事故率:臨床決策支持系統(tǒng)可提高工作效率和診療質(zhì)量。臨床決策支持系統(tǒng)分析醫(yī)生輸入條目,比較其與醫(yī)學(xué)指引不同地方,提醒醫(yī)生防止?jié)撛诘腻e誤,如藥物不良反應(yīng)。醫(yī)療服務(wù)提供方可以降低醫(yī)療事故率和索賠數(shù),尤其是那些臨床錯誤引起的醫(yī)療事故。大數(shù)據(jù)分析技術(shù)將使臨床決策支持系統(tǒng)更智能,如可以使用圖像分析和識別技術(shù),識別醫(yī)療影像(X光、CT、MRI

10、)數(shù)據(jù),或者挖掘醫(yī)療文獻數(shù)據(jù)建立醫(yī)療專家數(shù)據(jù)庫,從而給醫(yī)生提出診療建議。3)醫(yī)療數(shù)據(jù)透明度,實現(xiàn)高效管理,降低成本:提高醫(yī)療過程數(shù)據(jù)的透明度,可以使醫(yī)療從業(yè)者、醫(yī)療機構(gòu)績效更透明,間接促進醫(yī)療服務(wù)質(zhì)量提高。數(shù)據(jù)分析可以帶來業(yè)務(wù)流程的精簡,通過精益生產(chǎn)降低成本,找到符合需求的工作更高效的員工,從而提高護理質(zhì)量并給病人帶來更好的體驗,也給醫(yī)療服務(wù)機構(gòu)帶來額外的業(yè)績增長潛力。公開發(fā)布醫(yī)療質(zhì)量和績效數(shù)據(jù)還可以幫助病人做出更明智的健康護理決定,這也將幫助醫(yī)療服務(wù)提供方提高總體績效,從而更具競爭力4)公眾健康:大數(shù)據(jù)使用可改善公眾健康監(jiān)控。公共衛(wèi)生部門可以通過覆蓋全國的患者電子病歷數(shù)據(jù)庫,快速檢測傳染病,

11、進行全面的疫情監(jiān)測,并通過集成疾病監(jiān)測和響應(yīng)程序,快速進行響應(yīng)。衛(wèi)生部門可以更快地檢測出新的傳染病和疫情。通過提供準確和及時的公眾健康咨詢,將會大幅提高公眾健康風(fēng)險意識,同時也將降低傳染病感染風(fēng)險。所有的這些都將幫助人們創(chuàng)造更好生活。2.大數(shù)據(jù)建設(shè)的IT價值1)IT價值:在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)沒有整合之前x86服務(wù)器的資源利用率是很低的,每一臺服務(wù)器或一個雙機或多機集群運行一套應(yīng)用系統(tǒng),各個應(yīng)用系統(tǒng)之間是相互割裂的,交互和接口都很復(fù)雜,現(xiàn)在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)整合后,一個雙機集群配合虛擬化軟件可以實現(xiàn)過去10多臺服務(wù)器所完成的工作量,資源利用率可以達到80%以上,功耗節(jié)約70%以上,如果二期項目采用lin

12、uxone架構(gòu)工作量還能提升4倍,空間和功耗節(jié)省可以達到90%以上。2)運維價值:實現(xiàn)存儲和服務(wù)器虛擬化后,單臺存儲和服務(wù)器的物理故障不影響業(yè)務(wù)系統(tǒng)的正常運行,提高和業(yè)務(wù)系統(tǒng)的可靠性和可用性,原有的老舊存儲和服務(wù)器是最易出現(xiàn)故障的,這些設(shè)備可以供測試系統(tǒng)使用,進而發(fā)揮設(shè)備的“余熱”。 實現(xiàn)存儲和服務(wù)器虛擬化后,可以讓更少的存儲和服務(wù)器完成更多工作量,參與生產(chǎn)的服務(wù)器和存儲的數(shù)量減少了、而可靠性、可用性和可擴展性卻提高了,運維人員的工作也就相對輕松了。1.4、項目風(fēng)險管理項目的風(fēng)險包括業(yè)務(wù)風(fēng)險和項目風(fēng)險兩個方面,醫(yī)療數(shù)據(jù)標準化是醫(yī)療大數(shù)據(jù)建設(shè)的基礎(chǔ),為了滿足臨床業(yè)務(wù)應(yīng)用數(shù)據(jù)需求,實現(xiàn)數(shù)據(jù)統(tǒng)一入口

13、和多系統(tǒng)共用目標。醫(yī)療數(shù)據(jù)標準化建設(shè)過程中遇到以下風(fēng)險:1.業(yè)務(wù)風(fēng)險1) 數(shù)據(jù)標準化涉及多個應(yīng)用系統(tǒng)(包括數(shù)據(jù)提供方和數(shù)據(jù)消費方),協(xié)調(diào)接口改造進度和接口質(zhì)量把控難度大,該問題處理不好易導(dǎo)致工期延遲,項目成本上升,需要協(xié)調(diào)好數(shù)據(jù)提供方和數(shù)據(jù)消費方的改造進度,把具體的進度目標落到紙面上,雙方簽字確認,嚴格按照進度表執(zhí)行,雙方的責(zé)任劃分清楚,如需更改改造進度需要上會商議,商議通過按新進度執(zhí)行,從而保障接口質(zhì)量的把控。2)數(shù)據(jù)標準化以消費方系統(tǒng)為建設(shè)起點,收集各消費方系統(tǒng)對數(shù)據(jù)標準化需求,先建立數(shù)據(jù)基本集和預(yù)留部分擴充字段,避免接口改造反復(fù)修改,提高接口穩(wěn)定性;數(shù)據(jù)基本集和部分擴充字段的預(yù)留要充分的

14、考慮現(xiàn)有的業(yè)務(wù)對應(yīng)用系統(tǒng)的要求并且為業(yè)務(wù)的長期發(fā)展考慮,按照確定的目標執(zhí)行。3)數(shù)據(jù)標準化確認業(yè)務(wù)流程,通知相關(guān)科室(數(shù)據(jù)提供方)維護數(shù)據(jù)要求,給出必填字段及業(yè)務(wù)流程,以免維護數(shù)據(jù)錯誤或空缺而影響消費系統(tǒng)數(shù)據(jù);4)數(shù)據(jù)標準化采用雙向(拉和取)接口模式,以拉(數(shù)據(jù)消費方提供服務(wù),給數(shù)據(jù)提供方調(diào)用)為主,以取(數(shù)據(jù)提供方提供服務(wù),由數(shù)據(jù)消費方調(diào)用)為輔,確保數(shù)據(jù)冗余訪問機制;2.項目風(fēng)險1)項目進度的估算是否準確:對于估算是否準確是對項目進度計劃安排影響最大的一個因素,估算不準確的原因很多,主要的兩個方面是缺少有經(jīng)驗的估算專家和項目缺少歷史數(shù)據(jù)的收集,對于這兩點只有通過項目多個版本的積累才可能得以

15、改善,而沒有捷徑。另外估算過程中還需要考慮一些特殊因素的影響,如項目新進了幾名新員工可能會降低項目的平均生產(chǎn)率,項目過程中需要采用某種新技術(shù)而需要投入額外的預(yù)研時間等;2)關(guān)鍵資源是否應(yīng)用在了關(guān)鍵路徑上:在進度計劃安排中是否優(yōu)先保證了項目關(guān)鍵路徑上的資源,是否通過人員技能矩陣對項目關(guān)鍵資源進行分析和安排。在我們?nèi)蝿?wù)安排過程中是否對關(guān)鍵資源進行了保護(盡量減少關(guān)鍵資源上非關(guān)鍵任務(wù)的安排)。另外我們在進度計劃安排上應(yīng)該適當安排10%-15%的余量,這樣在項目遇到突發(fā)事件,或項目風(fēng)險轉(zhuǎn)變?yōu)閷嶋H問題時候才能夠有人員和時間進行處理。3)項目中的資源是否充分利用:由于存在關(guān)鍵路徑和崗位角色矩陣,所以項目中

16、人力資源往往并不能充分利用起來。在中小型項目中為了充分利用相關(guān)資源,項目更應(yīng)該采用敏捷和迭代的開發(fā)方法,需求階段開發(fā)人員可以先熟悉需求和進行公有組件的開發(fā),而測試階段我們的需求人員也可以介入測試。所以對一個軟件項目而言,需要保證到項目成員的整體利用程度在70%以上,否則就應(yīng)該考慮采用新的開發(fā)模式和生命周期模型。1.5、項目預(yù)算醫(yī)院實施大數(shù)據(jù)項目的成本包括以下幾個部分,新增硬件成本,新增軟件成本,軟件二次開發(fā)成本,運維成本,其它成本(管理成本、其它突發(fā)性成本等)。1.運營運維成本估算新采購的設(shè)備通常提供三年原廠質(zhì)保,設(shè)備過保后運維成本大約是設(shè)備采購成本的6%10%,運維成本是否包含硬件損壞的免費

17、更換價格略有浮動。2.控制成本的建議措施與技巧1)控制風(fēng)險:事先評估項目所蘊含的風(fēng)險,因為風(fēng)險往往意味著要用更多的資金去彌補。在評估風(fēng)險之后,你就能采取相應(yīng)的措施來預(yù)防、降低或承受風(fēng)險。2)明確服務(wù):在實施前確保沒有遺漏任何所需的服務(wù),并與廠商達成明確的共識。有時,一些小疏漏也會點點滴滴地增加你的預(yù)算開支,比如測試時間被延后、bug解決時間被拉長等。3)技術(shù)路線的選擇:選擇正確的技術(shù)。斥巨資,試圖讓錯誤的軟件去做它原本無法做到的事是一種最大的資源浪費。所以在雙方簽訂合同前,一定要明確所有的條款內(nèi)容。1.6、產(chǎn)品選型大數(shù)據(jù)架構(gòu)通常采用批處理或是流處理這兩種數(shù)據(jù)處理方式,批處理適用于海量的靜態(tài)數(shù)據(jù)

18、,這個數(shù)據(jù)集代表數(shù)據(jù)的有限集合,數(shù)據(jù)需要持久保存并在計算完成后返回結(jié)果。流處理是隨時對進入系統(tǒng)的數(shù)據(jù)進行計算,流處理的數(shù)據(jù)集是無邊界的,除非被停止,流處理的結(jié)果隨時可用,結(jié)果隨著對新數(shù)據(jù)的計算而更新。打個不太恰當?shù)谋确剑号幚淼臄?shù)據(jù)類似于一個大型水庫,水庫中的水就是所有數(shù)據(jù);而流處理的數(shù)據(jù)類似于一個水龍頭,水龍頭放出的水就是數(shù)據(jù)?,F(xiàn)在主流的大數(shù)據(jù)架構(gòu)有Hadoop、Storm和Spark等幾種,下表是幾種大數(shù)據(jù)架構(gòu)的對比:經(jīng)過對幾種大數(shù)據(jù)架構(gòu)的比較,結(jié)合醫(yī)院現(xiàn)有應(yīng)用系統(tǒng)的建設(shè)情況和數(shù)據(jù)量的規(guī)模以及數(shù)據(jù)類型的復(fù)雜度(醫(yī)療數(shù)據(jù)包括結(jié)構(gòu)化和非結(jié)構(gòu)化還有半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)類型多種多樣,有的數(shù)據(jù)適合批處

19、理,而有的數(shù)據(jù)適合流處理) ,所以選用開源大數(shù)據(jù)架構(gòu)的Apache Spark建設(shè)醫(yī)院大數(shù)據(jù)分析平臺。上圖是Hadoop和Spark的處理性能對比圖,處理相同的數(shù)據(jù)Spark使用了更少的節(jié)點、消耗了更少的時間,完成了更多的分類工作,MapReduce是Hadoop的第一代計算引擎,采用了一種比較簡化的計算模型,只有Map和Reduce兩個計算過程,可以處理大數(shù)據(jù)領(lǐng)域的很多問題,但是MapReduce的程序開發(fā)與接口調(diào)用很復(fù)雜,對于延遲要求較低、希望程序調(diào)用簡潔的應(yīng)用場景不會選擇磁盤級計算的MapReduce,MapReduce基于HDFS,需要對輸入數(shù)據(jù)進行切分、產(chǎn)生中間數(shù)據(jù)文件、再進行排序、

20、數(shù)據(jù)壓縮等操作,因此MapReduce效率相對較低,所以我們選擇更有效率,速度更快的內(nèi)存級計算的Spark來構(gòu)建醫(yī)療大數(shù)據(jù)分析平臺。Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎。Spark是開源的類Hadoop MapReduce的通用并行框架,Spark擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于醫(yī)療行業(yè)海量數(shù)據(jù)的數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的MapReduce的算法。Spark是一種與Hadoop相似的開源集群計算環(huán)境,但是兩者之間還存在

21、一些不同之處,這些有用的不同之處使Spark在某些工作負載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。Spark與Hadoop性能比較如下圖:從圖中可以看到hadoop是通過磁盤存儲計算數(shù)據(jù)的,而spark是通過內(nèi)存存儲計算數(shù)據(jù)的,所以Spark 比 Hadoop 快100倍。Spark 主要有三個特點:首先,高級 API 剝離了對集群本身的關(guān)注,Spark 應(yīng)用開發(fā)者可以專注于應(yīng)用所要做的計算本身。其次,Spark 很快,在內(nèi)存計算下,Spark 比 Hadoop 快100倍且支持交互式計算和復(fù)雜算法。最后,Spark具有

22、易用性和通用性, Spark是一個通用引擎,可用它來完成各種各樣的運算,包括 SQL 查詢、文本處理、機器學(xué)習(xí)等,而在 Spark 出現(xiàn)之前,我們一般需要學(xué)習(xí)各種各樣的引擎來分別處理這些需求。醫(yī)療行業(yè)數(shù)據(jù)量非常大,每日增量數(shù)據(jù)也很大,數(shù)據(jù)類型復(fù)雜,選擇通用性更強、運算效率更高的Spark架構(gòu)來構(gòu)建醫(yī)療大數(shù)據(jù)分析平臺,可以實現(xiàn)更好的業(yè)務(wù)價值和IT價值。二、醫(yī)療大數(shù)據(jù)項目方案設(shè)計2.1、項目設(shè)計目標1)解決醫(yī)院海量數(shù)據(jù)的存儲問題,滿足未來三到五年的數(shù)據(jù)存儲要求。2)實現(xiàn)醫(yī)院數(shù)據(jù)的標準化。3)實現(xiàn)醫(yī)院大數(shù)據(jù)分析功能包括:臨床中的診斷和用藥建議、健康指標預(yù)警、提高臨床決策支持系統(tǒng)的準確性,減少醫(yī)療事故

23、率,大數(shù)據(jù)分析獲取最佳性價比治療方案,為全民健康奠定基礎(chǔ)。2.2、項目數(shù)據(jù)建模需求模型的確認分三步走:第一步是以衛(wèi)計委給出的醫(yī)院信息化建設(shè)的要求和相關(guān)數(shù)據(jù)模型為基礎(chǔ),衛(wèi)計委數(shù)據(jù)模型如下圖:結(jié)合醫(yī)院的業(yè)務(wù)流程對現(xiàn)有業(yè)務(wù)進行梳理,確定業(yè)務(wù)中的問題形成總體設(shè)計,第二步是制定數(shù)據(jù)標準、接口標準、消息標準、文檔標準和服務(wù)標準。第三步是根據(jù)總體設(shè)計和標準規(guī)范同步進行大數(shù)據(jù)平臺實施。醫(yī)療大數(shù)據(jù)處理流程包括采集、處理、存儲、檢索、計算和應(yīng)用等五個步驟,處理流程如下圖:基于患者就診過程的醫(yī)療大數(shù)據(jù)分析與應(yīng)用模型如下:該模型展現(xiàn)了從患者入院到出院過程中產(chǎn)生的相關(guān)數(shù)據(jù),主要包括患者特征數(shù)據(jù)、病種數(shù)據(jù)、治療方案與費用

24、數(shù)據(jù)、治療狀態(tài)數(shù)據(jù)及在該過程中產(chǎn)生的管理類數(shù)據(jù)。1)患者特征數(shù)據(jù):患者特征數(shù)據(jù)主要有主訴、現(xiàn)病史、檢查檢驗類數(shù)據(jù)。涵蓋了疾病的主要癥狀、體征、發(fā)病過程、檢查、診斷、治療及既往疾病信息、不良嗜好甚至職業(yè)、居住地等全部信息(例如:患者信息中的國籍、性別、民族、婚姻、職業(yè)、地址、電話等等。)2)病種數(shù)據(jù):即患者疾病的診斷結(jié)果,一般有第一診斷、第二診斷、第三診斷等。目前使用ICD-10進行疾病的分類與編碼(國際疾病分類(international Classification of diseases ,ICD),是依據(jù)疾病的病因、部位、病理及臨床表現(xiàn)的特征,按照規(guī)則將疾病分門別類,并用編碼的方法來表示

25、的系統(tǒng)。)。3)治療方案與費用數(shù)據(jù):根據(jù)診斷結(jié)果為患者提供的治療方案與費用數(shù)據(jù)主要包括藥品、檢查、檢驗、手術(shù)、護理、治療6大類,此外費用數(shù)據(jù)還有材料費、床位費、護理費、換藥費用等。4)治療狀態(tài)數(shù)據(jù):治療狀態(tài)數(shù)據(jù)即患者出院時的治療結(jié)論,一般分為治愈、好轉(zhuǎn)、未愈、死亡4類。5)管理類數(shù)據(jù):除患者就醫(yī)過程產(chǎn)生的服務(wù)于醫(yī)院管理的數(shù)據(jù)外,還包括醫(yī)院運營和管理系統(tǒng)中的數(shù)據(jù),如物資系統(tǒng)、HRP、財務(wù)系統(tǒng)、績效考核系統(tǒng)等產(chǎn)生的數(shù)據(jù)。患者的檢查信息,圖像序列表的生成,系統(tǒng)圖像記錄,業(yè)務(wù)參數(shù)如下圖:標準化數(shù)據(jù)字典包括:1)藥品字典。2)治療、護理項目編碼字典。3)醫(yī)療儀器、設(shè)備編碼字典。4)醫(yī)療費用計價編碼字典。

26、5)國際疾病分類代碼(ICD-10)。6)醫(yī)院職工編碼字典。7)醫(yī)院科室、病區(qū)編碼字典。2.3、項目整體架構(gòu)設(shè)計1、智慧醫(yī)療大數(shù)據(jù)項目邏輯架構(gòu)智慧醫(yī)療大數(shù)據(jù)項目邏輯架構(gòu)圖從功能上劃分包括三個方面:一是資源層,資源層又包括云基礎(chǔ)設(shè)施(涉及隱私的數(shù)據(jù)放在私有云、可以對外公開的數(shù)據(jù)放在公有云上可以節(jié)約私有云的建設(shè)投入)、服務(wù)器、存儲、網(wǎng)絡(luò)安全等基礎(chǔ)設(shè)施以及對這些設(shè)施的監(jiān)管和運維;物理資源層(包括各種數(shù)據(jù)庫和數(shù)據(jù)倉庫等)、虛擬資源池(包括健康檔案、電子病歷和公共衛(wèi)生、臨床診斷等)和應(yīng)用資源中心;二是服務(wù)層包括醫(yī)院的各個業(yè)務(wù)系統(tǒng),決策支持與管理系統(tǒng)以及基于這些系統(tǒng)建設(shè)的大數(shù)據(jù)分析平臺;三是展現(xiàn)層主要是各

27、服務(wù)對像的接入,在這三個層面中低層為高層提供服務(wù)。2、智慧醫(yī)療大數(shù)據(jù)項目物理架構(gòu)智慧醫(yī)療大數(shù)據(jù)項目物理架構(gòu)分為內(nèi)網(wǎng)和外網(wǎng)兩個部分,內(nèi)外網(wǎng)核以層和匯聚層都是雙冗余架構(gòu)的(一臺交換機或線路故障不影響業(yè)務(wù)的正常運行),內(nèi)外網(wǎng)有數(shù)據(jù)的交互,為了保障內(nèi)網(wǎng)的數(shù)據(jù)安全和網(wǎng)絡(luò)安全,外網(wǎng)用戶需要通過授權(quán)的ssl vpn帳號才可以訪問內(nèi)網(wǎng)的數(shù)據(jù)。所有的業(yè)務(wù)系統(tǒng)和數(shù)據(jù)庫均采用集群架構(gòu),從而實現(xiàn)業(yè)務(wù)系統(tǒng)的高可靠性和高可用性。醫(yī)院于三年前按分級存儲的原則重新規(guī)劃了PACS存儲系統(tǒng),PACS數(shù)據(jù)除了少部分PACS索引、日志數(shù)據(jù)外,絕大部分為醫(yī)學(xué)影像圖片數(shù)據(jù)。存儲通常采用三級模式:第一級為在線數(shù)據(jù),保存最近半年的病人影像數(shù)

28、據(jù);第二級為近線數(shù)據(jù),保存半年以上、2年以內(nèi)的影像數(shù)據(jù)(PACS系統(tǒng)軟件可以配置保存周期);第三級為離線數(shù)據(jù),保存15年內(nèi)的影像數(shù)據(jù)。同時,還有考慮備份系統(tǒng)的建設(shè)。2.4、大數(shù)據(jù)分析平臺架構(gòu)設(shè)計醫(yī)療大數(shù)據(jù)分析平臺由數(shù)據(jù)獲取、數(shù)據(jù)整合,數(shù)據(jù)加工和數(shù)據(jù)展現(xiàn)四個模塊組成。醫(yī)療大數(shù)據(jù)處理模型如下圖:1)數(shù)據(jù)獲取:這個過程要先問自己要收集哪些數(shù)據(jù),大數(shù)據(jù)分析并不是對醫(yī)院所有的數(shù)據(jù)都進行收集,而是相關(guān)的,有直接或者間接聯(lián)系的數(shù)據(jù),要知道哪些數(shù)據(jù)是對于戰(zhàn)略性的決策或者一些細節(jié)決策有幫助的,分析出來的數(shù)據(jù)結(jié)果是有價值的,這也是考驗一個數(shù)據(jù)分析員的時刻。例如哪些數(shù)據(jù)可以得出信息對于一個臨床診療是有幫助,或者是更

29、好的實現(xiàn)輔助診療目標。在進行大數(shù)據(jù)分析規(guī)劃的時候,一般是針對一個業(yè)務(wù)的目標進行精確的分析,比較容易滿足業(yè)務(wù)的目標。2)數(shù)據(jù)整合:為了得到更加精確的結(jié)果,在大數(shù)據(jù)分析的過程當中,數(shù)據(jù)整合是關(guān)鍵的環(huán)節(jié),數(shù)據(jù)整合是將從醫(yī)院信息平臺抽取的業(yè)務(wù)數(shù)據(jù)按照統(tǒng)一的存儲和定義進行集成。醫(yī)院信息化經(jīng)過多年的發(fā)展,積累了很多基礎(chǔ)性和零散的業(yè)務(wù)數(shù)據(jù)。但是數(shù)據(jù)分散在臨床、輔助、管理等不同部門,致使數(shù)據(jù)查詢訪問困難,醫(yī)院管理層人員無法直接查閱數(shù)據(jù)和對數(shù)據(jù)進行分析利用,數(shù)據(jù)整合需要綜合不同格式、不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。3)數(shù)據(jù)加工:醫(yī)院原有的業(yè)務(wù)數(shù)據(jù)必須經(jīng)過標準化處理后才能夠遷入大數(shù)據(jù)平臺。由于醫(yī)院的大數(shù)據(jù)來自各個不同的業(yè)務(wù)系

30、統(tǒng),數(shù)據(jù)格式和標準不統(tǒng)一,很難對數(shù)據(jù)進行統(tǒng)一的管理和利用。一般大數(shù)據(jù)平臺的建設(shè)都會針對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)建立不同的主索引數(shù)據(jù),然后對源數(shù)據(jù)進行清洗后導(dǎo)入數(shù)據(jù)集。擁有或創(chuàng)造一個干凈、結(jié)構(gòu)良好的數(shù)據(jù)集是必須的。使用數(shù)據(jù)清洗軟件工具可以幫助細化數(shù)據(jù)并將其重塑為可用的數(shù)據(jù)集。4)數(shù)據(jù)展現(xiàn):數(shù)據(jù)展現(xiàn)即數(shù)據(jù)可視化,為方便醫(yī)護人員、患者和管理人員理解和閱讀數(shù)據(jù),而采用相關(guān)技術(shù)按業(yè)務(wù)規(guī)則進行的數(shù)據(jù)轉(zhuǎn)換。這就要求醫(yī)院相關(guān)的業(yè)務(wù)規(guī)則都是已經(jīng)確定好的,這些業(yè)務(wù)規(guī)則可以幫助數(shù)據(jù)分析員評估他們的工作,將數(shù)據(jù)進行分析得出有價值的結(jié)果。2.5、關(guān)鍵技術(shù)難點分析在醫(yī)療大數(shù)據(jù)的應(yīng)用的同時,還存在數(shù)據(jù)的抽取、存儲、清洗、整合、

31、挖掘、分析、展現(xiàn)等問題需要解決。一是非結(jié)構(gòu)化文檔及自然語言的結(jié)構(gòu)化處理。包括中文分詞、標準化、XML解析、本體構(gòu)建、語義標注等。例如,電子病歷的“結(jié)構(gòu)化”是從醫(yī)學(xué)信息學(xué)的角度將以自然語言方式錄入的醫(yī)療文書按照醫(yī)學(xué)術(shù)語的要求進行結(jié)構(gòu)化分析,并將這些語義結(jié)構(gòu)最終以關(guān)系型結(jié)構(gòu)的方式保存到數(shù)據(jù)庫中。二是醫(yī)療大數(shù)據(jù)標準化與整合。將不同科室,不同業(yè)務(wù)系統(tǒng)的非結(jié)構(gòu)化、零亂的數(shù)據(jù)整合成有利用價值的數(shù)據(jù);對大數(shù)據(jù)進行過濾,設(shè)計臟數(shù)據(jù)過濾規(guī)則;數(shù)據(jù)一致性檢查,無效值和缺失值處理。三是數(shù)據(jù)聚類分析、算法與建模。包括貝葉斯模型、人工神經(jīng)網(wǎng)絡(luò)、隨機森林算法、決策樹理論、d-s證據(jù)理論、臨床決策指標矩陣理論等,有可能在一類應(yīng)用中要涉及多個模型與算法。四是大數(shù)據(jù)快速檢索與處理。包括基礎(chǔ)設(shè)施建設(shè);大容量醫(yī)療數(shù)據(jù)的組織、存儲與索引技術(shù),實現(xiàn)數(shù)據(jù)的高并發(fā)訪問與快速提取等。采用全閃存陣列實現(xiàn)對原有存儲系統(tǒng)加速的方式,為大數(shù)據(jù)分析平臺的搭建提供存儲架構(gòu)的支持。五是數(shù)據(jù)安全。要確保醫(yī)療大數(shù)據(jù)利用過程中,不被外界竊取和修改,要建立相應(yīng)的數(shù)據(jù)加密技術(shù)和數(shù)據(jù)訪問授權(quán)機制等。數(shù)據(jù)加密采用ssl vpn技術(shù)加密,保障數(shù)據(jù)的傳輸安全和內(nèi)容安全,數(shù)據(jù)的訪問要實現(xiàn)雙因子認證,帳號密碼加專用密鑰的方式。2.6、關(guān)鍵設(shè)備配置算法1、網(wǎng)絡(luò)配置網(wǎng)絡(luò)劃分:內(nèi)網(wǎng)(業(yè)務(wù)辦公)和外網(wǎng)(移動用戶和遠程用戶)。網(wǎng)絡(luò)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論