版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
醫(yī)療大數(shù)據(jù)解決方案
與信息系統(tǒng)的耦合度為零的數(shù)據(jù)才是合格的大數(shù)據(jù)
全國97.8萬家醫(yī)療機構(gòu)的信息系統(tǒng)基本上都是用關(guān)系數(shù)據(jù)庫而建立的,然
而要對關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行挖掘非常困難。大數(shù)據(jù)并不是小數(shù)據(jù)之和,關(guān)系
數(shù)據(jù)庫系統(tǒng)不適合處理大數(shù)據(jù)。
目錄
醫(yī)療大數(shù)據(jù)解決方案.............................................................66
第1章概要.........................................67
1.1名詞定義....................................................................68
第2章醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn)........................................................69
2.1醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)之間的具有本質(zhì)的差異...............................70
2.1.1小問題放大萬倍就會大的嚇人.............................................71
2.2醫(yī)療大數(shù)據(jù)面臨八大難題.....................................................73
2.3國家大數(shù)據(jù)標(biāo)準(zhǔn)工程堪比“兩彈一星”.........................................76
2.4醫(yī)療行業(yè)的信息系統(tǒng)頂層設(shè)計為何難產(chǎn).........................................78
2.5大數(shù)據(jù)挖掘中的問題:大數(shù)據(jù)的關(guān)鍵不在于大而在于如何挖掘....................78
2.5.1我國醫(yī)療行業(yè)每年產(chǎn)生多少數(shù)據(jù)...........................................78
2.5.2挖掘關(guān)系數(shù)據(jù)庫系統(tǒng)所產(chǎn)生的醫(yī)療數(shù)據(jù)非常困難..............................79
2.5.3僅患者與數(shù)據(jù)的對應(yīng)關(guān)系就是一個大問題.....................................80
2.6關(guān)系數(shù)據(jù)庫理論的致命傷.....................................................81
2.6.1關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)在大數(shù)據(jù)環(huán)境中為何變成無意義的數(shù)據(jù).....................81
2.6.2關(guān)系數(shù)據(jù)庫系統(tǒng)是一種完全封閉的系統(tǒng):外來數(shù)據(jù)無法入住.....................84
2.6.3關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)系統(tǒng)密不可分.....................................84
2.6.4關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)結(jié)構(gòu)密不可分.....................................84
2.6.5關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與應(yīng)用程序密不可分.....................................85
2.6.6關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離相應(yīng)的系統(tǒng)就成了無意義的數(shù)據(jù)..................85
2.6.7關(guān)系數(shù)據(jù)庫無法實現(xiàn)病歷信息的結(jié)構(gòu)化存貯..................................86
2.6.8關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)都是“方言”,大數(shù)據(jù)需要的是“普通話”................86
2.7關(guān)系數(shù)據(jù)庫如何處理國家醫(yī)療大數(shù)據(jù)中數(shù)萬個數(shù)據(jù)庫、數(shù)千萬張表.................86
2.8大數(shù)據(jù)之夢十年后成真.......................................................88
2.8.1信息化社會由概念到比較成熟用了30多年時間...............................88
2.8.2千年蟲問題的后示.........................................................88
2.8.3大數(shù)據(jù)工程遠(yuǎn)比千年蟲問題更雜.............................................89
2.8.4五年之內(nèi)(2020年前)醫(yī)療大數(shù)據(jù)只是紙上談兵..............................90
2.9必須開發(fā)新型的軟件工具才能對醫(yī)療大數(shù)據(jù)進(jìn)行高效挖掘.........................90
第3章發(fā)明專利:醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法..........90
3.1在了解醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法時的注意事項.................................91
3.2醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法...................................................93
3.3數(shù)據(jù)的完整性是大數(shù)據(jù)的根本.................................................98
3.3.1大數(shù)據(jù)的策略:以適當(dāng)?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)易識別............................98
3.3.2一個事物的數(shù)據(jù)..........................................................100
3.3.3事物分類...............................................................100
3.3.4關(guān)系數(shù)據(jù)庫的缺陷:關(guān)系................................................102
3.3.5數(shù)據(jù)的可識別性.........................................................106
3.3.6數(shù)據(jù)的多樣性...........................................................108
3.3.7元數(shù)據(jù)及國際元數(shù)據(jù)標(biāo)準(zhǔn)非常重要.........................................108
3.3.8大數(shù)據(jù)的關(guān)鍵:讓數(shù)據(jù)自己說話...........................................109
3.3.9大數(shù)據(jù)的策略:用數(shù)據(jù)代替程序...........................................111
3.4與信息系統(tǒng)的耦合度為零的數(shù)據(jù)才是合格的大數(shù)據(jù)..............................112
3.5醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法與關(guān)系數(shù)據(jù)庫的對比................................114
3.6應(yīng)用醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法的注意事項....................................115
3.7超大表化問題:分為多張表..................................................115
3.8關(guān)系數(shù)據(jù)庫中的二維表是數(shù)據(jù)不具獨立性的一個根木原因........................115
3.9“萬能數(shù)據(jù)結(jié)構(gòu)表”存放病歷信息的例了1163.10醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法實現(xiàn)互聯(lián)互通非常簡單117
3.11結(jié)構(gòu)化錄入病歷信息的例子:癥狀的結(jié)構(gòu)化...................................117
第4章獨立數(shù)據(jù)庫在醫(yī)療大數(shù)據(jù)方面的優(yōu)勢..........................................119
4.1大數(shù)據(jù)中最重要的就是查詢..................................................120
4.2超大表問題................................................................120
4.2.1自動調(diào)整表的長度.......................................................120
4.2.2自動查詢多張表.........................................................121
4.3用獨立數(shù)據(jù)庫實現(xiàn)國家醫(yī)療大數(shù)據(jù)的存貯處理..................................122
4.3.1獨立數(shù)據(jù)庫如何處埋國家醫(yī)療大數(shù)據(jù)中數(shù)十力個數(shù)據(jù)庫、數(shù)千力張表...........122
4.3.2疾病、癥狀的相關(guān)數(shù)據(jù)....................................................124
第1章概要
關(guān)系數(shù)據(jù)庫理論存在很多很嚴(yán)重的問題,例如,用關(guān)系數(shù)據(jù)庫系統(tǒng)所設(shè)計出
的信息系統(tǒng)都是孤島型系統(tǒng),難以實現(xiàn)系統(tǒng)之間的互聯(lián)互通;在大數(shù)據(jù)時代,人
們發(fā)現(xiàn),對全國97.8萬家醫(yī)療機構(gòu)所產(chǎn)生的醫(yī)療數(shù)據(jù)進(jìn)行挖掘非常困難,當(dāng)前
的大多數(shù)醫(yī)療信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫系統(tǒng)而設(shè)計的。
用關(guān)系數(shù)據(jù)庫系統(tǒng)所設(shè)計出的信息系統(tǒng)之所以難以互聯(lián)互通,孤島問題浬重,
根本原因在于“異構(gòu)數(shù)據(jù)”?!夺t(yī)學(xué)信息的結(jié)構(gòu)化存貯方法》中的“萬能數(shù)據(jù)結(jié)
構(gòu)表”可以存貯各種各樣的數(shù)據(jù),也可說用《醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法》所設(shè)
計出的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都是“同構(gòu)”的,不存在“異構(gòu)數(shù)據(jù)”的問題。關(guān)
系數(shù)據(jù)庫理論先天不足,不可能解決“異構(gòu)數(shù)據(jù)”問題。
醫(yī)院信息系統(tǒng)所處理的數(shù)據(jù)只是某家醫(yī)院所產(chǎn)生的某些特定的數(shù)據(jù)(可稱作
小數(shù)據(jù))。醫(yī)療大數(shù)據(jù)所要處理的數(shù)據(jù)是全國97.8萬家醫(yī)療機構(gòu)所擁有的數(shù)十
萬個醫(yī)療信息系統(tǒng)所產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)存貯在數(shù)千萬張表中,這些系統(tǒng)由不
同的開發(fā)商所開發(fā),各系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)各不相同。每家醫(yī)院的信息化工作都涉及
幾十個廠家,每個廠家的數(shù)據(jù)、標(biāo)準(zhǔn)、采集、存儲都不一樣。因此,即便是在一
家醫(yī)院,都會出現(xiàn)很多孤島,整個醫(yī)療行業(yè)的信息孤島問題更嚴(yán)重。各家醫(yī)院信
息系統(tǒng)的標(biāo)準(zhǔn)、接口都不同,這成為利用率低、共享難的原因之一。不僅如此,
數(shù)據(jù)種類的多樣化也為數(shù)據(jù)標(biāo)準(zhǔn)的制定和應(yīng)用帶來了挑戰(zhàn)。
小數(shù)據(jù)的特點是數(shù)據(jù)的類型和數(shù)據(jù)都是有限的,在處理數(shù)據(jù)前能事先確定數(shù)
據(jù)的類型。而大數(shù)據(jù)的數(shù)據(jù)特點是“多樣性(Variety)”,在處理數(shù)據(jù)時很難先
事先確定數(shù)據(jù)的類型,甚至不能確定數(shù)據(jù)的類型。目前關(guān)系數(shù)據(jù)庫在數(shù)據(jù)處理中
占據(jù)統(tǒng)治地位,而關(guān)系數(shù)據(jù)庫在處理數(shù)據(jù)時事先要確定數(shù)據(jù)的類型,因此,在處
理數(shù)據(jù)類型不能事先確定的大數(shù)據(jù)時,關(guān)系數(shù)據(jù)庫就遇到了難以逾越的障礙。
醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)具有本質(zhì)的差別。現(xiàn)有的各種信息
系統(tǒng)所處理的數(shù)據(jù)都是小數(shù)據(jù)。目前人們只是認(rèn)識到大數(shù)據(jù)重要性,大數(shù)據(jù)還只
是處于概念階段。大數(shù)據(jù)夢想將在10年后夢想成真,5年之內(nèi),難有突破性進(jìn)
展。
國家醫(yī)療大數(shù)據(jù)所面臨的最大難題:當(dāng)前的醫(yī)療信息系統(tǒng)不能適應(yīng)醫(yī)療大數(shù)
據(jù)的實際需求,需要對現(xiàn)有的信息系統(tǒng)進(jìn)行徹底的改造才能適應(yīng)大數(shù)據(jù)時代的
潮流。然而,要徹底改造全國現(xiàn)的醫(yī)療信息系統(tǒng),所花費的代價是非常高昂的!
1.1名詞定義
?數(shù)據(jù)與系統(tǒng)的耦合度:數(shù)據(jù)與系統(tǒng)的耦合度越高,數(shù)據(jù)對系統(tǒng)的依賴程
度就越高。當(dāng)數(shù)據(jù)對系統(tǒng)的依賴程度比較高時,數(shù)據(jù)一旦脫離了原有的
系統(tǒng)就變成了無意義的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)來源于成千上萬家單位的系
統(tǒng),因此,大數(shù)居中的數(shù)據(jù)應(yīng)該是與系統(tǒng)的耦合度為零的數(shù)據(jù),否則就
需要很多的應(yīng)用程度來解讀數(shù)據(jù),這會增加數(shù)據(jù)處理的難度、成本。
?萬能數(shù)據(jù)結(jié)構(gòu)表:由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”在模
仿大腦記憶、聯(lián)想的基礎(chǔ)上而所提出的一種新型數(shù)據(jù)結(jié)構(gòu),可以在同一
張表中存貯各種各樣的數(shù)據(jù)。
?獨立數(shù)據(jù)庫:由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”而建立的
數(shù)據(jù)庫即可稱為獨立數(shù)據(jù)庫。獨立數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫有本質(zhì)的差異。
?數(shù)據(jù)的獨立性:數(shù)據(jù)的獨立性是由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存
貯方法”所提出的概念,是指數(shù)據(jù)不信依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)
構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨立地表達(dá)出某種含義。關(guān)系數(shù)據(jù)
庫中的數(shù)據(jù)不具有獨立性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用程序才能
解讀數(shù)據(jù)的含義。
?數(shù)據(jù)的完整性:數(shù)據(jù)的完整生是由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存
貯方法”所提出的概念,是指數(shù)據(jù)不信依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)
構(gòu)、不依靠注釋、不依靠應(yīng)用程序而完整地表達(dá)出某種含義。關(guān)系數(shù)據(jù)
庫中的數(shù)據(jù)不具有完整性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用程序才能
解讀數(shù)據(jù)的含義。
數(shù)據(jù)的可識別性:在班、組這樣的小環(huán)境中可以用每個人的姓名而區(qū)分
出每一個人,然而在全國范圍內(nèi),由于人數(shù)太多,很多姓名都有重名現(xiàn)
象,因此僅靠姓名就不能準(zhǔn)確無誤地識別出每一個人。大數(shù)據(jù)時代以前
的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只是應(yīng)用于某個機構(gòu)內(nèi)部,因此各個數(shù)據(jù)就容易
識別,然而如果把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)放到大數(shù)據(jù)環(huán)境中,那么這些數(shù)
據(jù)就成了不可識別的數(shù)據(jù)。在大數(shù)據(jù)時代,需要通過數(shù)據(jù)的獨立性、數(shù)
據(jù)的完整性而確保每一個數(shù)據(jù)都是可識別的。
?在醫(yī)療大數(shù)據(jù)中,各個醫(yī)療數(shù)據(jù)分別由各家醫(yī)療機構(gòu)所產(chǎn)生、擁有。
?事物分類:事物分類是由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”
所提出的概念。大數(shù)據(jù)時代以前的信息系統(tǒng)的最終用戶是通過應(yīng)用程序
而看到各種數(shù)據(jù),最終用戶并不直接與數(shù)據(jù)庫中的數(shù)據(jù)打交道,數(shù)據(jù)庫
中的數(shù)據(jù)需要通過應(yīng)用程序解讀后最終用戶才能讀懂。在大數(shù)據(jù)時代,
大數(shù)據(jù)中包含成千上萬家機構(gòu)的數(shù)據(jù),因此,大數(shù)據(jù)中的每一個數(shù)據(jù)庫
是由哪家機構(gòu)所產(chǎn)生,數(shù)據(jù)庫中各表中所存貯的數(shù)據(jù)是什么等等都是非
常重要的信息,只有搞清楚這些信息,才能正常解讀各數(shù)據(jù)的真實含義。
在“萬能數(shù)據(jù)結(jié)構(gòu)表”中,“信息系統(tǒng)的名稱、數(shù)據(jù)庫的名稱、表名”
是以“事物分類”的形式存貯在表中,其目的是讓數(shù)據(jù)具體獨立性、完
整性,以此確保各數(shù)據(jù)在大數(shù)據(jù)中具有可識別性。
第2章醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn)
本章內(nèi)容提要:大數(shù)據(jù)并不是小數(shù)據(jù)之和,大數(shù)據(jù)與小數(shù)據(jù)有本質(zhì)的差異。
關(guān)系數(shù)據(jù)庫只適合于處理小數(shù)據(jù)而不適合處理大數(shù)據(jù)。用關(guān)系數(shù)據(jù)庫來處理人數(shù)
據(jù)時會遇到很多難以克服的困難。五年之內(nèi)(2020年前)大數(shù)據(jù)難以取得根本
性突破,大數(shù)據(jù)之夢十年之后才能夢想成真。維基百科關(guān)于大數(shù)據(jù)的定義也明確
指出當(dāng)前的主流軟件工具不能高效地處理大數(shù)據(jù),要高效處理大數(shù)據(jù)必須開發(fā)新
的軟件工具。目前的大多數(shù)信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都存貯在關(guān)系數(shù)據(jù)庫系統(tǒng)中。
關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)的一大特點(或者說一大問題)就是“數(shù)據(jù)嚴(yán)重依賴于數(shù)據(jù)
庫系統(tǒng)及應(yīng)用程序”,當(dāng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)脫離了相應(yīng)的數(shù)據(jù)庫系統(tǒng)及應(yīng)
用程序后,這些數(shù)據(jù)基本上就成了難以閱讀的無用數(shù)據(jù)。
2.1醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)之間的具有本質(zhì)的差異
如果把全國各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中上傳到國家醫(yī)療大數(shù)據(jù)中心,這
些數(shù)據(jù)的數(shù)據(jù)量一定會非常龐大,這些數(shù)據(jù)能不能稱為國家醫(yī)療大數(shù)據(jù)?按維基
百科對大數(shù)據(jù)的定義:“大數(shù)據(jù)是指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過目前主
流軟件工具,在合理時間內(nèi)達(dá)到獲取、處理的數(shù)據(jù)?!边@些數(shù)據(jù)可以稱為國家醫(yī)
療大數(shù)據(jù)。
維基百科的定義也明確地說明了把全國各家醫(yī)院全部集中起來的“數(shù)據(jù)量規(guī)
模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到獲取、處理”。為什么
不能處理呢?
例如,患者就醫(yī)時,醫(yī)生非常關(guān)心患者的病史。醫(yī)生能否從國家醫(yī)療大數(shù)據(jù)
中心獲得患者在全國任意一家醫(yī)院就醫(yī)時的所有病歷呢?假設(shè)全國各家醫(yī)院的
所有信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都已全部集中在國家醫(yī)療大數(shù)據(jù)中心,而且醫(yī)生具有
獲得這些數(shù)據(jù)的權(quán)限。
截至2014年3月底,全國醫(yī)療衛(wèi)生機構(gòu)數(shù)達(dá)97.8萬個,其中:醫(yī)院2.5萬
個,基層醫(yī)療衛(wèi)生機構(gòu)91.8萬個,專業(yè)公共衛(wèi)生機構(gòu)3.2萬個,其他機構(gòu)0.3
萬個。
仝國按2.5萬家醫(yī)院計算,一家醫(yī)院按4個信息系統(tǒng)計算,仝國共有10萬
個醫(yī)院信息系統(tǒng),這些信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)存貯在數(shù)千萬張表中。
醫(yī)療大數(shù)據(jù)應(yīng)該說是永久有用的,可用來研究人類疾病的歷史變化情況。因
此,國家醫(yī)療大數(shù)據(jù)應(yīng)是整個國家數(shù)年內(nèi)、數(shù)十年內(nèi)所產(chǎn)生的全部數(shù)據(jù)的總和,
甚至需要存貯數(shù)百年、數(shù)千年。國家醫(yī)療大數(shù)據(jù)所涉及的信息量是一般的醫(yī)院信
息系統(tǒng)的數(shù)據(jù)量的數(shù)萬倍、數(shù)十萬倍以上。
醫(yī)生要想獲得患者以往的病史數(shù)據(jù),就必須從數(shù)據(jù)千萬張表中查詢患者的病
史數(shù)據(jù)。了解關(guān)系數(shù)據(jù)庫理論者都知道,如果說僅有表中的數(shù)據(jù),沒有相應(yīng)的軟
件工具,那么,從數(shù)千萬張表中查詢數(shù)據(jù),即使最優(yōu)秀的程序員,在目前的技術(shù)
條件下,一周的時間內(nèi)肯定查不出來患者的所有病史數(shù)據(jù)。因為程序員在查詢數(shù)
據(jù)前,首先要搞清楚如下問題:
1、這些數(shù)據(jù)分別是哪家醫(yī)院所產(chǎn)生的?
2、這些數(shù)據(jù)分別是什么樣的數(shù)據(jù)庫系統(tǒng)產(chǎn)生的?
3、這些數(shù)據(jù)分別存貯在哪些表中?
4、各張表的結(jié)構(gòu)是什么?
5、表中會含有大量的代碼,各個代碼的含義是什么?
6、同一數(shù)據(jù)庫中會有多張表,這些表之間的關(guān)系是什么?
7、各張表中所存貯的是什么數(shù)據(jù)?數(shù)據(jù)的類型是什么?
國家醫(yī)療大數(shù)據(jù)文件中含有數(shù)千萬張表,一張表詳細(xì)情況說明基本上要用一
頁復(fù)印的信息量來描述,共需數(shù)千萬頁復(fù)印紙才能描述清楚全部表的基本情況。
面對全國97.8萬家醫(yī)療機構(gòu),2萬多家有一定規(guī)模的醫(yī)院,數(shù)萬個醫(yī)院信息
系統(tǒng),數(shù)千萬張表,程序員在一周的時間內(nèi)肯定搞不清楚上述問題。
從理論上而言,只要有數(shù)據(jù),程序員可以查詢到任何需要信息,然而由于國
家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量太大,數(shù)據(jù)關(guān)系太復(fù)雜,數(shù)據(jù)結(jié)構(gòu)太多、數(shù)據(jù)類型太多、
不標(biāo)準(zhǔn)的數(shù)據(jù)太多,結(jié)果是太難太難。
處理小數(shù)據(jù)時并未感到關(guān)系數(shù)據(jù)庫有什么不足之處,在大數(shù)據(jù)時代人們已認(rèn)
識到關(guān)系數(shù)據(jù)庫系統(tǒng)不適合處理大數(shù)據(jù)。
2.1.1小問題放大萬倍就會大的嚇人
國家醫(yī)療大數(shù)據(jù)并不是把全國各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中在一起就可
以稱作是合格的醫(yī)療大數(shù)據(jù)。如果僅是把全國各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中
在一起,而沒有處理這些數(shù)據(jù)的應(yīng)用程序,那么,這些數(shù)據(jù)也沒什么用處。
目前不是沒有大數(shù)據(jù),而是有很多大數(shù)據(jù),然而人們不能高效地對這些數(shù)據(jù)
進(jìn)行處理。
到目前為止,還沒有成功處理上萬家醫(yī)療機構(gòu)所產(chǎn)生的醫(yī)療大數(shù)據(jù)的成功案
例。
大數(shù)據(jù)比小數(shù)據(jù)大多少倍?目前沒有明確的定義,應(yīng)該說真正的大數(shù)據(jù)要比
小數(shù)據(jù)大一萬倍以上,最少也應(yīng)大一百倍以上。
大數(shù)據(jù)的大表現(xiàn)在:一是數(shù)據(jù)量大(是小數(shù)據(jù)“萬倍以上”),二是數(shù)據(jù)類
型多(是小數(shù)據(jù)“萬倍以上”),三是所涉及到的單位多(是小數(shù)據(jù)“萬倍以上”),
四是所涉及到的用戶多種多樣(是小數(shù)據(jù)“萬倍以上”),五是對數(shù)據(jù)的需求多
種多樣而且不確定(是小數(shù)據(jù)“萬倍以上”)。
在處理大數(shù)據(jù)時,會有很多的“萬倍以上”的問題。
3歲小朋友都可以數(shù)清楚自己家里有幾口人,然而全國有多少人?由于人數(shù)
十分龐大,全國人口普查就成了一項十分艱巨的大工程。自有人類以來,還無人
能夠數(shù)百之百準(zhǔn)確地數(shù)清楚全球在某段時間內(nèi)的人數(shù)。大家都認(rèn)為當(dāng)今的計算機
技術(shù)已非常先進(jìn),然而時至今日,全球、全國的人口普查都做不到百分之百準(zhǔn)確。
我國歷次人口普查都要花費大量的人力、物力。
宇宙之中有多少個星球體?誰也數(shù)不清,因為整個宇宙實在是太大了,宇宙
中的星球數(shù)量實在是太多了,誰也數(shù)不清,永遠(yuǎn)也數(shù)不清。
事物的數(shù)量大到一定程度后一項非常簡單的工作就會變成一項非常艱巨的
大工程。
小數(shù)據(jù)所處理的數(shù)據(jù)猶如小朋友數(shù)家里的人數(shù),大數(shù)據(jù)所處理的數(shù)據(jù)猶如全
國人口普查。
大數(shù)據(jù)的特點:小數(shù)據(jù)中的小問題一旦放大萬倍就會大的嚇人!在大數(shù)據(jù)處
理中,會遇到數(shù)量眾多的小問題。
當(dāng)前的絕大多數(shù)信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫系統(tǒng)而建立的。在設(shè)計數(shù)據(jù)庫系
統(tǒng)時,設(shè)計人員習(xí)慣于用代碼來表示各種數(shù)據(jù),例如一些設(shè)計人員人用數(shù)字“0”
來代表女性、用“1”代表男性),有的用來代表男性、“F”來代表女性。
全國各行各業(yè)擁有數(shù)千萬個信息系統(tǒng),其中的數(shù)千萬張表中擁有人的性別這種字
段。在當(dāng)前的情況下,人們是用數(shù)據(jù)抽取的方法來而使性別這種字段中的數(shù)據(jù)全
部轉(zhuǎn)換為統(tǒng)一的、標(biāo)準(zhǔn)的數(shù)據(jù),例如統(tǒng)一為“男”、“女”。要把全國數(shù)千萬張
表中的性別數(shù)據(jù)全部轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù),就是一項非常艱巨的系統(tǒng)工程。
要真正建立起國家醫(yī)療大數(shù)據(jù)?,要解決很多個數(shù)量十分龐大的小問題。
大數(shù)據(jù)一般比小數(shù)據(jù)大數(shù)萬倍、數(shù)十萬倍,小數(shù)據(jù)中的小問題一旦放大數(shù)萬
倍、數(shù)十萬倍就會大的嚇人!
在小數(shù)據(jù)時代,人們所設(shè)計的信息系統(tǒng)只是用來處理某個機構(gòu),某個部門內(nèi)
部的某個局部問題進(jìn)行統(tǒng)計、分析,一個信息系統(tǒng)中只有幾張表、幾十張表。
在大數(shù)據(jù)時代,人們更關(guān)注全國,甚至全球范圍內(nèi)的對所有事物進(jìn)行統(tǒng)計、
分析,涉及到數(shù)百萬、數(shù)千萬個信息系統(tǒng)、數(shù)億張表。
小數(shù)據(jù)是為機構(gòu)內(nèi)部的人員所使用,是從機構(gòu)的角度看問題,而大數(shù)據(jù)而是
從全國,甚至全球來考慮問題。
對醫(yī)療行業(yè)而言,全國擁有近97.8萬家醫(yī)療機構(gòu),數(shù)百萬從業(yè)人員,為全
國13億人服務(wù)。
目前商業(yè)智能所處理的還只是一家企業(yè)內(nèi)部的數(shù)據(jù),人們已感到對企業(yè)內(nèi)部
的數(shù)十個信息系統(tǒng)中的數(shù)據(jù)進(jìn)行處理已非常困難,而大數(shù)據(jù)所要處理的是整個行
業(yè)的數(shù)據(jù),比商業(yè)智能復(fù)雜數(shù)萬倍。
?大數(shù)據(jù)=價值大二困難大二問題大二代價大
2.2醫(yī)療大數(shù)據(jù)面臨八大難題
當(dāng)前國內(nèi)的各家醫(yī)院的各種信息系統(tǒng)都是為了滿足自己的需求而開發(fā)的,可
以比較好地滿足各家醫(yī)院自己的各種需求,并發(fā)揮出了重要的作用。然而,當(dāng)人
們從國家醫(yī)療大數(shù)據(jù)的角度來考慮問題時,就會發(fā)現(xiàn)要從全國的所有醫(yī)療機構(gòu)的
所有信息系統(tǒng)中挖掘出有價值的信息實在是大難了!主要有下述八大難題。
各自為政:各家醫(yī)療機構(gòu)各自為政,都想要到人的的數(shù)據(jù),都不希望自己的
數(shù)據(jù)共享給他人。到目前為止,醫(yī)療數(shù)據(jù)都存貯在各家醫(yī)療機構(gòu)內(nèi)部,從各家醫(yī)
療機構(gòu)獲得數(shù)據(jù)非常難。
1、數(shù)據(jù)不標(biāo)準(zhǔn):醫(yī)療行業(yè)還未建立全國統(tǒng)一的、標(biāo)準(zhǔn)化、規(guī)范的數(shù)據(jù),各
家醫(yī)院的醫(yī)療數(shù)據(jù)各不相同。數(shù)據(jù)不標(biāo)準(zhǔn)問題是影響大數(shù)據(jù)處理的一個重大問題,
在大數(shù)據(jù)時代,各行各業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)化工作是大數(shù)據(jù)的一項非常重要的基礎(chǔ)工作,
這項基礎(chǔ)工作搞不好,大數(shù)據(jù)挖掘工作不可能搞好°醫(yī)療行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)化工作
也是一項工程量巨大的系統(tǒng)工程,需要大量的醫(yī)務(wù)人員共同參與才能完成。國內(nèi)
還未做好這項基礎(chǔ)工作。數(shù)據(jù)不標(biāo)準(zhǔn)、不規(guī)范,會嚴(yán)重影響數(shù)據(jù)挖掘的結(jié)果?!緮?shù)
據(jù)不一致可以有多種情況,如數(shù)據(jù)類型不一致,隨意縮寫造成的不一致,計量單
位不一致等。當(dāng)從多個不同的數(shù)據(jù)源整合數(shù)據(jù)時,由于定義的不同,更容易產(chǎn)生
數(shù)據(jù)不一致問題。在不同的數(shù)據(jù)源中,相同類型的信息可能表現(xiàn)為不同的格式。
例如,電話號碼通常定義為字符型數(shù)據(jù),但在有些數(shù)據(jù)源中可能將定義數(shù)值型數(shù)
據(jù),因此應(yīng)將其標(biāo)準(zhǔn)化。典型的例子是字段“性別”,一些人用數(shù)字“0”、“1”、
“2”來表示“不清”、“男”、“女”。而在其它數(shù)據(jù)庫中,可能直接用“不
清”、“男”、“女”來描述。另一種情況是字段值在不同的數(shù)據(jù)源中不一致,
如“出生地”可能分別使用“上海”、“滬”、“上海市”、“滬市”、“SHANGHAI”、
“SH”等表示上海市出生的人。解決這一問題首先應(yīng)該進(jìn)行標(biāo)準(zhǔn)化,然后根據(jù)標(biāo)
準(zhǔn)逐步消除數(shù)據(jù)不一致的問題?!?/p>
2、業(yè)務(wù)及業(yè)務(wù)流程不標(biāo)準(zhǔn):要對全國的某個行業(yè)的大數(shù)據(jù)進(jìn)行分析統(tǒng)一,
行業(yè)內(nèi)的業(yè)務(wù)及業(yè)務(wù)流程的標(biāo)準(zhǔn)化工作也是一項非常重要的工作,否則,各個機
構(gòu)的數(shù)據(jù)也就會百花齊放、各不相同,不利于分析統(tǒng)計。
3、數(shù)據(jù)多樣性(Variety)【數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)、不統(tǒng)一】:全國有97.8萬家醫(yī)
療機構(gòu),這些機構(gòu)的全部信息系統(tǒng)有數(shù)十萬個,這些系統(tǒng)由不同的開發(fā)商所開發(fā),
各系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)不盡相同。【每家醫(yī)院的信息化工作都涉及幾十個廠家,每個
廠家的數(shù)據(jù)、標(biāo)準(zhǔn)、采集、存儲都不一樣。因此,即便是在一家醫(yī)院,都會出現(xiàn)
很多孤島,更別說整個醫(yī)療行業(yè)了。各家醫(yī)院信息系統(tǒng)的標(biāo)準(zhǔn)、接口都不同,這
成為利用率低、共享難的原因之一?!?/p>
4、數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、應(yīng)用系統(tǒng)密切不可分:關(guān)系數(shù)據(jù)庫系統(tǒng)中的每一個
數(shù)據(jù)都要先定義數(shù)據(jù)結(jié)構(gòu)才能入住數(shù)據(jù)庫。信息系統(tǒng)的最終用戶所看到的數(shù)據(jù)都
需要應(yīng)用程序的解讀,最終用戶看不懂關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。
不能實現(xiàn)醫(yī)學(xué)信息的結(jié)構(gòu)化存貯:醫(yī)學(xué)信息非常復(fù)雜,醫(yī)務(wù)人員習(xí)慣于用自
然語言編寫各種醫(yī)學(xué)檔案,例如醫(yī)生都是用自然語言編寫病歷。然而,計算機很
笨,不能理解自然語言,因此只有把醫(yī)學(xué)信息結(jié)構(gòu)化之后進(jìn)行存貯,才能用計算
機進(jìn)行處理。而當(dāng)前的眾多醫(yī)學(xué)信息都未能很好地進(jìn)行結(jié)構(gòu)化存貯。
5、信息孤島:各家醫(yī)院的各個信息系統(tǒng)不能實現(xiàn)全國互聯(lián)互通。
6、老系統(tǒng)升級改造難題:當(dāng)前的信息系統(tǒng)都是小數(shù)據(jù)系統(tǒng),不適應(yīng)大數(shù)據(jù)
時代的需求,然而要對現(xiàn)有的信息系統(tǒng)進(jìn)行全面改造也是非常困難的,其代價也
是非常高昂的?!緸槭裁匆壐脑??因為當(dāng)前的各家醫(yī)院的信息系統(tǒng)所產(chǎn)生的
數(shù)據(jù)各不相同,數(shù)據(jù)不標(biāo)準(zhǔn)、不規(guī)范。要對大數(shù)據(jù)進(jìn)行處理,必須確保全國各家
醫(yī)療機構(gòu)的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)是統(tǒng)一的、標(biāo)準(zhǔn)的、規(guī)范的醫(yī)學(xué)標(biāo)準(zhǔn)數(shù)據(jù)。只
有這樣,才能高效處理大數(shù)據(jù)?!?/p>
從理論上而言,醫(yī)療大數(shù)據(jù)挖掘很簡單,只要懂關(guān)系數(shù)據(jù)庫,基木上就能對
醫(yī)療大數(shù)據(jù)進(jìn)行挖掘。然而,要想對全國近百萬人醫(yī)療機構(gòu)、數(shù)十萬個信息系統(tǒng)
的全部數(shù)據(jù)進(jìn)行高效地挖掘,所面臨的挑戰(zhàn)是非常嚴(yán)重的。
如何解決八大難題?
1、各自為政:這個問題必須國家衛(wèi)生和計劃生育委員會以行政命令的方式
來解決,強制要求各醫(yī)療單位實時地把各種醫(yī)療信息上傳到國家醫(yī)療大數(shù)據(jù)中心。
若沒有強制的行政命令,不可能建立起合格的國家醫(yī)療大數(shù)據(jù)。
2、數(shù)據(jù)不標(biāo)準(zhǔn)難題:此難題涉及到的數(shù)據(jù)量太大、工程量太大。國家衛(wèi)計
委及很多人士雖說早就注意到此問題的存在,然而直到目前還未從根本上解決醫(yī)
療行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)化問題。此問題不從根本上解決,那么醫(yī)療大數(shù)據(jù)的挖掘就等
于說大話。醫(yī)療行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化工作是大數(shù)據(jù)挖掘的基礎(chǔ)工作。此問題應(yīng)該由國
家衛(wèi)計委組織業(yè)內(nèi)外力量來解決,解決此問題需要3至5年的時間。有了國家醫(yī)
療大數(shù)據(jù)標(biāo)準(zhǔn)之后,還需要用標(biāo)準(zhǔn)的醫(yī)療數(shù)據(jù)去代替現(xiàn)有的不標(biāo)準(zhǔn)的醫(yī)療數(shù)據(jù)\
而此項工作的工作量也是非常巨大的。標(biāo)準(zhǔn)化工作是不賺錢的基礎(chǔ)性工作,商業(yè)
機構(gòu)沒有從事這項工作的動力,應(yīng)該由國家衛(wèi)計委來解決。
業(yè)務(wù)、業(yè)務(wù)流程不標(biāo)準(zhǔn):目前全國各醫(yī)療機構(gòu)的業(yè)務(wù)及業(yè)務(wù)流程并不標(biāo)準(zhǔn),
因此,各醫(yī)療機構(gòu)所產(chǎn)生的數(shù)據(jù)也各不一樣。要建立國家醫(yī)療大數(shù)據(jù),就必須道
先對全國醫(yī)療機構(gòu)的業(yè)務(wù)流程進(jìn)行標(biāo)準(zhǔn)化處理,這也是一項工程量巨大的基礎(chǔ)性
系統(tǒng)工程。這項工作也應(yīng)該由國家衛(wèi)計委來解決。此項工作最快需要三至五年的
時間才能完成。
?只有解決了上述三項基礎(chǔ)性問題,才能夠建立起國家醫(yī)療大數(shù)據(jù)這個大
廈的堅實地基,否則醫(yī)療大數(shù)據(jù)只能是空中樓閣。由于上述三個因素牽
涉到全國各個醫(yī)療機構(gòu)的方方面面,非常復(fù)雜,十年之內(nèi)很難看到真正
的國家醫(yī)療大數(shù)據(jù)的曙光。
下述4個問題屬干技術(shù)問題,關(guān)系數(shù)據(jù)庫理論解決不了這4個問題,可由發(fā)
明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”從技術(shù)上加以徹底解決:
3、數(shù)據(jù)多樣性(Variety)【數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)、不統(tǒng)一】:目前關(guān)系數(shù)據(jù)庫占
據(jù)統(tǒng)治地位,絕大多數(shù)信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫而建立的。醫(yī)院的各種信息系
統(tǒng)中,多數(shù)也是用關(guān)系數(shù)據(jù)庫系統(tǒng)而建立。例如,目前國內(nèi)醫(yī)療行業(yè)的HIS系統(tǒng)
是由多個開發(fā)商所開發(fā),各家開發(fā)商所用的數(shù)據(jù)庫系統(tǒng)不一樣,所用的數(shù)據(jù)結(jié)構(gòu)
結(jié)構(gòu)及數(shù)據(jù)類型也不一樣.因此,如果要對全國各家醫(yī)療機構(gòu)的HIS系統(tǒng)中的數(shù)
據(jù)進(jìn)行分析,那么首先就要把各種數(shù)據(jù)全部轉(zhuǎn)換為同一的數(shù)據(jù)結(jié)構(gòu),然后才能對
數(shù)據(jù)進(jìn)行分析統(tǒng)計。然而要對全國近百萬個醫(yī)療機構(gòu)的數(shù)十萬個、數(shù)百萬個信息
系統(tǒng)中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,也是一項工程量巨大的系統(tǒng)工程。另一外很重要的問題
是,所有這些信息系統(tǒng)中的數(shù)據(jù)要轉(zhuǎn)換為哪一種統(tǒng)一的、標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu),也是
需要國家衛(wèi)計委制定相應(yīng)的標(biāo)準(zhǔn)、規(guī)范。
4、數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、應(yīng)用系統(tǒng)密不可分。
5、不能實現(xiàn)醫(yī)學(xué)信息的結(jié)構(gòu)化存貯:醫(yī)學(xué)信息非常復(fù)雜,用關(guān)系數(shù)據(jù)庫不
能實現(xiàn)病歷信息的結(jié)構(gòu)化存貯。有人用XML實現(xiàn)病歷信息的結(jié)構(gòu)化存貯,然而
XML只適合處于少量數(shù)據(jù),不適合對全國的病歷信息的處理。
6、信息孤島。
信息系統(tǒng)改造:現(xiàn)有的醫(yī)療信息系統(tǒng)就猶如廣州的城中村,廣州的城中村雖有一定
的作用,然而城中村與廣州這樣的國際化大都市非常不協(xié)調(diào)。改造廣州城中村的
最佳方案就是推倒重建,局部的修補是沒用的。然而要全部推倒重建,所花費的
資金是非常巨大的。
2.3國家大數(shù)據(jù)標(biāo)準(zhǔn)工程堪比“兩彈一星”
大數(shù)據(jù)工程,標(biāo)準(zhǔn)先行。
國家大數(shù)據(jù)標(biāo)準(zhǔn)的工程的工程量要比“兩彈一星”的工程量大C
國家大數(shù)據(jù)標(biāo)準(zhǔn)涉及到每一個行業(yè),也涉及到各種各樣的業(yè)務(wù)。大數(shù)據(jù)標(biāo)準(zhǔn)
涉及數(shù)據(jù)的標(biāo)準(zhǔn)化、數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)化、業(yè)務(wù)的標(biāo)準(zhǔn)化、業(yè)務(wù)流程的標(biāo)準(zhǔn)化。
大數(shù)據(jù)標(biāo)準(zhǔn)化工作完成之后還要對現(xiàn)有的信息系統(tǒng)進(jìn)行改造,這種改造的工
程量及代價也是非常高昂的。目前的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)不適應(yīng)大數(shù)據(jù)的需求。
歷史對秦始皇統(tǒng)一文字、統(tǒng)一度量衡、統(tǒng)一貨幣的評價非常高:功惠千秋。
大數(shù)據(jù)所面臨的問題也猶如秦始皇時代所面臨的“文字不統(tǒng)一、度量衡不統(tǒng)一、
貨幣不統(tǒng)一”問題。因此,要解決大數(shù)據(jù)所面臨的問題,也需要由秦國、秦始皇
那樣強大的機構(gòu)、領(lǐng)袖人物以行政命令的形式強制推行,才能從根本上解決問題。
大數(shù)據(jù)八大難題中的五大難題(各自為政、數(shù)據(jù)不標(biāo)準(zhǔn)、業(yè)務(wù)流程不標(biāo)準(zhǔn)、
數(shù)據(jù)多樣性(Variety)【數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)、不統(tǒng)一】、信息孤島)與秦始皇曾經(jīng)遇
到的問題有些類似。
為解決千年蟲問題,全球花費了超千億美元的資金。徹底砸爛小數(shù)據(jù)而建立
大數(shù)據(jù)新環(huán)境的代價遠(yuǎn)遠(yuǎn)超過千年蟲問題。千年蟲只是解決一個時間數(shù)據(jù)的問題,
而徹底砸爛小數(shù)據(jù)建立大數(shù)據(jù)新環(huán)境則涉及到兒乎所有信息系統(tǒng)的所有數(shù)據(jù)!
小數(shù)據(jù):只要能滿足自己需求,能解決自己的問題即可。
大數(shù)據(jù):不只是滿足自己的需求、解決自己的問題,還要考慮他人的需求。
重點是如何讓他人能夠找到所需要的數(shù)據(jù)。
要讓他人、大家找到所需要的數(shù)據(jù),最重要的是大家都要遵循相同的標(biāo)準(zhǔn),
大家都講普通話,而不是方言,這猶如泰始皇統(tǒng)一六國后的“書同文”的標(biāo)準(zhǔn)化
改革。
當(dāng)前在處理大數(shù)據(jù)時的首要工作就是數(shù)據(jù)抽?。‥TL:“Extract”、
“Transform"、"Lead”,“抽取”、“轉(zhuǎn)換”、“裝載”),其實數(shù)據(jù)抽取
工作也類似“秦始皇的書同文”,只是數(shù)據(jù)抽取并未能真正象秦始那樣從根本上
解決書同文問題。要使大數(shù)據(jù)真正做到“書同文”,需要象秦始皇那樣從根本上
解決問題。而真正實現(xiàn)大數(shù)據(jù)“書同文”時,就不再需要數(shù)據(jù)抽取。
與當(dāng)前人們所提到的大數(shù)據(jù)相比,關(guān)系數(shù)據(jù)庫所處理的數(shù)據(jù)則是小數(shù)據(jù)。大
數(shù)據(jù)中的數(shù)據(jù)是數(shù)萬家、數(shù)十萬家以上的各中機構(gòu)中各種數(shù)據(jù)的總和。而關(guān)系數(shù)
據(jù)庫所處理的小數(shù)據(jù)則是一家機構(gòu)或幾家機構(gòu)中的部分?jǐn)?shù)據(jù)。
當(dāng)我們面對數(shù)十萬個、數(shù)百萬個以上的信息系統(tǒng)中的數(shù)據(jù)(大數(shù)據(jù))時,就
會發(fā)現(xiàn),我們面臨很多挑戰(zhàn):“(維基百科對大數(shù)據(jù)的定義)無法在可承受的時
間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理”。也就說明用關(guān)系數(shù)據(jù)庫系統(tǒng)
己“無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具逐行捕捉、管理和處理”大數(shù)據(jù)。
在小數(shù)據(jù)時代,信息系統(tǒng)的用戶是通過應(yīng)用程序而查到自己所需要的數(shù)據(jù),
而信息系統(tǒng)對關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理后而以用戶能夠理解的形式展現(xiàn)給
用戶。然而,在大數(shù)據(jù)時代,這種方法行不通了。因為在小數(shù)據(jù)時代,我們所要
處理的數(shù)據(jù)是有限的、可確定的,而在大數(shù)據(jù)時代,我們所要處理的數(shù)據(jù)是無限
的,不確定的數(shù)據(jù)。
秦始皇之所以能使“書同文”成為現(xiàn)實,是因為他擁有至高無上的權(quán)威;“兩
彈一星”之所以能成功,關(guān)鍵在于“兩彈一星”關(guān)系到國家的生死存亡,國家大
力支持。大數(shù)據(jù)的成敗與國家的支持是分不開的。
2.4醫(yī)療行業(yè)的信息系統(tǒng)頂層設(shè)計為何難產(chǎn)
國家衛(wèi)生和計劃生育委員會幾年前就注意到了醫(yī)療行業(yè)信息系統(tǒng)頂層設(shè)計
的重要性,并希望從根本上解決此問題,但至今未能從根本上實現(xiàn)醫(yī)療行業(yè)信息
系統(tǒng)的頂層設(shè)計。
為什么要進(jìn)行頂層設(shè)計?因為當(dāng)前的各種醫(yī)院信息系統(tǒng)存在嚴(yán)重的問題,信
息孤島問題嚴(yán)重,不能互聯(lián)互通。
頂層設(shè)計建立在醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化、醫(yī)療業(yè)務(wù)流程標(biāo)準(zhǔn)化的基礎(chǔ)之上。而如今
醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化、醫(yī)療業(yè)務(wù)流程標(biāo)準(zhǔn)化這兩個基礎(chǔ)工作還未做好,因此頂層設(shè)計
就不可能有結(jié)果。
技術(shù)上的原因:關(guān)系數(shù)據(jù)庫理論的先天不足。
客觀原因:問題非常復(fù)雜、牽涉面太廣、所需資金非常巨大。
頂層設(shè)計非常難,比頂層設(shè)計更難的是有了頂層設(shè)計之后再對全國的醫(yī)療信
息系統(tǒng)進(jìn)行全面更新?lián)Q代。
2.5大數(shù)據(jù)挖掘中的問題:大數(shù)據(jù)的關(guān)鍵不在于大而在于如何挖掘
如果把全國97.8萬個醫(yī)療衛(wèi)生機構(gòu)所產(chǎn)生的數(shù)據(jù)全部存貯到國家醫(yī)療大數(shù)
據(jù)中心,這些數(shù)據(jù)可以稱作是“國家醫(yī)療大數(shù)據(jù)"然而這樣的數(shù)據(jù)并不能稱作
是真正合格的“國家醫(yī)療大數(shù)據(jù)”,因為,對這樣的數(shù)據(jù)的挖掘非常困難,從這
些數(shù)據(jù)中挖掘出有用數(shù)據(jù)的代價非常高,猶如沙里淘金,大海撈針。
大數(shù)據(jù)不是小數(shù)據(jù)之和。大數(shù)據(jù)的關(guān)鍵不在于大,而在于挖掘。只有可以讓
大家高效挖掘、任意挖掘的大數(shù)據(jù)才是真正合格的大數(shù)據(jù)。
2.5.1我國醫(yī)療行業(yè)每年產(chǎn)生多少數(shù)據(jù)
國家醫(yī)疔大數(shù)據(jù)的概況:截至2014年3月底,全國醫(yī)疔衛(wèi)生機構(gòu)數(shù)達(dá)97.8
萬個,其中:醫(yī)院2.5萬個,基層醫(yī)療衛(wèi)生機構(gòu)91.8萬個,專業(yè)公共衛(wèi)生機構(gòu)
3.2萬個,其他機構(gòu)0.3萬個。
僅按全國擁有2.5萬家醫(yī)院、每家醫(yī)院4個信息系統(tǒng)計算,全國約有10萬
個以上的醫(yī)院信息系統(tǒng),每個信息系統(tǒng)按20張表估算,全國共擁有200百萬張
表。
除了存貯在關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)外,還有其它類型的數(shù)據(jù):XML、音
像、文本等。
國家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算:南京軍區(qū)南京總醫(yī)院目前擁有5臺存儲設(shè)備,
2臺專用于PACS,其中HIS、LIS、EMR等數(shù)據(jù)3T,病案縮微數(shù)據(jù)12T,PACS
數(shù)據(jù)120T左右,每個月的數(shù)據(jù)增長為2T左右,每年產(chǎn)生的數(shù)據(jù)量:2417年。國
家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算=2.5萬家(未計小醫(yī)療機構(gòu)的數(shù)據(jù))*2417年=60萬
T/年。
國家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算:6萬T/年至100萬T/年。
2.5.2挖掘關(guān)系數(shù)據(jù)庫系統(tǒng)所產(chǎn)生的醫(yī)療數(shù)據(jù)非常困難
如果全國97.8萬家醫(yī)療機構(gòu)以鏡像的方式把所有數(shù)據(jù)都上傳到國家醫(yī)療大
數(shù)據(jù)中心,那么該如何對這些數(shù)據(jù)進(jìn)行挖掘?
全國共有97.8萬家醫(yī)療機構(gòu),這些醫(yī)療機構(gòu)所擁有的信息系統(tǒng)有10萬個以
上,這些醫(yī)療機構(gòu)所擁有的數(shù)據(jù)庫有1。萬個以上,這些數(shù)據(jù)庫中的表有2U0萬
張以上。這些醫(yī)療機構(gòu)的數(shù)據(jù)存貯在數(shù)十萬個以上的文件夾中(存貯XML、音像、
文本等數(shù)據(jù))。患者病史可能是患者自出生以來的所有情況,病史數(shù)據(jù)可能存貯
在幾十年的數(shù)據(jù)中,并不僅是一年的數(shù)據(jù)中。
當(dāng)前的大多數(shù)醫(yī)療數(shù)據(jù)都是存貯在關(guān)系數(shù)據(jù)庫中,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)
據(jù)庫系統(tǒng)密切相關(guān)、與數(shù)據(jù)結(jié)構(gòu)密切相關(guān)、與應(yīng)用程序密切相關(guān)、數(shù)據(jù)不標(biāo)準(zhǔn)。
如果只是以鏡像的方式把全國97.8萬家醫(yī)療機構(gòu)的數(shù)據(jù)全部上傳到國家醫(yī)療大
數(shù)據(jù)中心,要從這些數(shù)據(jù)中挖掘數(shù)據(jù),也是非常困難的。要從國家醫(yī)療大數(shù)據(jù)中
查詢患者病歷數(shù)據(jù),必要首先搞清楚如下情況:
?10萬個以上的數(shù)據(jù)庫各用什么數(shù)據(jù)庫系統(tǒng)?
?10萬個以上的數(shù)據(jù)庫的數(shù)據(jù)存貯在哪里?IP?如何訪問數(shù)據(jù)庫(帳
號)?
?100萬張以上的表中的每張表的數(shù)據(jù)結(jié)構(gòu)
?100萬張以上的表中各表之間的關(guān)系
?100萬張以上的表中的各個數(shù)據(jù)代碼的含義
?10萬個以上的文件夾中存貯什么樣的數(shù)據(jù)
基礎(chǔ)醫(yī)療數(shù)據(jù)大多存在于HIS、LIS、PACS、EMR、手術(shù)麻醉、體檢、心電
等多個子系統(tǒng)中。各系統(tǒng)來源于不同的生產(chǎn)廠商,數(shù)據(jù)存放在不同的數(shù)據(jù)庫,數(shù)
據(jù)多而散,數(shù)據(jù)庫的設(shè)計缺乏標(biāo)準(zhǔn)化,不同數(shù)據(jù)庫中的數(shù)據(jù)靠患者主索引等進(jìn)行
關(guān)聯(lián),關(guān)聯(lián)關(guān)系相當(dāng)復(fù)雜。各自廠家研發(fā)人員除了對自家系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)非常了
解之外,缺乏對其他系統(tǒng)數(shù)據(jù)結(jié)構(gòu)的了解,整體數(shù)據(jù)分析能力較差。
專業(yè)做數(shù)據(jù)分析及整合的公司,缺乏對醫(yī)院實際操作流程的深入了解,導(dǎo)致對數(shù)
據(jù)流向及關(guān)聯(lián)關(guān)系的分析不夠準(zhǔn)確,且很難準(zhǔn)確的拿到各子系統(tǒng)的基礎(chǔ)數(shù)據(jù),最
終未必能做到數(shù)據(jù)全面、準(zhǔn)確
電子數(shù)據(jù)獲取的步驟HIS、LIS、PACS
EMR....
搞清基礎(chǔ)數(shù)據(jù)都存放右哪些數(shù)據(jù)庫中
HIS:息91幺本信息我.診斷疆、用的取、費用我等.
(整體定位)EMR:主訴賽'墳病史表.個人史我'體格摘立.病程e錄表、
會診記錄表.出院記錄我等.
US.檢驗酬口*'子項目我、涂片表、於敏表等.
PACS:檢查名彝哀、檢查方法哀、B1?>??.印象哀等.
對單個數(shù)據(jù)庫,搞清基礎(chǔ)數(shù)據(jù)的存放位置
(數(shù)據(jù)庫、數(shù)據(jù)表、字段)
口
對單個數(shù)據(jù)庫,搞清相關(guān)字段之間的關(guān)系
(主鍵或組合主鍵)
us(字段)
。…£MR(字段)
對多個數(shù)據(jù)庫,搞清之間的關(guān)聯(lián)關(guān)系字段)
(主索引或其他標(biāo)志)
3PAG1
做到對多個數(shù)據(jù)庫中基礎(chǔ)數(shù)據(jù)的任意抽取及整合
(保證數(shù)據(jù)準(zhǔn)確、全面)
[周周困西)
2.5.3僅患者與數(shù)據(jù)的對應(yīng)關(guān)系就是一個大問題
如果說要從國家醫(yī)療大數(shù)據(jù)中查詢患者影像數(shù)據(jù),那么,該如何實現(xiàn)?
在當(dāng)前的醫(yī)療信息系統(tǒng)中,關(guān)于患者的編碼并不是唯一的,也不是全國統(tǒng)一
的。
要查詢某個患者的醫(yī)療數(shù)據(jù),最理想的查詢方式就是以患者的身份證號作為
查詢條件向查詢相關(guān)數(shù)據(jù)。由于目前國內(nèi)的各種醫(yī)療信息系統(tǒng)中的各個表中并不
一定擁有患者身份證這一字段,從而使查詢變得非常繁瑣。
例如:下面的表中的數(shù)據(jù)是一個PACS系統(tǒng)中的數(shù)據(jù)。此表中并沒有包含可以直
接識別患者身份的數(shù)據(jù)。因為由下表中的“姓名”及“門診及住院號”并不能準(zhǔn)
確地識別出是哪一個患者。國內(nèi)同名的人非常多,僅由姓名查義患者的數(shù)據(jù)是不
行的?!伴T診及住院號”只是各家醫(yī)院自己的編號,也不能把“門診及住院號”
作為查詢條件
門診或住黨號姓名性別中話醫(yī)生申IS時詞檢查項目名以4礪論鼾影像診用
礴W
自男斯科初屬威2016-0€-1810:16:41CT^S-(r>tt)W???rr肝絡(luò)板,修餓材。:詁4合咬起)2,右側(cè)物也布引流京后閭
山節(jié)739父歲多給核一科硒?2015-06-1809:20.34cr&整7門??。┯觅榫壗ńY(jié)花性熊WE積m便相較用厚祐泛3.嬉臺麗史,左傲氣j
3(?8^808為歲男結(jié)核一科悔,如20Ts容6d黃海炎慮左肺結(jié)核2、左腳酒氣狗引洗術(shù)后奴交
&70歲男矽由科刈國成1:紙泄遇尸孩事》£雙倒。腔稅液依網(wǎng)@增厚砧在
似咿1問28歲女LLUIkJTVm二「晨4n.口,二工.二容:考慮右航鰭發(fā)(語結(jié)臺庚檢)
20網(wǎng)61宓04忖
2$男絡(luò)銀三r:診2015?戈79060808(TH?。愞ACT斷整修考定右二聯(lián)笛咳,臨近胸脫海厚描1
87女給核三匚診2015-06-1908:0436(H?的肺BMWCUI雙則利艮電原杉生4、部分切相走行性技燹市!
於36更2015-W-19Mil49:曲豆?舌制向腹港區(qū)玷淬1袒國務(wù)片弊療淞卬;
201$8193期忖
18結(jié)被三U診案起2015-06-1906:1205(TH在闌副雕CT考慮兩.腕城侔石上箭至河形戊,互下加局Big
迦]因c.32%孫H興2015-06-1906:37.04(門?住闌既或敕I右肺上葉、左肺K葉條策圖百影,值結(jié)苫花片
在上面的PACS系統(tǒng)表中未包含患者身份證數(shù)據(jù)。因此,需要從HIS系統(tǒng)中
根據(jù)患者身份證號而查出患者的“門診或住院號”,再根據(jù)“門診或住院號”而
從PACS系統(tǒng)表中查出PACS影像數(shù)據(jù)。
“患者與數(shù)據(jù)的充應(yīng)關(guān)系”這樣的問題其實是大數(shù)據(jù)中的一個非常突出的問
題。為了查詢的方便,一定要把數(shù)據(jù)的最主要的特征在數(shù)據(jù)中表現(xiàn)出來。但關(guān)系
數(shù)據(jù)庫理論未考慮此問題。在大數(shù)據(jù)挖掘中,僅是確定患者的身份就是一項艱巨
的工程。對小數(shù)據(jù)而言,程序員知道相關(guān)的數(shù)據(jù)存貯在哪個表中,但在大數(shù)據(jù)環(huán)
境中,程序員不知道想要查詢的數(shù)據(jù)存貯在哪里。
2.6關(guān)系數(shù)據(jù)庫理論的致命傷
關(guān)系數(shù)據(jù)庫系統(tǒng)只適合于處理小數(shù)據(jù),而不適合處理大數(shù)據(jù),其根本原因在
于關(guān)系數(shù)據(jù)庫理論的先天不足。
2.6.1關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)在大數(shù)據(jù)環(huán)境中為何變成無意義的數(shù)據(jù)
如果在國家醫(yī)療大數(shù)據(jù)中心查詢到下表的數(shù)據(jù),誰能看懂?
?AAntidateAntiidAntienameAntinameTestnoMaesukSusdescResshow
9四)2007-11-2600:00:00CCClindamycin氯潔看素MIC8>->-8R
fl
)2007-11-2600:00:00czCefazoIn頭酒耍MIC32>->-32R
*1*
12007-11-2600:00:00EErythromycin紅毒素MIC8>->-8R
931(2007-11-2600:00:00FDNitrofurantoin帙喃妥因MIC32<-<-325
,31(
2007-11-2600:00:00GMGentamicin慶大毒素MIC16>■>-16R
該表中的數(shù)據(jù)是某家醫(yī)院的信息系統(tǒng)中的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),普通人看
不懂,醫(yī)生也只能靠猜測才能猜出部分內(nèi)容。
下面的兩張表中的數(shù)據(jù)也是關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),這兩張表中的數(shù)據(jù)也是普
2146張三男5672180
上.面兩表中的數(shù)據(jù)的實際含義如下:
ID姓名性別所齡體重身高
1張三男5672180
ID姓名性別中藥費西藥費其它費用
2146張三男5672180
下表是用發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”而設(shè)計的表,該表
中的數(shù)據(jù)無論是誰,只要懂漢語,就可以看懂表中內(nèi)容:
ID事物代號事物特征事物特征值超長特征值單位附件時間
100280事物分類體育管理系統(tǒng)2014.3.2
101280事物分類教練信息2014.3.2
102280事物分類教練基本情況2014.3.2
103280身份證號XXXXXXXXXX2014.3.2
105280姓名張三2014.3.2
106280性別男2014.3.2
107280年齡562014.3.2
108280體重72KG2014.3.2
109280身高180CM2014.3.2
11001280事物分類病歷2014.5.3
11011280事物分類住院病歷2014.5.3
11021280事物分類醫(yī)療費用2014.5.3
11031280身份證號XXXXXXXXXX2014.5.3
11041280住院號XXXXXXXXXX2014.5.3
11051280姓名張三2014.5.3
11061280性別男2014.5.3
11071280中藥費56元2014.5.3
11081280西藥費72元2014.5.3
11091280其它費用180
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護(hù)士崗位招聘筆試題與參考答案
- 焊工(技師)試題庫(附答案)
- (完整版)檔案管理職稱考試題庫及答案
- 2025紀(jì)檢監(jiān)察考試題庫(附參考答案)
- 銀行消防考試題及答案
- 低鉀血癥考試試題及答案
- 大氣遙感考試題及答案
- 呼吸系統(tǒng)疾病患者的心理護(hù)理
- 2026黑龍江綏化市農(nóng)業(yè)農(nóng)村局所屬農(nóng)田建設(shè)服務(wù)中心招聘7人參考題庫必考題
- 中共紹興市紀(jì)委紹興市監(jiān)委公開選調(diào)下屬事業(yè)單位工作人員5人備考題庫必考題
- 長沙股權(quán)激勵協(xié)議書
- 問卷星使用培訓(xùn)
- 心源性腦卒中的防治課件
- 2025年浙江輔警協(xié)警招聘考試真題含答案詳解(新)
- 果園合伙經(jīng)營協(xié)議書
- 節(jié)能技術(shù)咨詢合同范本
- 物業(yè)管理經(jīng)理培訓(xùn)課件
- 員工解除競業(yè)協(xié)議通知書
- 【語文】太原市小學(xué)一年級上冊期末試題(含答案)
- 儲能電站員工轉(zhuǎn)正述職報告
- DB3301∕T 0165-2018 城市照明設(shè)施養(yǎng)護(hù)維修服務(wù)標(biāo)準(zhǔn)
評論
0/150
提交評論