醫(yī)療大數(shù)據(jù)解決方案1_第1頁
醫(yī)療大數(shù)據(jù)解決方案1_第2頁
醫(yī)療大數(shù)據(jù)解決方案1_第3頁
醫(yī)療大數(shù)據(jù)解決方案1_第4頁
醫(yī)療大數(shù)據(jù)解決方案1_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

醫(yī)療大數(shù)據(jù)解決方案

與信息系統(tǒng)的耦合度為零的數(shù)據(jù)才是合格的大數(shù)據(jù)

全國97.8萬家醫(yī)療機構(gòu)的信息系統(tǒng)基本上都是用關(guān)系數(shù)據(jù)庫而建立的,然

而要對關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行挖掘非常困難。大數(shù)據(jù)并不是小數(shù)據(jù)之和,關(guān)系

數(shù)據(jù)庫系統(tǒng)不適合處理大數(shù)據(jù)。

目錄

醫(yī)療大數(shù)據(jù)解決方案.............................................................66

第1章概要.........................................67

1.1名詞定義....................................................................68

第2章醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn)........................................................69

2.1醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)之間的具有本質(zhì)的差異...............................70

2.1.1小問題放大萬倍就會大的嚇人.............................................71

2.2醫(yī)療大數(shù)據(jù)面臨八大難題.....................................................73

2.3國家大數(shù)據(jù)標(biāo)準(zhǔn)工程堪比“兩彈一星”.........................................76

2.4醫(yī)療行業(yè)的信息系統(tǒng)頂層設(shè)計為何難產(chǎn).........................................78

2.5大數(shù)據(jù)挖掘中的問題:大數(shù)據(jù)的關(guān)鍵不在于大而在于如何挖掘....................78

2.5.1我國醫(yī)療行業(yè)每年產(chǎn)生多少數(shù)據(jù)...........................................78

2.5.2挖掘關(guān)系數(shù)據(jù)庫系統(tǒng)所產(chǎn)生的醫(yī)療數(shù)據(jù)非常困難..............................79

2.5.3僅患者與數(shù)據(jù)的對應(yīng)關(guān)系就是一個大問題.....................................80

2.6關(guān)系數(shù)據(jù)庫理論的致命傷.....................................................81

2.6.1關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)在大數(shù)據(jù)環(huán)境中為何變成無意義的數(shù)據(jù).....................81

2.6.2關(guān)系數(shù)據(jù)庫系統(tǒng)是一種完全封閉的系統(tǒng):外來數(shù)據(jù)無法入住.....................84

2.6.3關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)系統(tǒng)密不可分.....................................84

2.6.4關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)結(jié)構(gòu)密不可分.....................................84

2.6.5關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與應(yīng)用程序密不可分.....................................85

2.6.6關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離相應(yīng)的系統(tǒng)就成了無意義的數(shù)據(jù)..................85

2.6.7關(guān)系數(shù)據(jù)庫無法實現(xiàn)病歷信息的結(jié)構(gòu)化存貯..................................86

2.6.8關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)都是“方言”,大數(shù)據(jù)需要的是“普通話”................86

2.7關(guān)系數(shù)據(jù)庫如何處理國家醫(yī)療大數(shù)據(jù)中數(shù)萬個數(shù)據(jù)庫、數(shù)千萬張表.................86

2.8大數(shù)據(jù)之夢十年后成真.......................................................88

2.8.1信息化社會由概念到比較成熟用了30多年時間...............................88

2.8.2千年蟲問題的后示.........................................................88

2.8.3大數(shù)據(jù)工程遠(yuǎn)比千年蟲問題更雜.............................................89

2.8.4五年之內(nèi)(2020年前)醫(yī)療大數(shù)據(jù)只是紙上談兵..............................90

2.9必須開發(fā)新型的軟件工具才能對醫(yī)療大數(shù)據(jù)進(jìn)行高效挖掘.........................90

第3章發(fā)明專利:醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法..........90

3.1在了解醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法時的注意事項.................................91

3.2醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法...................................................93

3.3數(shù)據(jù)的完整性是大數(shù)據(jù)的根本.................................................98

3.3.1大數(shù)據(jù)的策略:以適當(dāng)?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)易識別............................98

3.3.2一個事物的數(shù)據(jù)..........................................................100

3.3.3事物分類...............................................................100

3.3.4關(guān)系數(shù)據(jù)庫的缺陷:關(guān)系................................................102

3.3.5數(shù)據(jù)的可識別性.........................................................106

3.3.6數(shù)據(jù)的多樣性...........................................................108

3.3.7元數(shù)據(jù)及國際元數(shù)據(jù)標(biāo)準(zhǔn)非常重要.........................................108

3.3.8大數(shù)據(jù)的關(guān)鍵:讓數(shù)據(jù)自己說話...........................................109

3.3.9大數(shù)據(jù)的策略:用數(shù)據(jù)代替程序...........................................111

3.4與信息系統(tǒng)的耦合度為零的數(shù)據(jù)才是合格的大數(shù)據(jù)..............................112

3.5醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法與關(guān)系數(shù)據(jù)庫的對比................................114

3.6應(yīng)用醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法的注意事項....................................115

3.7超大表化問題:分為多張表..................................................115

3.8關(guān)系數(shù)據(jù)庫中的二維表是數(shù)據(jù)不具獨立性的一個根木原因........................115

3.9“萬能數(shù)據(jù)結(jié)構(gòu)表”存放病歷信息的例了1163.10醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法實現(xiàn)互聯(lián)互通非常簡單117

3.11結(jié)構(gòu)化錄入病歷信息的例子:癥狀的結(jié)構(gòu)化...................................117

第4章獨立數(shù)據(jù)庫在醫(yī)療大數(shù)據(jù)方面的優(yōu)勢..........................................119

4.1大數(shù)據(jù)中最重要的就是查詢..................................................120

4.2超大表問題................................................................120

4.2.1自動調(diào)整表的長度.......................................................120

4.2.2自動查詢多張表.........................................................121

4.3用獨立數(shù)據(jù)庫實現(xiàn)國家醫(yī)療大數(shù)據(jù)的存貯處理..................................122

4.3.1獨立數(shù)據(jù)庫如何處埋國家醫(yī)療大數(shù)據(jù)中數(shù)十力個數(shù)據(jù)庫、數(shù)千力張表...........122

4.3.2疾病、癥狀的相關(guān)數(shù)據(jù)....................................................124

第1章概要

關(guān)系數(shù)據(jù)庫理論存在很多很嚴(yán)重的問題,例如,用關(guān)系數(shù)據(jù)庫系統(tǒng)所設(shè)計出

的信息系統(tǒng)都是孤島型系統(tǒng),難以實現(xiàn)系統(tǒng)之間的互聯(lián)互通;在大數(shù)據(jù)時代,人

們發(fā)現(xiàn),對全國97.8萬家醫(yī)療機構(gòu)所產(chǎn)生的醫(yī)療數(shù)據(jù)進(jìn)行挖掘非常困難,當(dāng)前

的大多數(shù)醫(yī)療信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫系統(tǒng)而設(shè)計的。

用關(guān)系數(shù)據(jù)庫系統(tǒng)所設(shè)計出的信息系統(tǒng)之所以難以互聯(lián)互通,孤島問題浬重,

根本原因在于“異構(gòu)數(shù)據(jù)”?!夺t(yī)學(xué)信息的結(jié)構(gòu)化存貯方法》中的“萬能數(shù)據(jù)結(jié)

構(gòu)表”可以存貯各種各樣的數(shù)據(jù),也可說用《醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法》所設(shè)

計出的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都是“同構(gòu)”的,不存在“異構(gòu)數(shù)據(jù)”的問題。關(guān)

系數(shù)據(jù)庫理論先天不足,不可能解決“異構(gòu)數(shù)據(jù)”問題。

醫(yī)院信息系統(tǒng)所處理的數(shù)據(jù)只是某家醫(yī)院所產(chǎn)生的某些特定的數(shù)據(jù)(可稱作

小數(shù)據(jù))。醫(yī)療大數(shù)據(jù)所要處理的數(shù)據(jù)是全國97.8萬家醫(yī)療機構(gòu)所擁有的數(shù)十

萬個醫(yī)療信息系統(tǒng)所產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)存貯在數(shù)千萬張表中,這些系統(tǒng)由不

同的開發(fā)商所開發(fā),各系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)各不相同。每家醫(yī)院的信息化工作都涉及

幾十個廠家,每個廠家的數(shù)據(jù)、標(biāo)準(zhǔn)、采集、存儲都不一樣。因此,即便是在一

家醫(yī)院,都會出現(xiàn)很多孤島,整個醫(yī)療行業(yè)的信息孤島問題更嚴(yán)重。各家醫(yī)院信

息系統(tǒng)的標(biāo)準(zhǔn)、接口都不同,這成為利用率低、共享難的原因之一。不僅如此,

數(shù)據(jù)種類的多樣化也為數(shù)據(jù)標(biāo)準(zhǔn)的制定和應(yīng)用帶來了挑戰(zhàn)。

小數(shù)據(jù)的特點是數(shù)據(jù)的類型和數(shù)據(jù)都是有限的,在處理數(shù)據(jù)前能事先確定數(shù)

據(jù)的類型。而大數(shù)據(jù)的數(shù)據(jù)特點是“多樣性(Variety)”,在處理數(shù)據(jù)時很難先

事先確定數(shù)據(jù)的類型,甚至不能確定數(shù)據(jù)的類型。目前關(guān)系數(shù)據(jù)庫在數(shù)據(jù)處理中

占據(jù)統(tǒng)治地位,而關(guān)系數(shù)據(jù)庫在處理數(shù)據(jù)時事先要確定數(shù)據(jù)的類型,因此,在處

理數(shù)據(jù)類型不能事先確定的大數(shù)據(jù)時,關(guān)系數(shù)據(jù)庫就遇到了難以逾越的障礙。

醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)具有本質(zhì)的差別。現(xiàn)有的各種信息

系統(tǒng)所處理的數(shù)據(jù)都是小數(shù)據(jù)。目前人們只是認(rèn)識到大數(shù)據(jù)重要性,大數(shù)據(jù)還只

是處于概念階段。大數(shù)據(jù)夢想將在10年后夢想成真,5年之內(nèi),難有突破性進(jìn)

展。

國家醫(yī)療大數(shù)據(jù)所面臨的最大難題:當(dāng)前的醫(yī)療信息系統(tǒng)不能適應(yīng)醫(yī)療大數(shù)

據(jù)的實際需求,需要對現(xiàn)有的信息系統(tǒng)進(jìn)行徹底的改造才能適應(yīng)大數(shù)據(jù)時代的

潮流。然而,要徹底改造全國現(xiàn)的醫(yī)療信息系統(tǒng),所花費的代價是非常高昂的!

1.1名詞定義

?數(shù)據(jù)與系統(tǒng)的耦合度:數(shù)據(jù)與系統(tǒng)的耦合度越高,數(shù)據(jù)對系統(tǒng)的依賴程

度就越高。當(dāng)數(shù)據(jù)對系統(tǒng)的依賴程度比較高時,數(shù)據(jù)一旦脫離了原有的

系統(tǒng)就變成了無意義的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)來源于成千上萬家單位的系

統(tǒng),因此,大數(shù)居中的數(shù)據(jù)應(yīng)該是與系統(tǒng)的耦合度為零的數(shù)據(jù),否則就

需要很多的應(yīng)用程度來解讀數(shù)據(jù),這會增加數(shù)據(jù)處理的難度、成本。

?萬能數(shù)據(jù)結(jié)構(gòu)表:由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”在模

仿大腦記憶、聯(lián)想的基礎(chǔ)上而所提出的一種新型數(shù)據(jù)結(jié)構(gòu),可以在同一

張表中存貯各種各樣的數(shù)據(jù)。

?獨立數(shù)據(jù)庫:由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”而建立的

數(shù)據(jù)庫即可稱為獨立數(shù)據(jù)庫。獨立數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫有本質(zhì)的差異。

?數(shù)據(jù)的獨立性:數(shù)據(jù)的獨立性是由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存

貯方法”所提出的概念,是指數(shù)據(jù)不信依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)

構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨立地表達(dá)出某種含義。關(guān)系數(shù)據(jù)

庫中的數(shù)據(jù)不具有獨立性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用程序才能

解讀數(shù)據(jù)的含義。

?數(shù)據(jù)的完整性:數(shù)據(jù)的完整生是由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存

貯方法”所提出的概念,是指數(shù)據(jù)不信依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)

構(gòu)、不依靠注釋、不依靠應(yīng)用程序而完整地表達(dá)出某種含義。關(guān)系數(shù)據(jù)

庫中的數(shù)據(jù)不具有完整性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用程序才能

解讀數(shù)據(jù)的含義。

數(shù)據(jù)的可識別性:在班、組這樣的小環(huán)境中可以用每個人的姓名而區(qū)分

出每一個人,然而在全國范圍內(nèi),由于人數(shù)太多,很多姓名都有重名現(xiàn)

象,因此僅靠姓名就不能準(zhǔn)確無誤地識別出每一個人。大數(shù)據(jù)時代以前

的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只是應(yīng)用于某個機構(gòu)內(nèi)部,因此各個數(shù)據(jù)就容易

識別,然而如果把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)放到大數(shù)據(jù)環(huán)境中,那么這些數(shù)

據(jù)就成了不可識別的數(shù)據(jù)。在大數(shù)據(jù)時代,需要通過數(shù)據(jù)的獨立性、數(shù)

據(jù)的完整性而確保每一個數(shù)據(jù)都是可識別的。

?在醫(yī)療大數(shù)據(jù)中,各個醫(yī)療數(shù)據(jù)分別由各家醫(yī)療機構(gòu)所產(chǎn)生、擁有。

?事物分類:事物分類是由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”

所提出的概念。大數(shù)據(jù)時代以前的信息系統(tǒng)的最終用戶是通過應(yīng)用程序

而看到各種數(shù)據(jù),最終用戶并不直接與數(shù)據(jù)庫中的數(shù)據(jù)打交道,數(shù)據(jù)庫

中的數(shù)據(jù)需要通過應(yīng)用程序解讀后最終用戶才能讀懂。在大數(shù)據(jù)時代,

大數(shù)據(jù)中包含成千上萬家機構(gòu)的數(shù)據(jù),因此,大數(shù)據(jù)中的每一個數(shù)據(jù)庫

是由哪家機構(gòu)所產(chǎn)生,數(shù)據(jù)庫中各表中所存貯的數(shù)據(jù)是什么等等都是非

常重要的信息,只有搞清楚這些信息,才能正常解讀各數(shù)據(jù)的真實含義。

在“萬能數(shù)據(jù)結(jié)構(gòu)表”中,“信息系統(tǒng)的名稱、數(shù)據(jù)庫的名稱、表名”

是以“事物分類”的形式存貯在表中,其目的是讓數(shù)據(jù)具體獨立性、完

整性,以此確保各數(shù)據(jù)在大數(shù)據(jù)中具有可識別性。

第2章醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn)

本章內(nèi)容提要:大數(shù)據(jù)并不是小數(shù)據(jù)之和,大數(shù)據(jù)與小數(shù)據(jù)有本質(zhì)的差異。

關(guān)系數(shù)據(jù)庫只適合于處理小數(shù)據(jù)而不適合處理大數(shù)據(jù)。用關(guān)系數(shù)據(jù)庫來處理人數(shù)

據(jù)時會遇到很多難以克服的困難。五年之內(nèi)(2020年前)大數(shù)據(jù)難以取得根本

性突破,大數(shù)據(jù)之夢十年之后才能夢想成真。維基百科關(guān)于大數(shù)據(jù)的定義也明確

指出當(dāng)前的主流軟件工具不能高效地處理大數(shù)據(jù),要高效處理大數(shù)據(jù)必須開發(fā)新

的軟件工具。目前的大多數(shù)信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都存貯在關(guān)系數(shù)據(jù)庫系統(tǒng)中。

關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)的一大特點(或者說一大問題)就是“數(shù)據(jù)嚴(yán)重依賴于數(shù)據(jù)

庫系統(tǒng)及應(yīng)用程序”,當(dāng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)脫離了相應(yīng)的數(shù)據(jù)庫系統(tǒng)及應(yīng)

用程序后,這些數(shù)據(jù)基本上就成了難以閱讀的無用數(shù)據(jù)。

2.1醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)之間的具有本質(zhì)的差異

如果把全國各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中上傳到國家醫(yī)療大數(shù)據(jù)中心,這

些數(shù)據(jù)的數(shù)據(jù)量一定會非常龐大,這些數(shù)據(jù)能不能稱為國家醫(yī)療大數(shù)據(jù)?按維基

百科對大數(shù)據(jù)的定義:“大數(shù)據(jù)是指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過目前主

流軟件工具,在合理時間內(nèi)達(dá)到獲取、處理的數(shù)據(jù)?!边@些數(shù)據(jù)可以稱為國家醫(yī)

療大數(shù)據(jù)。

維基百科的定義也明確地說明了把全國各家醫(yī)院全部集中起來的“數(shù)據(jù)量規(guī)

模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到獲取、處理”。為什么

不能處理呢?

例如,患者就醫(yī)時,醫(yī)生非常關(guān)心患者的病史。醫(yī)生能否從國家醫(yī)療大數(shù)據(jù)

中心獲得患者在全國任意一家醫(yī)院就醫(yī)時的所有病歷呢?假設(shè)全國各家醫(yī)院的

所有信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都已全部集中在國家醫(yī)療大數(shù)據(jù)中心,而且醫(yī)生具有

獲得這些數(shù)據(jù)的權(quán)限。

截至2014年3月底,全國醫(yī)療衛(wèi)生機構(gòu)數(shù)達(dá)97.8萬個,其中:醫(yī)院2.5萬

個,基層醫(yī)療衛(wèi)生機構(gòu)91.8萬個,專業(yè)公共衛(wèi)生機構(gòu)3.2萬個,其他機構(gòu)0.3

萬個。

仝國按2.5萬家醫(yī)院計算,一家醫(yī)院按4個信息系統(tǒng)計算,仝國共有10萬

個醫(yī)院信息系統(tǒng),這些信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)存貯在數(shù)千萬張表中。

醫(yī)療大數(shù)據(jù)應(yīng)該說是永久有用的,可用來研究人類疾病的歷史變化情況。因

此,國家醫(yī)療大數(shù)據(jù)應(yīng)是整個國家數(shù)年內(nèi)、數(shù)十年內(nèi)所產(chǎn)生的全部數(shù)據(jù)的總和,

甚至需要存貯數(shù)百年、數(shù)千年。國家醫(yī)療大數(shù)據(jù)所涉及的信息量是一般的醫(yī)院信

息系統(tǒng)的數(shù)據(jù)量的數(shù)萬倍、數(shù)十萬倍以上。

醫(yī)生要想獲得患者以往的病史數(shù)據(jù),就必須從數(shù)據(jù)千萬張表中查詢患者的病

史數(shù)據(jù)。了解關(guān)系數(shù)據(jù)庫理論者都知道,如果說僅有表中的數(shù)據(jù),沒有相應(yīng)的軟

件工具,那么,從數(shù)千萬張表中查詢數(shù)據(jù),即使最優(yōu)秀的程序員,在目前的技術(shù)

條件下,一周的時間內(nèi)肯定查不出來患者的所有病史數(shù)據(jù)。因為程序員在查詢數(shù)

據(jù)前,首先要搞清楚如下問題:

1、這些數(shù)據(jù)分別是哪家醫(yī)院所產(chǎn)生的?

2、這些數(shù)據(jù)分別是什么樣的數(shù)據(jù)庫系統(tǒng)產(chǎn)生的?

3、這些數(shù)據(jù)分別存貯在哪些表中?

4、各張表的結(jié)構(gòu)是什么?

5、表中會含有大量的代碼,各個代碼的含義是什么?

6、同一數(shù)據(jù)庫中會有多張表,這些表之間的關(guān)系是什么?

7、各張表中所存貯的是什么數(shù)據(jù)?數(shù)據(jù)的類型是什么?

國家醫(yī)療大數(shù)據(jù)文件中含有數(shù)千萬張表,一張表詳細(xì)情況說明基本上要用一

頁復(fù)印的信息量來描述,共需數(shù)千萬頁復(fù)印紙才能描述清楚全部表的基本情況。

面對全國97.8萬家醫(yī)療機構(gòu),2萬多家有一定規(guī)模的醫(yī)院,數(shù)萬個醫(yī)院信息

系統(tǒng),數(shù)千萬張表,程序員在一周的時間內(nèi)肯定搞不清楚上述問題。

從理論上而言,只要有數(shù)據(jù),程序員可以查詢到任何需要信息,然而由于國

家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量太大,數(shù)據(jù)關(guān)系太復(fù)雜,數(shù)據(jù)結(jié)構(gòu)太多、數(shù)據(jù)類型太多、

不標(biāo)準(zhǔn)的數(shù)據(jù)太多,結(jié)果是太難太難。

處理小數(shù)據(jù)時并未感到關(guān)系數(shù)據(jù)庫有什么不足之處,在大數(shù)據(jù)時代人們已認(rèn)

識到關(guān)系數(shù)據(jù)庫系統(tǒng)不適合處理大數(shù)據(jù)。

2.1.1小問題放大萬倍就會大的嚇人

國家醫(yī)療大數(shù)據(jù)并不是把全國各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中在一起就可

以稱作是合格的醫(yī)療大數(shù)據(jù)。如果僅是把全國各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中

在一起,而沒有處理這些數(shù)據(jù)的應(yīng)用程序,那么,這些數(shù)據(jù)也沒什么用處。

目前不是沒有大數(shù)據(jù),而是有很多大數(shù)據(jù),然而人們不能高效地對這些數(shù)據(jù)

進(jìn)行處理。

到目前為止,還沒有成功處理上萬家醫(yī)療機構(gòu)所產(chǎn)生的醫(yī)療大數(shù)據(jù)的成功案

例。

大數(shù)據(jù)比小數(shù)據(jù)大多少倍?目前沒有明確的定義,應(yīng)該說真正的大數(shù)據(jù)要比

小數(shù)據(jù)大一萬倍以上,最少也應(yīng)大一百倍以上。

大數(shù)據(jù)的大表現(xiàn)在:一是數(shù)據(jù)量大(是小數(shù)據(jù)“萬倍以上”),二是數(shù)據(jù)類

型多(是小數(shù)據(jù)“萬倍以上”),三是所涉及到的單位多(是小數(shù)據(jù)“萬倍以上”),

四是所涉及到的用戶多種多樣(是小數(shù)據(jù)“萬倍以上”),五是對數(shù)據(jù)的需求多

種多樣而且不確定(是小數(shù)據(jù)“萬倍以上”)。

在處理大數(shù)據(jù)時,會有很多的“萬倍以上”的問題。

3歲小朋友都可以數(shù)清楚自己家里有幾口人,然而全國有多少人?由于人數(shù)

十分龐大,全國人口普查就成了一項十分艱巨的大工程。自有人類以來,還無人

能夠數(shù)百之百準(zhǔn)確地數(shù)清楚全球在某段時間內(nèi)的人數(shù)。大家都認(rèn)為當(dāng)今的計算機

技術(shù)已非常先進(jìn),然而時至今日,全球、全國的人口普查都做不到百分之百準(zhǔn)確。

我國歷次人口普查都要花費大量的人力、物力。

宇宙之中有多少個星球體?誰也數(shù)不清,因為整個宇宙實在是太大了,宇宙

中的星球數(shù)量實在是太多了,誰也數(shù)不清,永遠(yuǎn)也數(shù)不清。

事物的數(shù)量大到一定程度后一項非常簡單的工作就會變成一項非常艱巨的

大工程。

小數(shù)據(jù)所處理的數(shù)據(jù)猶如小朋友數(shù)家里的人數(shù),大數(shù)據(jù)所處理的數(shù)據(jù)猶如全

國人口普查。

大數(shù)據(jù)的特點:小數(shù)據(jù)中的小問題一旦放大萬倍就會大的嚇人!在大數(shù)據(jù)處

理中,會遇到數(shù)量眾多的小問題。

當(dāng)前的絕大多數(shù)信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫系統(tǒng)而建立的。在設(shè)計數(shù)據(jù)庫系

統(tǒng)時,設(shè)計人員習(xí)慣于用代碼來表示各種數(shù)據(jù),例如一些設(shè)計人員人用數(shù)字“0”

來代表女性、用“1”代表男性),有的用來代表男性、“F”來代表女性。

全國各行各業(yè)擁有數(shù)千萬個信息系統(tǒng),其中的數(shù)千萬張表中擁有人的性別這種字

段。在當(dāng)前的情況下,人們是用數(shù)據(jù)抽取的方法來而使性別這種字段中的數(shù)據(jù)全

部轉(zhuǎn)換為統(tǒng)一的、標(biāo)準(zhǔn)的數(shù)據(jù),例如統(tǒng)一為“男”、“女”。要把全國數(shù)千萬張

表中的性別數(shù)據(jù)全部轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù),就是一項非常艱巨的系統(tǒng)工程。

要真正建立起國家醫(yī)療大數(shù)據(jù)?,要解決很多個數(shù)量十分龐大的小問題。

大數(shù)據(jù)一般比小數(shù)據(jù)大數(shù)萬倍、數(shù)十萬倍,小數(shù)據(jù)中的小問題一旦放大數(shù)萬

倍、數(shù)十萬倍就會大的嚇人!

在小數(shù)據(jù)時代,人們所設(shè)計的信息系統(tǒng)只是用來處理某個機構(gòu),某個部門內(nèi)

部的某個局部問題進(jìn)行統(tǒng)計、分析,一個信息系統(tǒng)中只有幾張表、幾十張表。

在大數(shù)據(jù)時代,人們更關(guān)注全國,甚至全球范圍內(nèi)的對所有事物進(jìn)行統(tǒng)計、

分析,涉及到數(shù)百萬、數(shù)千萬個信息系統(tǒng)、數(shù)億張表。

小數(shù)據(jù)是為機構(gòu)內(nèi)部的人員所使用,是從機構(gòu)的角度看問題,而大數(shù)據(jù)而是

從全國,甚至全球來考慮問題。

對醫(yī)療行業(yè)而言,全國擁有近97.8萬家醫(yī)療機構(gòu),數(shù)百萬從業(yè)人員,為全

國13億人服務(wù)。

目前商業(yè)智能所處理的還只是一家企業(yè)內(nèi)部的數(shù)據(jù),人們已感到對企業(yè)內(nèi)部

的數(shù)十個信息系統(tǒng)中的數(shù)據(jù)進(jìn)行處理已非常困難,而大數(shù)據(jù)所要處理的是整個行

業(yè)的數(shù)據(jù),比商業(yè)智能復(fù)雜數(shù)萬倍。

?大數(shù)據(jù)=價值大二困難大二問題大二代價大

2.2醫(yī)療大數(shù)據(jù)面臨八大難題

當(dāng)前國內(nèi)的各家醫(yī)院的各種信息系統(tǒng)都是為了滿足自己的需求而開發(fā)的,可

以比較好地滿足各家醫(yī)院自己的各種需求,并發(fā)揮出了重要的作用。然而,當(dāng)人

們從國家醫(yī)療大數(shù)據(jù)的角度來考慮問題時,就會發(fā)現(xiàn)要從全國的所有醫(yī)療機構(gòu)的

所有信息系統(tǒng)中挖掘出有價值的信息實在是大難了!主要有下述八大難題。

各自為政:各家醫(yī)療機構(gòu)各自為政,都想要到人的的數(shù)據(jù),都不希望自己的

數(shù)據(jù)共享給他人。到目前為止,醫(yī)療數(shù)據(jù)都存貯在各家醫(yī)療機構(gòu)內(nèi)部,從各家醫(yī)

療機構(gòu)獲得數(shù)據(jù)非常難。

1、數(shù)據(jù)不標(biāo)準(zhǔn):醫(yī)療行業(yè)還未建立全國統(tǒng)一的、標(biāo)準(zhǔn)化、規(guī)范的數(shù)據(jù),各

家醫(yī)院的醫(yī)療數(shù)據(jù)各不相同。數(shù)據(jù)不標(biāo)準(zhǔn)問題是影響大數(shù)據(jù)處理的一個重大問題,

在大數(shù)據(jù)時代,各行各業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)化工作是大數(shù)據(jù)的一項非常重要的基礎(chǔ)工作,

這項基礎(chǔ)工作搞不好,大數(shù)據(jù)挖掘工作不可能搞好°醫(yī)療行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)化工作

也是一項工程量巨大的系統(tǒng)工程,需要大量的醫(yī)務(wù)人員共同參與才能完成。國內(nèi)

還未做好這項基礎(chǔ)工作。數(shù)據(jù)不標(biāo)準(zhǔn)、不規(guī)范,會嚴(yán)重影響數(shù)據(jù)挖掘的結(jié)果?!緮?shù)

據(jù)不一致可以有多種情況,如數(shù)據(jù)類型不一致,隨意縮寫造成的不一致,計量單

位不一致等。當(dāng)從多個不同的數(shù)據(jù)源整合數(shù)據(jù)時,由于定義的不同,更容易產(chǎn)生

數(shù)據(jù)不一致問題。在不同的數(shù)據(jù)源中,相同類型的信息可能表現(xiàn)為不同的格式。

例如,電話號碼通常定義為字符型數(shù)據(jù),但在有些數(shù)據(jù)源中可能將定義數(shù)值型數(shù)

據(jù),因此應(yīng)將其標(biāo)準(zhǔn)化。典型的例子是字段“性別”,一些人用數(shù)字“0”、“1”、

“2”來表示“不清”、“男”、“女”。而在其它數(shù)據(jù)庫中,可能直接用“不

清”、“男”、“女”來描述。另一種情況是字段值在不同的數(shù)據(jù)源中不一致,

如“出生地”可能分別使用“上海”、“滬”、“上海市”、“滬市”、“SHANGHAI”、

“SH”等表示上海市出生的人。解決這一問題首先應(yīng)該進(jìn)行標(biāo)準(zhǔn)化,然后根據(jù)標(biāo)

準(zhǔn)逐步消除數(shù)據(jù)不一致的問題?!?/p>

2、業(yè)務(wù)及業(yè)務(wù)流程不標(biāo)準(zhǔn):要對全國的某個行業(yè)的大數(shù)據(jù)進(jìn)行分析統(tǒng)一,

行業(yè)內(nèi)的業(yè)務(wù)及業(yè)務(wù)流程的標(biāo)準(zhǔn)化工作也是一項非常重要的工作,否則,各個機

構(gòu)的數(shù)據(jù)也就會百花齊放、各不相同,不利于分析統(tǒng)計。

3、數(shù)據(jù)多樣性(Variety)【數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)、不統(tǒng)一】:全國有97.8萬家醫(yī)

療機構(gòu),這些機構(gòu)的全部信息系統(tǒng)有數(shù)十萬個,這些系統(tǒng)由不同的開發(fā)商所開發(fā),

各系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)不盡相同。【每家醫(yī)院的信息化工作都涉及幾十個廠家,每個

廠家的數(shù)據(jù)、標(biāo)準(zhǔn)、采集、存儲都不一樣。因此,即便是在一家醫(yī)院,都會出現(xiàn)

很多孤島,更別說整個醫(yī)療行業(yè)了。各家醫(yī)院信息系統(tǒng)的標(biāo)準(zhǔn)、接口都不同,這

成為利用率低、共享難的原因之一?!?/p>

4、數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、應(yīng)用系統(tǒng)密切不可分:關(guān)系數(shù)據(jù)庫系統(tǒng)中的每一個

數(shù)據(jù)都要先定義數(shù)據(jù)結(jié)構(gòu)才能入住數(shù)據(jù)庫。信息系統(tǒng)的最終用戶所看到的數(shù)據(jù)都

需要應(yīng)用程序的解讀,最終用戶看不懂關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。

不能實現(xiàn)醫(yī)學(xué)信息的結(jié)構(gòu)化存貯:醫(yī)學(xué)信息非常復(fù)雜,醫(yī)務(wù)人員習(xí)慣于用自

然語言編寫各種醫(yī)學(xué)檔案,例如醫(yī)生都是用自然語言編寫病歷。然而,計算機很

笨,不能理解自然語言,因此只有把醫(yī)學(xué)信息結(jié)構(gòu)化之后進(jìn)行存貯,才能用計算

機進(jìn)行處理。而當(dāng)前的眾多醫(yī)學(xué)信息都未能很好地進(jìn)行結(jié)構(gòu)化存貯。

5、信息孤島:各家醫(yī)院的各個信息系統(tǒng)不能實現(xiàn)全國互聯(lián)互通。

6、老系統(tǒng)升級改造難題:當(dāng)前的信息系統(tǒng)都是小數(shù)據(jù)系統(tǒng),不適應(yīng)大數(shù)據(jù)

時代的需求,然而要對現(xiàn)有的信息系統(tǒng)進(jìn)行全面改造也是非常困難的,其代價也

是非常高昂的?!緸槭裁匆壐脑??因為當(dāng)前的各家醫(yī)院的信息系統(tǒng)所產(chǎn)生的

數(shù)據(jù)各不相同,數(shù)據(jù)不標(biāo)準(zhǔn)、不規(guī)范。要對大數(shù)據(jù)進(jìn)行處理,必須確保全國各家

醫(yī)療機構(gòu)的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)是統(tǒng)一的、標(biāo)準(zhǔn)的、規(guī)范的醫(yī)學(xué)標(biāo)準(zhǔn)數(shù)據(jù)。只

有這樣,才能高效處理大數(shù)據(jù)?!?/p>

從理論上而言,醫(yī)療大數(shù)據(jù)挖掘很簡單,只要懂關(guān)系數(shù)據(jù)庫,基木上就能對

醫(yī)療大數(shù)據(jù)進(jìn)行挖掘。然而,要想對全國近百萬人醫(yī)療機構(gòu)、數(shù)十萬個信息系統(tǒng)

的全部數(shù)據(jù)進(jìn)行高效地挖掘,所面臨的挑戰(zhàn)是非常嚴(yán)重的。

如何解決八大難題?

1、各自為政:這個問題必須國家衛(wèi)生和計劃生育委員會以行政命令的方式

來解決,強制要求各醫(yī)療單位實時地把各種醫(yī)療信息上傳到國家醫(yī)療大數(shù)據(jù)中心。

若沒有強制的行政命令,不可能建立起合格的國家醫(yī)療大數(shù)據(jù)。

2、數(shù)據(jù)不標(biāo)準(zhǔn)難題:此難題涉及到的數(shù)據(jù)量太大、工程量太大。國家衛(wèi)計

委及很多人士雖說早就注意到此問題的存在,然而直到目前還未從根本上解決醫(yī)

療行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)化問題。此問題不從根本上解決,那么醫(yī)療大數(shù)據(jù)的挖掘就等

于說大話。醫(yī)療行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化工作是大數(shù)據(jù)挖掘的基礎(chǔ)工作。此問題應(yīng)該由國

家衛(wèi)計委組織業(yè)內(nèi)外力量來解決,解決此問題需要3至5年的時間。有了國家醫(yī)

療大數(shù)據(jù)標(biāo)準(zhǔn)之后,還需要用標(biāo)準(zhǔn)的醫(yī)療數(shù)據(jù)去代替現(xiàn)有的不標(biāo)準(zhǔn)的醫(yī)療數(shù)據(jù)\

而此項工作的工作量也是非常巨大的。標(biāo)準(zhǔn)化工作是不賺錢的基礎(chǔ)性工作,商業(yè)

機構(gòu)沒有從事這項工作的動力,應(yīng)該由國家衛(wèi)計委來解決。

業(yè)務(wù)、業(yè)務(wù)流程不標(biāo)準(zhǔn):目前全國各醫(yī)療機構(gòu)的業(yè)務(wù)及業(yè)務(wù)流程并不標(biāo)準(zhǔn),

因此,各醫(yī)療機構(gòu)所產(chǎn)生的數(shù)據(jù)也各不一樣。要建立國家醫(yī)療大數(shù)據(jù),就必須道

先對全國醫(yī)療機構(gòu)的業(yè)務(wù)流程進(jìn)行標(biāo)準(zhǔn)化處理,這也是一項工程量巨大的基礎(chǔ)性

系統(tǒng)工程。這項工作也應(yīng)該由國家衛(wèi)計委來解決。此項工作最快需要三至五年的

時間才能完成。

?只有解決了上述三項基礎(chǔ)性問題,才能夠建立起國家醫(yī)療大數(shù)據(jù)這個大

廈的堅實地基,否則醫(yī)療大數(shù)據(jù)只能是空中樓閣。由于上述三個因素牽

涉到全國各個醫(yī)療機構(gòu)的方方面面,非常復(fù)雜,十年之內(nèi)很難看到真正

的國家醫(yī)療大數(shù)據(jù)的曙光。

下述4個問題屬干技術(shù)問題,關(guān)系數(shù)據(jù)庫理論解決不了這4個問題,可由發(fā)

明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”從技術(shù)上加以徹底解決:

3、數(shù)據(jù)多樣性(Variety)【數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)、不統(tǒng)一】:目前關(guān)系數(shù)據(jù)庫占

據(jù)統(tǒng)治地位,絕大多數(shù)信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫而建立的。醫(yī)院的各種信息系

統(tǒng)中,多數(shù)也是用關(guān)系數(shù)據(jù)庫系統(tǒng)而建立。例如,目前國內(nèi)醫(yī)療行業(yè)的HIS系統(tǒng)

是由多個開發(fā)商所開發(fā),各家開發(fā)商所用的數(shù)據(jù)庫系統(tǒng)不一樣,所用的數(shù)據(jù)結(jié)構(gòu)

結(jié)構(gòu)及數(shù)據(jù)類型也不一樣.因此,如果要對全國各家醫(yī)療機構(gòu)的HIS系統(tǒng)中的數(shù)

據(jù)進(jìn)行分析,那么首先就要把各種數(shù)據(jù)全部轉(zhuǎn)換為同一的數(shù)據(jù)結(jié)構(gòu),然后才能對

數(shù)據(jù)進(jìn)行分析統(tǒng)計。然而要對全國近百萬個醫(yī)療機構(gòu)的數(shù)十萬個、數(shù)百萬個信息

系統(tǒng)中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,也是一項工程量巨大的系統(tǒng)工程。另一外很重要的問題

是,所有這些信息系統(tǒng)中的數(shù)據(jù)要轉(zhuǎn)換為哪一種統(tǒng)一的、標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu),也是

需要國家衛(wèi)計委制定相應(yīng)的標(biāo)準(zhǔn)、規(guī)范。

4、數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、應(yīng)用系統(tǒng)密不可分。

5、不能實現(xiàn)醫(yī)學(xué)信息的結(jié)構(gòu)化存貯:醫(yī)學(xué)信息非常復(fù)雜,用關(guān)系數(shù)據(jù)庫不

能實現(xiàn)病歷信息的結(jié)構(gòu)化存貯。有人用XML實現(xiàn)病歷信息的結(jié)構(gòu)化存貯,然而

XML只適合處于少量數(shù)據(jù),不適合對全國的病歷信息的處理。

6、信息孤島。

信息系統(tǒng)改造:現(xiàn)有的醫(yī)療信息系統(tǒng)就猶如廣州的城中村,廣州的城中村雖有一定

的作用,然而城中村與廣州這樣的國際化大都市非常不協(xié)調(diào)。改造廣州城中村的

最佳方案就是推倒重建,局部的修補是沒用的。然而要全部推倒重建,所花費的

資金是非常巨大的。

2.3國家大數(shù)據(jù)標(biāo)準(zhǔn)工程堪比“兩彈一星”

大數(shù)據(jù)工程,標(biāo)準(zhǔn)先行。

國家大數(shù)據(jù)標(biāo)準(zhǔn)的工程的工程量要比“兩彈一星”的工程量大C

國家大數(shù)據(jù)標(biāo)準(zhǔn)涉及到每一個行業(yè),也涉及到各種各樣的業(yè)務(wù)。大數(shù)據(jù)標(biāo)準(zhǔn)

涉及數(shù)據(jù)的標(biāo)準(zhǔn)化、數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)化、業(yè)務(wù)的標(biāo)準(zhǔn)化、業(yè)務(wù)流程的標(biāo)準(zhǔn)化。

大數(shù)據(jù)標(biāo)準(zhǔn)化工作完成之后還要對現(xiàn)有的信息系統(tǒng)進(jìn)行改造,這種改造的工

程量及代價也是非常高昂的。目前的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)不適應(yīng)大數(shù)據(jù)的需求。

歷史對秦始皇統(tǒng)一文字、統(tǒng)一度量衡、統(tǒng)一貨幣的評價非常高:功惠千秋。

大數(shù)據(jù)所面臨的問題也猶如秦始皇時代所面臨的“文字不統(tǒng)一、度量衡不統(tǒng)一、

貨幣不統(tǒng)一”問題。因此,要解決大數(shù)據(jù)所面臨的問題,也需要由秦國、秦始皇

那樣強大的機構(gòu)、領(lǐng)袖人物以行政命令的形式強制推行,才能從根本上解決問題。

大數(shù)據(jù)八大難題中的五大難題(各自為政、數(shù)據(jù)不標(biāo)準(zhǔn)、業(yè)務(wù)流程不標(biāo)準(zhǔn)、

數(shù)據(jù)多樣性(Variety)【數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)、不統(tǒng)一】、信息孤島)與秦始皇曾經(jīng)遇

到的問題有些類似。

為解決千年蟲問題,全球花費了超千億美元的資金。徹底砸爛小數(shù)據(jù)而建立

大數(shù)據(jù)新環(huán)境的代價遠(yuǎn)遠(yuǎn)超過千年蟲問題。千年蟲只是解決一個時間數(shù)據(jù)的問題,

而徹底砸爛小數(shù)據(jù)建立大數(shù)據(jù)新環(huán)境則涉及到兒乎所有信息系統(tǒng)的所有數(shù)據(jù)!

小數(shù)據(jù):只要能滿足自己需求,能解決自己的問題即可。

大數(shù)據(jù):不只是滿足自己的需求、解決自己的問題,還要考慮他人的需求。

重點是如何讓他人能夠找到所需要的數(shù)據(jù)。

要讓他人、大家找到所需要的數(shù)據(jù),最重要的是大家都要遵循相同的標(biāo)準(zhǔn),

大家都講普通話,而不是方言,這猶如泰始皇統(tǒng)一六國后的“書同文”的標(biāo)準(zhǔn)化

改革。

當(dāng)前在處理大數(shù)據(jù)時的首要工作就是數(shù)據(jù)抽?。‥TL:“Extract”、

“Transform"、"Lead”,“抽取”、“轉(zhuǎn)換”、“裝載”),其實數(shù)據(jù)抽取

工作也類似“秦始皇的書同文”,只是數(shù)據(jù)抽取并未能真正象秦始那樣從根本上

解決書同文問題。要使大數(shù)據(jù)真正做到“書同文”,需要象秦始皇那樣從根本上

解決問題。而真正實現(xiàn)大數(shù)據(jù)“書同文”時,就不再需要數(shù)據(jù)抽取。

與當(dāng)前人們所提到的大數(shù)據(jù)相比,關(guān)系數(shù)據(jù)庫所處理的數(shù)據(jù)則是小數(shù)據(jù)。大

數(shù)據(jù)中的數(shù)據(jù)是數(shù)萬家、數(shù)十萬家以上的各中機構(gòu)中各種數(shù)據(jù)的總和。而關(guān)系數(shù)

據(jù)庫所處理的小數(shù)據(jù)則是一家機構(gòu)或幾家機構(gòu)中的部分?jǐn)?shù)據(jù)。

當(dāng)我們面對數(shù)十萬個、數(shù)百萬個以上的信息系統(tǒng)中的數(shù)據(jù)(大數(shù)據(jù))時,就

會發(fā)現(xiàn),我們面臨很多挑戰(zhàn):“(維基百科對大數(shù)據(jù)的定義)無法在可承受的時

間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理”。也就說明用關(guān)系數(shù)據(jù)庫系統(tǒng)

己“無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具逐行捕捉、管理和處理”大數(shù)據(jù)。

在小數(shù)據(jù)時代,信息系統(tǒng)的用戶是通過應(yīng)用程序而查到自己所需要的數(shù)據(jù),

而信息系統(tǒng)對關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理后而以用戶能夠理解的形式展現(xiàn)給

用戶。然而,在大數(shù)據(jù)時代,這種方法行不通了。因為在小數(shù)據(jù)時代,我們所要

處理的數(shù)據(jù)是有限的、可確定的,而在大數(shù)據(jù)時代,我們所要處理的數(shù)據(jù)是無限

的,不確定的數(shù)據(jù)。

秦始皇之所以能使“書同文”成為現(xiàn)實,是因為他擁有至高無上的權(quán)威;“兩

彈一星”之所以能成功,關(guān)鍵在于“兩彈一星”關(guān)系到國家的生死存亡,國家大

力支持。大數(shù)據(jù)的成敗與國家的支持是分不開的。

2.4醫(yī)療行業(yè)的信息系統(tǒng)頂層設(shè)計為何難產(chǎn)

國家衛(wèi)生和計劃生育委員會幾年前就注意到了醫(yī)療行業(yè)信息系統(tǒng)頂層設(shè)計

的重要性,并希望從根本上解決此問題,但至今未能從根本上實現(xiàn)醫(yī)療行業(yè)信息

系統(tǒng)的頂層設(shè)計。

為什么要進(jìn)行頂層設(shè)計?因為當(dāng)前的各種醫(yī)院信息系統(tǒng)存在嚴(yán)重的問題,信

息孤島問題嚴(yán)重,不能互聯(lián)互通。

頂層設(shè)計建立在醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化、醫(yī)療業(yè)務(wù)流程標(biāo)準(zhǔn)化的基礎(chǔ)之上。而如今

醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化、醫(yī)療業(yè)務(wù)流程標(biāo)準(zhǔn)化這兩個基礎(chǔ)工作還未做好,因此頂層設(shè)計

就不可能有結(jié)果。

技術(shù)上的原因:關(guān)系數(shù)據(jù)庫理論的先天不足。

客觀原因:問題非常復(fù)雜、牽涉面太廣、所需資金非常巨大。

頂層設(shè)計非常難,比頂層設(shè)計更難的是有了頂層設(shè)計之后再對全國的醫(yī)療信

息系統(tǒng)進(jìn)行全面更新?lián)Q代。

2.5大數(shù)據(jù)挖掘中的問題:大數(shù)據(jù)的關(guān)鍵不在于大而在于如何挖掘

如果把全國97.8萬個醫(yī)療衛(wèi)生機構(gòu)所產(chǎn)生的數(shù)據(jù)全部存貯到國家醫(yī)療大數(shù)

據(jù)中心,這些數(shù)據(jù)可以稱作是“國家醫(yī)療大數(shù)據(jù)"然而這樣的數(shù)據(jù)并不能稱作

是真正合格的“國家醫(yī)療大數(shù)據(jù)”,因為,對這樣的數(shù)據(jù)的挖掘非常困難,從這

些數(shù)據(jù)中挖掘出有用數(shù)據(jù)的代價非常高,猶如沙里淘金,大海撈針。

大數(shù)據(jù)不是小數(shù)據(jù)之和。大數(shù)據(jù)的關(guān)鍵不在于大,而在于挖掘。只有可以讓

大家高效挖掘、任意挖掘的大數(shù)據(jù)才是真正合格的大數(shù)據(jù)。

2.5.1我國醫(yī)療行業(yè)每年產(chǎn)生多少數(shù)據(jù)

國家醫(yī)疔大數(shù)據(jù)的概況:截至2014年3月底,全國醫(yī)疔衛(wèi)生機構(gòu)數(shù)達(dá)97.8

萬個,其中:醫(yī)院2.5萬個,基層醫(yī)療衛(wèi)生機構(gòu)91.8萬個,專業(yè)公共衛(wèi)生機構(gòu)

3.2萬個,其他機構(gòu)0.3萬個。

僅按全國擁有2.5萬家醫(yī)院、每家醫(yī)院4個信息系統(tǒng)計算,全國約有10萬

個以上的醫(yī)院信息系統(tǒng),每個信息系統(tǒng)按20張表估算,全國共擁有200百萬張

表。

除了存貯在關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)外,還有其它類型的數(shù)據(jù):XML、音

像、文本等。

國家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算:南京軍區(qū)南京總醫(yī)院目前擁有5臺存儲設(shè)備,

2臺專用于PACS,其中HIS、LIS、EMR等數(shù)據(jù)3T,病案縮微數(shù)據(jù)12T,PACS

數(shù)據(jù)120T左右,每個月的數(shù)據(jù)增長為2T左右,每年產(chǎn)生的數(shù)據(jù)量:2417年。國

家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算=2.5萬家(未計小醫(yī)療機構(gòu)的數(shù)據(jù))*2417年=60萬

T/年。

國家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算:6萬T/年至100萬T/年。

2.5.2挖掘關(guān)系數(shù)據(jù)庫系統(tǒng)所產(chǎn)生的醫(yī)療數(shù)據(jù)非常困難

如果全國97.8萬家醫(yī)療機構(gòu)以鏡像的方式把所有數(shù)據(jù)都上傳到國家醫(yī)療大

數(shù)據(jù)中心,那么該如何對這些數(shù)據(jù)進(jìn)行挖掘?

全國共有97.8萬家醫(yī)療機構(gòu),這些醫(yī)療機構(gòu)所擁有的信息系統(tǒng)有10萬個以

上,這些醫(yī)療機構(gòu)所擁有的數(shù)據(jù)庫有1。萬個以上,這些數(shù)據(jù)庫中的表有2U0萬

張以上。這些醫(yī)療機構(gòu)的數(shù)據(jù)存貯在數(shù)十萬個以上的文件夾中(存貯XML、音像、

文本等數(shù)據(jù))。患者病史可能是患者自出生以來的所有情況,病史數(shù)據(jù)可能存貯

在幾十年的數(shù)據(jù)中,并不僅是一年的數(shù)據(jù)中。

當(dāng)前的大多數(shù)醫(yī)療數(shù)據(jù)都是存貯在關(guān)系數(shù)據(jù)庫中,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)

據(jù)庫系統(tǒng)密切相關(guān)、與數(shù)據(jù)結(jié)構(gòu)密切相關(guān)、與應(yīng)用程序密切相關(guān)、數(shù)據(jù)不標(biāo)準(zhǔn)。

如果只是以鏡像的方式把全國97.8萬家醫(yī)療機構(gòu)的數(shù)據(jù)全部上傳到國家醫(yī)療大

數(shù)據(jù)中心,要從這些數(shù)據(jù)中挖掘數(shù)據(jù),也是非常困難的。要從國家醫(yī)療大數(shù)據(jù)中

查詢患者病歷數(shù)據(jù),必要首先搞清楚如下情況:

?10萬個以上的數(shù)據(jù)庫各用什么數(shù)據(jù)庫系統(tǒng)?

?10萬個以上的數(shù)據(jù)庫的數(shù)據(jù)存貯在哪里?IP?如何訪問數(shù)據(jù)庫(帳

號)?

?100萬張以上的表中的每張表的數(shù)據(jù)結(jié)構(gòu)

?100萬張以上的表中各表之間的關(guān)系

?100萬張以上的表中的各個數(shù)據(jù)代碼的含義

?10萬個以上的文件夾中存貯什么樣的數(shù)據(jù)

基礎(chǔ)醫(yī)療數(shù)據(jù)大多存在于HIS、LIS、PACS、EMR、手術(shù)麻醉、體檢、心電

等多個子系統(tǒng)中。各系統(tǒng)來源于不同的生產(chǎn)廠商,數(shù)據(jù)存放在不同的數(shù)據(jù)庫,數(shù)

據(jù)多而散,數(shù)據(jù)庫的設(shè)計缺乏標(biāo)準(zhǔn)化,不同數(shù)據(jù)庫中的數(shù)據(jù)靠患者主索引等進(jìn)行

關(guān)聯(lián),關(guān)聯(lián)關(guān)系相當(dāng)復(fù)雜。各自廠家研發(fā)人員除了對自家系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)非常了

解之外,缺乏對其他系統(tǒng)數(shù)據(jù)結(jié)構(gòu)的了解,整體數(shù)據(jù)分析能力較差。

專業(yè)做數(shù)據(jù)分析及整合的公司,缺乏對醫(yī)院實際操作流程的深入了解,導(dǎo)致對數(shù)

據(jù)流向及關(guān)聯(lián)關(guān)系的分析不夠準(zhǔn)確,且很難準(zhǔn)確的拿到各子系統(tǒng)的基礎(chǔ)數(shù)據(jù),最

終未必能做到數(shù)據(jù)全面、準(zhǔn)確

電子數(shù)據(jù)獲取的步驟HIS、LIS、PACS

EMR....

搞清基礎(chǔ)數(shù)據(jù)都存放右哪些數(shù)據(jù)庫中

HIS:息91幺本信息我.診斷疆、用的取、費用我等.

(整體定位)EMR:主訴賽'墳病史表.個人史我'體格摘立.病程e錄表、

會診記錄表.出院記錄我等.

US.檢驗酬口*'子項目我、涂片表、於敏表等.

PACS:檢查名彝哀、檢查方法哀、B1?>??.印象哀等.

對單個數(shù)據(jù)庫,搞清基礎(chǔ)數(shù)據(jù)的存放位置

(數(shù)據(jù)庫、數(shù)據(jù)表、字段)

對單個數(shù)據(jù)庫,搞清相關(guān)字段之間的關(guān)系

(主鍵或組合主鍵)

us(字段)

。…£MR(字段)

對多個數(shù)據(jù)庫,搞清之間的關(guān)聯(lián)關(guān)系字段)

(主索引或其他標(biāo)志)

3PAG1

做到對多個數(shù)據(jù)庫中基礎(chǔ)數(shù)據(jù)的任意抽取及整合

(保證數(shù)據(jù)準(zhǔn)確、全面)

[周周困西)

2.5.3僅患者與數(shù)據(jù)的對應(yīng)關(guān)系就是一個大問題

如果說要從國家醫(yī)療大數(shù)據(jù)中查詢患者影像數(shù)據(jù),那么,該如何實現(xiàn)?

在當(dāng)前的醫(yī)療信息系統(tǒng)中,關(guān)于患者的編碼并不是唯一的,也不是全國統(tǒng)一

的。

要查詢某個患者的醫(yī)療數(shù)據(jù),最理想的查詢方式就是以患者的身份證號作為

查詢條件向查詢相關(guān)數(shù)據(jù)。由于目前國內(nèi)的各種醫(yī)療信息系統(tǒng)中的各個表中并不

一定擁有患者身份證這一字段,從而使查詢變得非常繁瑣。

例如:下面的表中的數(shù)據(jù)是一個PACS系統(tǒng)中的數(shù)據(jù)。此表中并沒有包含可以直

接識別患者身份的數(shù)據(jù)。因為由下表中的“姓名”及“門診及住院號”并不能準(zhǔn)

確地識別出是哪一個患者。國內(nèi)同名的人非常多,僅由姓名查義患者的數(shù)據(jù)是不

行的?!伴T診及住院號”只是各家醫(yī)院自己的編號,也不能把“門診及住院號”

作為查詢條件

門診或住黨號姓名性別中話醫(yī)生申IS時詞檢查項目名以4礪論鼾影像診用

礴W

自男斯科初屬威2016-0€-1810:16:41CT^S-(r>tt)W???rr肝絡(luò)板,修餓材。:詁4合咬起)2,右側(cè)物也布引流京后閭

山節(jié)739父歲多給核一科硒?2015-06-1809:20.34cr&整7門??。┯觅榫壗ńY(jié)花性熊WE積m便相較用厚祐泛3.嬉臺麗史,左傲氣j

3(?8^808為歲男結(jié)核一科悔,如20Ts容6d黃海炎慮左肺結(jié)核2、左腳酒氣狗引洗術(shù)后奴交

&70歲男矽由科刈國成1:紙泄遇尸孩事》£雙倒。腔稅液依網(wǎng)@增厚砧在

似咿1問28歲女LLUIkJTVm二「晨4n.口,二工.二容:考慮右航鰭發(fā)(語結(jié)臺庚檢)

20網(wǎng)61宓04忖

2$男絡(luò)銀三r:診2015?戈79060808(TH?。愞ACT斷整修考定右二聯(lián)笛咳,臨近胸脫海厚描1

87女給核三匚診2015-06-1908:0436(H?的肺BMWCUI雙則利艮電原杉生4、部分切相走行性技燹市!

於36更2015-W-19Mil49:曲豆?舌制向腹港區(qū)玷淬1袒國務(wù)片弊療淞卬;

201$8193期忖

18結(jié)被三U診案起2015-06-1906:1205(TH在闌副雕CT考慮兩.腕城侔石上箭至河形戊,互下加局Big

迦]因c.32%孫H興2015-06-1906:37.04(門?住闌既或敕I右肺上葉、左肺K葉條策圖百影,值結(jié)苫花片

在上面的PACS系統(tǒng)表中未包含患者身份證數(shù)據(jù)。因此,需要從HIS系統(tǒng)中

根據(jù)患者身份證號而查出患者的“門診或住院號”,再根據(jù)“門診或住院號”而

從PACS系統(tǒng)表中查出PACS影像數(shù)據(jù)。

“患者與數(shù)據(jù)的充應(yīng)關(guān)系”這樣的問題其實是大數(shù)據(jù)中的一個非常突出的問

題。為了查詢的方便,一定要把數(shù)據(jù)的最主要的特征在數(shù)據(jù)中表現(xiàn)出來。但關(guān)系

數(shù)據(jù)庫理論未考慮此問題。在大數(shù)據(jù)挖掘中,僅是確定患者的身份就是一項艱巨

的工程。對小數(shù)據(jù)而言,程序員知道相關(guān)的數(shù)據(jù)存貯在哪個表中,但在大數(shù)據(jù)環(huán)

境中,程序員不知道想要查詢的數(shù)據(jù)存貯在哪里。

2.6關(guān)系數(shù)據(jù)庫理論的致命傷

關(guān)系數(shù)據(jù)庫系統(tǒng)只適合于處理小數(shù)據(jù),而不適合處理大數(shù)據(jù),其根本原因在

于關(guān)系數(shù)據(jù)庫理論的先天不足。

2.6.1關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)在大數(shù)據(jù)環(huán)境中為何變成無意義的數(shù)據(jù)

如果在國家醫(yī)療大數(shù)據(jù)中心查詢到下表的數(shù)據(jù),誰能看懂?

?AAntidateAntiidAntienameAntinameTestnoMaesukSusdescResshow

9四)2007-11-2600:00:00CCClindamycin氯潔看素MIC8>->-8R

fl

)2007-11-2600:00:00czCefazoIn頭酒耍MIC32>->-32R

*1*

12007-11-2600:00:00EErythromycin紅毒素MIC8>->-8R

931(2007-11-2600:00:00FDNitrofurantoin帙喃妥因MIC32<-<-325

,31(

2007-11-2600:00:00GMGentamicin慶大毒素MIC16>■>-16R

該表中的數(shù)據(jù)是某家醫(yī)院的信息系統(tǒng)中的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),普通人看

不懂,醫(yī)生也只能靠猜測才能猜出部分內(nèi)容。

下面的兩張表中的數(shù)據(jù)也是關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),這兩張表中的數(shù)據(jù)也是普

2146張三男5672180

上.面兩表中的數(shù)據(jù)的實際含義如下:

ID姓名性別所齡體重身高

1張三男5672180

ID姓名性別中藥費西藥費其它費用

2146張三男5672180

下表是用發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”而設(shè)計的表,該表

中的數(shù)據(jù)無論是誰,只要懂漢語,就可以看懂表中內(nèi)容:

ID事物代號事物特征事物特征值超長特征值單位附件時間

100280事物分類體育管理系統(tǒng)2014.3.2

101280事物分類教練信息2014.3.2

102280事物分類教練基本情況2014.3.2

103280身份證號XXXXXXXXXX2014.3.2

105280姓名張三2014.3.2

106280性別男2014.3.2

107280年齡562014.3.2

108280體重72KG2014.3.2

109280身高180CM2014.3.2

11001280事物分類病歷2014.5.3

11011280事物分類住院病歷2014.5.3

11021280事物分類醫(yī)療費用2014.5.3

11031280身份證號XXXXXXXXXX2014.5.3

11041280住院號XXXXXXXXXX2014.5.3

11051280姓名張三2014.5.3

11061280性別男2014.5.3

11071280中藥費56元2014.5.3

11081280西藥費72元2014.5.3

11091280其它費用180

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論