醫(yī)療大數(shù)據(jù)解決方案_第1頁(yè)
醫(yī)療大數(shù)據(jù)解決方案_第2頁(yè)
醫(yī)療大數(shù)據(jù)解決方案_第3頁(yè)
醫(yī)療大數(shù)據(jù)解決方案_第4頁(yè)
醫(yī)療大數(shù)據(jù)解決方案_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

醫(yī)療大數(shù)據(jù)解決方案

與信息系統(tǒng)的耦合度為零的數(shù)據(jù)才是合格的大數(shù)據(jù)

全國(guó)97.8萬(wàn)家醫(yī)療機(jī)構(gòu)的信息系統(tǒng)根本上都是用關(guān)系數(shù)據(jù)庫(kù)而建立的,然

而要對(duì)關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)展挖掘非常困難。大數(shù)據(jù)并不是小數(shù)據(jù)之和,關(guān)系

數(shù)據(jù)庫(kù)系統(tǒng)不適合處理大數(shù)據(jù)。創(chuàng)造專利技術(shù)(創(chuàng)造申請(qǐng)?zhí)?02110495041.8)?

醫(yī)學(xué)信息的構(gòu)造化存貯方法?非常適合處理醫(yī)療大數(shù)據(jù)。

目錄

醫(yī)療大數(shù)據(jù)解決方案1

第1章概要2

1.1名詞定義3

第2章醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn)5

2.1醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)之間的具有本質(zhì)的差異5

2.1.1小問(wèn)題放大萬(wàn)倍就會(huì)大的嚇人7

2.2醫(yī)療大數(shù)據(jù)面臨八大難題8

2.3國(guó)家大數(shù)據(jù)標(biāo)準(zhǔn)工程堪比'‘兩彈一星"11

2.4醫(yī)療行業(yè)的信息系統(tǒng)頂層設(shè)計(jì)為何難產(chǎn)13

2.5大數(shù)據(jù)挖掘中的問(wèn)題:大數(shù)據(jù)的關(guān)鍵不在于大而在于如何挖掘13

2.5.1我國(guó)醫(yī)療行業(yè)每年產(chǎn)生多少數(shù)據(jù)14

2.5.2挖掘關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)所產(chǎn)生的醫(yī)療數(shù)據(jù)非常困難14

2.5.3僅患者與數(shù)據(jù)的對(duì)應(yīng)關(guān)系就是一個(gè)大問(wèn)題15

2.6關(guān)系數(shù)據(jù)庫(kù)理論的致命傷16

2.6.1關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)在大數(shù)據(jù)環(huán)境中為何變成無(wú)意義的數(shù)據(jù)16

2.6.2關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)是一種完全封閉的系統(tǒng):外來(lái)數(shù)據(jù)無(wú)法入住18

2.6.3關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與數(shù)據(jù)系統(tǒng)密不可分19

2.6.4關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與數(shù)據(jù)構(gòu)造密不可分19

2.6.5關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與應(yīng)用程序密不可分19

2.6.6關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)?旦脫離相應(yīng)的系統(tǒng)就成了無(wú)意義的數(shù)據(jù)20

2.6.7關(guān)系數(shù)據(jù)庫(kù)無(wú)法實(shí)現(xiàn)病歷信息的構(gòu)造化存貯20

2.6.8關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)都是“方言”,大數(shù)據(jù)需要的是“普通話”錯(cuò)誤!未定義書(shū)簽。

2.7關(guān)系數(shù)據(jù)庫(kù)如何處理國(guó)家醫(yī)療大數(shù)據(jù)中數(shù)萬(wàn)個(gè)數(shù)據(jù)庫(kù)、數(shù)「萬(wàn)*表21

2.8大數(shù)據(jù)之夢(mèng)十年后成真22

2.8.1信息化社會(huì)由概念到比擬成熟用了30多年時(shí)間22

2.8.2千年蟲(chóng)問(wèn)題的啟示23

2.8.3大數(shù)據(jù)工程遠(yuǎn)比千年蟲(chóng)問(wèn)題復(fù)雜23

2.8.4五年之內(nèi)(2021年前)醫(yī)療大數(shù)據(jù)只是紙上談兵24

2.9必須開(kāi)發(fā)新型的軟件工具才能對(duì)醫(yī)療大數(shù)據(jù)進(jìn)展高效挖掘24

第3章創(chuàng)造專利:醫(yī)學(xué)信息的構(gòu)造化存貯方法24

3.1在了解醫(yī)學(xué)信息的構(gòu)造化存貯方法時(shí)的考前須知26

3.2醫(yī)學(xué)信息的構(gòu)造化存貯方法27

3.3數(shù)據(jù)的完整性是大數(shù)據(jù)的根本32

3.3.1大數(shù)據(jù)的策略:以適當(dāng)?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)易識(shí)別32

3.3.2T事物的數(shù)據(jù)34

3.3.3事物分類34

3.3.4關(guān)系數(shù)據(jù)庫(kù)的缺陷:關(guān)系36

3.3.5數(shù)據(jù)的可識(shí)別性39

3.3.6數(shù)據(jù)的多樣性41

3.3.7元數(shù)據(jù)及國(guó)際元數(shù)據(jù)標(biāo)準(zhǔn)非常重要41

3.3.8大數(shù)據(jù)的關(guān)鍵:讓數(shù)據(jù)自己說(shuō)話42

3.3.9大數(shù)據(jù)的策略:用數(shù)據(jù)代替程序44

3.4與信息系統(tǒng)的耦合度為零的數(shù)據(jù)才是合格的大數(shù)據(jù)45

3.5醫(yī)學(xué)信息的構(gòu)造化存貯方法與關(guān)系數(shù)據(jù)庫(kù)的比照47

3.6應(yīng)用醫(yī)學(xué)信息的構(gòu)造化存貯方法的考前須知48

3.7超大表化問(wèn)題:分為多*表48

3.8關(guān)系數(shù)據(jù)庫(kù)中的二維表是數(shù)據(jù)不具獨(dú)立性的一個(gè)根本原因48

3.9“萬(wàn)能數(shù)據(jù)構(gòu)造表”存放病歷信息的例子49

3.10醫(yī)學(xué)信息的構(gòu)造化存貯方法實(shí)現(xiàn)互聯(lián)互通非常簡(jiǎn)單50

3.11構(gòu)造化錄入病歷信總的例子:病癥的構(gòu)造化50

第4章獨(dú)立數(shù)據(jù)庫(kù)在醫(yī)療大數(shù)據(jù)方面的優(yōu)勢(shì)52

4.1大數(shù)據(jù)中最重.要的就是查詢53

4.2超大表問(wèn)題53

4.2.1自動(dòng)調(diào)整表的長(zhǎng)度53

4.2.2自動(dòng)查詢多*表54

4.3用獨(dú)立數(shù)據(jù)庫(kù)實(shí)現(xiàn)國(guó)家醫(yī)療大數(shù)據(jù)的存貯處理55

4.3.1獨(dú)立數(shù)據(jù)庫(kù)如何處理國(guó)家醫(yī)療大數(shù)據(jù)中數(shù)十萬(wàn)個(gè)數(shù)據(jù)庫(kù)、數(shù)千萬(wàn)*表55

4.3.2疾病、病癥的相關(guān)數(shù)據(jù)56

第1章概要

關(guān)系數(shù)據(jù)庫(kù)理論存在很多很嚴(yán)重的問(wèn)題,例如,用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)所設(shè)計(jì)出

的信息系統(tǒng)都是孤島型系統(tǒng),難以實(shí)現(xiàn)系統(tǒng)之間的互聯(lián)互通;在大數(shù)據(jù)時(shí)代,人

們發(fā)現(xiàn),對(duì)全國(guó)97.8萬(wàn)家醫(yī)療機(jī)構(gòu)所產(chǎn)生的醫(yī)療數(shù)據(jù)進(jìn)展挖掘非常困難,當(dāng)前

的大多數(shù)醫(yī)療信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)而設(shè)計(jì)的。

用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)所設(shè)計(jì)出的信息系統(tǒng)之所以難以互聯(lián)互通,孤島問(wèn)題嚴(yán)

重,根本原因在于“異構(gòu)數(shù)據(jù)〃。?醫(yī)學(xué)信息的構(gòu)造化存貯方法?中的“萬(wàn)能數(shù)據(jù)

構(gòu)造表〃可以存貯各種各樣的數(shù)據(jù),也可說(shuō)用?醫(yī)學(xué)信息的構(gòu)造化存貯方法?所設(shè)

計(jì)出的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都是“同構(gòu)”的,不存在“異構(gòu)數(shù)據(jù)〃的問(wèn)題。關(guān)

系數(shù)據(jù)庫(kù)理論先天缺乏,不可能解決“異構(gòu)數(shù)據(jù)〃問(wèn)題。

醫(yī)院信息系統(tǒng)所處理的數(shù)據(jù)只是*家醫(yī)院所產(chǎn)生的*些特定的數(shù)據(jù)(可稱作小

數(shù)據(jù))。醫(yī)療大數(shù)據(jù)所要處理的數(shù)據(jù)是全國(guó)97.8萬(wàn)家醫(yī)療機(jī)構(gòu)所擁有的數(shù)十萬(wàn)

個(gè)醫(yī)療信息系統(tǒng)所產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)存貯在數(shù)千萬(wàn)*表中,這些系統(tǒng)由不同

的開(kāi)發(fā)商所開(kāi)發(fā),各系統(tǒng)的數(shù)據(jù)構(gòu)造各不一樣。每家醫(yī)院的信息化工作都涉及兒

十個(gè)廠家,每個(gè)廠家的數(shù)據(jù)、標(biāo)準(zhǔn)、采集、存儲(chǔ)都不一樣。因此,即便是在一家

醫(yī)院,都會(huì)出現(xiàn)很多孤島,整個(gè)醫(yī)療行業(yè)的信息孤島問(wèn)題更嚴(yán)重。各家醫(yī)院信息

系統(tǒng)的標(biāo)準(zhǔn)、接口都不同,這成為利用率低、共享難的原因之一。不僅如此,數(shù)

據(jù)種類的多樣化也為數(shù)據(jù)標(biāo)準(zhǔn)的制定和應(yīng)用帶來(lái)了挑戰(zhàn)。

小數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)的類型和數(shù)據(jù)都是有限的,在處理數(shù)據(jù)前能事先確定數(shù)

據(jù)的類型。而大數(shù)據(jù)的數(shù)據(jù)特點(diǎn)是“多樣性(Variety)”,在處理數(shù)據(jù)時(shí)很難先事

先確定數(shù)據(jù)的類型,甚至不能確定數(shù)據(jù)的類型。目前關(guān)系數(shù)據(jù)庫(kù)在數(shù)據(jù)處理中占

據(jù)統(tǒng)治地位,而關(guān)系數(shù)據(jù)庫(kù)在處理數(shù)據(jù)時(shí)事先要確定數(shù)據(jù)的類型,因此,在處理

數(shù)據(jù)類型不能事先確定的大數(shù)據(jù)時(shí),關(guān)系數(shù)據(jù)庫(kù)就遇到了難以逾越的障礙。

醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)具有本質(zhì)的差異。現(xiàn)有的各種信息

系統(tǒng)所處理的數(shù)據(jù)都是小數(shù)據(jù)。目前人們只是認(rèn)識(shí)到大數(shù)據(jù)重要性,大數(shù)據(jù)還只

是處于概念階段。大數(shù)據(jù)夢(mèng)想將在10年后夢(mèng)想成真,5年之內(nèi),難有突破性進(jìn)

展。

國(guó)家醫(yī)療大數(shù)據(jù)所面臨的最大難題:當(dāng)前的醫(yī)療信息系統(tǒng)不能適應(yīng)醫(yī)療大數(shù)

據(jù)的實(shí)際需求,需要對(duì)現(xiàn)有的信息系統(tǒng)進(jìn)展徹底的改造才能適應(yīng)大數(shù)據(jù)時(shí)代的

潮流。然而,要徹底改造全國(guó)現(xiàn)的醫(yī)療信息系統(tǒng),所花費(fèi)的代價(jià)是非常高昂的!

關(guān)鍵詞:數(shù)據(jù)與系統(tǒng)的耦合度、萬(wàn)能數(shù)據(jù)構(gòu)造表、獨(dú)立數(shù)據(jù)庫(kù)、醫(yī)療大數(shù)據(jù)、

數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的可識(shí)別性、事物分類。

聯(lián)系人:樊夢(mèng)真

QQ:269779216

269779216qq.

1.1名詞定義

建數(shù)據(jù)與系統(tǒng)的耦合度:數(shù)據(jù)與系統(tǒng)的耦合度越高,數(shù)據(jù)對(duì)系統(tǒng)的依賴程

度就越高。當(dāng)數(shù)據(jù)對(duì)系統(tǒng)的依賴程度比擬高時(shí),數(shù)據(jù)一旦脫離了原有的

系統(tǒng)就變成了無(wú)意義的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)來(lái)源于成千上萬(wàn)家單位的系

統(tǒng),因此,大數(shù)居中的數(shù)據(jù)應(yīng)該是與系統(tǒng)的耦合度為零的數(shù)據(jù),否則就

需要很多的應(yīng)用程度來(lái)解讀數(shù)據(jù),這會(huì)增加數(shù)據(jù)處理的難度、本錢(qián)。

④萬(wàn)能數(shù)據(jù)構(gòu)造表:由創(chuàng)造專利技術(shù)“醫(yī)學(xué)信息的構(gòu)造化存貯方法〃在模

仿大腦記憶、聯(lián)想的根底上而所提出的種新型數(shù)據(jù)構(gòu)造,可以在同

*表中存貯各種各樣的數(shù)據(jù)。

頡獨(dú)立數(shù)據(jù)庫(kù):由創(chuàng)造專利技術(shù)“醫(yī)學(xué)信息的構(gòu)造化存貯方法〃而建立的

數(shù)據(jù)庫(kù)即可稱為獨(dú)立數(shù)據(jù)庫(kù)。獨(dú)立數(shù)據(jù)庫(kù)與關(guān)系數(shù)據(jù)庫(kù)有本質(zhì)的差異。

④數(shù)據(jù)的獨(dú)立性:數(shù)據(jù)的獨(dú)立性是由創(chuàng)造專利技術(shù)“醫(yī)學(xué)信息的構(gòu)造化存

貯方法〃所提出的概念,是指數(shù)據(jù)不信依靠數(shù)據(jù)庫(kù)系統(tǒng)、不依靠數(shù)據(jù)構(gòu)

造、不依靠注釋、不依靠應(yīng)用程序而獨(dú)立地表達(dá)出*種含義。關(guān)系數(shù)據(jù)

庫(kù)中的數(shù)據(jù)不具有獨(dú)立性,需要借助于注釋、數(shù)據(jù)構(gòu)造、應(yīng)用程序才能

解讀數(shù)據(jù)的含義。

頜數(shù)據(jù)的完整性:數(shù)據(jù)的完整生是由創(chuàng)造專利技術(shù)“醫(yī)學(xué)信息的構(gòu)造化存

貯方法〃所提出的概念,是指數(shù)據(jù)不信依靠數(shù)據(jù)庫(kù)系統(tǒng)、不依靠數(shù)據(jù)構(gòu)

造、不依靠注釋、不依靠應(yīng)用程序而完整地表達(dá)出?種含義。關(guān)系數(shù)據(jù)

庫(kù)中的數(shù)據(jù)不具有完整性,需要借助于注釋、數(shù)據(jù)構(gòu)造、應(yīng)用程序才能

解讀數(shù)據(jù)的含義。

頡數(shù)據(jù)的可識(shí)別性:在班、組這樣的小環(huán)境中可以用每個(gè)人的**而區(qū)分出

每一個(gè)人,然而在全國(guó)范圍內(nèi),由于人數(shù)太多,很多**都有重名現(xiàn)象,

因此僅靠”就不能準(zhǔn)確無(wú)誤地識(shí)別出每一個(gè)人。大數(shù)據(jù)時(shí)代以前的關(guān)系

數(shù)據(jù)庫(kù)中的數(shù)據(jù)只是應(yīng)用于*個(gè)機(jī)構(gòu)內(nèi)部,因此各個(gè)數(shù)據(jù)就容易識(shí)別,

然而如果把關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)放到大數(shù)據(jù)環(huán)境中,則這些數(shù)據(jù)就成了

不可識(shí)別的數(shù)據(jù)。在大數(shù)據(jù)時(shí)代,需要通過(guò)數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整

性而確保每一個(gè)數(shù)據(jù)都是可識(shí)別的。

④在醫(yī)療大數(shù)據(jù)中,各個(gè)醫(yī)療數(shù)據(jù)分別由各家醫(yī)療機(jī)構(gòu)所產(chǎn)生、擁有。

頡事物分類:事物分類是由創(chuàng)造專利技術(shù)“醫(yī)學(xué)信息的構(gòu)造化存貯方法〃

所提出的概念。大數(shù)據(jù)時(shí)代以前的信息系統(tǒng)的最終用戶是通過(guò)應(yīng)用程序

而看到各種數(shù)據(jù),最終用戶并不直接與數(shù)據(jù)庫(kù)中的數(shù)據(jù)打交道,數(shù)據(jù)庫(kù)

中的數(shù)據(jù)需要通過(guò)應(yīng)用程序解讀后最終用戶才能讀懂。在大數(shù)據(jù)時(shí)代,

大數(shù)據(jù)中包含成千上萬(wàn)家機(jī)構(gòu)的數(shù)據(jù),因此,大數(shù)據(jù)中的每一個(gè)數(shù)據(jù)庫(kù)

是由哪家機(jī)構(gòu)所產(chǎn)生,數(shù)據(jù)庫(kù)中各表中所存貯的數(shù)據(jù)是什么等等都是非

常重要的信息,只有搞清楚這些信息,才能正常解讀各數(shù)據(jù)的真實(shí)含義。

在“萬(wàn)能數(shù)據(jù)構(gòu)造表〃中,“信息系統(tǒng)的名稱、數(shù)據(jù)庫(kù)的名稱、表名〃

是以“事物分類〃的形式存貯在表中,其目的是讓數(shù)據(jù)具體獨(dú)立性、完

整性,以此確保各數(shù)據(jù)在大數(shù)據(jù)中具有可識(shí)別性。

第2章醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn)

本章內(nèi)容提要:大數(shù)據(jù)并不是小數(shù)據(jù)之和,大數(shù)據(jù)與小數(shù)據(jù)有本質(zhì)的差異。

關(guān)系數(shù)據(jù)庫(kù)只適合于處理小數(shù)據(jù)而不適合處理大數(shù)據(jù)。用關(guān)系數(shù)據(jù)庫(kù)來(lái)處理大數(shù)

據(jù)時(shí)會(huì)遇到很多難以克制的困難。五年之內(nèi)(2021年前)大數(shù)據(jù)難以取得根本

性突破,大數(shù)據(jù)之夢(mèng)十年之后才能夢(mèng)想成真。維基百科關(guān)于大數(shù)據(jù)的定義也明確

指出當(dāng)前的主流軟件工具不能高效地處理大數(shù)據(jù),要高效處理大數(shù)據(jù)必須開(kāi)發(fā)新

的軟件工具。目前的大多數(shù)信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都存貯在關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中。

關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)的一大特點(diǎn)(或者說(shuō)一大問(wèn)題)就是“數(shù)據(jù)嚴(yán)重依賴于數(shù)據(jù)

庫(kù)系統(tǒng)及應(yīng)用程序〃,當(dāng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)脫離了相應(yīng)的數(shù)據(jù)庫(kù)系統(tǒng)及應(yīng)

用程序后,這些數(shù)據(jù)根本上就成了難以閱讀的無(wú)用數(shù)據(jù)。

2.1醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)之間的具有本質(zhì)的差異

如果把全國(guó)各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中上傳到國(guó)家醫(yī)療大數(shù)據(jù)中心,這

些數(shù)據(jù)的數(shù)據(jù)量一定會(huì)非常龐大,這些數(shù)據(jù)能不能稱為國(guó)家醫(yī)療大數(shù)據(jù)?按維基

百科對(duì)大數(shù)據(jù)的定義:“大數(shù)據(jù)是指所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)目前主

流軟件工具,在合理時(shí)間內(nèi)到達(dá)獲取、處理的數(shù)據(jù)?!ㄟ@些數(shù)據(jù)可以稱為國(guó)家醫(yī)

療大數(shù)據(jù)。

維基百科的定義也明確地說(shuō)明了把全國(guó)各家醫(yī)院全部集中起來(lái)的“數(shù)據(jù)量規(guī)

模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)到達(dá)獲取、處理〃。為什么

不能處理呢?

例如.患者就醫(yī)時(shí),醫(yī)生非常關(guān)心患者的病史C醫(yī)生能否從國(guó)家醫(yī)療大數(shù)據(jù)

中心獲得患者在全國(guó)任意一家醫(yī)院就醫(yī)時(shí)的所有病歷呢?假設(shè)全國(guó)各家醫(yī)院的

所有信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都已全部集中在國(guó)家醫(yī)療大數(shù)據(jù)中心,而且醫(yī)生具有

獲得這些數(shù)據(jù)的權(quán)限。

截至2021年3月底,全國(guó)醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)達(dá)97.8萬(wàn)個(gè),其中:醫(yī)院2.5萬(wàn)

個(gè),基層醫(yī)療衛(wèi)生機(jī)構(gòu)91.8萬(wàn)個(gè),專業(yè)公共衛(wèi)生機(jī)構(gòu)3.2萬(wàn)個(gè),其他機(jī)構(gòu)0.3

萬(wàn)個(gè)。

全國(guó)按2.5萬(wàn)家醫(yī)院計(jì)算,一家醫(yī)院按4個(gè)信息系統(tǒng)計(jì)算,全國(guó)共有10萬(wàn)

個(gè)醫(yī)院信息系統(tǒng),這些信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)存貯在數(shù)千萬(wàn)*表中。

醫(yī)療大數(shù)據(jù)應(yīng)該說(shuō)是永久有用的,可用來(lái)研究人類疾病的歷史變化情況。因

此,國(guó)家醫(yī)療大數(shù)據(jù)應(yīng)是整個(gè)國(guó)家數(shù)年內(nèi)、數(shù)十年內(nèi)所產(chǎn)生的全部數(shù)據(jù)的總和,

甚至需要存貯數(shù)百年、數(shù)千年。國(guó)家醫(yī)療大數(shù)據(jù)所涉及的信息量是一般的醫(yī)院信

息系統(tǒng)的數(shù)據(jù)量的數(shù)萬(wàn)倍、數(shù)十萬(wàn)倍以上。

醫(yī)生要想獲得患者以往的病史數(shù)據(jù),就必須從數(shù)據(jù)千萬(wàn)*表中查詢患者的病

史數(shù)據(jù)。了解關(guān)系數(shù)捱庫(kù)理論者都知道,如果說(shuō)僅有表中的數(shù)據(jù),沒(méi)有相應(yīng)的軟

件工具,貝IJ,從數(shù)千萬(wàn)*表中查詢數(shù)據(jù),即使最優(yōu)秀的程序員,在目前的技術(shù)條

件下,一周的時(shí)間內(nèi)肯定查不出來(lái)患者的所有病史數(shù)據(jù)。因?yàn)槌绦騿T在查詢數(shù)據(jù)

前,首先要搞清楚如下問(wèn)題:

1、這些數(shù)據(jù)分別是哪家醫(yī)院所產(chǎn)生的?

2、這些數(shù)據(jù)分別是什么樣的數(shù)據(jù)庫(kù)系統(tǒng)產(chǎn)生的?

3、這些數(shù)據(jù)分別存貯在哪些表中?

4、各*表的構(gòu)造是什么?

5、表中會(huì)含有大量的代碼,各個(gè)代碼的含義是什么?

6、同一數(shù)據(jù)庫(kù)中會(huì)有多*表,這些表之間的關(guān)系是什么?

7、各*表中所存貯的是什么數(shù)據(jù)?數(shù)據(jù)的類型是什么?

國(guó)家醫(yī)療大數(shù)據(jù)文件中含有數(shù)千萬(wàn)*表,一*表詳細(xì)情況說(shuō)明根本上要用一頁(yè)

復(fù)印的信息量來(lái)描述,共需數(shù)千萬(wàn)頁(yè)復(fù)印紙才能描述清楚全部表的根本情況。

面對(duì)全國(guó)97.8萬(wàn)家醫(yī)療機(jī)構(gòu),2萬(wàn)多家有一定規(guī)模的醫(yī)院,數(shù)萬(wàn)個(gè)醫(yī)院信息

系統(tǒng),數(shù)千萬(wàn)*表,程序員在一周的時(shí)間內(nèi)肯定搞不清楚上述問(wèn)題。

從理論上而言,只要有數(shù)據(jù),程序員可以查詢到任何需要信息,然而由于國(guó)

家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量太大,數(shù)據(jù)關(guān)系太復(fù)雜,數(shù)據(jù)構(gòu)造太多、數(shù)據(jù)類型太多、

不標(biāo)準(zhǔn)的數(shù)據(jù)太多,結(jié)果是太難太難。

處理小數(shù)據(jù)時(shí)并未感到關(guān)系數(shù)據(jù)庫(kù)有什么缺乏之處,在大數(shù)據(jù)時(shí)代人們已認(rèn)

識(shí)到關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)不適合處理大數(shù)據(jù)。

2.1.1小問(wèn)題放大萬(wàn)倍就會(huì)大的嚇人

國(guó)家醫(yī)療大數(shù)據(jù)爐不是把全國(guó)各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中在一起就可

以稱作是合格的醫(yī)療大數(shù)據(jù)。如果僅是把全國(guó)各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中

在一起,而沒(méi)有處理這些數(shù)據(jù)的應(yīng)用程序,則,這些數(shù)據(jù)也沒(méi)什么用處。

目前不是沒(méi)有大數(shù)據(jù),而是有很多大數(shù)據(jù),然而人們不能高效地對(duì)這些數(shù)據(jù)

進(jìn)展處理。

到目前為止,還沒(méi)有成功處理上萬(wàn)家醫(yī)療機(jī)構(gòu)所產(chǎn)生的醫(yī)療人數(shù)據(jù)的成功案

例。

大數(shù)據(jù)比小數(shù)據(jù)大多少倍?目前沒(méi)有明確的定義,應(yīng)該說(shuō)真正的大數(shù)據(jù)要比

小數(shù)據(jù)大一萬(wàn)倍以上,最少也應(yīng)大一百倍以上。

大數(shù)據(jù)的大表現(xiàn)在:一是數(shù)據(jù)量大(是小數(shù)據(jù)“萬(wàn)倍以上〃),二是數(shù)據(jù)類

型多(是小數(shù)據(jù)“萬(wàn)倍以上〃),三是所涉及到的單位多(是小數(shù)據(jù)“萬(wàn)倍以上〃),

四是所涉及到的用戶多種多樣(是小數(shù)據(jù)“萬(wàn)倍以上〃),五是對(duì)數(shù)據(jù)的需求多

種多樣而且不確定(是小數(shù)據(jù)“萬(wàn)倍以上〃)。

在處理大數(shù)據(jù)時(shí),會(huì)有很多的“萬(wàn)倍以上〃的問(wèn)題。

3歲小朋友都可以數(shù)清楚自己家里有幾口人,然而全國(guó)有多少人?由于人數(shù)

十分龐大,全國(guó)人口普查就成了一項(xiàng)十分艱巨的大工程。自有人類以來(lái),還無(wú)人

能夠數(shù)百之百準(zhǔn)確地?cái)?shù)清楚全球在*段時(shí)間內(nèi)的人數(shù)。大家都認(rèn)為當(dāng)今的計(jì)算機(jī)

技術(shù)已非常先進(jìn),然而時(shí)至今日,全球、全國(guó)的人口普查都做不到百分之百準(zhǔn)確。

我國(guó)歷次人口普查都要花費(fèi)大量的人力、物力。

宇宙之中有多少個(gè)星球體?誰(shuí)也數(shù)不清,因?yàn)檎麄€(gè)宇宙實(shí)在是太大了,宇宙

中的星球數(shù)量實(shí)在是太多了,誰(shuí)也數(shù)不清,永遠(yuǎn)也數(shù)不清。

事物的數(shù)量大到一定程度后一項(xiàng)非常簡(jiǎn)單的工作就會(huì)變成一項(xiàng)非常艱巨的

大工程。

小數(shù)據(jù)所處理的數(shù)據(jù)猶如小朋友數(shù)家里的人數(shù),大數(shù)據(jù)所處理的數(shù)據(jù)猶如全

國(guó)人口普查。

大數(shù)據(jù)的特點(diǎn):小數(shù)據(jù)中的小問(wèn)題一旦放大萬(wàn)倍就會(huì)大的嚇人!在大數(shù)據(jù)處

理中,會(huì)遇到數(shù)量眾多的小問(wèn)題。

當(dāng)前的絕大多數(shù)信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)而建立的。在設(shè)計(jì)數(shù)據(jù)庫(kù)系

統(tǒng)時(shí),設(shè)計(jì)人員習(xí)慣于用代碼來(lái)表示各種數(shù)據(jù),例如一些設(shè)計(jì)人員人用數(shù)字“0〃

來(lái)代表女性、用T”代表男性),有的用"M”夾代表男性、"F”來(lái)代表女性。

全國(guó)各行各業(yè)擁有數(shù)千萬(wàn)個(gè)信息系統(tǒng),其中的數(shù)千萬(wàn)*表中擁有人的性別這種字

段。在當(dāng)前的情況下,人們是用數(shù)據(jù)抽取的方法來(lái)而使性別這種字段中的數(shù)據(jù)全

部轉(zhuǎn)換為統(tǒng)一的、標(biāo)準(zhǔn)的數(shù)據(jù),例如統(tǒng)一為“男”、“女〃。要把全國(guó)數(shù)千萬(wàn)*

表中的性別數(shù)據(jù)全部轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù),就是一項(xiàng)非常艱巨的系統(tǒng)工程。

要真正建立起國(guó)家醫(yī)療大數(shù)據(jù),要解決很多個(gè)數(shù)量十分龐大的小問(wèn)題。

人數(shù)據(jù)一般比小數(shù)據(jù)人數(shù)萬(wàn)倍、數(shù)十萬(wàn)倍,小數(shù)據(jù)中的小問(wèn)題一旦放人數(shù)萬(wàn)

倍、數(shù)十萬(wàn)倍就會(huì)大的嚇人!

在小數(shù)據(jù)時(shí)代,人們所設(shè)計(jì)的信息系統(tǒng)只是用來(lái)處理*個(gè)機(jī)構(gòu)、*個(gè)部門(mén)內(nèi)部

的*個(gè)局部問(wèn)題進(jìn)展統(tǒng)計(jì)、分析,一個(gè)信息系統(tǒng)中只有兒*表、兒十*表。

在大數(shù)據(jù)時(shí)代,人們更關(guān)注全國(guó),甚至全球范圍內(nèi)的對(duì)所有事物進(jìn)展統(tǒng)計(jì)、

分析,涉及到數(shù)百萬(wàn)、數(shù)千萬(wàn)個(gè)信息系統(tǒng)、數(shù)億”表。

小數(shù)據(jù)是為機(jī)構(gòu)內(nèi)部的人員所使用,是從機(jī)構(gòu)的角度看問(wèn)題,而大數(shù)據(jù)而是

從全國(guó),甚至全球來(lái)考慮問(wèn)題。

對(duì)醫(yī)療行業(yè)而言,全國(guó)擁有近97.8萬(wàn)家醫(yī)療機(jī)構(gòu),數(shù)百萬(wàn)從業(yè)人員,為全

國(guó)13億人效勞。

目前商業(yè)智能所處理的還只是一家企業(yè)內(nèi)部的數(shù)據(jù),人們已感到對(duì)企業(yè)內(nèi)部

的數(shù)十個(gè)信息系統(tǒng)中的數(shù)據(jù)進(jìn)展處理已非常困難,而大數(shù)據(jù)所要處理的是整個(gè)行

業(yè)的數(shù)據(jù),比商業(yè)智能復(fù)雜數(shù)萬(wàn)倍。

大數(shù)據(jù)=價(jià)值大=困難大=問(wèn)題大=代價(jià)大

2.2醫(yī)療大數(shù)據(jù)面臨八大難題

當(dāng)前國(guó)內(nèi)的各家醫(yī)院的各種信息系統(tǒng)都是為了滿足自己的需求而開(kāi)發(fā)的,可

以比擬好地滿足各家醫(yī)院自己的各種需求,并發(fā)揮出了重要的作用。然而,當(dāng)人

們從國(guó)家醫(yī)療大數(shù)據(jù)的角度來(lái)考慮問(wèn)題時(shí),就會(huì)發(fā)現(xiàn)要從全國(guó)的所有醫(yī)療機(jī)構(gòu)的

所有信息系統(tǒng)中挖掘出有價(jià)值的信息實(shí)在是大難了!主要有下述八大難題。

1、各自為政:各家醫(yī)療機(jī)構(gòu)各自為政,都想要?jiǎng)e人的的數(shù)據(jù),都不希望自

己的數(shù)據(jù)共享給他人。到目前為止,醫(yī)療數(shù)據(jù)都存貯在各家醫(yī)療機(jī)構(gòu)內(nèi)部,從各

家醫(yī)療機(jī)構(gòu)獲得數(shù)據(jù)非常難。

2、數(shù)據(jù)不標(biāo)準(zhǔn):醫(yī)療行業(yè)還未建立全國(guó)統(tǒng)一的、標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)的數(shù)據(jù),各

家醫(yī)院的醫(yī)疔數(shù)據(jù)各不一樣。數(shù)據(jù)不標(biāo)準(zhǔn)問(wèn)題是影響大數(shù)據(jù)處理的一個(gè)重大問(wèn)

題,在大數(shù)據(jù)時(shí)代,各行各業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)化工作是大數(shù)據(jù)的一項(xiàng)非常重要的根底

工作,這項(xiàng)根底工作搞不好,大數(shù)據(jù)挖掘工作不可能搞好。醫(yī)療行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)

化工作也是一項(xiàng)工程量巨大的系統(tǒng)工程,需要大量的醫(yī)務(wù)人員共同參與才能完

成。國(guó)內(nèi)還未做好這項(xiàng)根底工作。數(shù)據(jù)不標(biāo)準(zhǔn)、不標(biāo)準(zhǔn),會(huì)嚴(yán)重影響數(shù)據(jù)挖掘的

結(jié)果?!緮?shù)據(jù)不一致可以有多種情況,如數(shù)據(jù)類型不一致,隨意縮寫(xiě)造成的不一

致,計(jì)量單位不一致等。當(dāng)從多個(gè)不同的數(shù)據(jù)源整合數(shù)據(jù)時(shí),由于定義的不同,

更容易產(chǎn)生數(shù)據(jù)不一致問(wèn)題。在不同的數(shù)據(jù)源中,一樣類型的信息可能表現(xiàn)為不

同的格式。例如,通常定義為字符型數(shù)據(jù),但在有些數(shù)據(jù)源中可能將定義數(shù)值型

數(shù)據(jù),因此應(yīng)將其標(biāo)準(zhǔn)化。典型的例子是字段“性別〃,一些人用數(shù)字"0"、

“1〃、”2〃來(lái)表示“不清〃、“男〃、”女〃。而在其它數(shù)據(jù)庫(kù)中,可能直接

用“不清〃、“男〃、”女〃來(lái)描述。另一種情況是字段值在不同的數(shù)據(jù)源中不

一致,如“出生地〃可能分別使用“封、”滬〃、“種『、”滬市〃、叼忸加〃、

“SH〃等表示**市出生的人。解決這一問(wèn)題首先應(yīng)該進(jìn)展標(biāo)準(zhǔn)化,然后根據(jù)標(biāo)準(zhǔn)

逐步消除數(shù)據(jù)不一致的問(wèn)題?!?/p>

3、業(yè)務(wù)及業(yè)務(wù)流程不標(biāo)準(zhǔn):要對(duì)全國(guó)的*個(gè)行業(yè)的大數(shù)據(jù)進(jìn)展分析統(tǒng)一,行

業(yè)內(nèi)的業(yè)務(wù)及業(yè)務(wù)流程的標(biāo)準(zhǔn)化工作也是一項(xiàng)非常重要的工作,否則,各個(gè)機(jī)構(gòu)

的數(shù)據(jù)也就會(huì)百花齊放、各不一樣,不利于分析統(tǒng)計(jì)。

4、數(shù)據(jù)多樣性(Variety)【數(shù)據(jù)構(gòu)造不標(biāo)準(zhǔn)、不統(tǒng)一】:全國(guó)有97.8萬(wàn)家醫(yī)

療機(jī)構(gòu),這些機(jī)構(gòu)的全部信息系統(tǒng)有數(shù)十萬(wàn)個(gè),這些系統(tǒng)由不同的開(kāi)發(fā)商所開(kāi)發(fā),

各系統(tǒng)的數(shù)據(jù)構(gòu)造不盡一樣。【每家醫(yī)院的信息化工作都涉及幾十個(gè)廠家,每個(gè)

廠家的數(shù)據(jù)、標(biāo)準(zhǔn)、采集、存儲(chǔ)都不一樣。因此,即便是在一家醫(yī)院,都會(huì)出現(xiàn)

很多孤島,更別說(shuō)整個(gè)醫(yī)療行業(yè)了。各家醫(yī)院信息系統(tǒng)的標(biāo)準(zhǔn)、接口都不同,這

成為利用率低、共享難的原因之一?!?/p>

5、數(shù)據(jù)與數(shù)據(jù)庫(kù)系統(tǒng)、應(yīng)用系統(tǒng)密切不可分:關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中的每一個(gè)

數(shù)據(jù)都要先定義數(shù)據(jù)構(gòu)造才能入住數(shù)據(jù)庫(kù)。信息系統(tǒng)的最終用戶所看到的數(shù)據(jù)都

需要應(yīng)用程序的解讀,最終用戶看不懂關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)。

6、不能實(shí)現(xiàn)醫(yī)學(xué),言息的構(gòu)造化存貯:醫(yī)學(xué)信息非常復(fù)雜,醫(yī)務(wù)人員習(xí)慣于

用自然語(yǔ)言編寫(xiě)各種醫(yī)學(xué)檔案,例如醫(yī)生都是用自然語(yǔ)言編寫(xiě)病歷。然而,計(jì)算

機(jī)很笨,不能理解自然語(yǔ)言,因此只有把醫(yī)學(xué)信息構(gòu)造化之后進(jìn)展存貯,才能用

計(jì)算機(jī)進(jìn)展處理。而當(dāng)前的眾多醫(yī)學(xué)信息都未能很好地進(jìn)展構(gòu)造化存貯。

7、信息孤島:各家醫(yī)院的各個(gè)信息系統(tǒng)不能實(shí)現(xiàn)全國(guó)互聯(lián)互通。

8、老系統(tǒng)升級(jí)改造難題:當(dāng)前的信息系統(tǒng)都是小數(shù)據(jù)系統(tǒng),不適應(yīng)大數(shù)據(jù)

時(shí)代的需求,然而要對(duì)現(xiàn)有的信息系統(tǒng)進(jìn)展全面改造也是非常困難的,其代價(jià)也

是非常高昂的?!緸槿~么要升級(jí)改造?因?yàn)楫?dāng)前的各家醫(yī)院的信息系統(tǒng)所產(chǎn)生的

數(shù)據(jù)各不一樣,數(shù)據(jù)不標(biāo)準(zhǔn)、不標(biāo)準(zhǔn)。要對(duì)大數(shù)據(jù)進(jìn)展處理,必須確保全國(guó)各家

醫(yī)療機(jī)構(gòu)的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)是統(tǒng)一的、標(biāo)注的、標(biāo)準(zhǔn)的醫(yī)學(xué)標(biāo)準(zhǔn)數(shù)據(jù)。只

有這樣,才能高效處理大數(shù)據(jù)。】

從理論上而言,醫(yī)療大數(shù)據(jù)挖掘很簡(jiǎn)單,只要懂關(guān)系數(shù)據(jù)庫(kù),根本上就能對(duì)

醫(yī)療大數(shù)據(jù)進(jìn)展挖掘。然而,要想對(duì)全國(guó)近百萬(wàn)個(gè)醫(yī)療機(jī)構(gòu)、數(shù)十萬(wàn)個(gè)信息系統(tǒng)

的全部數(shù)據(jù)進(jìn)展高效地挖掘,所面臨的挑戰(zhàn)是非常嚴(yán)重的。

如何解決八大難題?

1、各自為政:這個(gè)問(wèn)題必須國(guó)家衛(wèi)生和方案生育委員會(huì)以行政命令的方式

來(lái)解決,強(qiáng)制要求各醫(yī)療單位實(shí)時(shí)地把各種醫(yī)療信息上傳到國(guó)家醫(yī)療大數(shù)據(jù)中

心。假設(shè)沒(méi)有強(qiáng)制的行政命令,不可能建立起合格的國(guó)家醫(yī)療大數(shù)據(jù)。

2、數(shù)據(jù)不標(biāo)準(zhǔn)難題:此難題涉及到的數(shù)據(jù)量太大、工程量太大。國(guó)家衛(wèi)計(jì)

委及很多人士雖說(shuō)早就注意到此問(wèn)題的存在,然而直到目前還未從根本上解決醫(yī)

療行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)化問(wèn)題。此問(wèn)題不從根本上解決,則醫(yī)療大數(shù)據(jù)的挖掘就等于

說(shuō)大話。醫(yī)療行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化工作是大數(shù)據(jù)挖掘的根底工作。此問(wèn)題應(yīng)該由國(guó)家

衛(wèi)計(jì)委組織業(yè)內(nèi)外力量來(lái)解決,解決此問(wèn)題需要3至5年的時(shí)間。有了國(guó)家醫(yī)療

大數(shù)據(jù)標(biāo)準(zhǔn)之后,還需要用標(biāo)準(zhǔn)的醫(yī)療數(shù)據(jù)去代替現(xiàn)有的不標(biāo)準(zhǔn)的醫(yī)療數(shù)據(jù),而

此項(xiàng)工作的工作量也是非常巨大的。標(biāo)準(zhǔn)化工作是不賺錢(qián)的根底性工作,商業(yè)機(jī)

構(gòu)沒(méi)有從事這項(xiàng)工作的動(dòng)力,應(yīng)該由國(guó)家衛(wèi)計(jì)委來(lái)解決。

3、業(yè)務(wù)、業(yè)務(wù)流程不標(biāo)準(zhǔn):目前全國(guó)各醫(yī)療機(jī)構(gòu)的業(yè)務(wù)及業(yè)務(wù)流程并不標(biāo)

準(zhǔn),因此,各醫(yī)療機(jī)構(gòu)所產(chǎn)生的數(shù)據(jù)也各不一樣。要建立國(guó)家醫(yī)療大數(shù)據(jù),就必

須道先對(duì)全國(guó)醫(yī)療機(jī)構(gòu)的業(yè)務(wù)流程進(jìn)展標(biāo)準(zhǔn)化處理,這也是一項(xiàng)工程量巨大的根

底性系統(tǒng)工程。這項(xiàng)工作也應(yīng)該由國(guó)家衛(wèi)計(jì)委來(lái)解決。此項(xiàng)工作最快需要三至五

年的時(shí)間才能完成。

只有解決了上述三項(xiàng)根底性問(wèn)題,才能夠建立起國(guó)家醫(yī)療大數(shù)據(jù)這個(gè)大

廈的堅(jiān)實(shí)地基,否則醫(yī)療大數(shù)據(jù)只能是空中樓閣。由于上述三個(gè)因素牽

涉到全國(guó)各個(gè)醫(yī)療機(jī)構(gòu)的方方面面,非常復(fù)雜,卜年之內(nèi)很難看到真正

的國(guó)家醫(yī)療大數(shù)據(jù)的曙光。

下述4個(gè)問(wèn)題屬于技術(shù)問(wèn)題,關(guān)系數(shù)據(jù)庫(kù)理論解決不了這4個(gè)問(wèn)題,可由創(chuàng)

造專利技術(shù)“醫(yī)學(xué)信息的構(gòu)造化存貯方法〃從技術(shù)上加以徹底解決:

4、數(shù)據(jù)多樣性(Variety)【數(shù)據(jù)構(gòu)造不標(biāo)準(zhǔn)、不統(tǒng)一】:目前關(guān)系數(shù)據(jù)庫(kù)占

據(jù)統(tǒng)治地位,絕大多數(shù)信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫(kù)而建立的。醫(yī)院的各種信息系

統(tǒng)中,多數(shù)也是用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)而建立。例如,目前國(guó)內(nèi)醫(yī)療行業(yè)的HIS系統(tǒng)

是由多個(gè)開(kāi)發(fā)商所開(kāi)發(fā),各家開(kāi)發(fā)商所用的數(shù)據(jù)庫(kù)系統(tǒng)不一樣,所用的數(shù)據(jù)構(gòu)造

構(gòu)造及數(shù)據(jù)類型也不一樣。因此,如果要對(duì)全國(guó)各家醫(yī)療機(jī)構(gòu)的HIS系統(tǒng)中的數(shù)

據(jù)進(jìn)展分析,則首先就要把各種數(shù)據(jù)全部轉(zhuǎn)換為同一的數(shù)據(jù)構(gòu)造,然后才能對(duì)數(shù)

據(jù)進(jìn)展分析統(tǒng)計(jì)。然而要對(duì)全國(guó)近百萬(wàn)個(gè)醫(yī)療機(jī)構(gòu)的數(shù)十萬(wàn)個(gè)、數(shù)百萬(wàn)個(gè)信息系

統(tǒng)中的數(shù)據(jù)進(jìn)展轉(zhuǎn)換,也是一項(xiàng)工程量巨大的系統(tǒng)工程。另一外很重要的問(wèn)題是,

所有這些信息系統(tǒng)中的數(shù)據(jù)要轉(zhuǎn)換為哪一種統(tǒng)一的、標(biāo)準(zhǔn)的數(shù)據(jù)構(gòu)造,也是需要

國(guó)家衛(wèi)計(jì)委制定相應(yīng)的標(biāo)準(zhǔn)、標(biāo)準(zhǔn)。

5、數(shù)據(jù)與數(shù)據(jù)庫(kù)系統(tǒng)、應(yīng)用系統(tǒng)密不可分。

6、不能實(shí)現(xiàn)醫(yī)學(xué)信息的構(gòu)造化存貯:醫(yī)學(xué)信息非常復(fù)雜,用關(guān)系數(shù)據(jù)庫(kù)不

能實(shí)現(xiàn)病歷信息的構(gòu)造化存貯。有人用*ML實(shí)現(xiàn)病歷信息的構(gòu)造化存貯,然而

只適合處于少量數(shù)據(jù),不適合對(duì)全國(guó)的病歷信息的處理。

7、信息孤島。

8、信息系統(tǒng)改造:現(xiàn)有的醫(yī)療信息系統(tǒng)就猶如**的城中村,**的城中村雖

有一定的作用,然而城中村與**這樣的國(guó)際化大都市非常不協(xié)調(diào)。改造

**城中村的最正確方案就是推倒重建,局部的修補(bǔ)是沒(méi)用的。然而要全

部推倒重建,所花費(fèi)的資金是非常巨大的。

2.3國(guó)家大數(shù)據(jù)標(biāo)準(zhǔn)工程堪比"兩彈一星"

大數(shù)據(jù)工程,標(biāo)準(zhǔn)先行。

國(guó)家大數(shù)據(jù)標(biāo)準(zhǔn)的工程的工程量要比“兩彈一星〃的工程量大。

國(guó)家大數(shù)據(jù)標(biāo)準(zhǔn)涉及到每一個(gè)行業(yè),也涉及到各種各樣的業(yè)務(wù)。大數(shù)據(jù)標(biāo)準(zhǔn)

涉及數(shù)據(jù)的標(biāo)準(zhǔn)化、數(shù)據(jù)構(gòu)造的標(biāo)準(zhǔn)化、'業(yè)務(wù)的標(biāo)準(zhǔn)化、業(yè)務(wù)流程的標(biāo)準(zhǔn)化。

大數(shù)據(jù)標(biāo)準(zhǔn)化工作完成之后還要對(duì)現(xiàn)有的信息系統(tǒng)進(jìn)展改造,這種改造的工

程量及代價(jià)也是非常高昂的。日前的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)不適應(yīng)大數(shù)據(jù)的需

求。

歷史對(duì)秦始皇統(tǒng)一文字、統(tǒng)一度量衡、統(tǒng)一貨幣的評(píng)價(jià)非常高:功惠千秋。

大數(shù)據(jù)所面臨的問(wèn)題也猶如秦始皇時(shí)代所面臨的“文字不統(tǒng)一、度量衡不統(tǒng)一、

貨幣不統(tǒng)一〃問(wèn)題。因此,要解決大數(shù)據(jù)所面臨的問(wèn)題,也需要由秦國(guó)、秦始皇

那樣強(qiáng)大的機(jī)構(gòu)、領(lǐng)袖人物以行政命令的形式強(qiáng)制推行,才能從根本上解決問(wèn)題。

大數(shù)據(jù)八大難題中的五大難題(各自為政、數(shù)據(jù)不標(biāo)準(zhǔn)、業(yè)務(wù)流程不標(biāo)準(zhǔn)、

數(shù)據(jù)多樣性(Variety)【數(shù)據(jù)構(gòu)造不標(biāo)準(zhǔn)、不統(tǒng)一】、信息孤島)與秦始皇曾經(jīng)遇

到的問(wèn)題有些類似。

為解決千年蟲(chóng)問(wèn)題,全球花費(fèi)了超千億美元的資金。徹底砸爛小數(shù)據(jù)而建立

大數(shù)據(jù)新環(huán)境的代價(jià)遠(yuǎn)遠(yuǎn)超過(guò)千年蟲(chóng)問(wèn)題。千年蟲(chóng)只是解決一個(gè)時(shí)間數(shù)據(jù)的問(wèn)

題,而徹底砸爛小數(shù)據(jù)建立大數(shù)據(jù)新環(huán)境則涉及到幾乎所有信息系統(tǒng)的所有數(shù)

據(jù)!

小數(shù)據(jù):只要能滿足自己需求,能解決自己的問(wèn)題即可。

大數(shù)據(jù):不只是滿足自己的需求、解決自己的問(wèn)題,還要考慮他人的需求。

重點(diǎn)是如何讓他人能夠找到所需要的數(shù)據(jù)。

要讓他人、大家找到所需要的數(shù)據(jù),最重要的是大家都要遵循一樣的標(biāo)準(zhǔn),

大家都講普通話,而不是方言,這猶如泰始皇統(tǒng)一六國(guó)后的“書(shū)同文〃的標(biāo)準(zhǔn)化

改革。

當(dāng)前在處理大數(shù)據(jù)時(shí)的首要工作就是數(shù)據(jù)抽取(ETL:“Extract"'、

“Transform、“Load”,“抽取〃、”轉(zhuǎn)換〃、"裝載〃),其實(shí)數(shù)據(jù)抽

取工作也類似“秦始皇的書(shū)同文〃,只是數(shù)據(jù)抽取并未能真正象秦始那樣從根本

上解決書(shū)同文問(wèn)題。要使大數(shù)據(jù)真正做到“書(shū)同文〃,需要象秦始皇那樣從根本

上解決問(wèn)題。而真正實(shí)現(xiàn)大數(shù)據(jù)“書(shū)同文〃時(shí),就不再需要數(shù)據(jù)抽取。

與當(dāng)前人們所提到的大數(shù)據(jù)相比,關(guān)系數(shù)據(jù)庫(kù)所處理的數(shù)據(jù)則是小數(shù)據(jù)。大

數(shù)據(jù)中的數(shù)據(jù)是數(shù)萬(wàn)家、數(shù)十萬(wàn)家以上的各中機(jī)構(gòu)中各種數(shù)據(jù)的總和。而關(guān)系數(shù)

據(jù)庫(kù)所處理的小數(shù)據(jù)則是一家機(jī)構(gòu)或幾家機(jī)構(gòu)中的局部數(shù)據(jù)。

當(dāng)我們面對(duì)數(shù)十萬(wàn)個(gè)、數(shù)百萬(wàn)個(gè)以上的信息系統(tǒng)中的數(shù)據(jù)(大數(shù)據(jù))時(shí),就

會(huì)發(fā)現(xiàn),我們面臨很多挑戰(zhàn):“(維基百科對(duì)大數(shù)據(jù)的定義)無(wú)法在可承受的時(shí)

間范圍內(nèi)用常規(guī)軟件工具進(jìn)展捕捉、管理和處理〃。也就說(shuō)明用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)

己“無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)展捕捉、管理和處理〃大數(shù)據(jù)。

在小數(shù)據(jù)時(shí)代,信息系統(tǒng)的用戶是通過(guò)應(yīng)用程序而查到自己所需要的數(shù)據(jù),

而信息系統(tǒng)對(duì)關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)展處理后而以用戶能夠理解的形式展現(xiàn)給

用戶。然而,在大數(shù)據(jù)時(shí)代,這種方法行不通了。因?yàn)樵谛?shù)據(jù)時(shí)代,我們所要

處理的數(shù)據(jù)是有限的、可確定的,而在大數(shù)據(jù)時(shí)代,我們所要處理的數(shù)據(jù)是無(wú)限

的,不確定的數(shù)據(jù)。

秦始皇之所以能使“書(shū)同文”成為現(xiàn)實(shí),是因?yàn)樗麚碛兄粮邿o(wú)上的權(quán)威;“兩

彈一星〃之所以能成功,關(guān)鍵在于“兩彈一星〃關(guān)系到國(guó)家的生死存亡,國(guó)家大

力支持。大數(shù)據(jù)的成敗與國(guó)家的支持是分不開(kāi)的。

2.4醫(yī)療行業(yè)的信息系統(tǒng)頂層設(shè)計(jì)為何難產(chǎn)

國(guó)家衛(wèi)生和方案生育委員會(huì)兒年前就注意到了醫(yī)療行業(yè)信息系統(tǒng)頂層設(shè)計(jì)

的重要性,并希望從根本上解決此問(wèn)題,但至今未能從根本上實(shí)現(xiàn)醫(yī)療行業(yè)信息

系統(tǒng)的頂層設(shè)計(jì)。

為什么要進(jìn)展頂層設(shè)計(jì)?因?yàn)楫?dāng)前的各種醫(yī)院信息系統(tǒng)存在嚴(yán)重的問(wèn)題,信

息孤島問(wèn)題嚴(yán)重,不能互聯(lián)互通。

頂層設(shè)計(jì)建立在醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化、醫(yī)療業(yè)務(wù)流程標(biāo)準(zhǔn)化的根底之上。而如今

醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化、醫(yī)療業(yè)務(wù)流程標(biāo)準(zhǔn)化這兩個(gè)根底工作還未做好,因此頂層設(shè)計(jì)

就不可能有結(jié)果。

技術(shù)上的原因:關(guān)系數(shù)據(jù)庫(kù)理論的先天缺乏。

客觀原因:?jiǎn)栴}非常復(fù)雜、牽涉面太廣、所需資金非常巨大。

頂層設(shè)計(jì)非常難,比頂層設(shè)計(jì)更難的是有了頂層設(shè)計(jì)之后再對(duì)全國(guó)的醫(yī)療信

息系統(tǒng)進(jìn)展全面更新?lián)Q代。

2.5大數(shù)據(jù)挖掘中的問(wèn)題:大數(shù)據(jù)的關(guān)鍵不在于大而在于如何挖掘

如果把全國(guó)97.8萬(wàn)個(gè)醫(yī)療衛(wèi)生機(jī)構(gòu)所產(chǎn)生的數(shù)據(jù)全部存貯到國(guó)家醫(yī)療大數(shù)

據(jù)中心,這些數(shù)據(jù)可以稱作是“國(guó)家醫(yī)療大數(shù)據(jù)〃,然而這樣的數(shù)據(jù)并不能稱作

是真正合格的“國(guó)家醫(yī)療大數(shù)據(jù)〃,因?yàn)椋瑢?duì)這樣的數(shù)據(jù)的挖掘非常困難,從這

些數(shù)據(jù)中挖掘出有用數(shù)據(jù)的代價(jià)非常高,猶如沙里淘金,大海撈針。

大數(shù)據(jù)不是小數(shù)據(jù)之和。大數(shù)據(jù)的關(guān)鍵不在于大,而在于挖掘。只有可以讓

大家高效挖掘、任意挖掘的大數(shù)據(jù)才是真正合格的大數(shù)據(jù)。

2.5.1我國(guó)醫(yī)療行業(yè)每年產(chǎn)生多少數(shù)據(jù)

國(guó)家醫(yī)療大數(shù)據(jù)的概況:截至2021年3月底,全國(guó)醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)達(dá)97.8

萬(wàn)個(gè),其中:醫(yī)院2.5萬(wàn)個(gè),基層醫(yī)療衛(wèi)生機(jī)構(gòu)91.8萬(wàn)個(gè),專業(yè)公共衛(wèi)生機(jī)構(gòu)

3.2萬(wàn)個(gè),其他機(jī)構(gòu)0.3萬(wàn)個(gè)。

僅按全國(guó)擁有2.5萬(wàn)家醫(yī)院、每家醫(yī)院4個(gè)信息系統(tǒng)計(jì)算,全國(guó)約有10萬(wàn)

個(gè)以上的醫(yī)院信息系統(tǒng),每個(gè)信息系統(tǒng)按20*表估算,全國(guó)共擁有200百萬(wàn)*表。

除了存貯在關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)外,還有其它類型的數(shù)據(jù):*ML、音像、

文本等。

國(guó)家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算:**軍區(qū)**總醫(yī)院目前擁有5臺(tái)存儲(chǔ)設(shè)備,2

臺(tái)專用于PACS,其中HIS、LIS、EMR等數(shù)據(jù)3T,病窠縮微數(shù)據(jù)12T,PACS

數(shù)據(jù)120T左右,每個(gè)月的數(shù)據(jù)增長(zhǎng)為2T左右,每年產(chǎn)生的數(shù)據(jù)量:24T/年。國(guó)

家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算=2.5萬(wàn)家(未計(jì)小醫(yī)療機(jī)構(gòu)的數(shù)據(jù))*2417年=60萬(wàn)

T/年。

國(guó)家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算:6萬(wàn)T/年至100萬(wàn)T/年。

2.5.2挖掘關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)所產(chǎn)生的醫(yī)療數(shù)據(jù)非常困難

如果全國(guó)97.8萬(wàn)家醫(yī)療機(jī)構(gòu)以鏡像的方式把所有數(shù)據(jù)都上傳到國(guó)家醫(yī)療大

數(shù)據(jù)中心,則該如何對(duì)這些數(shù)據(jù)進(jìn)展挖掘?

全國(guó)共有97.8萬(wàn)家醫(yī)療機(jī)構(gòu),這些醫(yī)療機(jī)構(gòu)所擁有的信息系統(tǒng)有10萬(wàn)個(gè)以

上,這些醫(yī)療機(jī)構(gòu)所擁有的數(shù)據(jù)庫(kù)有10萬(wàn)個(gè)以上,這些數(shù)據(jù)庫(kù)中的表有200萬(wàn)*

以上。這些醫(yī)療機(jī)構(gòu)的數(shù)據(jù)存貯在數(shù)十萬(wàn)個(gè)以上的文件夾中(存貯*ML、音像、

文本等數(shù)據(jù))?;颊卟∈房赡苁腔颊咦猿錾詠?lái)的所有情況,病史數(shù)據(jù)可能存貯

在幾十年的數(shù)據(jù)中,并不僅是一年的數(shù)據(jù)中。

當(dāng)前的大多數(shù)醫(yī)療數(shù)據(jù)都是存貯在關(guān)系數(shù)據(jù)庫(kù)中,關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與數(shù)

據(jù)庫(kù)系統(tǒng)密切相關(guān)、與數(shù)據(jù)構(gòu)造密切相關(guān)、與應(yīng)用程序密切相關(guān)、數(shù)據(jù)不標(biāo)準(zhǔn)。

如果只是以鏡像的方式把全國(guó)97.8萬(wàn)家醫(yī)療機(jī)構(gòu)的數(shù)據(jù)全部上傳到國(guó)家醫(yī)療大

數(shù)據(jù)中心,要從這些數(shù)據(jù)中挖掘數(shù)據(jù),也是非常困難的。要從國(guó)家醫(yī)療大數(shù)據(jù)中

查詢患者病歷數(shù)據(jù),必要首先搞清楚如下情況:

10萬(wàn)個(gè)以上的數(shù)據(jù)庫(kù)各用什么數(shù)據(jù)庫(kù)系統(tǒng)?

④10萬(wàn)個(gè)以上的數(shù)據(jù)庫(kù)的數(shù)據(jù)存貯在哪里?IP?如何訪問(wèn)數(shù)據(jù)庫(kù)(梆)?

④100萬(wàn)*以上的表中的每*表的數(shù)據(jù)構(gòu)造

④100萬(wàn)*以上的表中各表之間的關(guān)系

④100萬(wàn)*以上的表中的各個(gè)數(shù)據(jù)代碼的含義

④10萬(wàn)個(gè)以上的文件夾中存貯什么樣的數(shù)據(jù)

根底醫(yī)療數(shù)據(jù)大多存在于HIS、LIS、PACS、EMR、手術(shù)麻醉、體檢、心電

等多個(gè)子系統(tǒng)中。各系統(tǒng)來(lái)源十不同的生產(chǎn)1商,數(shù)據(jù)存放在不同的數(shù)據(jù)庫(kù),數(shù)

據(jù)多而散,數(shù)據(jù)庫(kù)的設(shè)計(jì)缺乏標(biāo)準(zhǔn)化,不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)靠患者主索引等進(jìn)展

關(guān)聯(lián),關(guān)聯(lián)關(guān)系相當(dāng)復(fù)雜。各自廠家研發(fā)人員除了對(duì)自家系統(tǒng)的數(shù)據(jù)構(gòu)造非常了

解之外,缺乏對(duì)其他系統(tǒng)數(shù)據(jù)構(gòu)造的了解,整體數(shù)據(jù)分析能力較差。

專業(yè)做數(shù)據(jù)分析及整合的公司,缺乏對(duì)醫(yī)院實(shí)際操作流程的深入了解,導(dǎo)致

對(duì)數(shù)據(jù)流向及關(guān)聯(lián)關(guān)系的分析不夠準(zhǔn)確,且很難準(zhǔn)確的拿到各子系統(tǒng)的根底數(shù)

據(jù),最終未必能做到數(shù)據(jù)全面、準(zhǔn)確。

2.5.3僅患者與數(shù)據(jù)的對(duì)應(yīng)關(guān)系就是一個(gè)大問(wèn)題

如果說(shuō)要從國(guó)家醫(yī)療大數(shù)據(jù)中查詢患者影像數(shù)據(jù),則,該如何實(shí)現(xiàn)?

在當(dāng)前的醫(yī)療信息系統(tǒng)中,關(guān)于患者的編碼并不是唯一的,也不是全國(guó)統(tǒng)一

的。

要查詢*個(gè)患者的醫(yī)療數(shù)據(jù),最理想的查詢方式就是以患者的**號(hào)作為查詢

條件而查詢相關(guān)數(shù)據(jù)。由于目前國(guó)內(nèi)的各種醫(yī)療信息系統(tǒng)中的各個(gè)表中并不一定

擁有患者**這一字段,從而使查詢變得非常繁瑣。

例如:下面的表中的數(shù)據(jù)是一個(gè)PACS系統(tǒng)中的數(shù)據(jù)。此表中并沒(méi)有包含可

以直接識(shí)別患者身份的數(shù)據(jù)。因?yàn)橛上卤碇械摹?*〃及“門(mén)診及住院號(hào)〃并不能

準(zhǔn)確地識(shí)別出是哪一個(gè)患者。國(guó)內(nèi)同名的人非常多,僅由**查義患者的數(shù)據(jù)是不

行的?!伴T(mén)診及住院號(hào)〃只是各家醫(yī)院自己的編號(hào),也不能把“門(mén)診及住院號(hào)”

作為查詢條件。

在上面的PACS系統(tǒng)表中未包含患者**數(shù)據(jù)。因此,需要從HIS系統(tǒng)中根據(jù)

患者**號(hào)而查出患者的“門(mén)診或住院號(hào)〃,再根據(jù)“門(mén)診或住院號(hào)〃而從PACS

系統(tǒng)表中查出PACS影像數(shù)據(jù)。

“患者與數(shù)據(jù)的對(duì)應(yīng)關(guān)系〃這樣的問(wèn)題其實(shí)是大數(shù)據(jù)中的一個(gè)非常突出的

問(wèn)題。為了查詢的方便,一定要把數(shù)據(jù)的最主要的特征在數(shù)據(jù)中表現(xiàn)出來(lái)。但關(guān)

系數(shù)據(jù)庫(kù)理論未考慮此問(wèn)題。在大數(shù)據(jù)挖掘中,僅是確定患者的身份就是一項(xiàng)艱

巨的工程。對(duì)小數(shù)據(jù)而言,程序員知道相關(guān)的數(shù)據(jù)存貯在哪個(gè)表中,但在大數(shù)據(jù)

環(huán)境中,程序員不知道想要查詢的數(shù)據(jù)存貯在哪里。

2.6關(guān)系數(shù)據(jù)庫(kù)理論的致命傷

關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)只適合于處理小數(shù)據(jù),而不適合處理大數(shù)據(jù),其根本原因在

于關(guān)系數(shù)據(jù)庫(kù)理論的先天缺乏。

2.6.1關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)在大數(shù)據(jù)環(huán)境中為何變成無(wú)意義的數(shù)據(jù)

如果在國(guó)家醫(yī)療大數(shù)據(jù)中心查詢到下表的數(shù)據(jù),誰(shuí)能看懂?

該表中的數(shù)據(jù)是*家醫(yī)院的信息系統(tǒng)中的關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),普通人看不

懂,醫(yī)生也只能靠猜想才能猜出局部?jī)?nèi)容。

下面的兩*表中的數(shù)據(jù)也是關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),這兩*表中的數(shù)據(jù)也是普通

人難以看懂的:

ID*BNLTZSG

1*三男5672180

ID*BZYF*YFQTFY

2146*:?男5672180

上面兩表中的數(shù)據(jù)的實(shí)際含義如下:

ID**性別所齡體重身高

1*三男5672180

ID**性別中藥費(fèi)西藥費(fèi)其它費(fèi)用

2146*.男5672180

下表是用創(chuàng)造專利技術(shù)“醫(yī)學(xué)信息的構(gòu)造化存貯方法〃而設(shè)計(jì)的表,該表

中的數(shù)據(jù)無(wú)論是誰(shuí),只要懂漢語(yǔ),就可以看懂表中內(nèi)容:

ID事物代號(hào)事物特征事物特征值超長(zhǎng)特征值單位附件時(shí)間

100280事物分類體育管理系統(tǒng)2021.3.2

101280事物分類教練信息2021.3.2

102280事物分類教練根本情況2021.3.2

103280**號(hào)**********2021.3.2

105280***三2021.3.2

106280性別男2021.3.2

107280年齡562021.3.2

108280體重72KG2021.3.2

109280身高180CM2021.3.2

癌物分類

11001280灑唐2021.5.3

11011280事物分類住院病歷2021.5.3

11021280事物分類醫(yī)療費(fèi)用2021.5.3

11031280**號(hào)**********2021.5.3

11041280住院號(hào)**********2021.5.3

11051280***三2021.5.3

11061280性別男2021.5.3

11071280中藥費(fèi)56元2021.5.3

11081280西藥費(fèi)72元2021.5.3

11091280其它費(fèi)用180元2021.5.3

相對(duì)大數(shù)據(jù)而言,關(guān)系數(shù)據(jù)庫(kù)理論是小數(shù)據(jù)時(shí)代的產(chǎn)物,只適合處理小數(shù)

據(jù),而不適合處理大數(shù)據(jù)。

關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)根本上都是不合格的失真數(shù)據(jù),因?yàn)殛P(guān)系數(shù)據(jù)庫(kù)系統(tǒng)

所面對(duì)的用戶只是熟悉關(guān)系數(shù)據(jù)庫(kù)理論的設(shè)計(jì)人員,而不是最終的用戶。關(guān)系

數(shù)據(jù)庫(kù)的最終用戶所看到的數(shù)據(jù)是設(shè)計(jì)人員利用應(yīng)用程序?qū)﹃P(guān)系數(shù)據(jù)庫(kù)中的數(shù)

據(jù)進(jìn)展解讀之后的數(shù)據(jù),最終用戶并不是直接閱讀關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)。最終

用戶也看不懂關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)。

關(guān)系數(shù)據(jù)庫(kù)理論非常注重?cái)?shù)據(jù)的冗余,用關(guān)系數(shù)據(jù)庫(kù)所建立的信息系統(tǒng)所

產(chǎn)生的數(shù)據(jù)所占用的存貯空間比擬小,但關(guān)系數(shù)據(jù)庫(kù)在減少數(shù)據(jù)冗余的同時(shí)也

導(dǎo)致關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)只有通過(guò)應(yīng)用程序的解讀才能讓最終用戶讀懂?dāng)?shù)據(jù)的

含義。

關(guān)系數(shù)據(jù)理論的一個(gè)致命傷就是由設(shè)計(jì)人員隨意定義數(shù)據(jù)構(gòu)造(表構(gòu)造),

關(guān)系數(shù)據(jù)庫(kù)理論中沒(méi)有定義數(shù)據(jù)構(gòu)造的國(guó)際標(biāo)準(zhǔn)。由此而帶來(lái)的嚴(yán)重問(wèn)題就是不

同的設(shè)計(jì)者所設(shè)計(jì)出的數(shù)據(jù)構(gòu)造各不一樣,每一個(gè)信息系統(tǒng)只認(rèn)識(shí)自己所定義的

數(shù)據(jù),而不認(rèn)識(shí)其它信息系統(tǒng)所定義的數(shù)據(jù)。系統(tǒng)與系統(tǒng)之間不能互聯(lián)互通,用

關(guān)系數(shù)據(jù)庫(kù)理論所設(shè)計(jì)出的信息系統(tǒng)都是孤島型信息系統(tǒng)。

在小數(shù)據(jù)環(huán)境中,可由應(yīng)用程序來(lái)解讀數(shù)據(jù)的真實(shí)含義。然而在大數(shù)據(jù)環(huán)境

中,面對(duì)數(shù)百萬(wàn)*以上的表,就是災(zāi)難。

數(shù)據(jù)猶如語(yǔ)言,數(shù)據(jù)互聯(lián)互通、信息共享的根底就是大家都講“普通話〃。

而用關(guān)系數(shù)據(jù)庫(kù)理論所設(shè)計(jì)的每一個(gè)信息系統(tǒng)都有自己獨(dú)特的“方言〃,任何兩

個(gè)信息系統(tǒng)之間誰(shuí)也聽(tīng)不懂對(duì)方的“方言〃。關(guān)系數(shù)據(jù)庫(kù)理論中根本就沒(méi)有“普

通話〃的概念。

在小數(shù)據(jù)時(shí)代,一個(gè)信息系統(tǒng)只應(yīng)用于一個(gè)單位,甚至只應(yīng)用于?個(gè)部門(mén),

例如醫(yī)院的HIS系統(tǒng)、PACS系統(tǒng)、LIS系統(tǒng)。

在互聯(lián)網(wǎng)時(shí)代、大數(shù)據(jù)時(shí)代,人們逐步發(fā)現(xiàn)信息系統(tǒng)之間的互聯(lián)互通、信息

共享,以及處理數(shù)百萬(wàn)家單位的全部數(shù)據(jù)具有更大的價(jià)值。此時(shí)人們才發(fā)現(xiàn)原來(lái)

用關(guān)系數(shù)據(jù)庫(kù)理論所設(shè)計(jì)的信息系統(tǒng)不能互聯(lián)互通,用關(guān)系數(shù)據(jù)庫(kù)理論不能處理

數(shù)百萬(wàn)家單位所產(chǎn)生的大數(shù)據(jù)。

關(guān)系數(shù)據(jù)庫(kù)理論是單機(jī)時(shí)代時(shí)代的產(chǎn)物。在創(chuàng)立關(guān)系數(shù)據(jù)理論之初根本就沒(méi)

有考慮系統(tǒng)之間的互聯(lián)互通、信息共享、大數(shù)據(jù)問(wèn)題。關(guān)系數(shù)據(jù)庫(kù)理論只適用十

一個(gè)單位內(nèi)部,不適合于處理單位之間數(shù)據(jù)互聯(lián)互通。

關(guān)系數(shù)據(jù)庫(kù)理論于1970年的6月由舊M公司的研究員埃德加.考特(Edgar

FrankCodd)創(chuàng)立【論文名稱為?大型共享數(shù)據(jù)庫(kù)數(shù)據(jù)的關(guān)系模型?(ARelational

ModelofDataforLargeSharedDataBanks)】。ORACLE誕生于1979年。

關(guān)系數(shù)據(jù)庫(kù)是信息化社會(huì)的功臣,也是當(dāng)今嚴(yán)重的信息孤島的罪魁禍?zhǔn)祝?/p>

關(guān)系數(shù)據(jù)庫(kù)理論是單機(jī)時(shí)代、局域網(wǎng)時(shí)代的產(chǎn)物,是一種以自我為“中心〃

的孤島型理論,沒(méi)有與外界進(jìn)展數(shù)據(jù)交換及數(shù)據(jù)共享的概念,也沒(méi)有數(shù)據(jù)接口及

互聯(lián)互通的概念。而當(dāng)今的互聯(lián)網(wǎng)是一種沒(méi)有中心的網(wǎng)絡(luò),系統(tǒng)之間的互聯(lián)互通

是重中之重。用關(guān)系數(shù)據(jù)庫(kù)理論所建立的信息系統(tǒng)都是孤島型的,不能互聯(lián)互通。

關(guān)系數(shù)據(jù)庫(kù)的特點(diǎn)是:雞犬之聲相聞,老死不相往來(lái)。我只處理我的系統(tǒng)中

的數(shù)據(jù),我不處理你的系統(tǒng)中的數(shù)據(jù),你也不能處理我的系統(tǒng)中的數(shù)據(jù)。我不管

你的數(shù)據(jù),你也別想管我的數(shù)據(jù)。我的就是我的,你的就是你的,你我之間沒(méi)關(guān)

系。你的數(shù)據(jù)來(lái)到我的系統(tǒng)中是無(wú)意義的數(shù)據(jù),我的數(shù)據(jù)到了你的系統(tǒng)中也是意

義的數(shù)據(jù)。我的數(shù)據(jù)只能在我的系統(tǒng)中生存,你的數(shù)據(jù)只能在你的系統(tǒng)中生存。

正因如此,用關(guān)系數(shù)據(jù)庫(kù)理論所設(shè)計(jì)出的信息系統(tǒng)全都是孤島型信息系統(tǒng)。

2.6.2關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)是一種完全封閉的系統(tǒng):外來(lái)數(shù)據(jù)無(wú)法入住

關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)猶如私人住宅,只有家庭成員才能入住,外人莫入。

大數(shù)據(jù)所需要的是旅館。旅館向所有人開(kāi)放,誰(shuí)來(lái)了都可以入住,只要有房

間。

關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中并沒(méi)有現(xiàn)成的位置供數(shù)據(jù)入住到數(shù)據(jù)庫(kù)中,數(shù)據(jù)要入住關(guān)

系數(shù)據(jù)庫(kù)系統(tǒng)中,首先必須先為其定義數(shù)據(jù)構(gòu)造,或者說(shuō)只有已定義數(shù)據(jù)構(gòu)造的

數(shù)據(jù)入能入住到數(shù)據(jù)庫(kù)中,而絕大多數(shù)外來(lái)數(shù)據(jù)都未經(jīng)過(guò)定義,因此,外來(lái)數(shù)據(jù)

都不能入住到數(shù)據(jù)庫(kù)系統(tǒng)中。

2.6.3關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與數(shù)據(jù)系統(tǒng)密不可分

關(guān)系數(shù)據(jù)庫(kù)有多種(ORACLE、SQLSERVER.DB2、ACCESS等等),每

一種數(shù)據(jù)庫(kù)都有自己的特點(diǎn),各種數(shù)據(jù)庫(kù)系統(tǒng)只能處理.自己的數(shù)據(jù),不能處理其

它系統(tǒng)的數(shù)據(jù),例如由ORACLE所產(chǎn)生的數(shù)據(jù)只能由ORACLE系統(tǒng)處理,

SQLSERVER處理不了ORACLE所產(chǎn)生的數(shù)據(jù)。

關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)在相應(yīng)的數(shù)據(jù)庫(kù)系統(tǒng)中才是有意義的,一旦脫離了相應(yīng)

的數(shù)據(jù)庫(kù)系統(tǒng)就成了無(wú)意義的數(shù)據(jù)。

2.6.4關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與數(shù)據(jù)構(gòu)造密不可分

關(guān)系數(shù)據(jù)庫(kù)中的每一個(gè)數(shù)據(jù)都是有數(shù)據(jù)構(gòu)造的,一旦失去相應(yīng)的數(shù)據(jù)構(gòu)造,

就成了無(wú)意義的數(shù)據(jù)。

對(duì)小數(shù)據(jù)而言,一個(gè)信息系統(tǒng)只有幾?表、幾十*表,多的也只有幾百*表。

而對(duì)大數(shù)據(jù)而言,例如國(guó)家醫(yī)療大數(shù)據(jù),就會(huì)涉及到數(shù)十萬(wàn)個(gè)信息系統(tǒng)中的數(shù)百

萬(wàn)*表。而現(xiàn)有的信息系統(tǒng)都只是小數(shù)據(jù)信息系統(tǒng),只能認(rèn)識(shí)自己的系統(tǒng)中的數(shù)

據(jù),都不認(rèn)識(shí)其它系統(tǒng)的數(shù)據(jù),都不能處理其它系統(tǒng)的數(shù)據(jù)。

對(duì)關(guān)系數(shù)據(jù)庫(kù)而言,它只能處理特定的數(shù)據(jù),所謂特定的數(shù)據(jù)就是只有事先

在關(guān)系數(shù)據(jù)庫(kù)定義了構(gòu)造的數(shù)據(jù)關(guān)系數(shù)據(jù)庫(kù)才能處理,不能處理事先未定義構(gòu)造

的數(shù)據(jù)。而大數(shù)據(jù)所面臨的數(shù)據(jù)以不確定,或不好確定為特點(diǎn),面對(duì)不確定的數(shù)

據(jù)、不確定的數(shù)據(jù)構(gòu)造,關(guān)系數(shù)據(jù)庫(kù)無(wú)能為力。大數(shù)據(jù)的特點(diǎn):大數(shù)據(jù)所面臨的

是無(wú)窮的數(shù)據(jù)、無(wú)窮的數(shù)據(jù)構(gòu)造,這是關(guān)系數(shù)據(jù)庫(kù)所不能解決的。因此,要處理

大數(shù)據(jù),必須從根本上解決大數(shù)據(jù)所涉及到的“無(wú)窮的數(shù)據(jù)、無(wú)窮的數(shù)據(jù)構(gòu)造〃

問(wèn)題。例如,真正合格的大數(shù)據(jù)處理軟件工具,不但能夠處理國(guó)家醫(yī)療大數(shù)據(jù),

也應(yīng)該能夠其它各行各業(yè)的數(shù)據(jù)。

2.6.5關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與應(yīng)用程序密不可分

目前的信息系統(tǒng)都是通過(guò)應(yīng)用程序來(lái)解讀關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),而每個(gè)應(yīng)用

程序只能解讀自己的系統(tǒng)中的數(shù)據(jù)而無(wú)法解讀其它系統(tǒng)中的數(shù)據(jù)。

關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)不具獨(dú)立性、完整性,數(shù)據(jù)一旦脫離相應(yīng)的數(shù)據(jù)庫(kù)系統(tǒng)

及相應(yīng)的應(yīng)用程序就變成了無(wú)意義的數(shù)據(jù)。例如,程序員在設(shè)計(jì)信息系統(tǒng)時(shí)習(xí)慣

用代碼來(lái)表達(dá)數(shù)據(jù),例如有的用“1”代表男性,用“0”代表女生,而另一些人

則用“M〃代表男性,用"W”代表女性。在醫(yī)院信息系統(tǒng)中,各個(gè)信息系統(tǒng)可

由應(yīng)用程序來(lái)解讀各個(gè)代碼,然而,在醫(yī)療大數(shù)據(jù)挖掘中,這種不標(biāo)準(zhǔn)、不標(biāo)準(zhǔn)、

不統(tǒng)一的代碼帶給數(shù)據(jù)挖掘人員的將是災(zāi)難!因?yàn)獒t(yī)療大數(shù)據(jù)挖掘人員所面臨的

是全國(guó)數(shù)萬(wàn)家醫(yī)院的數(shù)十萬(wàn)個(gè)信息系統(tǒng)。假設(shè)要對(duì)數(shù)十萬(wàn)個(gè)信息系統(tǒng)的數(shù)據(jù)中的

代碼進(jìn)展分析、轉(zhuǎn)換,將是一項(xiàng)工程量非常巨在的工程。因此,對(duì)大數(shù)據(jù)而言,

盡量不要在數(shù)據(jù)庫(kù)中采用代碼。

例如下表中的“性別碼〃、“婚否碼〃:

2.6.6關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)一旦脫離相應(yīng)的系統(tǒng)就成了無(wú)意義的數(shù)據(jù)

關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)只有在*個(gè)特定的系統(tǒng)中才有意義,一旦脫離了這個(gè)系

統(tǒng)就成了無(wú)意義的數(shù)據(jù)。正因如此。也可以認(rèn)為關(guān)系數(shù)據(jù)庫(kù)中所存貯的根本就不

是最終用戶所能讀懂的數(shù)據(jù),而是只是專業(yè)的設(shè)計(jì)人員自己才能懂的“代碼〃。

2.6.7關(guān)系數(shù)據(jù)庫(kù)無(wú)法實(shí)現(xiàn)病歷信息的構(gòu)造化存貯

構(gòu)造化電子病歷系統(tǒng)是醫(yī)院信息系統(tǒng)的核心,這是國(guó)際上公認(rèn)的。

關(guān)系數(shù)據(jù)庫(kù)可以應(yīng)用于各行各業(yè),然而在醫(yī)療行業(yè)關(guān)系數(shù)據(jù)庫(kù)遇到了巨大挑

戰(zhàn),準(zhǔn)確地說(shuō)是束手無(wú)策,醫(yī)學(xué)信息非常復(fù)雜,用關(guān)系數(shù)據(jù)庫(kù)不能實(shí)現(xiàn)病歷信息

的構(gòu)造化存貯。

*ML雖說(shuō)可以實(shí)現(xiàn)病歷信息的構(gòu)造化,然而要從全國(guó)每年所產(chǎn)生的幾十億份

電子病歷中查詢信息是非常困難的,查詢速度非常低。

用醫(yī)學(xué)信息的構(gòu)造化存貯方法可以在關(guān)系數(shù)據(jù)庫(kù)中實(shí)現(xiàn)電子病歷信息及醫(yī)

學(xué)知識(shí)庫(kù)信息的構(gòu)造化存貯,查詢速度遠(yuǎn)遠(yuǎn)超過(guò)從*ML電子病歷中查詢信息的速

度。醫(yī)學(xué)信息的構(gòu)造化存貯方法可用于各行各業(yè),最突出的應(yīng)用則是在醫(yī)療行業(yè)。

2.6.8關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)都是“方言〃,大數(shù)據(jù)需要的是“普通話〃

用關(guān)系數(shù)據(jù)庫(kù)所設(shè)計(jì)出的每一個(gè)信息系統(tǒng)都有自己特定的“方言〃。關(guān)系數(shù)

據(jù)庫(kù)理論中沒(méi)有“普通話〃的概念,每設(shè)計(jì)一種信息系統(tǒng),就產(chǎn)生一種方言。系

統(tǒng)之間誰(shuí)也聽(tīng)不懂對(duì)方所講的話,必須翻譯才行。

醫(yī)療行業(yè)的現(xiàn)狀:相當(dāng)于每個(gè)醫(yī)療信息系統(tǒng)講一種方言,各醫(yī)院之間不能互

聯(lián)互通,甚至同一家醫(yī)院內(nèi)部的信息系統(tǒng)之間也不能互聯(lián)互通。

在小數(shù)據(jù)時(shí)代,數(shù)據(jù)只是在一個(gè)單位內(nèi)部使用,甚至只是在一個(gè)單位的*個(gè)

部門(mén)使用。

在大數(shù)據(jù)時(shí)代,最需要的是各個(gè)機(jī)構(gòu)之間、各個(gè)系統(tǒng)之間的數(shù)據(jù)的互聯(lián)互通,

數(shù)據(jù)不只是在單位內(nèi)部使用,也要供單位外的人使用。

小數(shù)據(jù)系統(tǒng)只處理自己的數(shù)據(jù)?,大數(shù)據(jù)系統(tǒng)要可以處理來(lái)自各種各樣的小數(shù)

據(jù)系統(tǒng)中的所有數(shù)據(jù)飛

大數(shù)據(jù)最需要的就是普通話,一種可以讓各個(gè)信息系統(tǒng)都能聽(tīng)懂的語(yǔ)言。

2.7關(guān)系數(shù)據(jù)庫(kù)如何處理國(guó)家醫(yī)療大數(shù)據(jù)中數(shù)萬(wàn)個(gè)數(shù)據(jù)庫(kù)、數(shù)千萬(wàn)*表

例子:如果說(shuō)全國(guó)的各家醫(yī)療機(jī)構(gòu)的數(shù)據(jù)以鏡像的方式全部上傳到國(guó)家醫(yī)療

大數(shù)據(jù)中心,則,國(guó)家醫(yī)療大數(shù)據(jù)中就擁有10萬(wàn)個(gè)以上的醫(yī)療信息系統(tǒng)所產(chǎn)生

的數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)中共含有數(shù)千萬(wàn)*表,該如何編寫(xiě)一個(gè)通用的查詢患者病

史的通用應(yīng)用軟件?

患者病史數(shù)據(jù)有可能包含在10萬(wàn)個(gè)以上的數(shù)據(jù)庫(kù)中的數(shù)千萬(wàn)*以上的表中,

所有數(shù)據(jù)庫(kù)、所有表中的數(shù)據(jù)都有可能涉及到。要在國(guó)家醫(yī)療大數(shù)據(jù)中查詢患者

的病史數(shù)據(jù),需要查詢?nèi)珖?guó)數(shù)十年內(nèi)所產(chǎn)生的國(guó)家醫(yī)療大數(shù)據(jù)。

首先需要搞清楚國(guó)家醫(yī)療大數(shù)據(jù)中的10萬(wàn)個(gè)以上的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)

存貯在哪些數(shù)據(jù)庫(kù)中,這些數(shù)據(jù)庫(kù)的地址、是什么數(shù)據(jù)庫(kù)系統(tǒng)所產(chǎn)生的數(shù)據(jù),各

數(shù)據(jù)庫(kù)中含有哪些表,這些表(數(shù)千萬(wàn)*表)的數(shù)據(jù)構(gòu)造是什么、這些表之間的

關(guān)系。

其次是數(shù)據(jù)抽取(ETL),然而要對(duì)數(shù)十萬(wàn)個(gè)數(shù)據(jù)庫(kù)中的數(shù)千萬(wàn)*表中的數(shù)

據(jù)進(jìn)展抽取確實(shí)是一-項(xiàng)工程量浩大的工程。

為了說(shuō)明問(wèn)題的簡(jiǎn)單化,下面以查詢PACS中的數(shù)據(jù)為例來(lái)說(shuō)明問(wèn)題。

查詢患者的病史應(yīng)該以患者的**號(hào)作為查詢條件,而不能以患者的**作為查

詢條件,因?yàn)閲?guó)內(nèi)有很多同名同姓者。

如果*些醫(yī)療信息系統(tǒng)中未能使用患者的**號(hào),貝L

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論