智慧醫(yī)療 城市醫(yī)院醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)分析平臺(tái)建設(shè)方案V3_第1頁(yè)
智慧醫(yī)療 城市醫(yī)院醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)分析平臺(tái)建設(shè)方案V3_第2頁(yè)
智慧醫(yī)療 城市醫(yī)院醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)分析平臺(tái)建設(shè)方案V3_第3頁(yè)
智慧醫(yī)療 城市醫(yī)院醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)分析平臺(tái)建設(shè)方案V3_第4頁(yè)
智慧醫(yī)療 城市醫(yī)院醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)分析平臺(tái)建設(shè)方案V3_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

智醫(yī)療

城市醫(yī)院醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)

存儲(chǔ)分析平臺(tái)建設(shè)方案

文件編號(hào)202XQK011/BT-ZTA-QK011

文件狀態(tài)[]草稿[J]正式發(fā)布[]正在修改

當(dāng)前版本

擬制日期

審核日期

目錄

第一章項(xiàng)目背景....................................................3

第二章需求分析....................................................5

第三章解決方案....................................................7

3.1.存儲(chǔ)技術(shù)分析..............................................7

3.1.1.塊存儲(chǔ)、文件存儲(chǔ)、對(duì)象存儲(chǔ)幾種方式的對(duì)比...........7

3.1.2.對(duì)象存儲(chǔ)簡(jiǎn)介......................................13

3.1.3.對(duì)象存儲(chǔ)選型對(duì)比..................................14

3.2.系統(tǒng)現(xiàn)狀.................................................16

3.3.IBMGPFS解決方案........................................17

3.3.1.GPFSServer集群...................................18

3.3.2.系統(tǒng)基本結(jié)構(gòu)......................................19

3.3.3.GPFS系統(tǒng)優(yōu)勢(shì).....................................20

3.3.4.GPFS典型配置舉例..................................21

3.4.IBMCleversafe對(duì)象存儲(chǔ)解決方案..........................22

3.4.1.IBMCleversafe對(duì)象存儲(chǔ)...........................22

3.4.2.IBMCleversafe對(duì)象存儲(chǔ)與傳統(tǒng)存儲(chǔ)高可用性對(duì)比......24

3.4.3.IBMCleversafe對(duì)象存儲(chǔ)糾刪(擦除)碼技術(shù)...........25

3.4.4.IBMCleversafe對(duì)象存儲(chǔ)軟硬件配置..................26

3.4.5.IBMCleversafe對(duì)象存儲(chǔ)擴(kuò)容........................28

3.4.6.Cleversafe對(duì)象存儲(chǔ)實(shí)現(xiàn)PACS系統(tǒng)的災(zāi)備建設(shè)......28

3.5.大數(shù)據(jù)分析..................................................29

第四章總結(jié)............................................................32

4.1.采用Cleversafe對(duì)象存儲(chǔ)技術(shù)的新架構(gòu)用戶取得的收益.......33

第一章項(xiàng)

醫(yī)院是集醫(yī)療、教學(xué)、科研、預(yù)防為一體的現(xiàn)代化國(guó)家三級(jí)甲

等綜合醫(yī)院。醫(yī)院現(xiàn)有A、B、C三個(gè)主體院區(qū),編制床位1500張,開(kāi)

放病床3000張。在領(lǐng)導(dǎo)班子的帶領(lǐng)下,醫(yī)院全面實(shí)施“數(shù)字化醫(yī)

院”建設(shè),首創(chuàng)醫(yī)療質(zhì)量管理信息系統(tǒng)、建立城鄉(xiāng)協(xié)同醫(yī)療服務(wù)網(wǎng)絡(luò)。

醫(yī)院作為某市的龍頭醫(yī)院,其整體業(yè)務(wù)呈現(xiàn)快速增長(zhǎng)的態(tài)勢(shì),當(dāng)前

醫(yī)院正在擴(kuò)建新的住院病區(qū),隨著住院床位數(shù)的增加,醫(yī)院的業(yè)務(wù)

必然會(huì)有一個(gè)明顯的增長(zhǎng),而醫(yī)院的存儲(chǔ)基礎(chǔ)架構(gòu)已經(jīng)相對(duì)老化,其

現(xiàn)有的EMC系列存儲(chǔ)已經(jīng)表現(xiàn)出性能瓶頸,醫(yī)院當(dāng)前的核心數(shù)據(jù)庫(kù)存

在性能不均衡的情況,如果要求應(yīng)用軟件開(kāi)發(fā)商進(jìn)行軟件和數(shù)據(jù)庫(kù)

性能調(diào)優(yōu),可能需要花費(fèi)大量人力物力,但卻不能保證調(diào)優(yōu)的效

果。醫(yī)院業(yè)務(wù)量的增漲帶來(lái)了數(shù)據(jù)量的增張,PACS系統(tǒng)海量的非結(jié)

構(gòu)化數(shù)據(jù)安全高效的存儲(chǔ)是目前亟需解決的問(wèn)題,在做好非結(jié)構(gòu)化

數(shù)據(jù)存儲(chǔ)的基礎(chǔ)上,結(jié)合結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)與ApacheSpark數(shù)據(jù)分析

處理引擎對(duì)接實(shí)現(xiàn)臨床操作和研發(fā)兩個(gè)方向的大數(shù)據(jù)分析,從而更好

的服務(wù)于病人并且促進(jìn)醫(yī)療行業(yè)從業(yè)人員專業(yè)技能的提升,實(shí)現(xiàn)數(shù)

字化醫(yī)院為全民健康奠定基礎(chǔ)。

綜合比較不同的傳統(tǒng)存儲(chǔ)技術(shù)與云存儲(chǔ)技術(shù)后,選擇

IBMGPFS+C1eversafe對(duì)象存儲(chǔ)實(shí)現(xiàn)了PACS系統(tǒng)海量的非結(jié)構(gòu)化數(shù)

據(jù)的存儲(chǔ)和容災(zāi)備份。

醫(yī)院綜合各方面因素,提出了構(gòu)建醫(yī)院“大數(shù)據(jù)云存儲(chǔ)”平臺(tái)

的建設(shè)目標(biāo)。

1)構(gòu)建一套安全、穩(wěn)固的大數(shù)據(jù)云存儲(chǔ)平臺(tái),集中統(tǒng)一承載醫(yī)院

所有業(yè)務(wù)數(shù)據(jù);

2)為醫(yī)院數(shù)據(jù)交換平臺(tái)提供高性能、穩(wěn)定可霏,并具有足夠彈性

的存儲(chǔ)平臺(tái);

3)為PACS影像類數(shù)據(jù)提供大量低成本的存儲(chǔ)空間并具有足夠

的擴(kuò)展能力;

4)未來(lái)擴(kuò)容應(yīng)該可以基本做到不停機(jī)(停機(jī)時(shí)間在可接受范圍

內(nèi));

5)提高業(yè)務(wù)系統(tǒng)的可靠性和可用性,實(shí)現(xiàn)容災(zāi)備份,保障業(yè)務(wù)連

續(xù)性。

第二章需求分析

醫(yī)院的核心業(yè)務(wù)系統(tǒng)是醫(yī)院數(shù)據(jù)交換平臺(tái)(包括PACS系統(tǒng)、

HIS系統(tǒng)、RIS系統(tǒng)、LIS系統(tǒng)等)。

HIS

*MZ

rMfttralion

repori

PACS

朋?曾,與fie

Imagvmonagmand

acquMion

s*nnER

該系統(tǒng)具有以下特點(diǎn):

負(fù)載特點(diǎn):業(yè)務(wù)峰值在每日上午9點(diǎn)至11點(diǎn),并發(fā)用戶的訪問(wèn)量

要求高,每天不定時(shí)存在大數(shù)據(jù)量分析負(fù)載,但產(chǎn)生分析負(fù)載的用

戶數(shù)量不多。月末統(tǒng)計(jì)數(shù)據(jù)量增大,需要產(chǎn)生大量數(shù)據(jù)報(bào)表。

數(shù)據(jù)特點(diǎn):每天新增數(shù)據(jù)量500G,數(shù)據(jù)類型復(fù)雜,有數(shù)字、文

字等結(jié)構(gòu)化的數(shù)據(jù)占總數(shù)據(jù)量31%,還有大量的圖像和影像等非結(jié)

構(gòu)化的數(shù)據(jù)占總數(shù)據(jù)量69%O

系統(tǒng)痛點(diǎn):

醫(yī)院數(shù)據(jù)交換平臺(tái)用于匯總醫(yī)院各類信息應(yīng)用系統(tǒng)數(shù)據(jù),子應(yīng)

用程序接口復(fù)雜,數(shù)據(jù)量大,需要保證業(yè)務(wù)科室的訪問(wèn)速度,對(duì)系

統(tǒng)的穩(wěn)定性要求極高。

原有的NAS系統(tǒng)已經(jīng)無(wú)法滿足數(shù)據(jù)增量的要求,需要提供切實(shí)的

解決方案,滿足未來(lái)五年數(shù)據(jù)增長(zhǎng)與業(yè)務(wù)發(fā)展的要求。

隨著數(shù)據(jù)量的增加,數(shù)據(jù)備份的周期在不斷增加,已經(jīng)影響到

生產(chǎn)系統(tǒng)的業(yè)務(wù)響應(yīng)時(shí)間,業(yè)務(wù)連續(xù)性無(wú)法得到保障,因此要求提

高業(yè)務(wù)系統(tǒng)的可靠性和可用性,保障業(yè)務(wù)連續(xù)性。

隨著數(shù)據(jù)量的增加,新的存儲(chǔ)設(shè)備不斷上線,使運(yùn)維人員的工

作壓力越來(lái)越大,因此要求解決方案需要降低運(yùn)維管理的復(fù)雜度。

第三章解決方案

根據(jù)用戶的需求我公司提出以下解決方案:POWER小型機(jī)采用

POWERVM虛擬化,X86服務(wù)器采用VMWARE虛擬化,采用IBMSVC對(duì)

存儲(chǔ)資源進(jìn)行整合,實(shí)現(xiàn)存儲(chǔ)資源池,提高存儲(chǔ)管理和利用效率,

滿足核心應(yīng)用系統(tǒng)在交易高峰時(shí)段、日終、計(jì)息,年節(jié)時(shí)間段對(duì)主

機(jī)資源和存儲(chǔ)資源的需求,建設(shè)同城數(shù)據(jù)中心,兩中心通過(guò)SVC的

Hyperswap+MetroMirror實(shí)現(xiàn)雙活,同時(shí)配置第三站點(diǎn)的硬盤(pán)級(jí)仲裁

防止出現(xiàn)腦裂,采用IBM的云管平臺(tái)實(shí)現(xiàn)POWER和X86虛擬資源的統(tǒng)一

管理,把金融產(chǎn)品的查詢,各種業(yè)務(wù)的咨詢等沒(méi)有任何保密性可

言的系統(tǒng)遷到公有云平臺(tái)。

3.1.存儲(chǔ)技術(shù)分析

3.1.1.塊存儲(chǔ)、文件存儲(chǔ)、對(duì)象存儲(chǔ)幾種方式的對(duì)比

.塊存儲(chǔ)

塊存儲(chǔ)指在一個(gè)RAID(獨(dú)立磁盤(pán)冗余陣列)集中,一個(gè)控制器

加入一組磁盤(pán)驅(qū)動(dòng)器,然后提供固定大小的RAID塊作為L(zhǎng)UN(邏輯單

元號(hào))的卷。

接著塊存儲(chǔ)會(huì)采用映射的方式將這幾個(gè)邏輯盤(pán)映射給主機(jī),主

機(jī)上面的操作系統(tǒng)會(huì)識(shí)別到有5塊硬盤(pán),但是操作系統(tǒng)是區(qū)分不出

到底是邏輯還是物理的,它一概就認(rèn)為只是5塊裸的物理硬盤(pán)而已,

跟直接拿一塊物理硬盤(pán)掛載到操作系統(tǒng)沒(méi)有區(qū)別的,至少操作系統(tǒng)

感知上沒(méi)有區(qū)別。

具備優(yōu)勢(shì):

此種方式下,操作系統(tǒng)還需要對(duì)掛載的裸硬盤(pán)進(jìn)行分區(qū)、格式

化后,才能使用,與平常主機(jī)內(nèi)置硬盤(pán)的方式完全無(wú)異。

1)這種方式的好處當(dāng)然是因?yàn)橥ㄟ^(guò)了Raid與LVM等手

段,對(duì)數(shù)據(jù)提供了保護(hù)。

2)另外也可以將多塊廉價(jià)的硬盤(pán)組合起來(lái),成為一個(gè)大容

量的邏輯盤(pán)對(duì)外提供服務(wù),提高了容量。

3)寫(xiě)入數(shù)據(jù)的時(shí)候,由于是多塊磁盤(pán)組合出來(lái)的邏輯盤(pán),

所以幾塊磁盤(pán)可以并行寫(xiě)入的,提升了讀寫(xiě)效率。

4)很多時(shí)候塊存儲(chǔ)采用SAN架構(gòu)組網(wǎng),傳輸速率以及封

裝協(xié)議的原因,使得傳輸速度與讀寫(xiě)速率得到提升。

具有缺點(diǎn):

1)采用SAN架構(gòu)組網(wǎng)時(shí),需要額外為主機(jī)購(gòu)買(mǎi)光纖通道

卡,還要買(mǎi)光纖交換機(jī),造價(jià)成本高。

2)主機(jī)之間的數(shù)據(jù)無(wú)法共享,在服務(wù)器不做集群的情況

下,塊存儲(chǔ)裸盤(pán)映射給主機(jī),再格式化使用后,對(duì)于主機(jī)來(lái)說(shuō)相當(dāng)

于本地盤(pán),那么主機(jī)A的本地盤(pán)根本不能給主機(jī)B去使用,無(wú)法共

享數(shù)據(jù)。

3)不利于不同操作系統(tǒng)主機(jī)間的數(shù)據(jù)共享:另外一個(gè)原因

是因?yàn)椴僮飨到y(tǒng)使用不同的文件系統(tǒng),格式化完之后,不同文件系

統(tǒng)間的數(shù)據(jù)是共享不了的。例如一臺(tái)裝了WIN7/XP,文件系統(tǒng)是

FAT32/NTFS,而Linux是EXT4,EXT4是無(wú)法識(shí)別NTFS的文件

系統(tǒng)的。就像一只NTFS格式的U盤(pán),插進(jìn)Linux的筆記本,根本

無(wú)法識(shí)別出來(lái)。所以不利于文件共享。

.文件存儲(chǔ)

為了克服塊存儲(chǔ)文件無(wú)法共享的問(wèn)題,所以有了文件存儲(chǔ)。文

件存儲(chǔ)也有軟硬一體化的設(shè)備,但是其實(shí)普通拿一臺(tái)服務(wù)器/筆記

本,只要裝上合適的操作系統(tǒng)與軟件,就可以架設(shè)FTP與NFS服務(wù)

了,架上該類服務(wù)之后的服務(wù)器,就是文件存儲(chǔ)的一種了。

主機(jī)A可以直接對(duì)文件存儲(chǔ)進(jìn)行文件的上傳下載,與塊存儲(chǔ)不

同,主機(jī)A是不需要再對(duì)文件存儲(chǔ)進(jìn)行格式化的,因?yàn)槲募芾砉δ?/p>

已經(jīng)由文件存儲(chǔ)自己搞定了。

優(yōu)點(diǎn):

1)造價(jià)交低:隨便一臺(tái)機(jī)器就可以了,另外普通以太網(wǎng)就

可以,根本不需要專用的SAN網(wǎng)絡(luò),所以造價(jià)低。

2)方便文件共享:例如主機(jī)A(WIN7,NTFS文件系

統(tǒng)),主機(jī)B(Linux,EXT4文件系統(tǒng)),想互拷一部電影,本來(lái)

不行。加了個(gè)主機(jī)C(NFS服務(wù)器),然后可以先A拷到C,再C

拷到B就0K了。

缺點(diǎn):

讀寫(xiě)速率低,傳輸速率慢:以太網(wǎng),上傳下載速度較慢,另外

所有讀寫(xiě)都要1臺(tái)服務(wù)器里面的硬盤(pán)來(lái)承擔(dān),相比起磁盤(pán)陣列動(dòng)不動(dòng)

就幾十上百塊硬盤(pán)同時(shí)讀寫(xiě),速率慢了許多。

企業(yè)級(jí)的NAS存儲(chǔ)采用RAID技術(shù)提升了數(shù)據(jù)的可靠性和讀寫(xiě)速

率,同時(shí)采用萬(wàn)兆光纖接口提升了網(wǎng)絡(luò)傳輸速率,適合于中小規(guī)模

的醫(yī)院用于PACS系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)的存取,當(dāng)數(shù)據(jù)量達(dá)到PB級(jí)別時(shí)

NAS機(jī)頭會(huì)出現(xiàn)瓶頸。下圖是塊存儲(chǔ)與文件存儲(chǔ)的對(duì)比圖:

Application

Server

□□

.對(duì)象存儲(chǔ)

內(nèi)置大容量硬盤(pán)的分布式服務(wù)器是對(duì)象存儲(chǔ)的典型設(shè)備,對(duì)象

存儲(chǔ)最常用的方案,就是多臺(tái)服務(wù)器內(nèi)置大容量硬盤(pán),再裝上對(duì)象

存儲(chǔ)軟件,然后再額外配置幾臺(tái)服務(wù)作為管理節(jié)點(diǎn),安裝上對(duì)象存

儲(chǔ)管理軟件。管理節(jié)點(diǎn)可以管理其他服務(wù)器對(duì)外提供讀寫(xiě)訪問(wèn)功

能。

之所以出現(xiàn)了對(duì)象存儲(chǔ)這種東西,是為了克服塊存儲(chǔ)與文件存

儲(chǔ)各自的缺點(diǎn),發(fā)揚(yáng)它倆各自的優(yōu)點(diǎn)。簡(jiǎn)單來(lái)說(shuō)塊存儲(chǔ)讀寫(xiě)快,不

利于共享,文件存儲(chǔ)讀寫(xiě)慢,利于共享。能否實(shí)現(xiàn)即讀寫(xiě)快又利于

共享的目的呢?于是就有了對(duì)象存儲(chǔ)。

首先,一個(gè)文件包含了屬性(術(shù)語(yǔ)叫metadata,元數(shù)據(jù),例如

該文件的大小、修改時(shí)間、存儲(chǔ)路徑等)以及內(nèi)容(以下簡(jiǎn)稱數(shù)

據(jù))。

以往像FAT32這種文件系統(tǒng),是直接將一份文件的數(shù)據(jù)與

metadata一起存儲(chǔ)的,存儲(chǔ)過(guò)程先將文件按照文件系統(tǒng)的最小塊大

小來(lái)打散(如4M的文件,假設(shè)文件系統(tǒng)要求一個(gè)塊4K,那么就將文

件打散成為1000個(gè)小塊),再寫(xiě)進(jìn)硬盤(pán)里面,過(guò)程中沒(méi)有區(qū)分?jǐn)?shù)據(jù)

/metadata的。而每個(gè)塊最后會(huì)告知你下一個(gè)要讀取的塊的地址,然

后一直這樣順序地按圖索驥,最后完成整份文件的所有塊的讀取。

這種情況下讀寫(xiě)速率很慢,因?yàn)榫退隳阌?00個(gè)機(jī)械手臂在讀

寫(xiě),但是由于你只有讀取到第一個(gè)塊,才能知道下一個(gè)塊在哪里,

其實(shí)相當(dāng)于只能有1個(gè)機(jī)械手臂在實(shí)際工作。

而對(duì)象存儲(chǔ)則將元數(shù)據(jù)獨(dú)立了出來(lái),控制節(jié)點(diǎn)叫元數(shù)據(jù)服務(wù)器

(服務(wù)器+對(duì)象存儲(chǔ)管理軟件),里面主要負(fù)責(zé)存儲(chǔ)對(duì)象的屬性(主

要是對(duì)象的數(shù)據(jù)被打散存放到了那幾臺(tái)分布式服務(wù)器中的信息),

而其他負(fù)責(zé)存儲(chǔ)數(shù)據(jù)的分布式服務(wù)器叫做OSD,主要負(fù)責(zé)存儲(chǔ)文件的

數(shù)據(jù)部分。當(dāng)用戶訪問(wèn)對(duì)象,會(huì)先訪問(wèn)元數(shù)據(jù)服務(wù)器,元數(shù)據(jù)服務(wù)

器只負(fù)責(zé)反饋對(duì)象存儲(chǔ)在哪些OSD,假設(shè)反饋文件A存儲(chǔ)在B、C、D三

臺(tái)OSD,那么用戶就會(huì)再次直接訪問(wèn)3臺(tái)OSD服務(wù)器去讀取數(shù)據(jù)。

這時(shí)候由于是3臺(tái)OSD同時(shí)對(duì)外傳輸數(shù)據(jù),所以傳輸?shù)乃俣染图?/p>

快了。當(dāng)OSD服務(wù)器數(shù)量越多,這種讀寫(xiě)速度的提升就越大,通過(guò)

此種方式,實(shí)現(xiàn)了讀寫(xiě)快的目的。

另一方面,對(duì)象存儲(chǔ)軟件是有專門(mén)的文件系統(tǒng)的,所以O(shè)SD對(duì)外

又相當(dāng)于文件服務(wù)器,那么就不存在文件共享方面的困難了,也解

決了文件共享方面的問(wèn)題。

所以對(duì)象存儲(chǔ)的出現(xiàn),很好地結(jié)合了塊存儲(chǔ)與文件存儲(chǔ)的優(yōu)

點(diǎn)。

為什么對(duì)象存儲(chǔ)兼具塊存儲(chǔ)與文件存儲(chǔ)的好處,還要使用塊存

儲(chǔ)或文件存儲(chǔ)呢?

有一類應(yīng)用是需要存儲(chǔ)直接裸盤(pán)映射的,例如數(shù)據(jù)庫(kù)。因?yàn)閿?shù)

據(jù)庫(kù)需要存儲(chǔ)裸盤(pán)映射給自己后,再根據(jù)自己的數(shù)據(jù)庫(kù)文件系統(tǒng)來(lái)

對(duì)裸盤(pán)進(jìn)行格式化的,所以是不能夠采用其他已經(jīng)被格式化為某種

文件系統(tǒng)的存儲(chǔ)的。此類應(yīng)用更適合使用塊存儲(chǔ)。

對(duì)象存儲(chǔ)的成本比起普通的文件存儲(chǔ)還是較高,需要購(gòu)買(mǎi)專門(mén)

的對(duì)象存儲(chǔ)軟件以及大容量硬盤(pán)。

如果對(duì)數(shù)據(jù)量要求不是海量,只是為了做文件共享的時(shí)候,直

接用文件存儲(chǔ)的形式好了,性價(jià)比高。

3.1.2.對(duì)象存儲(chǔ)簡(jiǎn)介

對(duì)象存儲(chǔ)的出現(xiàn)就是為解決了存儲(chǔ)海量大數(shù)據(jù)的問(wèn)題。比如存

儲(chǔ)萬(wàn)億的視頻、圖片,照片等。比如進(jìn)行海量的數(shù)據(jù)歸檔,數(shù)據(jù)備

份等。對(duì)象存儲(chǔ)可以存儲(chǔ)海量非結(jié)構(gòu)化數(shù)據(jù),然后進(jìn)行大數(shù)據(jù)分

析。

對(duì)象存儲(chǔ)其采用key-volume的扁平化存儲(chǔ)架構(gòu)設(shè)計(jì),使用簡(jiǎn)

單,調(diào)用API就能進(jìn)行數(shù)據(jù)存儲(chǔ)和讀取??梢源鎯?chǔ)海量數(shù)據(jù),這點(diǎn)傳

統(tǒng)存儲(chǔ)和NAS就沒(méi)轍。在海量數(shù)據(jù)場(chǎng)景中你只能選擇對(duì)象存儲(chǔ)。如果

傳統(tǒng)SAN存儲(chǔ)是跑車(chē),NAS是貨車(chē),那么對(duì)象存儲(chǔ)就是萬(wàn)億噸海上集

裝箱大油輪。

對(duì)象存儲(chǔ)的定位-適合海■非結(jié)構(gòu)化數(shù)據(jù)

3.1.3.對(duì)象存儲(chǔ)選型對(duì)比

企業(yè)自行開(kāi)發(fā)一套對(duì)象存儲(chǔ)行不行。個(gè)人認(rèn)為,專業(yè)的事情交

給專業(yè)的團(tuán)隊(duì)去做是最好的,對(duì)象存儲(chǔ)技術(shù)雖然不算高科技,很多

開(kāi)源軟件也可以拿來(lái)借鑒,但是專業(yè)公司提供的對(duì)象存儲(chǔ)產(chǎn)品除了

能夠滿足穩(wěn)定性、高效性、靈活性要求之外,更重要的其實(shí)是后期

的產(chǎn)品技術(shù)支持。自研產(chǎn)品有一定的局限性,同時(shí)需要投入大量人

力物力,有時(shí)候做出的對(duì)象存儲(chǔ)產(chǎn)品在安全性,穩(wěn)定性方面不一定

能夠完全滿足生產(chǎn)的需求。

如果公司想自研,得有相當(dāng)層次的開(kāi)發(fā)團(tuán)隊(duì),對(duì)大規(guī)模并行系

統(tǒng),存儲(chǔ)底層,網(wǎng)絡(luò),操作系統(tǒng)都有點(diǎn)經(jīng)驗(yàn)的,并且后續(xù)有二次開(kāi)

發(fā)的思想準(zhǔn)備,時(shí)間周期也不會(huì)太短,還要處理社區(qū)版本迭代和你

自選分支的沖突或者漸行漸遠(yuǎn)的問(wèn)題。

Ceph“對(duì)象存儲(chǔ)”

Ceph并不是開(kāi)源對(duì)象存儲(chǔ)最好的選擇,Ceph是個(gè)統(tǒng)一存儲(chǔ),有

分布式塊,文件,對(duì)象三種存儲(chǔ)接口,比較全,這是它比較受關(guān)注

的原因。單獨(dú)來(lái)看底層的對(duì)象存儲(chǔ)Rados,在開(kāi)發(fā)者社區(qū)中口碑并不

是很好,存在著諸多問(wèn)題。

如果是選擇廠商的SDS方案,如果是基于Ceph做的(國(guó)內(nèi)不少?gòu)S

商),其實(shí)這個(gè)階段成熟與否還不好說(shuō),畢竟這項(xiàng)目社區(qū)里參與

者很多,時(shí)間也不長(zhǎng),所謂成熟也就是有一部分坑能填上吧。前面

說(shuō)的社區(qū)版本迭代跟不跟的問(wèn)題也還是一樣存在的。

一個(gè)開(kāi)源項(xiàng)目能不能生產(chǎn)使用很多時(shí)候并不取決于項(xiàng)目本身,

同時(shí)使用者對(duì)于整個(gè)生產(chǎn)系統(tǒng)和開(kāi)源項(xiàng)目的理解占了相當(dāng)大比例。

當(dāng)然,也跟項(xiàng)目的階段以及整個(gè)生態(tài)息息相關(guān)。

就使用Ceph而言,如果是一些無(wú)害環(huán)境,基本上也不會(huì)發(fā)現(xiàn)啥

問(wèn)題。當(dāng)只要是需要保證性能和可用性的情況下,用戶通常都要經(jīng)

歷長(zhǎng)時(shí)間的運(yùn)維和解決問(wèn)題的磨練。特別是眼下Ceph迭代較快,問(wèn)

題解決方式有限,很多時(shí)候都要依賴開(kāi)發(fā)者才能解決。當(dāng)然,如果

沒(méi)碰到問(wèn)題當(dāng)然萬(wàn)事大吉。

好一些的做法是在一些開(kāi)發(fā)測(cè)試環(huán)境先使用某一個(gè)版本至少半

年以上,嘗試在保證一些性能以及數(shù)據(jù)可用性基礎(chǔ)上運(yùn)維。半年之

后,自然會(huì)對(duì)這個(gè)問(wèn)題有更深理解。

我們?nèi)绻褜?duì)象存儲(chǔ)部署在一個(gè)相對(duì)快的局域網(wǎng)環(huán)境內(nèi),那么

這個(gè)對(duì)象存儲(chǔ)也就兼具了NAS的高速基因,這時(shí),一個(gè)對(duì)象存儲(chǔ)也就

在某種程度上,可以演變?yōu)橐粋€(gè)相對(duì)快速的存儲(chǔ),這也是為什么

ceph可以兼具對(duì)象存儲(chǔ)、塊存儲(chǔ)、文件存儲(chǔ)的原因。當(dāng)然,這種

“變味”的對(duì)象存儲(chǔ)也就不具備全國(guó)乃至全球分布式帶來(lái)的超高

可靠性了。

3.2.系統(tǒng)現(xiàn)狀

醫(yī)院于五年前按分級(jí)存儲(chǔ)的原則重新規(guī)劃了PACS存儲(chǔ)系統(tǒng),

PACS數(shù)據(jù)除了少部分PACS索引、日志數(shù)據(jù)外,絕大部分為醫(yī)學(xué)影像

圖片數(shù)據(jù)。存儲(chǔ)通常采用三級(jí)模式:

第一級(jí)為在線數(shù)據(jù),保存最近半年的病人影像數(shù)據(jù);

第二級(jí)為近線數(shù)據(jù),保存半年以上、2年以內(nèi)的影像數(shù)據(jù)(PACS

系統(tǒng)軟件可以配置保存周期);第三級(jí)為離線數(shù)據(jù),保存15年內(nèi)的

影像數(shù)據(jù)。同時(shí),還有考慮異地容災(zāi)。

對(duì)于一個(gè)三甲醫(yī)院,PACS半年數(shù)據(jù)量約35T,1年數(shù)據(jù)量約為

70T,因此:在線數(shù)據(jù):35T近線數(shù)據(jù):105T離線數(shù)據(jù):1050To

隨著醫(yī)院的業(yè)務(wù)量的增加,PACS系統(tǒng)的數(shù)據(jù)也在快速增漲,PACS系

統(tǒng)的數(shù)據(jù)是圖像或影像的非結(jié)構(gòu)化數(shù)據(jù),采用NAS存儲(chǔ)方式,隨著

數(shù)據(jù)量的增漲NAS存儲(chǔ)已經(jīng)達(dá)到了性能的瓶頸,希望能找到一種更好

的存儲(chǔ)方式滿足未來(lái)五年的數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)發(fā)展需求。

采用IBMGPFS實(shí)現(xiàn)原有NAS系統(tǒng)中的數(shù)據(jù)到IBMCleversafe對(duì)

象存儲(chǔ)的遷移,最終實(shí)現(xiàn)PACS系統(tǒng)海量非結(jié)構(gòu)化數(shù)據(jù)的對(duì)象存儲(chǔ),

滿足未來(lái)五年數(shù)據(jù)增長(zhǎng)與業(yè)務(wù)發(fā)展的要求。

3.3.IBMGPFS解決方案

隨著數(shù)據(jù)量的增加,通過(guò)NFS協(xié)議實(shí)現(xiàn)客戶端節(jié)點(diǎn)對(duì)存儲(chǔ)空間的

共享訪問(wèn)的NAS解決方案出現(xiàn)了性能上的瓶頸,因此采用GPFS并行

文件系統(tǒng)來(lái)實(shí)現(xiàn)客戶端對(duì)存儲(chǔ)空間的共享訪問(wèn),這樣對(duì)性能會(huì)有很

大的提升。

GPFS(GeneralParallelFileSystem,GPFS)是IBM公司第

一個(gè)共享文件系統(tǒng),起源于IBMSP系統(tǒng)上使用的虛擬共享磁盤(pán)技

術(shù)(VSD)o作為這項(xiàng)技術(shù)的核心,GPFS是一個(gè)并行的磁盤(pán)文件系

統(tǒng),它保證在資源組內(nèi)的所有節(jié)點(diǎn)可以并行訪問(wèn)整個(gè)文件系統(tǒng);而

且針對(duì)此文件系統(tǒng)的服務(wù)操作,可以同時(shí)安全地在使用此文件系統(tǒng)

的多個(gè)節(jié)點(diǎn)上實(shí)現(xiàn)。GPFS允許客戶共享文件,而這些文件可能分

布在不同節(jié)點(diǎn)的不同硬盤(pán)上;它提供了許多標(biāo)準(zhǔn)的UNIX文件系統(tǒng)

接口,允許應(yīng)用不需修改或者重新編輯就可以在其上運(yùn)行。

3.3.1.GPFSServer集群

從架構(gòu)上GPFSServer是底層通過(guò)網(wǎng)絡(luò)連接識(shí)別了后端NAS存儲(chǔ)的

服務(wù)器,在這些服務(wù)器上創(chuàng)建了GPFS集群,并構(gòu)建了不同的GPFS文

件系統(tǒng),形成了統(tǒng)一的GPFS存儲(chǔ)平臺(tái),可以為前端應(yīng)用提供統(tǒng)一的

并行共享的文件系統(tǒng)空間,實(shí)現(xiàn)數(shù)據(jù)的共享訪問(wèn);因?yàn)镚PFSServer

統(tǒng)一為前端所有應(yīng)用提供I/O數(shù)據(jù)訪問(wèn),在設(shè)備選型上建議使用計(jì)算

能力較好的UnixPower服務(wù)器,是因?yàn)镚PFS與AIX操作系統(tǒng)的集成度

相比較對(duì)其他系統(tǒng)平臺(tái)更好,同時(shí)也可以充分利用Power小機(jī)的計(jì)算

能力。

3.3.2.系統(tǒng)基本結(jié)構(gòu)

GPFS文件⑥?

OPF8Fl?

3.3.2.1.磁盤(pán)

GPFS文件系統(tǒng)最底層的是物理磁盤(pán)設(shè)備。原則上可以采用系統(tǒng)

上任何塊設(shè)備,包括磁盤(pán),磁盤(pán)分區(qū),邏輯卷。從物理連接上來(lái)

看,GPFS支持使用所有方式連接的磁盤(pán)。包括本地IDE磁盤(pán),本

地SCSI磁盤(pán),光纖SAN磁盤(pán),iSCSI磁盤(pán),等等。

.網(wǎng)絡(luò)共享磁盤(pán)(NSD)

NSD是由磁盤(pán)映射出來(lái)的虛擬設(shè)備,NSD與磁盤(pán)是一一對(duì)應(yīng)的

關(guān)系。NSD被標(biāo)記了不同屬性來(lái)區(qū)分其用途,我們可以將磁盤(pán)標(biāo)記

為4種用途:

DescOnly:只存儲(chǔ)GPFS文件系統(tǒng)描述信息的磁盤(pán)。

ataOnly:只存儲(chǔ)文件系統(tǒng)中的數(shù)據(jù)信息。

Metadataonly:只存儲(chǔ)文件系統(tǒng)中的目錄結(jié)構(gòu)inode信息。

Metaanddata:存儲(chǔ)所有信息(默認(rèn))。

.GPFS文件設(shè)備

GPFS設(shè)備是一個(gè)可被系統(tǒng)掛載的文件設(shè)備,由NSD創(chuàng)建而

成,可以并行的同時(shí)掛載在多個(gè)節(jié)點(diǎn)上。

3.3.3.GPFS系統(tǒng)優(yōu)勢(shì)

高性能:GPFS允許在同一節(jié)點(diǎn)內(nèi)的多進(jìn)程或者應(yīng)用使用標(biāo)準(zhǔn)文

件系統(tǒng)調(diào)用,同時(shí)訪問(wèn)(并發(fā),讀寫(xiě))同一個(gè)文件。通過(guò)將節(jié)點(diǎn)內(nèi)

讀寫(xiě)操作分布到多個(gè)磁盤(pán)上,大大增加了文件系統(tǒng)的帶寬,通過(guò)整

個(gè)系統(tǒng)的負(fù)載均衡避免了某個(gè)磁盤(pán)過(guò)大的讀寫(xiě)。

跨平臺(tái)設(shè)計(jì):GPFS支持在一個(gè)集群內(nèi)加入異構(gòu)的平臺(tái),支持異

構(gòu)的硬件環(huán)境:Systemp,Systemx,支持異構(gòu)的操作系統(tǒng):

AIX,Linuxo

數(shù)據(jù)一致性:GPFS通過(guò)一套復(fù)雜的信令管理機(jī)制提供數(shù)據(jù)一致

性。通過(guò)這套機(jī)制允許任意節(jié)點(diǎn)通過(guò)各自獨(dú)立的路徑到達(dá)同一個(gè)文

件。即使節(jié)點(diǎn)無(wú)法正常工作,GPFS也可以找到其它的路徑。

數(shù)據(jù)安全性:GPFS是一種日志文件系統(tǒng),為不同節(jié)點(diǎn)建立各自

獨(dú)立的日志。日志中記錄metadata的分布,一旦節(jié)點(diǎn)發(fā)生故障后,

可以保證快速恢復(fù)數(shù)據(jù)。

GPFS的fail-over功能通過(guò)規(guī)劃,將數(shù)據(jù)分布到不同

failuregroup內(nèi)達(dá)到高可用性,減少單點(diǎn)故障的影響。為了保證

數(shù)據(jù)可用性,GPFS在多個(gè)failuregroup內(nèi)為每個(gè)數(shù)據(jù)實(shí)例做備

份,即使創(chuàng)建文件系統(tǒng)時(shí)沒(méi)有要求復(fù)制,GPFS也會(huì)自動(dòng)在不同的

failuregroup內(nèi)復(fù)制恢復(fù)日志。

系統(tǒng)可擴(kuò)展性:通過(guò)GPFS,系統(tǒng)資源可以動(dòng)態(tài)調(diào)整,可以在

文件系統(tǒng)掛載情況下添加或者刪除硬盤(pán)。系統(tǒng)處于相對(duì)空閑時(shí),用

戶可以在已配置的硬盤(pán)上重新均衡文件系統(tǒng)以提高吞吐量??梢栽?/p>

不重新啟動(dòng)GPFS服務(wù)情況下添加新節(jié)點(diǎn)。

管理簡(jiǎn)單:GPFS自動(dòng)在各個(gè)節(jié)點(diǎn)間同步配置文件和文件系統(tǒng)信

息,而且在同一個(gè)節(jié)點(diǎn)內(nèi),對(duì)GPFS的管理可以在任一個(gè)節(jié)點(diǎn)上進(jìn)

行。

3.3.4.GPFS典型配置舉例

采用IBMGPFS的AFM功能,可以有效遷移原有NAS系統(tǒng)中存儲(chǔ)的

數(shù)據(jù),在遷移過(guò)程中對(duì)應(yīng)用透明,不影響應(yīng)用的正常運(yùn)行。

3.4.IBMCleversafe對(duì)象存儲(chǔ)解決方案

根據(jù)醫(yī)院PACS系統(tǒng)現(xiàn)在存在的問(wèn)題和建設(shè)目標(biāo),采用IBM

Cleversafe對(duì)象存儲(chǔ)技術(shù)實(shí)現(xiàn)海量的非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和容災(zāi)備

份。

3.4.1.IBMCleversafe對(duì)象存儲(chǔ)

IBMCleversafe對(duì)象存儲(chǔ)由三部分組成,包括CSManager管理

節(jié)點(diǎn)、Accesser訪問(wèn)節(jié)點(diǎn)和Silcestor存儲(chǔ)節(jié)點(diǎn),其中管理節(jié)點(diǎn)安裝

Cleversafe軟件實(shí)現(xiàn)對(duì)Cleversafe對(duì)象存儲(chǔ)系統(tǒng)的監(jiān)控和管理,訪

問(wèn)節(jié)點(diǎn)提供對(duì)外的用戶訪問(wèn),存儲(chǔ)節(jié)點(diǎn)用于代替原有的NAS系統(tǒng)

保存海量的數(shù)據(jù)。

IBMCleversafe具有以下特性:

IBMCloudObjectStorage

1)可擴(kuò)展性,多家100PB以上的客戶,擴(kuò)展至EB以上的

無(wú)共享架構(gòu)。

2)安全性,零接觸、運(yùn)營(yíng)商級(jí)別的安全性且內(nèi)置加密功

能。

3)可管理性,每名管理員可管理25PB數(shù)據(jù),零宕機(jī)時(shí)

間。

4)可用性,提供9個(gè)9的可靠性,6個(gè)9的可用性。

5)經(jīng)濟(jì)效益,消除復(fù)制、鏡像和DR成本,成本降低

80%,軟件解決方案可在任何供應(yīng)商的x86硬件上運(yùn)行。

3.42IBMCleversafe對(duì)象存儲(chǔ)與傳統(tǒng)存儲(chǔ)高可用性對(duì)

采用傳統(tǒng)的存儲(chǔ)在RAID6架構(gòu)下1PB的原始數(shù)據(jù)要占用1.2PB的存

儲(chǔ)空間,為了實(shí)現(xiàn)數(shù)據(jù)安全做本地鏡像和同城復(fù)本后數(shù)據(jù)要占用

3.6PB(1.2*3)的存儲(chǔ)空間,那么膨脹因子就是3倍,采用

IBMCleversafe對(duì)象存儲(chǔ)1PB的原始數(shù)據(jù)要占用1.7PB的存儲(chǔ)空

間,Cleversafe對(duì)象存儲(chǔ)使用1.7倍的膨脹因子就可以實(shí)現(xiàn)建設(shè)與

RAID6相同或是還要高可靠的存儲(chǔ)系統(tǒng),Cleversafe對(duì)象存儲(chǔ)占用更

少的磁盤(pán),占用更少的機(jī)架,節(jié)約機(jī)房空間,降低了運(yùn)營(yíng)成本,降

低了運(yùn)維管理的難度,無(wú)需其它軟件就可以實(shí)現(xiàn)高可靠性和高可用

性。

3.4.3.IBMCleversafe對(duì)象存儲(chǔ)糾刪(擦除)碼技術(shù)

Q0000uOOOO

Clevvrsafe軟件與RAIDnmvj

切fiiMie方法柳

mmiiiDA(

)Ittl?■■8支

■OK

5、,格上.WttL^tUHD:7*0!人■?W1HBGL

f■7d—??.「芮fAFXT”干Q.

B*N*

?9PmAftttmt。*poecr(7)

|DAa7/12?Encodettwpieceston(12)

AiwMC?ScanXu??Stocw<becktMAlt

IBMCleversafe對(duì)象存儲(chǔ)使用糾刪碼技術(shù)實(shí)現(xiàn)存儲(chǔ)系統(tǒng)的高可

靠和高可用,糾刪碼技術(shù)首先對(duì)原始數(shù)據(jù)進(jìn)行分段(每段4M),之

后對(duì)一個(gè)分段進(jìn)行切片,例如一個(gè)分段切7片,之后通過(guò)ECC校驗(yàn)算

法變換為12片,這樣膨脹因子就是1.7,1PB的原始數(shù)據(jù)就占用了

1.7PB的存儲(chǔ)空間,這1.7PB的存儲(chǔ)空間由12個(gè)切片組成,把這12個(gè)

切片均勻的部署在多個(gè)站點(diǎn)的每一臺(tái)服務(wù)器中,例如在三個(gè)站點(diǎn)每

個(gè)站點(diǎn)部署4臺(tái)服務(wù)器,這樣在這三個(gè)站點(diǎn)中只要有7臺(tái)服務(wù)器是正

常運(yùn)行的,數(shù)據(jù)就是完好的可以正常讀取,可以避免服務(wù)器硬件故

障或斷電,網(wǎng)絡(luò)故障,甚至1個(gè)站點(diǎn)故障都不會(huì)影響數(shù)據(jù)的可靠性和

可用性,任何一個(gè)站點(diǎn)的任意一臺(tái)服務(wù)器硬盤(pán)損壞后,只需插入一

塊新硬盤(pán)而無(wú)需做RAID就可以正常使用了。

3.4.4.IBMCleversafe對(duì)象存儲(chǔ)軟硬件配置

CSManager管理節(jié)點(diǎn)和Accesser訪問(wèn)節(jié)點(diǎn)可以選用1U或是2U的

X86服務(wù)器,配置大內(nèi)存如128GB,256GB,對(duì)其它硬件沒(méi)有特殊要

求。

Silcestor存儲(chǔ)節(jié)點(diǎn)服務(wù)器可以選用4U高密度x86服務(wù)器,該服

務(wù)器滿配48塊硬盤(pán),每塊硬盤(pán)配置8Tb,這樣一臺(tái)服務(wù)器的裸容量

就是384Tb,12臺(tái)服務(wù)器可以提供4.5Pb的裸容量,冗余系數(shù)是1.7,

那么可用容量有2.6Pb0

下圖是硬件配置建議清單:

包d

Mwirwwa

E■

E

E

E

u

下圖是Cleversafe的管理界面:

£M3安M?BF中

?AWMTMW'MMpMVVMlWtt

基于Web的訪問(wèn)RBAC菱博

配■可用的API

通過(guò)Cleversafe管理界面可以實(shí)現(xiàn)對(duì)Accesser訪問(wèn)節(jié)點(diǎn)和

Silcestor存儲(chǔ)節(jié)點(diǎn)的運(yùn)行狀態(tài)進(jìn)行監(jiān)控和維護(hù)管理。

3.4.5.IBMCleversafe對(duì)象存儲(chǔ)擴(kuò)容

當(dāng)用戶的訪問(wèn)量很大時(shí)無(wú)需關(guān)心存儲(chǔ)節(jié)點(diǎn),只需關(guān)心訪問(wèn)節(jié)點(diǎn)

就可以了,增加訪問(wèn)節(jié)點(diǎn)的數(shù)量就可以提升用戶的訪問(wèn)速度。當(dāng)存

儲(chǔ)節(jié)點(diǎn)的容量不足時(shí),去除購(gòu)買(mǎi)并加電服務(wù)器的時(shí)間只需要十幾分

鐘就可以實(shí)現(xiàn)存儲(chǔ)的擴(kuò)容。

訪問(wèn)Cleversafe對(duì)象存儲(chǔ)有如下三種方式:

訪問(wèn)方式-RESTfulAPI-TCP/IP

、Kir*^,?ju',

Amazo<iS3OpcnStackSwiftSimpleObject

兼容三種主流API格式

3.4.6.Cleversafe對(duì)象存儲(chǔ)實(shí)現(xiàn)PACS系統(tǒng)的災(zāi)備建設(shè)

災(zāi)備建設(shè)正是Cleversafe的強(qiáng)項(xiàng)所在,對(duì)比傳統(tǒng)存儲(chǔ),因?yàn)榧m

刪碼的算法,從而無(wú)需副本、RAID方式,就能夠在配置合理的情況

下,允許對(duì)應(yīng)40%的節(jié)點(diǎn)失效,這40%的節(jié)點(diǎn)數(shù)會(huì)大于我一個(gè)站點(diǎn)所

包含的節(jié)點(diǎn),這樣的失效場(chǎng)景也不會(huì)影響業(yè)務(wù)系統(tǒng)的正常工作。

同時(shí),可以做到糾刪碼算法后的切片能夠分發(fā)到異地,因此

Cleversafe如果多站點(diǎn)的部署情況下,不需要做任何數(shù)據(jù)同步備份

即可實(shí)現(xiàn)災(zāi)備系統(tǒng)的建設(shè),(多站點(diǎn)的部署可以根據(jù)醫(yī)院的實(shí)際情

況選擇是同城多站點(diǎn)還是異地多站點(diǎn)的部署)災(zāi)備架構(gòu)圖如下:

3.5.大數(shù)據(jù)分析

醫(yī)療行業(yè)大數(shù)據(jù)分析包括臨床操作和研發(fā)兩個(gè)大方向,臨床操

作包括醫(yī)療數(shù)據(jù)的透明度、遠(yuǎn)程病人監(jiān)控、臨床決策支持系統(tǒng),比

較效果研究等;研究方面包括預(yù)測(cè)建模、疾病模式的分析和提高臨

床試驗(yàn)設(shè)計(jì)的統(tǒng)計(jì)工具和算法等。

本方案在做好非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的基礎(chǔ)上,結(jié)合結(jié)構(gòu)化數(shù)據(jù)存

儲(chǔ)與ApacheSpark數(shù)據(jù)分析處理引擎對(duì)接實(shí)現(xiàn)臨床操作和研發(fā)兩個(gè)

方向的大數(shù)據(jù)分析,Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交

互式查詢外,它還可以優(yōu)化迭代工作負(fù)載,Spark的運(yùn)行速度是

HadoopMapReduce的100倍,而且它還結(jié)合了SQL、流處理和復(fù)雜

情況分析。

使用Stocator和OpenStackKeystone,前者是一個(gè)用作驅(qū)動(dòng)程

序的開(kāi)源軟件,后者提供了身份驗(yàn)證功能。Stocator利用了對(duì)象存

儲(chǔ)語(yǔ)義,而且與以前專為處理文件系統(tǒng)而設(shè)計(jì)的Spark存儲(chǔ)連接器

相比,Stocator顯著提高了性能。Stocator采用JOSS(一個(gè)開(kāi)源

Java客戶端)生成HTTPREST命令,這些命令通過(guò)OpenStack

Swift接口訪問(wèn)IBMCleversafe。

下圖是IBMCleversafe、Stocator與OpenStackKeystone之

間的關(guān)系圖:

首先,安裝和配置Spark,可以將Spark配置為一臺(tái)獨(dú)立機(jī)

器,或者在集群上使用YARN、Mesos或Spark的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論