《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》教學(xué)課件06大數(shù)據(jù)的存儲_第1頁
《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》教學(xué)課件06大數(shù)據(jù)的存儲_第2頁
《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》教學(xué)課件06大數(shù)據(jù)的存儲_第3頁
《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》教學(xué)課件06大數(shù)據(jù)的存儲_第4頁
《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》教學(xué)課件06大數(shù)據(jù)的存儲_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、模塊六大數(shù)據(jù)的存儲CONTENTS01.必 備 知 識02.擴 展 知 識03.實訓(xùn)學(xué)習(xí)要點大數(shù)據(jù)的存儲數(shù)據(jù)存儲的概念。數(shù)據(jù)存儲的方式。如何保證數(shù)據(jù)存儲的可靠性?如何使用Oracle數(shù)據(jù)庫?必 備 知 識1大數(shù)據(jù)存儲概述大數(shù)據(jù)的存儲模型大數(shù)據(jù)存儲的問題大數(shù)據(jù)的存儲方法大數(shù)據(jù)存儲概述大數(shù)據(jù)時代,數(shù)據(jù)呈爆炸式增長。對數(shù)據(jù)存儲也提出了新的要求。從存儲服務(wù)的發(fā)展趨勢來看,一方面,對數(shù)據(jù)的存儲量的需求越來越大;另一方面,對數(shù)據(jù)的有效管理提出了更高的要求。大數(shù)據(jù)對存儲設(shè)備的容量、讀/寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數(shù)據(jù)安全性、數(shù)據(jù)穩(wěn)定性、系統(tǒng)可擴展性、性能及成本各方面的

2、因素。數(shù)據(jù)存儲是指數(shù)據(jù)流在加工過程中產(chǎn)生的臨時文件或需要查找的信息的存儲。數(shù)據(jù)以某種格式記錄在計算機內(nèi)部或外部存儲介質(zhì)上。數(shù)據(jù)存儲要命名,這種命名要反映信息特征的組成含義。數(shù)據(jù)流反映了系統(tǒng)中流動的數(shù)據(jù),表現(xiàn)出動態(tài)數(shù)據(jù)的特征;數(shù)據(jù)存儲反映系統(tǒng)中靜止的數(shù)據(jù),表現(xiàn)出靜態(tài)數(shù)據(jù)的特征。大數(shù)據(jù)應(yīng)用的一個主要特點是實時性或近實時性。數(shù)據(jù)通常以每年增長50%的速度快速激增,尤其是非結(jié)構(gòu)化數(shù)據(jù)。隨著科技的進步,有越來越多的傳感器采集數(shù)據(jù)、移動設(shè)備、社交多媒體等,所以數(shù)據(jù)只可能繼續(xù)增長。對大數(shù)據(jù)存儲的要求也和普通存儲不一樣,大數(shù)據(jù)需要高性能、高吞吐率、大容量的基礎(chǔ)存儲設(shè)備。111關(guān)系型數(shù)據(jù)庫2列式數(shù)據(jù)庫大數(shù)據(jù)的存

3、儲模型3鍵值存儲4文檔存儲5圖形數(shù)據(jù)庫大數(shù)據(jù)主要的存儲模型有關(guān)系型數(shù)據(jù)庫、列式數(shù)據(jù)庫、鍵值存儲、文檔存儲、圖形數(shù)據(jù)庫五大存儲模型。關(guān)系型數(shù)據(jù)庫大數(shù)據(jù)的存儲模型關(guān)系型數(shù)據(jù)庫是建立在關(guān)系模型基礎(chǔ)上的數(shù)據(jù)庫,借助于集合代數(shù)等數(shù)學(xué)概念和方法來處理數(shù)據(jù)庫中的數(shù)據(jù)。現(xiàn)實世界中的各種實體及實體之間的各種聯(lián)系均用關(guān)系模型來表示。關(guān)系模型是由埃德加科德于1970年首先提出的,并配合“科德十二定律”。如今,雖然對此模型有一些批評意見,但它還是數(shù)據(jù)存儲的傳統(tǒng)標準。標準數(shù)據(jù)查詢語言SQL就是一種基于關(guān)系數(shù)據(jù)庫的語言,這種語言執(zhí)行對關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)的檢索和操作。關(guān)系模型由關(guān)系數(shù)據(jù)結(jié)構(gòu)、關(guān)系操作集合、關(guān)系完整性約束三部

4、分組成。關(guān)系模型就是指二維表格模型,因而一個關(guān)系型數(shù)據(jù)庫就是由二維表及其之間的聯(lián)系組成的一個數(shù)據(jù)組織。當前主流的關(guān)系型數(shù)據(jù)庫有Oracle、DB2、PostgreSQL、Microsoft SQL Server、Microsoft Access、MySQL、浪潮KDB等。關(guān)系型數(shù)據(jù)庫把一行中的數(shù)據(jù)值串在一起存儲起來,然后存儲下一行的數(shù)據(jù),以此類推。例如,表6-1所示為某學(xué)生的成績趨勢表。1關(guān)系型數(shù)據(jù)庫大數(shù)據(jù)的存儲模型1在該表中數(shù)據(jù)存儲的方式為:數(shù)學(xué),100,104,110,108,120,121;語文,90,92,95,85,99,100;英語,102,110,120,100,134,125;

5、綜合,190,198,204,190,207,220。這種存儲方式根據(jù)以行相關(guān)的存儲體系架構(gòu)進行空間分配,適合于小批量的數(shù)據(jù)處理,常用于OLTP(聯(lián)機事務(wù)型數(shù)據(jù)處理),不適合分布式、高并發(fā)和海量數(shù)據(jù)處理。列式數(shù)據(jù)庫大數(shù)據(jù)的存儲模型列式數(shù)據(jù)庫是以列相關(guān)的存儲體系架構(gòu)進行數(shù)據(jù)存儲的數(shù)據(jù)庫,主要適合于批量數(shù)據(jù)處理和即時查詢。相對應(yīng)的是行式數(shù)據(jù)庫,數(shù)據(jù)以行相關(guān)的存儲體系架構(gòu)進行空間分配,主要適合于大批量的數(shù)據(jù)處理,常用于聯(lián)機事務(wù)型數(shù)據(jù)處理。當前常見的列式數(shù)據(jù)庫有 Sybase IQ、CStore、Vertica等。表61所示數(shù)據(jù)在列式數(shù)據(jù)庫中的存儲方式是:數(shù)學(xué),語文,英語,綜合;100,90,102,

6、190;104,92,110,198;110,95,120,204;108,85,100,190;120,99,134,207;121,100,125,220。這種數(shù)據(jù)庫因為查詢需要讀取的塊少,使用它查詢快;因為同一類型的列存儲在一起,數(shù)據(jù)壓縮比高,所以適合大量的數(shù)據(jù)。但是這種數(shù)據(jù)庫插入更新慢,不太適合數(shù)據(jù)總是變化的小數(shù)據(jù),不適合做含有刪除和更新的實時操作。所以,它是進行DSS(決策支持系統(tǒng))、BI(商業(yè)智能)的優(yōu)秀選擇,但是并不適合進行OLTP。1鍵值存儲大數(shù)據(jù)的存儲模型鍵值存儲機制采用鍵值對形式存儲,值可以是任意不定長數(shù)據(jù)。鍵值存儲的主要思想來自于哈希表:在哈希表中有一個特定的key和一個

7、value指針,指向特定的數(shù)據(jù)。對于海量數(shù)據(jù)存儲系統(tǒng)來說,鍵值存儲最大的優(yōu)勢在于數(shù)據(jù)模型簡單,易于實現(xiàn),非常適合通過key對數(shù)據(jù)進行查詢和修改等操作。但是,若對整個海量數(shù)據(jù)存儲系統(tǒng)需要側(cè)重于批量數(shù)據(jù)的查詢和更新操作,則鍵值存儲在效率上處于明顯的不足。同樣,鍵值存儲不支持特別復(fù)雜邏輯的數(shù)據(jù)操作?;阪I值存儲的高性能海量數(shù)據(jù)存儲系統(tǒng)的主要特點是具有極高的并發(fā)讀寫性能,常見的有Redis、Dynamo。1文檔存儲大數(shù)據(jù)的存儲模型文檔存儲的目標是在鍵值存儲方式(提供高性能和高伸縮性)和傳統(tǒng)的關(guān)系數(shù)據(jù)系統(tǒng)(豐富的功能)之間架起一個橋梁,集兩者的優(yōu)勢于一身。其數(shù)據(jù)主要以JSON或類JSON格式的文檔來進行

8、存儲,是有語義的。文檔型數(shù)據(jù)庫可以看作鍵值數(shù)據(jù)庫的升級版,允許在存儲的值中再嵌套鍵值,且文檔存儲模型一般可以對其值創(chuàng)建索引,方便上層應(yīng)用,而這一點是普通鍵值數(shù)據(jù)庫無法支持的。常見的文檔存儲有MongoDB、CouchDB。與關(guān)系型數(shù)據(jù)庫不同的是,文檔存儲模型支持嵌套結(jié)構(gòu)。例如,文檔存儲模型支持XML和JSON文檔,字段的“值”又可以嵌套存儲其他文檔。文檔存儲模型也支持數(shù)組和列值鍵。與鍵值存儲不同的是,文檔存儲關(guān)心文檔的內(nèi)部結(jié)構(gòu)。這使得存儲引擎可以直接支持二級索引,從而允許對任意字段進行高效查詢。支持文檔嵌套存儲的能力,使查詢語言具有搜索嵌套對象的能力,XQuery就是一個例子。MongoDB通

9、過支持在查詢中指定JSON字段路徑實現(xiàn)類似的功能。1圖形數(shù)據(jù)庫大數(shù)據(jù)的存儲模型圖形數(shù)據(jù)庫是一種非關(guān)系型數(shù)據(jù)庫,它應(yīng)用圖形理論存儲實體之間的關(guān)系信息。最常見的例子就是社會網(wǎng)絡(luò)中人與人之間的關(guān)系。相對于關(guān)系型數(shù)據(jù)庫中的各種關(guān)聯(lián)表,圖形數(shù)據(jù)庫中的關(guān)系可以通過關(guān)系包含屬性這一功能來提供更為豐富的關(guān)系展現(xiàn)方式。因此,相較于關(guān)系型數(shù)據(jù)庫,圖形數(shù)據(jù)庫的用戶在對事物進行抽象時將擁有一個額外的優(yōu)勢,即豐富的關(guān)系。常見的圖形數(shù)據(jù)庫有Neo4j、FlockDB、AllegroGrap、GraphDB、InfiniteGraph等。111容量2延遲大數(shù)據(jù)存儲的問題3安全問題4成本隨著大數(shù)據(jù)存儲的應(yīng)用,人們也總結(jié)出了大

10、數(shù)據(jù)存儲需要考慮以下問題。5數(shù)據(jù)保存6靈活性7應(yīng)用感知8小用戶容量大數(shù)據(jù)存儲的問題大數(shù)據(jù)的容量通??蛇_到PB級的數(shù)據(jù)規(guī)模,因此,對于海量數(shù)據(jù)存儲系統(tǒng)需要有相應(yīng)等級的擴展能力,且存儲系統(tǒng)的擴展一定要簡便,可以采用疊加的方式來完成擴容。例如,在不斷電的情況下,通過增加模塊或磁盤柜來增加容量。在數(shù)據(jù)容量解決方面,IBM公司的GPFS采用條帶化技術(shù),單個文件跨節(jié)點和存儲系統(tǒng)分布,提高必發(fā)訪問性能,并且支持最大數(shù)千節(jié)點的集群規(guī)模和每秒超過數(shù)百GB的I/O吞吐,而且可以在不停止服務(wù)的情況下向集群添加和刪除節(jié)點,向文件系統(tǒng)加入和刪除磁盤,修改文件系統(tǒng)inode數(shù)目,這種技術(shù)非常適合于大數(shù)據(jù)分析和處理。1延遲

11、大數(shù)據(jù)存儲的問題大數(shù)據(jù)應(yīng)用還存在實時性的問題。特別是涉及網(wǎng)上交易或金融類相關(guān)的高實時、高敏感的應(yīng)用,大數(shù)據(jù)應(yīng)用的實時性問題就突顯出來了。為了滿足對延遲的要求,有很多“大數(shù)據(jù)”應(yīng)用環(huán)境需要較高的IOPS性能,如HPC高性能計算。此外,服務(wù)器虛擬化的普及也造成了對高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲設(shè)備應(yīng)運而生,小到簡單的在服務(wù)器內(nèi)部做高速緩存,大到全固態(tài)介質(zhì)的可擴展存儲系統(tǒng)等都在蓬勃發(fā)展。1安全問題某些特殊行業(yè)的應(yīng)用,如政府機關(guān)、金融機構(gòu)及醫(yī)療信息等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,且都是必須遵從的。但是,具

12、體的大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,而過去并不會有這種數(shù)據(jù)混合訪問的情況,在涉及混合訪問時,除了防止信息泄露,還要考慮不同機構(gòu)不同的安全體系。因此,大數(shù)據(jù)應(yīng)用也催生出一些新的、需要考慮的安全性問題。成本大數(shù)據(jù)存儲的問題“大”也可能意味著代價不菲。對于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說,成本控制是關(guān)鍵的問題。要想控制成本,就意味著要讓每一臺設(shè)備都實現(xiàn)更高的“效率”,同時還要減少使用那些昂貴的部件。目前,像重復(fù)數(shù)據(jù)刪除等技術(shù)已經(jīng)進入主存儲市場,而且現(xiàn)在可以處理更多的數(shù)據(jù)類型,這都可以為大數(shù)據(jù)存儲應(yīng)用帶來更多的價值,提升存儲效率。在數(shù)據(jù)量不斷增長的環(huán)境中,通過減少后端存儲的消耗,哪怕只是降低幾個百

13、分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術(shù)的使用也可以提升存儲的效率。對成本控制影響最大的因素是那些商業(yè)化的硬件設(shè)備。因此,很多初次進入這一領(lǐng)域的用戶及那些應(yīng)用規(guī)模最大的用戶都會定制他們自己的“硬件平臺”,而不是用現(xiàn)成的商業(yè)產(chǎn)品,這一舉措可以用來平衡他們在業(yè)務(wù)擴展過程中的成本控制戰(zhàn)略。為了適應(yīng)這一需求,現(xiàn)在越來越多的存儲產(chǎn)品都提供純軟件的形式,可以直接安裝在用戶已有的、通用的或現(xiàn)成的硬件設(shè)備上。此外,很多存儲軟件公司還在銷售以軟件產(chǎn)品為核心的軟硬一體化裝置,或者與硬件廠商結(jié)盟,推出合作型產(chǎn)品,如IBM公司提出的IBM云服務(wù)器等。1數(shù)據(jù)保存大數(shù)據(jù)存儲的問題許多大數(shù)據(jù)應(yīng)用都

14、需要保存幾年甚至更久。例如,醫(yī)療信息通常是為了保證患者的生命安全和對患者長期建檔,這樣的數(shù)據(jù)可能需要保存幾十年,而財務(wù)信息通常要保存7年。即使一些看起來不需要長期保持的數(shù)據(jù),使用大數(shù)據(jù)存儲的用戶卻也希望數(shù)據(jù)能夠保存更長的時間,因為任何數(shù)據(jù)都是歷史記錄的一部分,而且數(shù)據(jù)的分析大都是基于時間段進行的。要實現(xiàn)長期的數(shù)據(jù)保存,就要求存儲廠商開發(fā)出能夠持續(xù)進行數(shù)據(jù)一致性檢測的功能及其他保證長期高可用的特性。同時,還要實現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。1靈活性大數(shù)據(jù)存儲系統(tǒng)的基礎(chǔ)設(shè)施規(guī)模通常都很大,因此必須經(jīng)過仔細設(shè)計,才能保證存儲系統(tǒng)的靈活性,使其能夠隨著應(yīng)用分析軟件一起擴容或擴展。在大數(shù)據(jù)存儲環(huán)境中,

15、已經(jīng)沒有必要再做數(shù)據(jù)遷移了,因為數(shù)據(jù)會同時保存在多個部署站點。一個大型的數(shù)據(jù)存儲基礎(chǔ)設(shè)施一旦開始投入使用,就很難再調(diào)整了,因此它必須能夠適應(yīng)各種不同的應(yīng)用類型和數(shù)據(jù)場景。應(yīng)用感知大數(shù)據(jù)存儲的問題最早一批使用大數(shù)據(jù)的用戶已經(jīng)開發(fā)出了一些針對應(yīng)用的定制的基礎(chǔ)設(shè)施,如針對政府項目開發(fā)的系統(tǒng)、大型互聯(lián)網(wǎng)服務(wù)商創(chuàng)造的專用服務(wù)器等。在主流存儲系統(tǒng)領(lǐng)域,感知技術(shù)的使用越來越普遍,它也是改善系統(tǒng)效率和性能的重要手段,所以,應(yīng)用感知技術(shù)也應(yīng)該用在大數(shù)據(jù)存儲環(huán)境里。1小用戶依賴大數(shù)據(jù)的不僅僅是那些大型用戶群體,作為一種商業(yè)需求,小型企業(yè)未來也一定會應(yīng)用到大數(shù)據(jù)。我們看到,有些存儲廠商已經(jīng)在開發(fā)一些小型的“大數(shù)據(jù)”

16、存儲系統(tǒng),主要吸引那些對成本比較敏感的用戶。11在線存儲2近線存儲大數(shù)據(jù)的存儲方法3離線存儲4異地備份常見的數(shù)據(jù)存儲方式有在線存儲、近線存儲、離線存儲和異地備份四種。不同的存儲方式提供不同的獲取便利性、安全性和成本開銷等級。在大多數(shù)場景中,四種存儲都不是單獨使用,經(jīng)常被混合使用以達到最有效的存儲策略。在線存儲大數(shù)據(jù)的存儲方法在線存儲(online storage)有時也稱為二級存儲,是工作級的存儲。在線存儲的最大特征是存儲設(shè)備和所存儲的數(shù)據(jù)時刻保持“在線”狀態(tài),可以隨時讀取和修改,以滿足前端應(yīng)用服務(wù)器或數(shù)據(jù)庫對數(shù)據(jù)訪問的速度要求。其中最主要的在線存儲是磁盤存儲。早期的在線存儲設(shè)備主要是服務(wù)器內(nèi)

17、置硬盤,隨著存儲設(shè)備的發(fā)展,現(xiàn)在在線存儲設(shè)備還包括光纖磁盤陣列或SCSI磁盤陣列等磁盤設(shè)備。這種存儲方式提供最好的數(shù)據(jù)獲取便利性,大磁盤陣列是其中最典型的代表之一。這種存儲方式的好處是讀/寫非常方便、迅捷,缺點是相對較貴,且容易因為誤操作或防病毒軟件的誤刪除而使數(shù)據(jù)受到損害。1近線存儲大數(shù)據(jù)的存儲方法近線存儲(nearline storage)是隨著存儲環(huán)境的細化所提出的一個概念,其外延相對較廣泛,主要定位于在線存儲和離線存儲之間的應(yīng)用,就是指將那些并不是經(jīng)常用到或數(shù)據(jù)的訪問量并不大的數(shù)據(jù)存放在性能較低的存儲設(shè)備上,對這些的設(shè)備要求是尋址迅速、傳輸率高,如客戶一些長期保存的不常用的文件的歸檔。

18、因此,近線存儲對性能要求相對來說并不高,但又要求相對較好的訪問性能。同時,多數(shù)情況下由于不常用的數(shù)據(jù)要占總數(shù)據(jù)量比較大的比重,這也就要求近線存儲設(shè)備的容量相對較大。主要的近線存儲設(shè)備主要為DVDRAM光盤塔和光盤庫設(shè)備。但隨著存儲設(shè)備的不斷發(fā)展,根據(jù)客戶存儲需求的不同,我們也會把低端的磁盤陣列(DS4100)或高端的磁帶設(shè)備(3592)作為近線存儲應(yīng)用設(shè)備。近線存儲設(shè)備主要有磁盤、磁帶和光盤三種。磁盤包括3.5 in和各種可移動材料,如iomega zip disk和syquest disk。磁帶的種類不計其數(shù)。CD的種類有可寫CD(CDR)、可擦寫CD(CDRW)和數(shù)字通用可擦寫光盤(DVD

19、)。近線存儲提供便宜、可靠、無限制的數(shù)據(jù)備份并能減少集成在線存儲訪問量。對于個人和小型商戶來說,如果用戶可以忍受一些存儲或檢索數(shù)據(jù)時產(chǎn)生的時間延遲,近線存儲將是一個理想的解決方案。近線存儲媒體在架時是不會被病毒感染的,因為這時的媒體在物理上是不連接在計算機、服務(wù)器和因特網(wǎng)上的。當近線存儲介質(zhì)拿來覆蓋設(shè)備時,它可以通過寫保護來防止感染。如果用一臺被感染計算機病毒的計算機來向近線存儲介質(zhì)寫入數(shù)據(jù),那么介質(zhì)很可能會被感染。所以,推薦在使用前用殺毒軟件程序掃描一下近線存儲介質(zhì)。1離線存儲大數(shù)據(jù)的存儲方法離線存儲(offline storage)和近線存儲類似,這種存儲方式指的是每次在讀/寫數(shù)據(jù)時,必須

20、人為地將存儲介質(zhì)放入存儲系統(tǒng)。離線存儲用于永久或長期保存數(shù)據(jù),而又不需要介質(zhì)當前在線或連接到存儲系統(tǒng)上。離線存儲的介質(zhì)通??梢苑奖銛y帶或轉(zhuǎn)運,如磁帶和移動硬盤。因此,離線存儲主要用于數(shù)據(jù)的備份和恢復(fù)。在大多數(shù)情況下,會盡量少地訪問光盤、磁帶上的數(shù)據(jù)。1異地備份異地備份(remote backup)就是將數(shù)據(jù)在另外的地方實時產(chǎn)生一份可用的副本,此副本的使用不需要做數(shù)據(jù)恢復(fù),可以將副本立即投入使用,圖6-1所示為某高校異地備份系統(tǒng)的示意圖。異地備份大數(shù)據(jù)的存儲方法異地備份的數(shù)據(jù)復(fù)制目前有如下實現(xiàn)方式。(1)基于主機。對于基于主機的數(shù)據(jù)復(fù)制技術(shù),可以不考慮存儲系統(tǒng)的同構(gòu)問題,只要保持主機是相同的操作

21、系統(tǒng)即可,而目前也存在支持異構(gòu)主機之間的數(shù)據(jù)復(fù)制軟件,如BakBone NetVault Replicator就可以支持異構(gòu)服務(wù)器之間的數(shù)據(jù)復(fù)制,可以支持跨越廣域網(wǎng)的遠程實時復(fù)制。其缺點是需要占用一點主機資源。(2)基于存儲系統(tǒng)。利用存儲系統(tǒng)提供的數(shù)據(jù)復(fù)制軟件,復(fù)制的數(shù)據(jù)流通過存儲系統(tǒng)之間進行傳遞,和主機無關(guān)。這種方式的優(yōu)勢是數(shù)據(jù)復(fù)制不占用主機資源,不足之處是需要災(zāi)備中心的存儲系統(tǒng)和生產(chǎn)中心的存儲系統(tǒng)有嚴格的兼容性要求,一般需要來自同一個廠家的存儲系統(tǒng),這樣對災(zāi)備中心的存儲系統(tǒng)的選型帶來了限制。(3)基于光纖交換機。這項技術(shù)正在發(fā)展中,利用光纖交換機的新功能,或利用管理軟件控制光纖交換機,對存

22、儲系統(tǒng)進行虛擬化,然后管理軟件對管理的虛擬存儲池進行卷管理、卷復(fù)制、卷鏡像等操作,來實現(xiàn)數(shù)據(jù)的遠程復(fù)制。比較典型的有StoragAge、Falcon等。為了防止災(zāi)難或其他可能影響到整個站點的問題,許多人選擇將重要的數(shù)據(jù)發(fā)送到其他站點來作為災(zāi)難恢復(fù)計劃的一部分。這種存儲方式保證即使站內(nèi)數(shù)據(jù)丟失,其他站點仍有數(shù)據(jù)副本。異站保護可防止由自然災(zāi)害、人為錯誤或系統(tǒng)崩潰造成的數(shù)據(jù)丟失。1擴 展 知 識2大數(shù)據(jù)存儲概述大數(shù)據(jù)的存儲模型大數(shù)據(jù)存儲的問題大數(shù)據(jù)存儲的問題大數(shù)據(jù)的存儲方法隨著大數(shù)據(jù)應(yīng)用的飛速發(fā)展,現(xiàn)已出現(xiàn)了獨特的框架,直接推動了存儲的發(fā)展、網(wǎng)絡(luò)及計算技術(shù)的發(fā)展。由于大數(shù)據(jù)處理的需求是一個新的挑戰(zhàn),

23、硬件的發(fā)展最終還是需要軟件的推動,因而大數(shù)據(jù)分析應(yīng)用需求正在影響和促進數(shù)據(jù)存儲基礎(chǔ)的發(fā)展。隨著數(shù)據(jù)量的持續(xù)增長,以及被分析數(shù)據(jù)的來源多元化,現(xiàn)在的存儲系統(tǒng)的發(fā)展已經(jīng)跟不上大數(shù)據(jù)存儲發(fā)展的需求?;诖鎯υO(shè)施的研究也越來越重要,其研究技術(shù)主要有以下幾個方面。21全息存儲23D XPoint下一代數(shù)據(jù)容量技術(shù)3五維數(shù)據(jù)存儲技術(shù)全息存儲下一代數(shù)據(jù)容量技術(shù)全息存儲是利用全息照相的技術(shù)原理來實現(xiàn)數(shù)據(jù)記錄的。這一概念是Dennis Gabor在1947年為提高電子顯微鏡的分辨率而提出的。它的最大優(yōu)點是超高密度,不僅如此,全息存儲還具有極大的提升潛力,只要控制芯片具有足夠強的數(shù)據(jù)處理能力,全息存儲技術(shù)甚至可以

24、提供高達1 000 TB的容量。相比之下,目前硬盤的最大容量才6 TB,這個容量只相當于全息存儲的“立方體糖塊”的一個小碎片所提供的存儲能力。1)全息存儲的原理全息存儲是受全息照相的啟發(fā)而研制的,在拍攝全息照片時,對應(yīng)的拍攝設(shè)備并不是普通照相機,而是一臺激光器。該激光器產(chǎn)生的激光束被分光鏡一分為二,其中一束被命名為“物光束”,直接照射到被拍攝的物體,另一束則被稱為“參考光束”,直接照射到感光膠片上。當物光束照射到所攝物體之后,形成的反射光束同樣會照射到膠片上,此時全息影像完整信息就能被膠片記錄下來,全息照相的攝制過程就這樣完成了。初看過去,全息照片上只有一些亂七八糟的條紋,但當我們使用一束激光

25、去照射這張照片時,真實的原始立體圖像就會栩栩如生地展現(xiàn)出來。2全息存儲下一代數(shù)據(jù)容量技術(shù)全息存儲技術(shù)同樣需要激光束的幫忙,研發(fā)人員要為它配備一套高效率的全息照相系統(tǒng)。首先利用一束激光照射晶體內(nèi)部不透明的小方格,記錄成為原始圖案后,再使用一束激光聚焦形成信號源,另外還需要一束參考激光作為校準。當信號源光束和參考光束在晶體中相遇后,晶體中就會展現(xiàn)出多折射角度的圖案,這樣在晶體中就形成了光柵。一個光柵可以存儲一批數(shù)據(jù),稱為一頁。使用全息存儲技術(shù)制成的存儲器稱為全息存儲器,全息存儲器在存儲和讀取數(shù)據(jù)時都是以頁為單位的。2)全息存儲的優(yōu)勢與目前的存儲技術(shù)相比,全息存儲在容量、速度和可靠性方面都極具發(fā)展?jié)?/p>

26、力。由于全息存儲器是以頁作為讀/寫單位的,不同頁面的數(shù)據(jù)可以同時并行讀/寫,其理論存儲速度將相當快。業(yè)界普遍估計,未來全息存儲可以實現(xiàn)1 GB/s的傳輸速度,及小于1 ms的隨機訪問時間。使用全息存儲技術(shù)后,一塊方糖大小的立方體就能存儲高達1 TB的數(shù)據(jù),這么高的容量并不是空穴來風(fēng)。由于一個晶體有無數(shù)個面,我們只要改變激光束的入射角度,就可以在一塊晶體中存儲數(shù)量驚人的數(shù)據(jù)。我們可以把全息存儲器看成書本,這也是其用小體積實現(xiàn)大容量的原理所在,理論上全息存儲可以輕松突破1 TB的存儲密度。與傳統(tǒng)硬盤不同,全息存儲器不需要任何移動部件,數(shù)據(jù)讀/寫操作為非接觸式,使用壽命、數(shù)據(jù)可靠性、安全性都達到理想

27、的狀況。全息存儲幾乎可以永久保存數(shù)據(jù),在切斷電能供應(yīng)的條件下,數(shù)據(jù)可在感光介質(zhì)中保存數(shù)百年之久,遠優(yōu)于硬盤。2全息存儲下一代數(shù)據(jù)容量技術(shù)3)全息存儲的發(fā)展2002年,全世界主要有三家公司在進行全息存儲方面的研究,即美國InPhase科技、美國萬勝公司及日本的Optware公司。盡管全息存儲的技術(shù)自從20世紀60年代就開始討論,而且至少從2001年就開始兜售接近使用的商用方案,但是直到現(xiàn)在仍然在試圖使人相信這項技術(shù)會找到合適的市場。從2002年開始,計劃中的全息存儲產(chǎn)品還并不想與硬盤展開競爭,而是試圖尋找到能夠利用到它的特別優(yōu)點的市場,如需要很高訪問速度的應(yīng)用等。2005年,在美國拉斯維加斯舉行

28、的國家廣播協(xié)會會議上,InPhase科技在美國萬勝公司展位上公開展示了世界上第一個使用全息存儲技術(shù)的商業(yè)存儲設(shè)備原型。InPhase科技在2006年和2007年數(shù)次宣稱將會推出其旗艦產(chǎn)品,然而在數(shù)次推遲發(fā)布以后,于2010年2月關(guān)閉。它的資產(chǎn)由科羅拉多州沒收以償還欠稅。這家公司共花費了1億美元,但是投資者無法再籌集更多的資本。2009年,通用電氣全球研究中心展示了他們自行研究的全息存儲材料,這種材料可以用于光盤,使用的讀取技術(shù)和目前的藍光光盤播放器類似。2014年,美國加利福尼亞大學(xué)河濱分校伯恩斯工程學(xué)院和俄羅斯科學(xué)院的研究人員演示了一種新型的全息存儲器,結(jié)合了磁性數(shù)據(jù)存儲和波基礎(chǔ)的信息傳輸兩

29、者的優(yōu)點,能為電子設(shè)備帶來前所未有的數(shù)據(jù)存儲和處理能力。23D XPoint下一代數(shù)據(jù)容量技術(shù)3D XPoint的開發(fā)始于2012年,在英特爾和美光之前已開發(fā)了其他非易失性相變化內(nèi)存技術(shù)(PCM);在2015年正式推出了3D XPoint,3D XPoint架構(gòu)不同于以前提供的PCM,它是一種非易失性固態(tài)存儲新形式,性能和耐久性比NAND閃存高得多。在價格方面,它處于DRAM和NAND之間。它的閃存單元的選擇器和存儲部分采用的是硫族化物材料,和傳統(tǒng)的PCM材料相比,它的特點如下。(1)速度快。3D XPoint的讀/寫速度還不能超過RAM的速度,但是遠遠大于NAND的速度。(2)耐久長。它的耐

30、力比NAND長1 000倍。(3)低延遲。它的延遲是NAND閃存的千分之一,是DRAM延遲的十倍,這尤其突顯了其高I/O操作的能力。這些特點使3D XPoint填補了數(shù)據(jù)中心存儲器體系,其中包括處理器上的SRAM、DRAM、NAND閃存(SSD)、硬盤、磁帶或光盤。它將適用于易失性DRAM和非易失性NAND閃存固態(tài)存儲。3D XPoint主要用于服務(wù)未優(yōu)化內(nèi)存處理的隨機事務(wù)數(shù)據(jù)集服務(wù)。例如,它可以用于對現(xiàn)有數(shù)據(jù)集執(zhí)行有限的實時分析或存儲和更新記錄,畢竟沒有多少人想為越來越高的連續(xù)吞吐量來額外付錢。2五維數(shù)據(jù)存儲技術(shù)下一代數(shù)據(jù)容量技術(shù)英國南安普頓大學(xué)的科學(xué)家近日開發(fā)出一種新的數(shù)據(jù)存儲技術(shù),利用玻

31、璃中的微型納米結(jié)構(gòu)來編碼信息?;谶@一技術(shù),標準尺寸光碟能保存約360 TB的數(shù)據(jù),而在溫度高達190 的環(huán)境中可維持長達138億年。這一時間與宇宙的歷史相仿,達到地球年齡的3倍。這一技術(shù)被稱作“五維數(shù)據(jù)存儲”,最初發(fā)表在2013年的一篇論文中。自那時以來,科學(xué)家仍在繼續(xù)對該技術(shù)進行優(yōu)化。目前,科學(xué)家計劃進一步推動這項技術(shù)的發(fā)展,甚至實現(xiàn)商用。為了展示這一數(shù)據(jù)存儲技術(shù)的優(yōu)勢,南安普頓大學(xué)團隊將英皇欽定本圣經(jīng)、牛頓的光學(xué)一書(光學(xué)和透鏡理論的基礎(chǔ))及聯(lián)合國世界人權(quán)宣言用這一技術(shù)進行了記錄。對于這種光碟存儲信息的方式,可以將其與普通CD進行對比。CD光盤上有凹凸不平的線條,可以被激光讀取。如果激光

32、探測到凸起,就代表數(shù)據(jù)“1”,而如果沒有凸起,那么代表數(shù)據(jù)“0”。這是一種二維的數(shù)據(jù)表達方式。基于這種方式,CD可以保存各種信息,無論是音樂、圖書、照片、視頻,還是軟件。然而,由于這些微小凸起位于CD表面,因此很脆弱。物理磨損或暴露在有氧、高溫、高濕的環(huán)境下,都會給數(shù)據(jù)造成破壞。2五維數(shù)據(jù)存儲技術(shù)下一代數(shù)據(jù)容量技術(shù)五維光碟能使用位于碟片內(nèi)的微型物理結(jié)構(gòu),即“納米格柵”來保存信息,而通過讀取折射的激光可以表達5種數(shù)據(jù)狀態(tài)。這也是這種技術(shù)名稱的來源。利用激光技術(shù),設(shè)備可以知道納米格柵的方向、激光折射的強度,以及用X、Y、Z軸表示的空間位置。因此,相對于傳統(tǒng)光碟,五維光碟的數(shù)據(jù)存儲密度更大;藍光光碟

33、可以保存128 GB的數(shù)據(jù),而五維光碟存儲的數(shù)據(jù)量可以達到藍光的近3 000倍,即360 TB。由于玻璃是一種堅固的材料,只有很高的溫度才能導(dǎo)致玻璃融化或變形,而玻璃又有著良好的化學(xué)穩(wěn)定性,因此,這種五維光碟能確保數(shù)據(jù)在非常長的時間里不會丟失。研究人員表示,五維光碟可以耐1 000 的高溫。對圖書館和博物館來說,五維數(shù)據(jù)存儲技術(shù)很有潛力。這一技術(shù)也可以在不久的未來得到商用。盡管在這種光碟中記錄信息還需要用到成本高昂的實驗室激光設(shè)備,但光碟數(shù)據(jù)的讀取并不困難。221圖形數(shù)據(jù)庫的組成2圖形數(shù)據(jù)庫的優(yōu)勢圖形數(shù)據(jù)庫3圖形數(shù)據(jù)庫的應(yīng)用4常見圖形數(shù)據(jù)庫現(xiàn)代應(yīng)用產(chǎn)生了很多大規(guī)模的圖數(shù)據(jù),如在線社交網(wǎng)絡(luò)、萬維

34、網(wǎng)、知識圖譜等。這些圖數(shù)據(jù)通常含有數(shù)以億計的頂點和邊,因而很難在一臺機器上進行高效的處理與分析。因此,近年來很多用于處理大規(guī)模圖數(shù)據(jù)的圖形數(shù)據(jù)庫系統(tǒng)應(yīng)運而生。圖形數(shù)據(jù)庫是一種非關(guān)系型數(shù)據(jù)庫,它應(yīng)用圖形理論存儲實體之間的關(guān)系信息。最常見的例子就是社會網(wǎng)絡(luò)中人與人之間的關(guān)系。關(guān)系型數(shù)據(jù)庫用于存儲“關(guān)系型”數(shù)據(jù)的效果并不理想,其查詢復(fù)雜、緩慢、超出預(yù)期,而圖形數(shù)據(jù)庫的獨特設(shè)計恰恰彌補了這個缺陷。圖形數(shù)據(jù)庫的組成圖形數(shù)據(jù)庫在一個圖形數(shù)據(jù)庫中,最主要的組成有兩種,即結(jié)點集和連接結(jié)點的關(guān)系,也稱泡泡和箭頭。結(jié)點集就是圖中一系列結(jié)點的集合,比較接近于關(guān)系數(shù)據(jù)庫中最常使用的表,而關(guān)系則是圖形數(shù)據(jù)庫所特有的組成

35、,如圖6-2所示。2圖形數(shù)據(jù)庫的優(yōu)勢圖形數(shù)據(jù)庫在需要表示多對多關(guān)系時,我們常常需要創(chuàng)建一個關(guān)聯(lián)表來記錄不同實體的多對多關(guān)系,而且這些關(guān)聯(lián)表常常不用來記錄信息。如果兩個實體之間擁有多種關(guān)系,那么我們需要在它們之間創(chuàng)建多個關(guān)聯(lián)表。例如,分析明星社交關(guān)系數(shù)據(jù),明星的微博有少則十幾萬,多則幾千萬的粉絲。在MySQL中,一條關(guān)注關(guān)系(明星ID,明星的一個粉絲ID)存為一條數(shù)據(jù),那么當用戶數(shù)量多起來時,關(guān)注關(guān)系輕松破億、破10億,甚至上百億,并且為了保證每條數(shù)據(jù)的唯一性,還需要設(shè)置聯(lián)合索引,MySQL就有些力不從心了。在一個圖形數(shù)據(jù)庫中,只需要標明兩者之間存在著不同的關(guān)系。如果希望在兩個結(jié)點集間建立雙向關(guān)

36、系,就需要為每個方向定義一個關(guān)系。相對于關(guān)系型數(shù)據(jù)庫中的各種關(guān)聯(lián)表,圖形數(shù)據(jù)庫可以通過關(guān)系能夠包含屬性這一功能來提供更為豐富的關(guān)系展現(xiàn)方式。因此,相對于關(guān)系型數(shù)據(jù)庫,圖形數(shù)據(jù)庫的用戶在對事物進行抽象時將擁有一個額外的優(yōu)勢,即豐富的關(guān)系。2圖形數(shù)據(jù)庫的應(yīng)用圖形數(shù)據(jù)庫社交網(wǎng)站是一個非常適合使用圖形數(shù)據(jù)庫的應(yīng)用案例。通過使用這種技術(shù),用戶可以輸入特定的條件(位置),縮小潛在合作伙伴的列表。求職網(wǎng)站也非常適合,以前在求職網(wǎng)站上輸入自己的簡歷和個人信息之后,用戶還不得不自己搜索最適合自己的職位?,F(xiàn)在采用圖形數(shù)據(jù)庫技術(shù),Glassdoor和前程無憂等公司夠根據(jù)位置、技能等信息為求職者匹配求職機會。這種網(wǎng)站

37、是圖形數(shù)據(jù)庫的理想應(yīng)用案例,因為這項技術(shù)可以實現(xiàn)即時響應(yīng)。那些嘗試從位置A發(fā)送包裹到位置B的路線選擇快遞公司也是一個很好的圖形數(shù)據(jù)庫應(yīng)用案例。此外,圖形數(shù)據(jù)庫也可以應(yīng)用于一些重要場景。例如,它可用于一些制藥公司,找出哪些藥物帶有特定的蛋白質(zhì);保險公司也可以利用圖形數(shù)據(jù)庫進行風(fēng)險分析。2常見圖形數(shù)據(jù)庫圖形數(shù)據(jù)庫1)Neo4jNeo4j是一個流行的圖形數(shù)據(jù)庫,它是開源的。最近,Neo4j的社區(qū)版已經(jīng)由遵循AGPL許可協(xié)議轉(zhuǎn)向了遵循GPL許可協(xié)議。盡管如此,Neo4j的企業(yè)版仍然使用AGPL許可。Neo4j基于Java實現(xiàn),兼容ACID特性,也支持其他編程語言,如Ruby和Python。2)Floc

38、kDBFlockDB是Twitter為進行關(guān)系數(shù)據(jù)分析而構(gòu)建的。FlockDB迄今為止還沒有穩(wěn)定的版本,對于它是否是一個真正的圖形數(shù)據(jù)庫,尚有爭議。FlockDB和其他圖形數(shù)據(jù)庫(Neo4j、OrientDB)的區(qū)別在于圖的遍歷,Twitter的數(shù)據(jù)模型不需要遍歷社交圖譜。盡管如此,由于FlockDB應(yīng)用于Twitter這樣的大型站點,它相比其他圖形數(shù)據(jù)庫具有簡潔性,其仍然值得人們關(guān)注。3)AllegroGraphAllegroGraph是一個基于W3C標準的為資源描述框架構(gòu)建的圖形數(shù)據(jù)庫。它為處理鏈接數(shù)據(jù)和Web語義而設(shè)計,支持SPARQL、RDFS+和Prolog。AllegroGraph

39、是Franz Lnz公司(Web語義產(chǎn)品提供商,其旗艦產(chǎn)品是基于LISP的企業(yè)開發(fā)工具)的產(chǎn)品之一,Pfizer、Ford、Kodak、NASA和美國國防部都是該公司的客戶。2常見圖形數(shù)據(jù)庫圖形數(shù)據(jù)庫4)GraphDBGraphDB是德國Sones公司在.NET基礎(chǔ)上構(gòu)建的。Sones公司于2007年成立,近年來陸續(xù)進行了幾輪融資。GraphDB社區(qū)版遵循AGPL v3許可協(xié)議,企業(yè)版是商業(yè)化的。GraphDB托管在Windows Azure平臺上。5)InfiniteGraphInfiniteGraph基于Java實現(xiàn),它的目標是構(gòu)建“分布式的圖形數(shù)據(jù)庫”,已被美國國防部和美國中央情報局所采

40、用。除此之外,還有其他一些圖形數(shù)據(jù)庫,如OrientDB、InfoGrid和HypergraphDB等。Ravel構(gòu)建在開源的Pregel實現(xiàn)之上,微軟研究院的Trinity項目也是一個圖形數(shù)據(jù)庫項目。221分布式存儲的概念2分布式存儲系統(tǒng)的關(guān)鍵技術(shù)分布式存儲3分布式存儲的分類百度、阿里巴巴、谷歌等互聯(lián)網(wǎng)公司的發(fā)展促進了大數(shù)據(jù)的飛速發(fā)展,但是大數(shù)據(jù)的后臺基礎(chǔ)設(shè)施的主要目標都是構(gòu)建低成本、高性能、可擴展、易用的分布式存儲系統(tǒng)。雖然分布式系統(tǒng)研究了很多年,但是,直到近年來,互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用的興起才使得它大規(guī)模地應(yīng)用到工程實踐中。相比傳統(tǒng)的分布式系統(tǒng),互聯(lián)網(wǎng)公司的分布式系統(tǒng)具有兩個特點:一個特點是規(guī)

41、模大,另一個特點是成本低。不同的需求造就了不同的設(shè)計方案,可以這么說,百度等互聯(lián)網(wǎng)公司重新定義了大規(guī)模分布式系統(tǒng)。分布式存儲的概念分布式存儲大規(guī)模分布式存儲系統(tǒng)的定義如下:“分布式存儲系統(tǒng)是大量普通PC服務(wù)器通過Internet互聯(lián),對外作為一個整體提供存儲服務(wù)?!狈植际酱鎯ο到y(tǒng)具有以下幾個特性。(1)可擴展。分布式存儲系統(tǒng)可以擴展到幾百臺甚至幾千臺的集群規(guī)模,而且隨著集群規(guī)模的增長,系統(tǒng)整體性能表現(xiàn)為線性增長。(2)低成本。分布式存儲系統(tǒng)的自動容錯、自動負載均衡機制使其可以構(gòu)建在普通PC上。另外,線性擴展能力也使得增加、減少機器非常方便,可以實現(xiàn)自動運維。(3)高性能。無論針對整個集群,還是

42、針對單臺服務(wù)器,都要求分布式存儲系統(tǒng)具備高性能。(4)易用。分布式存儲系統(tǒng)需要能夠提供易用的對外接口,另外,也要求具備完善的監(jiān)控、運維工具,并能夠方便地與其他系統(tǒng)集成,如從Hadoop云計算系統(tǒng)導(dǎo)入數(shù)據(jù)。2分布式存儲系統(tǒng)的關(guān)鍵技術(shù)分布式存儲分布式存儲系統(tǒng)的挑戰(zhàn)主要在于數(shù)據(jù)、狀態(tài)信息的持久化,要求在自動遷移、自動容錯、并發(fā)讀/寫的過程中保證數(shù)據(jù)的一致性。分布式存儲涉及的技術(shù)主要來自分布式系統(tǒng)及數(shù)據(jù)庫兩個領(lǐng)域,其關(guān)鍵技術(shù)包括以下幾項。(1)數(shù)據(jù)分布。把數(shù)據(jù)均勻地分布在多臺服務(wù)器上面,并能夠?qū)崿F(xiàn)跨服務(wù)器的讀/寫操作。(2)一致性。當數(shù)據(jù)的多個副本被復(fù)制到多臺服務(wù)器上時,在異常情況下不同副本之間的數(shù)據(jù)

43、保持一致。(3)容錯。故障能順利被檢測到,并能夠把出現(xiàn)故障的服務(wù)器上的數(shù)據(jù)和服務(wù)自動遷移到集群中的其他服務(wù)器上。(4)負載均衡。保證新加服務(wù)器在服務(wù)集群中正常運行時,能夠自動完成負載均衡,且在數(shù)據(jù)遷移過程中,不影響其他服務(wù)器。(5)事務(wù)與并發(fā)控制。實現(xiàn)分布式事務(wù),實現(xiàn)多版本并發(fā)控制。(6)易用性。開放對外接口,且容易使用,系統(tǒng)監(jiān)控界面對運維人員友好。2分布式存儲的分類分布式存儲分布式存儲面臨的數(shù)據(jù)大致有以下三類。(1)非結(jié)構(gòu)化數(shù)據(jù):包括所有格式的辦公文檔、文本、圖片、圖像、音頻和視頻信息等。(2)結(jié)構(gòu)化數(shù)據(jù):一般存儲在關(guān)系數(shù)據(jù)庫中,可以用二維關(guān)系表結(jié)構(gòu)來表示。結(jié)構(gòu)化數(shù)據(jù)的模式(schema,包

44、括屬性、數(shù)據(jù)類型以及數(shù)據(jù)之間的聯(lián)系)和內(nèi)容是分開的,數(shù)據(jù)的模式需要預(yù)先定義。(3)半結(jié)構(gòu)化數(shù)據(jù):介于非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)之間,HTML文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的,與結(jié)構(gòu)化數(shù)據(jù)最大的區(qū)別在于,半結(jié)構(gòu)化數(shù)據(jù)的模式結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分,也不需要預(yù)先定義數(shù)據(jù)的模式結(jié)構(gòu)。不同的分布式存儲系統(tǒng)適合處理不同類型的數(shù)據(jù),可以將分布式存儲系統(tǒng)分為分布式文件系統(tǒng)、分布式鍵值(keyvalue)系統(tǒng)、分布式表格系統(tǒng)和分布式數(shù)據(jù)庫四類。1)分布式文件系統(tǒng)互聯(lián)網(wǎng)應(yīng)用需要存儲大量的圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)對象,這類數(shù)據(jù)以對象的形式組織,對象之間沒有關(guān)聯(lián),這樣的數(shù)據(jù)一般稱為BLOB(b

45、inary large object,二進制大對象)數(shù)據(jù)。2分布式存儲的分類分布式存儲分布式文件系統(tǒng)用于存儲BLOB對象,典型的系統(tǒng)有Facebook Haystack及Taobao File System(TFS)。另外,分布式文件系統(tǒng)也常作為分布式表格系統(tǒng)及分布式數(shù)據(jù)庫的底層存儲。例如,谷歌的GFS (Google file system,存儲大文件)可以作為分布式表格系統(tǒng)Google Bigtable的底層存儲,Amazon的EBS(elastic block store,彈性塊存儲)系統(tǒng)可以作為分布式數(shù)據(jù)庫(Amazon RDS)的底層存儲??傮w上看,分布式文件系統(tǒng)存儲BLOB對象、定

46、長塊以及大文件三種類型的數(shù)據(jù)。在系統(tǒng)實現(xiàn)層面,分布式文件系統(tǒng)內(nèi)部按照數(shù)據(jù)塊(chunk)來組織數(shù)據(jù),每個數(shù)據(jù)塊的大小大致相同,每個數(shù)據(jù)塊可以包含多個BLOB對象或定長塊,一個大文件也可以拆分為多個數(shù)據(jù)塊,如圖6-3所示。分布式文件系統(tǒng)將這些數(shù)據(jù)塊分散到存儲集群,處理數(shù)據(jù)復(fù)制、一致性、負載均衡、容錯等分布式系統(tǒng)難題,并將用戶對BLOB對象、定長塊及大文件的操作映射為對底層數(shù)據(jù)塊的操作。2分布式存儲的分類分布式存儲2)分布式鍵值系統(tǒng)分布式鍵值系統(tǒng)用于存儲關(guān)系簡單的半結(jié)構(gòu)化數(shù)據(jù),它只提供基于主鍵的CRUD(create、read、update、delete)功能,即根據(jù)主鍵創(chuàng)建、讀取、更新或刪除一條

47、鍵值記錄。典型的系統(tǒng)有Amazon DynamoDB及Taobao Tair。從數(shù)據(jù)結(jié)構(gòu)的角度看,分布式鍵值系統(tǒng)與傳統(tǒng)的哈希表比較類似,不同的是,分布式鍵值系統(tǒng)支持將數(shù)據(jù)分布到集群中的多個存儲節(jié)點。分布式鍵值系統(tǒng)是分布式表格系統(tǒng)的一種簡化實現(xiàn),一般用作緩存,如Taobao Tair及Memcache。一致性哈希是分布式鍵值系統(tǒng)中常用的數(shù)據(jù)分布技術(shù),因其被Amazon DynamoDB系統(tǒng)使用而變得相當有名。3)分布式表格系統(tǒng)分布式表格系統(tǒng)用于存儲關(guān)系較為復(fù)雜的半結(jié)構(gòu)化數(shù)據(jù),與分布式鍵值系統(tǒng)相比,分布式表格系統(tǒng)不僅支持簡單的CRUD操作,而且支持掃描某個主鍵范圍。分布式表格系統(tǒng)以表格為單位組織數(shù)

48、據(jù),每個表格包括很多行,通過主鍵標識一行,支持根據(jù)主鍵的CRUD功能及范圍查找功能。分布式表格系統(tǒng)借鑒了很多關(guān)系數(shù)據(jù)庫的技術(shù),如支持某種程度上的事務(wù)(如單行事務(wù))、某個實體組(entity group,一個用戶下的所有數(shù)據(jù)往往構(gòu)成一個實體組)下的多行事務(wù)。典型的系統(tǒng)包括Google Bigtable及Megastore,Microsoft Azure Table Storage,Amazon DynamoDB等。2分布式存儲的分類分布式存儲與分布式數(shù)據(jù)庫相比,分布式表格系統(tǒng)主要支持針對單張表格的操作,不支持一些特別復(fù)雜的操作,如多表關(guān)聯(lián)、多表聯(lián)接、嵌套子查詢;另外,在分布式表格系統(tǒng)中,同一個表

49、格的多個數(shù)據(jù)行也不要求包含相同類型的列,適合半結(jié)構(gòu)化數(shù)據(jù)。分布式表格系統(tǒng)是一種很好的權(quán)衡,這類系統(tǒng)可以做到超大規(guī)模,而且支持較多的功能,但實現(xiàn)往往比較復(fù)雜,而且有一定的使用門檻。4)分布式數(shù)據(jù)庫分布式數(shù)據(jù)庫一般是從單機關(guān)系數(shù)據(jù)庫擴展而來的,用于存儲結(jié)構(gòu)化數(shù)據(jù)。分布式數(shù)據(jù)庫采用二維表格組織數(shù)據(jù),提供SQL關(guān)系查詢語言,支持多表關(guān)聯(lián)、嵌套子查詢等復(fù)雜操作,并提供數(shù)據(jù)庫事務(wù)及并發(fā)控制。典型的系統(tǒng)包括MySQL數(shù)據(jù)庫分片(MySQL Sharding)集群、Amazon RDS及Microsoft SQL Azure。分布式數(shù)據(jù)庫支持的功能最為豐富,符合用戶使用習(xí)慣,但可擴展性往往受到限制。當然,這一

50、點并不是絕對的。Google Spanner系統(tǒng)是一個支持多數(shù)據(jù)中心的分布式數(shù)據(jù)庫,它不僅支持豐富的關(guān)系數(shù)據(jù)庫功能,還能擴展到多個數(shù)據(jù)中心的成千上萬臺機器。除此之外,阿里巴巴OceanBase系統(tǒng)也是一個支持自動擴展的分布式關(guān)系數(shù)據(jù)庫。221傳統(tǒng)存儲管理技術(shù)面臨的問題2解決方法數(shù)據(jù)存儲管理據(jù)IT行業(yè)專家稱,全球電子存儲數(shù)據(jù)總量每兩年翻一番。隨著越來越多的企業(yè)走向數(shù)字化,其數(shù)據(jù)量的增長推動了存儲技術(shù),提高了效率和成本效益,并對數(shù)據(jù)管理工具產(chǎn)生了更大的市場需求。許多組織正在考慮采用外包服務(wù)或云存儲選項,包括用于災(zāi)難恢復(fù)和備份的選項,以作為其整體存儲和數(shù)據(jù)管理策略的一部分。在這個過程中,重要的是要知

51、道,存儲服務(wù)的成本變得越來越取決于存儲數(shù)據(jù)、管理技能和工具的整體成本。傳統(tǒng)存儲管理技術(shù)面臨的問題數(shù)據(jù)存儲管理1)傳統(tǒng)存儲方式難以勝任大數(shù)據(jù)信息以監(jiān)控為例,在傳統(tǒng)監(jiān)控系統(tǒng)的構(gòu)架中,基本上都是采用前端設(shè)備搭配NVR的結(jié)構(gòu)模式完成的。在系統(tǒng)中,視頻監(jiān)控的圖像信息分散地存儲在NVR中,或者通過網(wǎng)絡(luò)存儲在服務(wù)器中。不過,這種搭配模式不要說應(yīng)對高清的監(jiān)控,恐怕就是面對當前的全天候標清監(jiān)控,也會在一段時間之后略感吃力,更不要說大數(shù)據(jù)時代高清監(jiān)控來臨時巨大的信息量了。此外,對于傳統(tǒng)的集中式硬盤管理來說,往往會把所有的錄像數(shù)據(jù)集中放在一個存儲硬盤當中,雖然這樣的管理模式可能會給數(shù)據(jù)的調(diào)取或管理帶來一定的便利。但

52、是在數(shù)據(jù)的安全性上,則會面臨著不小的危機。由于當前的硬盤保護能力總體還沒達到一個很高的水平,因此,當硬盤出現(xiàn)損壞或操作系統(tǒng)發(fā)生故障時,所管理的數(shù)據(jù)都會面臨流失的可能。2)空間壓力與管理難度此前,許多用戶的安防管理部門對于視頻監(jiān)控的存儲信息時間都有著明確的規(guī)定,基本在13個月的時間。對于一些更加重要的時刻或視頻數(shù)據(jù)來說,它的保存時間可能會達到半年之久。2傳統(tǒng)存儲管理技術(shù)面臨的問題數(shù)據(jù)存儲管理當大量高清視頻開始涌現(xiàn)時,對于后端的存儲要求也出現(xiàn)了一個極速上升的局面,在這樣的情況下,數(shù)據(jù)量實現(xiàn)二到三倍的增長注定會使傳統(tǒng)的PC硬盤管理或本地NVR模式帶來意料之外的壓力。這樣的局面下,要么是擴充系統(tǒng)的存儲

53、容量,要么是降低存儲的分辨率,不過在這樣的情況下,其結(jié)果就是將成本或存儲的視頻質(zhì)量作為自己的最終代價。3)存儲數(shù)據(jù)的集中管理有待加強從大數(shù)據(jù)時代監(jiān)控系統(tǒng)的整體構(gòu)建來分析,發(fā)現(xiàn)存儲設(shè)備難以兼容等因素。由于大型的監(jiān)控系統(tǒng)往往是分期建設(shè)的,建設(shè)過程中采用的設(shè)備并不一致,因而在最后的應(yīng)用中,這種多品牌、多型號的設(shè)備給監(jiān)控的存儲集中管理帶來很大難度。同時,傳統(tǒng)的DVR或DVS設(shè)備,由于網(wǎng)傳能力有限,很難形成統(tǒng)一存儲、統(tǒng)一監(jiān)控的中心體系架構(gòu),使企業(yè)的治安監(jiān)控出現(xiàn)存儲數(shù)據(jù)查找麻煩、調(diào)度不及時、錄像存儲分散等多種問題。2解決方法數(shù)據(jù)存儲管理1)更改存儲策略許多企業(yè)開始研究把固態(tài)存儲(SSD)運用于存儲管理。雖

54、然SSD層只構(gòu)成整體磁盤存儲相當小的一部分,但是它可以有效地用于改善高端關(guān)鍵業(yè)務(wù)應(yīng)用程序,可以滿足快速吞吐量或輸入/輸出數(shù)據(jù)的要求。絕大多數(shù)存儲的非結(jié)構(gòu)化數(shù)據(jù)不要求高速訪問和吞吐量性能。通常情況下,一個組織的數(shù)據(jù),超過60%駐留在較低性能、更高容量的存儲層。如今,大量的非結(jié)構(gòu)化數(shù)據(jù)已接近其生命周期的尾聲,最終用戶很少訪問,因而這種數(shù)據(jù)可以且應(yīng)該歸檔。雖然與磁帶相比,采用磁盤是一個更昂貴的選項,但是在大多數(shù)組織的備份和災(zāi)難恢復(fù)策略中,采用磁帶存儲仍是一個主流,因為要求更快、更直接訪問數(shù)據(jù)拷貝。存檔空間采用磁帶存儲,同樣是因為其具有重要的存儲和查詢功能,因此,在大多數(shù)組織的整體數(shù)據(jù)管理策略中,磁帶

55、仍然發(fā)揮著關(guān)鍵作用。引入更好的管理工具及主磁盤存儲的重復(fù)數(shù)據(jù)刪除,為企業(yè)提供了一個更全面、更智能的使用存儲的能力。統(tǒng)一存儲已經(jīng)推出簡化存儲區(qū)域網(wǎng)絡(luò)(SAN),并在一個單一的存儲子系統(tǒng)的網(wǎng)絡(luò)附加了存儲(NAS)“單一窗口”的管理能力。軟件定義的存儲也正在改變企業(yè)虛擬化和存儲數(shù)據(jù)的現(xiàn)狀。這些技術(shù)提供了新的功能,允許更多的自動化存儲管理,但它們不能滿足數(shù)據(jù)管理的總體規(guī)劃和決策的要求。2解決方法數(shù)據(jù)存儲管理因此,如今數(shù)據(jù)存儲的實際成本除了其存儲技術(shù)本身進步以外,還需要考慮管理成本。這種情況也會因為數(shù)據(jù)生命周期管理日益嚴格而變得更加復(fù)雜,隨著相關(guān)法律、法規(guī)的要求,這方面的成本也將會越來越高。任何企業(yè)的目

56、標都是以容量和性能的需求來平衡倉儲成本的,而達到這個平衡需要深入了解一個組織是如何產(chǎn)生數(shù)據(jù),并從創(chuàng)建的角度來看如何利用、存儲、破壞或刪除數(shù)據(jù)的。當數(shù)據(jù)移動到歸檔存儲,或當數(shù)據(jù)應(yīng)該被銷毀時,許多組織仍然缺乏數(shù)據(jù)管理策略。因此,引入了Niche存儲技術(shù),以適應(yīng)這些特定的需求和數(shù)據(jù)管理的功能。然而,這些技術(shù)并不總是很好地集成到整體的端到端的解決方案,可能會提高使用存儲服務(wù)供應(yīng)商的風(fēng)險和成本。2)制訂數(shù)據(jù)計劃制訂數(shù)據(jù)計劃是很重要的,因此,一個組織全面負責(zé)管理其數(shù)據(jù)的存儲需求,即使其業(yè)務(wù)外包給數(shù)據(jù)存儲服務(wù)提供商。這種努力包括計劃和創(chuàng)建一個體系結(jié)構(gòu),考慮到新的存儲技術(shù)和性能,并從應(yīng)用層的容量和數(shù)據(jù)可用性的

57、變化考慮其要求。例如,大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)集應(yīng)該在數(shù)據(jù)使用模式及應(yīng)用程序的性能要求的基礎(chǔ)上自動分層。每個磁帶歸檔存儲的千兆字節(jié)的成本要比磁盤存儲的成本低。因此,映射整體的存儲和數(shù)據(jù)使用模式的可用性,以及數(shù)據(jù)集的響應(yīng)和檢索時間要求的業(yè)務(wù)需求,可以顯著地影響存儲服務(wù)的整體成本。2解決方法數(shù)據(jù)存儲管理正在開發(fā)的歸檔解決方案可以無縫地集成到整體的存儲架構(gòu)中,需要進行規(guī)劃,并對數(shù)據(jù)生命周期有詳細的了解。歸檔環(huán)境的體系結(jié)構(gòu)和設(shè)計應(yīng)保持與企業(yè)一致,而不是存儲服務(wù)供應(yīng)商,因為如果數(shù)據(jù)被歸檔到較低的性能存儲平臺,就需要做出一些決定。當然,使用云服務(wù)作為一個整體的端到端的存儲解決方案,對于復(fù)雜數(shù)據(jù)的存儲難題推出了一

58、個全新的層。通常情況下,云團隊管理所有的基礎(chǔ)設(shè)施技術(shù)塔的端到端資源,不只是存儲。融合和hyperconverged基礎(chǔ)設(shè)施解決方案設(shè)計的內(nèi)置自動化可以通過自動化和整合的存儲進行簡化,將服務(wù)器和網(wǎng)絡(luò)管理應(yīng)用遷移到云計算。但由于公共云供應(yīng)商控制數(shù)據(jù)出口,一個組織移動數(shù)據(jù)或從云計算需要確定一個給定的應(yīng)用程序的使用模式,才可以準確預(yù)測其真正的所有權(quán)和管理成本。如果使用得當,許多這些新的存儲技術(shù)可以幫助組織和存儲服務(wù)供應(yīng)商更有效地管理和訪問他們的數(shù)據(jù)增長量。然而,數(shù)據(jù)管理在采購協(xié)議仍然是一個模糊的和隱藏的成本,如果范圍沒有明確界定,存儲管理服務(wù)要以相應(yīng)的價格分開。企業(yè)需要與他們的存儲服務(wù)供應(yīng)商緊密合作,

59、以管理數(shù)據(jù)存儲服務(wù)的成本及數(shù)據(jù)管理服務(wù)。221云存儲的概念2云存儲的網(wǎng)絡(luò)結(jié)構(gòu)云存儲技術(shù)3云存儲的分類4云存儲的用途云存儲的概念云存儲技術(shù)云存儲是在云計算概念上延伸和發(fā)展出來的一個新的概念,是一種新興的網(wǎng)絡(luò)存儲技術(shù),是指通過集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的系統(tǒng)。當云計算系統(tǒng)運算和處理的核心是大量數(shù)據(jù)的存儲和管理時,云計算系統(tǒng)中就需要配置大量的存儲設(shè)備,那么云計算系統(tǒng)就轉(zhuǎn)變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。簡單來說,云存儲就是將存儲資源放到云上供人存取的一

60、種新興方案。使用者可以在任何時間、任何地方,通過任何可聯(lián)網(wǎng)的裝置連接到云上方便地存取數(shù)據(jù)。2云存儲的網(wǎng)絡(luò)結(jié)構(gòu)云存儲技術(shù)云存儲的網(wǎng)絡(luò)結(jié)構(gòu)和互聯(lián)網(wǎng)非常類似,在互聯(lián)網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)中,網(wǎng)絡(luò)的使用者只需要知道接入的ISP和本人用戶名、密碼就可以連接到互聯(lián)網(wǎng),并不需要知道廣域網(wǎng)和互聯(lián)網(wǎng)中到底有多少臺交換機、路由器、防火墻和服務(wù)器,不需要知道數(shù)據(jù)是通過什么樣的路由到達我們的計算機,也不需要知道網(wǎng)絡(luò)中的服務(wù)器安裝了什么軟件,更不需要知道網(wǎng)絡(luò)中各設(shè)備之間采用了什么樣的連接線纜和端口。廣域網(wǎng)和互聯(lián)網(wǎng)對于具體的使用者是完全透明的,我們經(jīng)常用一個云狀的圖形來表示廣域網(wǎng)和互聯(lián)網(wǎng),如圖6-4所示。2云存儲的網(wǎng)絡(luò)結(jié)構(gòu)云存儲技

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論