版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、云計算導論:概念 架構(gòu)與應用第7章 云存儲人民郵電出版社 21世紀高等院校云計算和大數(shù)據(jù)人才培養(yǎng)規(guī)劃教材結(jié)構(gòu)模型概述云存儲架構(gòu)云存儲類型及其適合的應用7.17.2內(nèi)容導航CONTENTS關(guān)鍵技術(shù)典型的云存儲服務7.67.1 概述云存儲這個概念一經(jīng)提出,就得到了眾多廠商的支持和關(guān)注。Amazon公司推出“簡單存儲服務”(Simple Storage Service,S3)技術(shù)支持數(shù)據(jù)持久性存儲;Google推出在線存儲服務Gdrive。云存儲(Cloud Storage)的概念與云計算類似,它是指通過集群應用、網(wǎng)絡技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡中大量各種不同類型的存儲設備通
2、過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。用戶使用云存儲,并不是使用某一個存儲設備,而是使用整個云存儲系統(tǒng)帶來的一種數(shù)據(jù)訪問服務。云存儲的核心是應用軟件與存儲設備相結(jié)合,通過應用軟件來實現(xiàn)存儲設備向存儲服務的轉(zhuǎn)變,是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。當云計算系統(tǒng)運算和處理的核心是大量數(shù)據(jù)的存儲和管理時,云計算系統(tǒng)中就需要配置大量的存儲設備,那么云計算系統(tǒng)就轉(zhuǎn)變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。7.1 概述云存儲系統(tǒng)的通用特征(3)低成本(4)多租戶(5)無接入限制(2)高可擴展性(1)易管理概述云存儲類型及其適合的應用
3、7.1內(nèi)容導航CONTENTS結(jié)構(gòu)模型云存儲架構(gòu)7.2關(guān)鍵技術(shù)典型的云存儲服務7.67.2 結(jié)構(gòu)模型云存儲系統(tǒng)與傳統(tǒng)存儲系統(tǒng)相比,具有如下不同:從功能需求來看,云存儲系統(tǒng)面向多種類型的網(wǎng)絡在線存儲服務,而傳統(tǒng)存儲系統(tǒng)則面向如高性能計算、事務處理等應用從性能需求來看,云存儲服務首先需要考慮的是數(shù)據(jù)的安全、可靠、效率等指標,而且由于用戶規(guī)模大、服務范圍廣、網(wǎng)絡環(huán)境復雜多變等特點,實現(xiàn)高質(zhì)量的云存儲服務必將面臨更大的技術(shù)挑戰(zhàn)從數(shù)據(jù)管理來看,云存儲系統(tǒng)不僅要提供類似于POSIX的傳統(tǒng)文件訪問,還要能夠支持海量數(shù)據(jù)管理并提供公共服務支撐功能,以方便云存儲系統(tǒng)后臺數(shù)據(jù)的維護。7.2 結(jié)構(gòu)
4、模型與傳統(tǒng)的存儲設備相比,云存儲不僅僅是一個硬件,而是一個由網(wǎng)絡設備、存儲設備、服務器、應用軟件、公用訪問接口、接入網(wǎng)和客戶端程序等多個部分組成的復雜系統(tǒng)。各部分以存儲設備為核心,通過應用軟件來對外提供數(shù)據(jù)存儲和業(yè)務訪問服務。存儲層:云存儲最基礎的部分。基礎管理層:云存儲最核心的部分,也是云存儲中最難以實現(xiàn)的部分。應用接口層:不同的云存儲運營單位可以根據(jù)實際業(yè)務類型,開發(fā)不同的應用服務接口,提供不同的應用服務。訪問層:任何一個授權(quán)用戶都可以通過標準的公用應用接口來登錄云存儲系統(tǒng),享受云存儲服務。云存儲的結(jié)構(gòu)模型概述云存儲類型及其適合的應用7.1內(nèi)容導航CONTENTS結(jié)構(gòu)模型7.2云存儲架構(gòu)關(guān)
5、鍵技術(shù)典型的云存儲服務7.67.3 云存儲架構(gòu)云存儲架構(gòu)可以分為兩大類:緊耦合對稱架構(gòu)和松耦合非對稱架構(gòu)。傳統(tǒng)的存儲系統(tǒng)利用緊耦合對稱架構(gòu),這種架構(gòu)的設計旨在解決HPC(高性能計算、超級運算)問題,現(xiàn)在其正在向外擴展成為云存儲,從而滿足快速呈現(xiàn)的市場需求。新的存儲系統(tǒng)已經(jīng)采用了松弛耦合非對稱架構(gòu),集中元數(shù)據(jù)和控制操作,這種架構(gòu)并不非常適合高性能HPC,但是這種設計旨在解決云部署的大容量存儲需求。7.3 云存儲架構(gòu)構(gòu)建TCS系統(tǒng)是為了解決單一文件性能所面臨的挑戰(zhàn),這種挑戰(zhàn)限制了傳統(tǒng)NAS系統(tǒng)的發(fā)展。HPC系統(tǒng)所具有的優(yōu)勢迅速壓倒了存儲,因為它們需要的單一文件I/O操作要比單一設
6、備的I/O操作多得多。為了解決這一問題,業(yè)內(nèi)創(chuàng)建了TCS架構(gòu)的產(chǎn)品,很多節(jié)點同時伴隨著分布式鎖管理(鎖定文件不同部分的寫操作)和緩存一致性功能。緊耦合對稱(TCS)架構(gòu)LCA系統(tǒng)采用不同的方法來向外擴展,它不是通過執(zhí)行某個策略來使每個節(jié)點知道每個行動所執(zhí)行的操作,而是利用一個數(shù)據(jù)路徑之外的中央元數(shù)據(jù)控制服務器。節(jié)點可以利用不同的商品硬件CPU和存儲配置,而且仍然在云存儲中發(fā)揮作用。用戶可以通過利用硬件性能或虛擬化實例來調(diào)整云存儲。消除節(jié)點之間共享的大量狀態(tài)開銷可以消除用戶計算機互聯(lián)的需要,進一步降低成本。異構(gòu)硬件的混合和匹配使用戶能夠在需要的時候在當前經(jīng)濟規(guī)模的基礎上擴大存儲。存儲節(jié)點可以旋轉(zhuǎn)
7、地進行深層次應用程序歸檔,而且在控制節(jié)點上,元數(shù)據(jù)經(jīng)常都是可用的。松弛耦合非對稱(LCA)架構(gòu)這種解決方案對于單文件吞吐量問題很有效,已經(jīng)在很多HPC客戶中得到了廣泛應用,同時也很先進,需要一定程度的技術(shù)經(jīng)驗才能安裝和使用。概述7.1內(nèi)容導航CONTENTS結(jié)構(gòu)模型7.2云存儲架構(gòu)7.3云存儲類型及其適合的應用關(guān)鍵技術(shù)7.47.5典型的云存儲服務7.67.4 云存儲類型及其適合的應用云存儲是為解決傳統(tǒng)存儲無法解決的問題而產(chǎn)生的,并不是要完全取代傳統(tǒng)的存儲。存儲方案的選擇,要根據(jù)數(shù)據(jù)的形態(tài)、數(shù)據(jù)量及數(shù)據(jù)讀寫的方式來做規(guī)劃。每個存儲方案都有它的優(yōu)點與缺點,用戶需要根據(jù)自己的應用場景選擇合適的云存儲
8、類型。我們可以把云存儲分成三類:塊存儲(Block Storage)、文件存儲(File Storage)和對象存儲(Object Storage)。7.4.1 塊存儲塊存儲會把單筆的數(shù)據(jù)寫到不同的硬盤,借以得到較大的單筆讀寫帶寬,適合用在數(shù)據(jù)庫或者需要單筆數(shù)據(jù)快速讀寫的應用。它的優(yōu)點是對單筆數(shù)據(jù)讀寫很快,缺點是成本較高,并且無法解決真正海量文件的存儲。塊存儲系統(tǒng)主要適合于下面兩種應用場合。快速更改的單一文件系統(tǒng)??焖俑膯我晃募睦影〝?shù)據(jù)庫、共用的電子表單。針對單一文件大量寫的高性能計算(HPC)。某些高性能計算有成百上千個使用端,同時讀寫同一個單一的文件,為了提高讀寫效能,這些文件被分
9、布到很多個節(jié)點,這些節(jié)點需要緊密地協(xié)作,才能保證數(shù)據(jù)的完整性,這些應用由集群軟件負責處理復雜的數(shù)據(jù)傳輸。例如石油探勘及財務數(shù)據(jù)模擬。7.4.1 塊存儲兩種塊存儲類型DAS是直接連接于主機服務器的一種儲存方式,每一臺主機服務器有獨立的存儲設備,每臺主機服務器的存儲設備無法互通,需要跨主機存取資料時,必須經(jīng)過相對復雜的設定,是一種應用較為早的技術(shù)實現(xiàn)。DAS(Direct Attached Storage)SAN(Storage Area Network)SAN是一種用高速(光纖)網(wǎng)絡連接專業(yè)主機服務器的一種儲存方式,此系統(tǒng)會位于主機群的后端,它使用高速I/O 連接方式,如SCSI、ESCON 及
10、Fibre-Channels。SAN特點是代價高、性能好。7.4.2 文件存儲文件較大,總讀取帶寬要求較高。例如,網(wǎng)站、IPTV。多個文件同時寫入。例如,監(jiān)控系統(tǒng)。長時間存放的文件。例如,文件備份、存放或搜尋。文件存儲系統(tǒng)適合的應用場合文件的并發(fā)讀取。文件及文件系統(tǒng)本身較大。文件使用期較長。對成本控制要求較高。存儲應用共通的特性文件存儲是基于文件級別的存儲,它是把一個文件放在一個硬盤上,即使文件太大拆分時,也放在同一個硬盤上。它的缺點是對單一文件的讀寫會受到單一硬盤效能的限制,優(yōu)點是對一個多文件、多人使用的系統(tǒng),總帶寬可以隨著存儲節(jié)點的增加而擴展,它的架構(gòu)可以無限制地擴容,并且成本低廉。7.4
11、.3 對象存儲與文件系統(tǒng)不同,對象存儲系統(tǒng)并非將文件組織成一個目錄層次結(jié)構(gòu),而是在一個扁平化的容器組織中存儲文件(在Amazon的S3系統(tǒng)中被稱作“桶”),并使用唯一的ID(在S3中被稱作“關(guān)鍵字”)來檢索它們。其結(jié)果是對象存儲系統(tǒng)相比文件系統(tǒng)需要更少的元數(shù)據(jù)來存儲和訪問文件,并且它們還減少了因存儲元數(shù)據(jù)而產(chǎn)生的管理文件元數(shù)據(jù)的開銷。對象存儲系統(tǒng)是針對Linux集群對存儲系統(tǒng)高性能和數(shù)據(jù)共享的需求而研究的全新的存儲架構(gòu)。Amazon的S3和OpenStack的Swift存儲系統(tǒng)就是典型的對象存儲系統(tǒng)。對象存儲系統(tǒng)的功能通常是最少的,用戶僅僅能夠存儲、檢索、復制和刪除文件,還可以控制哪些用戶可以
12、進行哪些操作。對象存儲系統(tǒng)的HTTP接口允許全球各地的用戶快速、方便地訪問文件。對象存儲的另一大缺點是只支持數(shù)據(jù)的最終一致性。每當用戶更新一個文件,直到這一更改被傳播到所有副本以后,用戶才能獲取到最新版本。對象存儲和文件系統(tǒng)在接口上的本質(zhì)區(qū)別是對象存儲不支持隨機位置讀寫操作。7.4.3 對象存儲對象存儲系統(tǒng)的出現(xiàn)主要是為了滿足數(shù)據(jù)歸檔和云服務兩大需求,對象存儲的主要應用場景如下。0201040301OPTION02OPTION03OPTION04OPTION存儲資源池(空間租賃)。使用對象存儲構(gòu)建類似Amazon S3的存儲空間租賃服務,向個人、企業(yè)或應用提供按需擴展的彈性存儲服務。網(wǎng)盤應用。
13、使用圖形用戶界面(GUI)實現(xiàn)對象存儲資源的封裝,向用戶提供類似百度云的網(wǎng)盤業(yè)務。集中備份。對象存儲通過與Comvault Simpana、Symantec NBU等主流備份軟件結(jié)合,可向用戶提供更具成本效益、更低TCO的集中備份方案。歸檔和分級存儲。對象存儲通過與歸檔軟件、分級存儲軟件結(jié)合,將在線系統(tǒng)中的數(shù)據(jù)無縫歸檔/分級存儲到對象存儲,釋放在線系統(tǒng)存儲資源。7.4.4 小結(jié)Summary云存儲是希望借由服務器便宜的成本及彈性的架構(gòu),解決傳統(tǒng)存儲不能滿足的問題,客戶可以根據(jù)數(shù)據(jù)的形態(tài),選擇合適的存儲方案。對象存儲打破了原來文件系統(tǒng)一統(tǒng)天下的局面,給用戶帶來了更多的選擇,但這并不意味著對象存儲
14、系統(tǒng)可以取代文件系統(tǒng)。文件系統(tǒng)將來的發(fā)展趨勢更多的是專用文件系統(tǒng),而不再是像以前那樣一套文件系統(tǒng)適用于所有場景,更有一些部分要讓位于對象存儲或者其他存儲形態(tài)。對象存儲系統(tǒng)更適合于互聯(lián)網(wǎng)和類似互聯(lián)網(wǎng)的應用場景。對象存儲系統(tǒng)適合存儲海量10KB級到GB級對象/文件的存儲。如果一個應用具有上述兩種特點,就可以考慮使用對象存儲系統(tǒng)。概述7.1內(nèi)容導航CONTENTS結(jié)構(gòu)模型7.2云存儲架構(gòu)7.3云存儲類型及其適合的應用關(guān)鍵技術(shù)7.47.5典型的云存儲服務 存儲虛擬化1主要存儲虛擬化技術(shù)存儲虛擬化技術(shù)雖然在不同設備與廠商之間略有區(qū)別,但從總體來說,可以概括為以下3種:基于存儲設備虛擬化基
15、于存儲網(wǎng)絡虛擬化基于主機虛擬化基于主機的虛擬化存儲的實現(xiàn),其核心技術(shù)是通過增加一個運行在操作系統(tǒng)下的邏輯卷管理軟件將磁盤上的物理塊號映射成邏輯卷號,并以此實現(xiàn)把多個物理磁盤陣列映射成一個統(tǒng)一的虛擬的邏輯存儲空間(邏輯塊),實現(xiàn)存儲虛擬化的控制和管理?;诖鎯υO備虛擬化技術(shù)依賴于提供相關(guān)功能的存儲設備的陣列控制器模塊,常見于高端存儲設備,其主要應用針對異構(gòu)的SAN存儲構(gòu)架。基于存儲網(wǎng)絡虛擬化的技術(shù)的核心是在存儲區(qū)域網(wǎng)中增加虛擬化引擎實現(xiàn)存儲資源的集中管理,其具體實施一般是通過具有虛擬化支持能力的路由器或交換機實現(xiàn)。在此基礎上,存儲網(wǎng)絡虛擬化又可以分為帶內(nèi)虛擬化與帶外虛擬化兩類。7.5.1 存儲虛
16、擬化2存儲虛擬化技術(shù)對比實現(xiàn)層面主機網(wǎng)絡設備優(yōu)點支持異構(gòu)的存儲系統(tǒng);不占用磁盤控制器資源與主機無關(guān),不占用主機資源;能夠支持異構(gòu)主機、異構(gòu)存儲設備;對不同存儲設備構(gòu)建統(tǒng)一管理平臺,可擴展性好與主機無關(guān),不占用主機資源;數(shù)據(jù)管理功能豐富;技術(shù)成熟度高缺點占用主機資源,降低應用性能;存在操作系統(tǒng)和應用的兼容性問題;主機數(shù)量越多,管理成本越高占用交換機資源;面臨帶內(nèi)、帶外的選擇;存儲設備兼容性需要嚴格驗證;原有的磁盤陣列的高級存儲功能將不能使用受制于存儲控制器接口資源,虛擬化能力較弱;異構(gòu)廠家存儲設備的高級存儲功能將不能使用主要用途使服務器的存儲空間可以跨越多個異構(gòu)磁盤陣列,常用于在不同磁盤陣列之間
17、做數(shù)據(jù)鏡像保護異構(gòu)存儲系統(tǒng)整合和統(tǒng)一數(shù)據(jù)管理(災備)異構(gòu)存儲系統(tǒng)整合和統(tǒng)一數(shù)據(jù)管理(災備)適用場景主機已采用SF卷管理,需要新接多臺存儲設備;存儲系統(tǒng)中包含異構(gòu)陣列設備;業(yè)務持續(xù)能力與數(shù)據(jù)吞吐要求較高系統(tǒng)包括不同品牌和型號的主機與存儲設備;對數(shù)據(jù)無縫遷移及數(shù)據(jù)格式轉(zhuǎn)換有較高時間性保證系統(tǒng)中包括自帶虛擬化功能的高端存儲設備與若干需要利舊的中低端存儲不適用場景主機數(shù)量大,采用SF會涉及高昂的費用,待遷入系統(tǒng)數(shù)據(jù)量過大,如果只能采取存儲級遷移方式,數(shù)據(jù)格式轉(zhuǎn)換將耗費大量的時間和人力對業(yè)務持續(xù)能力和穩(wěn)定性要求苛刻需要新購機頭時,費用較高;存在更高端的存儲設備存儲虛擬化技術(shù)對比7.5.2 分布式存儲技術(shù)
18、分布式存儲是通過網(wǎng)絡使用服務商提供的各個存儲設備上的存儲空間,并將這些分散的存儲資源構(gòu)成一個虛擬的存儲設備,數(shù)據(jù)分散的存儲在各個存儲設備上。分布式存儲面臨的數(shù)據(jù)需求比較復雜,大致可以分為三類。1概述非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)一般存儲在關(guān)系數(shù)據(jù)庫中,可以用二維關(guān)系表結(jié)構(gòu)來表示。介于非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)之間,HTML文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、圖像、音頻和視頻信息。7.5.2 分布式存儲技術(shù)分布式文件系統(tǒng)分布式塊存儲系統(tǒng)分布式對象存儲系統(tǒng)分布式表存儲系統(tǒng)目前的分布式文件系統(tǒng)存儲的實現(xiàn)有軟硬件一體和軟硬件分離兩種方式。主要通過NAS虛擬化,或者基于x86硬
19、件集群和分布式文件系統(tǒng)集成在一起,以實現(xiàn)海量非結(jié)構(gòu)化數(shù)據(jù)處理能力。分布式塊存儲系統(tǒng)以標準的Intel/Linux 硬件組件作為基本存儲單元,組件之間通過千兆以太網(wǎng)采用任意點對點拓撲技術(shù)相互連接,共同工作,構(gòu)成大型網(wǎng)格存儲,網(wǎng)格內(nèi)采用分布式算法管理存儲資源。如IBM XIV存儲系統(tǒng)。對象存儲系統(tǒng)是針對Linux集群對存儲系統(tǒng)高性能和數(shù)據(jù)共享的需求而研究的全新的存儲架構(gòu)。對象存儲系統(tǒng)架構(gòu)具有高可擴展性,支持數(shù)據(jù)的并發(fā)讀寫,一般不支持數(shù)據(jù)的隨機寫操作。最典型的應用實例就是Amazon的S3。分布式表格系統(tǒng)以表格為單位組織數(shù)據(jù),每個表格包括很多行,通過主鍵標識一行,支持根據(jù)主鍵的CRUD功能以及范圍查
20、找功能。分布式表格系統(tǒng)借鑒了很多關(guān)系數(shù)據(jù)庫的技術(shù),典型的系統(tǒng)包括Google Bigtable等。2分布式存儲系統(tǒng)的種類不同的分布式存儲系統(tǒng)適合處理不同類型的數(shù)據(jù),分布式存儲系統(tǒng)可以分為以下四類:7.5.2 分布式存儲技術(shù)Summary如今分布式存儲系統(tǒng)已經(jīng)得到了快速的發(fā)展,其技術(shù)已經(jīng)較為成熟。先進的分布式存儲系統(tǒng)必須具備下面幾個特性:高性能:對于分布式系統(tǒng)中的每一個用戶都要盡量減小網(wǎng)絡的延遲和因網(wǎng)絡擁塞、網(wǎng)絡斷開、節(jié)點退出等問題造成的影響;高可靠性:分布式環(huán)境通常都有高可靠性需求,用戶將文件保存到分布式存儲系統(tǒng)的基本要求是數(shù)據(jù)可靠;高可擴展性:分布式存儲系統(tǒng)需要能夠適應節(jié)點規(guī)模和數(shù)據(jù)規(guī)模的擴
21、大;透明性:需要讓用戶在訪問網(wǎng)絡中其他節(jié)點中的數(shù)據(jù)時能感到像是訪問自己本機的數(shù)據(jù)一樣;自治性:分布式存儲系統(tǒng)需要擁有一定的自我維護和恢復功能。小 結(jié)7.5.3 數(shù)據(jù)容錯數(shù)據(jù)容錯技術(shù)是云存儲研究領域的一項關(guān)鍵技術(shù),良好的容錯技術(shù)不但能夠提高系統(tǒng)的可用性和可靠性,而且能夠提高數(shù)據(jù)的訪問效率。數(shù)據(jù)容錯技術(shù)一般都是通過增加數(shù)據(jù)冗余來實現(xiàn)的,以保證即使在部分數(shù)據(jù)失效以后也能夠通過訪問冗余數(shù)據(jù)滿足需求。冗余提高了容錯性,但是也增加了存儲資源的消耗。因此,在保證系統(tǒng)容錯性的同時,要盡可能地提高存儲資源的利用率,以降低成本。目前,常用的容錯技術(shù)主要有基于復制(Replication)的容錯技術(shù)和基于糾刪碼(E
22、rasure Code)的容錯技術(shù)兩種?;趶椭频娜蒎e技術(shù)簡單直觀,易于實現(xiàn)和部署,但是需要為每個數(shù)據(jù)對象創(chuàng)建若干同樣大小的副本存儲空間開銷很大;基于糾刪碼的容錯技術(shù)則能夠把多個數(shù)據(jù)塊的信息融合到較少的冗余信息中,因此能夠有效地節(jié)省存儲空間,但是對數(shù)據(jù)的讀寫操作要分別進行編碼和解碼操作,需要一些計算開銷。7.5.3 數(shù)據(jù)容錯通過集中式的存儲目錄來定位數(shù)據(jù)對象的存儲位置,這種方法可以利用存儲目錄中存放的存儲節(jié)點信息,將數(shù)據(jù)對象的多個副本放置在不同機架上,提高系統(tǒng)的數(shù)據(jù)可靠性,Google文件系統(tǒng)(GFS)、Hadoop 分布式文件系統(tǒng)(HDFS)等都采用這種數(shù)據(jù)布局方式。缺陷是隨著存儲目錄和數(shù)據(jù)
23、對象數(shù)量的增長,查找數(shù)據(jù)對象所需的開銷也會越來越大。此外,還會限制系統(tǒng)的擴展性。副本放置策略一即基于哈希算法的副本布局方法,它完全摒棄了記錄數(shù)據(jù)對象映射信息的做法。該方法需要滿足以下要求。均衡性:根據(jù)節(jié)點權(quán)重為存儲節(jié)點分配數(shù)據(jù)對象。動態(tài)自適應性:當系統(tǒng)中的節(jié)點數(shù)量發(fā)生變化時,需遷移的數(shù)據(jù)量應該盡量少。低性能開銷:盡可能提高存儲效率。高效性:確定副本位置所需的時間開銷盡可能小,理想情況下為O(1)。副本放置策略二1基于復制的容錯技術(shù)基于復制的容錯技術(shù)對一個數(shù)據(jù)對象創(chuàng)建多個相同的數(shù)據(jù)副本,并把得到的多個副本散布到不同的存儲節(jié)點上。當若干數(shù)據(jù)對象失效以后,可以通過訪問其他有效的副本獲取數(shù)據(jù)?;趶椭?/p>
24、的容錯技術(shù)主要關(guān)注數(shù)據(jù)組織結(jié)構(gòu)和數(shù)據(jù)復制策略兩方面的研究。7.5.3 數(shù)據(jù)容錯2基于糾刪碼的容錯技術(shù)基于復制的容錯技術(shù)存儲開銷巨大,要提供冗余度為k的容錯能力,就必須另外創(chuàng)建k個副本,存儲空間的開銷也增大了k倍?;诰幋a的容錯技術(shù)通過對多個數(shù)據(jù)對象進行編碼產(chǎn)生編碼數(shù)據(jù)對象,進而降低完全復制帶來的巨大的存儲開銷。糾刪碼(Erasure Coding)技術(shù)是一類源于信道傳輸?shù)木幋a技術(shù),因為能夠容忍多個數(shù)據(jù)幀的丟失,被引入到分布式存儲領域,使得基于糾刪碼的容錯技術(shù)成為能夠容忍多個數(shù)據(jù)塊同時失效的、最常用的基于編碼的容錯技術(shù)。7.5.4 數(shù)據(jù)備份在以數(shù)據(jù)為中心的時代,數(shù)據(jù)的重要性毋庸置疑,數(shù)據(jù)備份技術(shù)
25、非常重要。數(shù)據(jù)備份技術(shù)是將數(shù)據(jù)本身或者其中的部分在某一時間的狀態(tài)以特定的格式保存下來,以備原數(shù)據(jù)出現(xiàn)錯誤、被誤刪除、惡意加密等各種原因不可用時,可快速準確地將數(shù)據(jù)進行恢復的技術(shù)。數(shù)據(jù)備份是容災的基礎,是為防止突發(fā)事故而采取的一種數(shù)據(jù)保護措施,根本目的是數(shù)據(jù)資源重新利用和保護,核心的工作是數(shù)據(jù)恢復。典型的用戶備份流程是:每天都要在凌晨進行一次增量備份,然后每周末凌晨進行全備份。一旦出現(xiàn)了數(shù)據(jù)災難,用戶可以恢復到某天(注意是以天為單位的)的數(shù)據(jù),因此在最壞的情況下,可能丟失整整一天的數(shù)據(jù)。但是,如果縮小備份時間單位,會影響用戶的正常使用。7.5.4 數(shù)據(jù)備份為了確保數(shù)據(jù)的更高安全性,用戶必須對在線
26、系統(tǒng)實行在線實時復制,盡可能多地采用快照等磁盤管理技術(shù)維持數(shù)據(jù)的高可用性,這樣勢必需要增加很大一部分投資。連續(xù)數(shù)據(jù)保護(CDP)是一種連續(xù)捕獲和保存數(shù)據(jù)變化,并將變化后的數(shù)據(jù)獨立于初始數(shù)據(jù)進行保存的方法,而且該方法可以實現(xiàn)過去任意一個時間點的數(shù)據(jù)恢復。盡管一些廠商推出了CDP產(chǎn)品,然而從它們的功能上分析,還做不到真正連續(xù)的數(shù)據(jù)保護,比如有的產(chǎn)品備份時間間隔為一小時,那么在這一小時內(nèi)仍然存在數(shù)據(jù)丟失的風險CDP系統(tǒng)可能基于塊、文件或應用,并且為數(shù)量無限的可變恢復點提供精細的可恢復對象。CDP可以提供更快的數(shù)據(jù)檢索、更強的數(shù)據(jù)保護和更高的業(yè)務連續(xù)性能力,而與傳統(tǒng)的備份解決方案相比,CDP的總體成本
27、和復雜性都要低。CDP系統(tǒng)的特點7.5.5 數(shù)據(jù)縮減技術(shù)自動精簡配置是一種存儲管理的特性,核心原理是“欺騙”操作系統(tǒng),讓操作系統(tǒng)認為存儲設備中有很大的存儲空間,而實際的物理存儲空間則沒有那么大。自動精簡配置技術(shù)是利用虛擬化方法減少物理存儲空間的分配,最大限度提升存儲空間利用率。這種技術(shù)節(jié)約的存儲成本可能會非常巨大,并且使存儲的利用率超90。自動精簡配置這項技術(shù)最初由3Par公司開發(fā),目前支持自動精簡配置的廠商正在快速增加。隨著自動精簡配置的存儲越來越多,物理存儲的耗盡成為自動精簡配置環(huán)境中經(jīng)常出現(xiàn)的風險。因此,告警、通知和存儲分析成為必要的功能,并且對比傳統(tǒng)環(huán)境,其在自動精簡配置的環(huán)境中扮演了
28、更主要的角色。利用云存儲中的數(shù)據(jù)縮減技術(shù),可以滿足海量信息爆炸式增長趨勢,一定程度上節(jié)約企業(yè)存儲成本,提高效率。1自動精簡配置7.5.5 數(shù)據(jù)縮減技術(shù)2自動存儲分層自動存儲分層(Automated Storage Tier,AST)技術(shù)能夠在同一陣列的不同類型介質(zhì)間遷移數(shù)據(jù),主要用來幫助數(shù)據(jù)中心最大程度地降低成本和復雜性。 自動存儲分層管理系統(tǒng)的基本業(yè)務能夠?qū)⑹褂貌活l繁的數(shù)據(jù)安全地遷移到較低的存儲層中并削減存儲成本,把頻繁使用的數(shù)據(jù)遷移到更高性能的存儲層中。自動存儲分層(AST)在于兩個目標:降低成本和提高性能。自動存儲分層技術(shù)的特點是其分層的自動化和智能化。自動存儲分層的重要性隨著固態(tài)存儲在
29、當前磁盤陣列中的采用而提升。7.5.5 數(shù)據(jù)縮減技術(shù)目前最常見的“Sub-LUN”式自動分層存儲技術(shù),可視為是以下三個功能的綜合。(1)存儲虛擬化。將分散在不同存儲層的磁盤區(qū)塊,組合成虛擬的Volume或LUN。也就是將Volume或LUN的區(qū)塊分散到不同存儲層上。(2)存取行為的追蹤統(tǒng)計與分析。持續(xù)追蹤與統(tǒng)計每個磁盤區(qū)塊的存取頻率,并透過定期分析,識別出存取頻率高的“熱”區(qū)塊,與存取頻率低的“冷”區(qū)塊。(3)數(shù)據(jù)遷移。以存取頻率為基礎,定期執(zhí)行數(shù)據(jù)搬移,將熱點區(qū)塊數(shù)據(jù)搬移到高速存儲層,較不活躍的冷區(qū)塊數(shù)據(jù)則搬移到低速存儲層。比較自動分層存儲技術(shù)時,需注意的功能與參數(shù)包括支持的存儲層級數(shù)目、針
30、對各存儲層I/O負載與效能的監(jiān)控功能等,不過最重要的兩個標準分別是“精細度”與“運算周期”。 “精細度”是指系統(tǒng)以多大的磁盤單位,來執(zhí)行存取行為收集分析與數(shù)據(jù)遷移操作,理論上越精細、越小越好,不過副作用是越精細,將會增加追蹤統(tǒng)計操作給控制器帶來的負擔。“運算周期”則是指系統(tǒng)多久執(zhí)行一次存取行為統(tǒng)計分析與數(shù)據(jù)遷移操作,這會影響系統(tǒng)能多快的反映磁盤存取行為的變化,運算周期越短、越密集,系統(tǒng)將能更快的依照最新的磁盤存取特性,重新配置數(shù)據(jù)在不同磁盤層集中的分布。7.5.5 數(shù)據(jù)縮減技術(shù)3重復數(shù)據(jù)刪除物理存儲設備在使用一段時間后必然會出現(xiàn)大量重復的數(shù)據(jù)?!爸貜蛣h除”技術(shù) (De-duplication)
31、作為一種數(shù)據(jù)縮減技術(shù)可對存儲容量進行優(yōu)化。它通過刪除數(shù)據(jù)集中重復的數(shù)據(jù),只保留其中一份,從而消除冗余數(shù)據(jù)。使用重復刪除技術(shù)可以將數(shù)據(jù)縮減到原來的1/201/50。由于大幅度減少了對物理存儲空間的信息量,進而減少傳輸過程中的網(wǎng)絡帶寬、節(jié)約設備成本、降低能耗。重復數(shù)據(jù)刪除技術(shù)原理是按照消重的粒度可以分為文件級和數(shù)據(jù)塊級,重復數(shù)據(jù)刪除技術(shù)主要分為兩類。Net App公司為其所有的系統(tǒng)提供重復數(shù)據(jù)刪除選項,并且可以針對每個卷進行激活。此外,重復數(shù)據(jù)刪除會對數(shù)據(jù)可靠性產(chǎn)生影響。完全文件檢測技術(shù)主要通過Hash技術(shù)進行數(shù)據(jù)挖掘;細粒度的相同數(shù)據(jù)塊主要通過固定分塊檢測技術(shù)、可變分塊檢測技術(shù)、滑動塊技術(shù)進行重
32、復數(shù)據(jù)的查找與刪除。利用數(shù)據(jù)自身的相似性特點,通過Shingle技術(shù)、Bloom Filter技術(shù)和模式匹配技術(shù)挖掘出相同數(shù)據(jù)檢測技術(shù)不能識別的重復數(shù)據(jù)。相同數(shù)據(jù)的檢測技術(shù)相似數(shù)據(jù)的檢測與編碼技術(shù)7.5.5 數(shù)據(jù)縮減技術(shù)4數(shù)據(jù)壓縮數(shù)據(jù)壓縮就是將收到的數(shù)據(jù)通過存儲算法存儲到更小的空間中去。壓縮算法分為無損壓縮和有損壓縮。相對于有損壓縮來說,無損壓縮的占用空間大,壓縮比不高,但是它有效地保存了原始信息,沒有任何信號丟失。數(shù)據(jù)壓縮中使用的LZS算法基于LZ77實現(xiàn),主要由部分構(gòu)成:滑窗(Sliding Window)和自適應編碼(Adaptive Coding),如下圖所示。壓縮處理時,在滑窗中查找
33、與待處理數(shù)據(jù)相同的塊,并用該塊在滑窗中的偏移值及塊長度替代待處理數(shù)據(jù),從而實現(xiàn)壓縮編碼。此外,壓縮和去重是互補性的技術(shù),提供去重的廠商通常也提供壓縮。7.5.5 數(shù)據(jù)縮減技術(shù)5內(nèi)容分發(fā)網(wǎng)絡技術(shù)內(nèi)容分發(fā)網(wǎng)絡(Content Distribute Network,CDN)是一種新型網(wǎng)絡構(gòu)建模式,主要是針對現(xiàn)有的互聯(lián)網(wǎng)進行改造?;舅枷胧潜M量避開互聯(lián)網(wǎng)上由于網(wǎng)絡帶寬小、網(wǎng)點分布不均、用戶訪問量大等影響數(shù)據(jù)傳輸速度和穩(wěn)定性的弊端,使數(shù)據(jù)傳輸?shù)母?、更穩(wěn)定。CDN部署結(jié)構(gòu)方法是通過在網(wǎng)絡各處放置節(jié)點服務器,在現(xiàn)有互聯(lián)網(wǎng)的基礎之上構(gòu)成一層智能虛擬網(wǎng)絡,實時的根據(jù)網(wǎng)絡流量、各節(jié)點的連接和負載情況等信息將用戶
34、的請求重新導向離用戶最近的服務節(jié)點上。概述7.1內(nèi)容導航CONTENTS結(jié)構(gòu)模型7.2云存儲架構(gòu)7.3云存儲類型及其適合的應用關(guān)鍵技術(shù)7.47.5典型的云存儲服務7.67.6 典型的云存儲服務云存儲的概念一經(jīng)提出,就得到了眾多廠商的支持和關(guān)注。目前,業(yè)內(nèi)企業(yè)針對云存儲推出了很多種不同種類的云服務,Microsoft、EMC、Amazon、和Google等就是代表,下面將簡要介紹這幾個企業(yè)的云服務平臺產(chǎn)品。7.6.1 EMC ATMOSEMC ATOMS是第一套容量高達數(shù)千兆兆字節(jié)(PetaByte,簡稱PB)的信息管理解決方案。ATMOS能通過全球云存儲環(huán)境,協(xié)助客戶將大量非結(jié)構(gòu)化數(shù)據(jù)進行自動
35、管理。憑借其全球集中化管理與自動化信息配置功能,可以使Web 2.0用戶、互聯(lián)網(wǎng)服務提供商、媒體與娛樂公司等安全地構(gòu)建和實現(xiàn)云端信息管理服務。EMC ATMOS的領先優(yōu)勢在于信息配送與處理的能力,采用基于策略的管理系統(tǒng)來創(chuàng)建不同層級的云存儲。ATMOS可以為非付費用戶和付費用戶創(chuàng)建不同的服務級別,付費用戶創(chuàng)建副本更多,保存在全球范圍內(nèi)的多個站點,并確保更高的可靠性和更快的讀取速度。EMC ATMOS內(nèi)置數(shù)據(jù)壓縮、重復數(shù)據(jù)刪除功能,以及多客戶共享與網(wǎng)絡服務應用程序設計接口(API)功能。EMC ATOMS簡介7.6.1 EMC ATMOSEMC ATMOS將強大的存儲容量與管理策略相結(jié)合,隨時隨
36、地自動分配數(shù)據(jù)。結(jié)合功能強大的對象元數(shù)據(jù)與策略型數(shù)據(jù)管理功能,能有效進行數(shù)據(jù)配置服務。復制、版本控制、壓縮、重復數(shù)據(jù)刪除、磁盤休眠等數(shù)據(jù)管理服務。網(wǎng)絡服務應用程序設計接口包括REST和SOAP,幾乎所有應用程序都能輕松整合。內(nèi)含自動管理和修復功能,以及統(tǒng)一命名空間與瀏覽器管理工具。這些功能可大幅減少管理時間,實現(xiàn)任何地點輕松控制和管理。多客戶共享支持功能,可讓同一基礎架構(gòu)執(zhí)行多種應用程序,并被安全地分隔,這項功能最適合需要云存儲解決方案的大型企業(yè)。EMC ATMOS云存儲基礎架構(gòu)解決方案內(nèi)含一套價格經(jīng)濟的高密度存儲系統(tǒng)。目前ATMOS推出三個版本,系統(tǒng)容量分別為120TB、240TB以及360
37、TB。EMC ATMOS的主要功能與特色7.6.2 Amazon云存儲服務Amazon S3是一個公有云服務,Web開發(fā)人員能夠存儲各種數(shù)據(jù)資源(如圖片、視頻、音樂和文檔等),以便在應用程序中使用。使用S3時,它就像一個位于互聯(lián)網(wǎng)的機器,有一個包含數(shù)字資產(chǎn)的硬盤驅(qū)動。實際上,它涉及位于多個地理位置的許多機器,其中包含數(shù)據(jù)資源或者數(shù)據(jù)資源的某些部分。Amazon還處理所有復雜的服務請求,可以存儲數(shù)據(jù)并檢索數(shù)據(jù)。1Amazon S3Amazon云服務的名稱是Amazon WebServices(AWS)。除了彈性計算云(Elastic Compute Cloud,EC2)之外,Amazon還提供了
38、兩類云存儲服務,簡單存儲服務(Simple Storage Service,S3)和彈性塊存儲服務(Elastic Block Storage,EBS)。7.6.2 Amazon云存儲服務Amazon的S3服務提供了RESTful API,用戶能夠使用任何支持HTTP通信的語言訪問S3。JetS3t項目是一個開源Java庫,可以抽象出使用S3的REST API的細節(jié),將API公開為常見的Java方法和類。JetS3t使S3和Java語言的工作變得更加簡單,從根本上提高了效率。Amazon S3主要功能介紹理論上,S3是一個全球存儲區(qū)域網(wǎng)絡(SAN),它表現(xiàn)為一個超大的硬盤,用戶可以在其中存儲和
39、檢索數(shù)據(jù)資源。但是,從技術(shù)上講,Amazon S3采用的是對象存儲架構(gòu)。通過S3存儲和檢索的資源被稱為對象。對象存儲在存儲桶(Bucket)中。用戶可以用硬盤進行類比:對象就像是文件,存儲桶就像是文件夾(或目錄)。與硬盤一樣,對象和存儲桶也可以通過統(tǒng)一資源標識符(Uniform Resource Identifier,URI)查找。S3還提供了指定存儲桶和對象的所有者和權(quán)限的能力,就像對待硬盤的文件和文件夾一樣。在S3中定義對象或存儲桶時,用戶可以指定一個訪問控制策略。7.6.2 Amazon云存儲服務Amazon EBS 提供可用性高、可靠性強且可預測的存儲卷,并可以與一個正在運行 Amaz
40、on EC2實例相連接且在實例中顯示的為一個設備。Amazon EBS卷能獨立于實例的生命周期而存在。Amazon EBS特別適合需要建立數(shù)據(jù)庫、文件系統(tǒng)或可訪問原始數(shù)據(jù)塊級存儲的應用程序。存儲卷的行為就像是一個原始的、未格式化的塊設備,且具有用戶提供的設備名稱和一個塊設備接口。Amazon EBS卷可以是1GB到1TB的大小,可以被掛接到相同可用區(qū)域內(nèi)的任何一個Amazon EC2上。一個卷一次只能掛載到一個實例之上,但是多個卷卻可以掛載到同一個實例上。Amazon EBS卷還可以作為Amazon EC2 實例的一個引導分區(qū)。Amazon EBS卷是設計為高可用和高可靠的。2Amazon EBSAmazon Elastic Block Store(EBS)為Amazon EC2實例提供塊級存儲容量。主要功能有:7.6.3 Googl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年時尚行業(yè)3D建模服裝設計報告
- 《基于患者依從性評價的PCI術(shù)后心臟康復治療優(yōu)化方案研究》教學研究課題報告
- 現(xiàn)代農(nóng)田輸電技術(shù)方案文本
- 木工作品創(chuàng)作流程指導手冊
- 急診重癥醫(yī)學一體化建設方案
- 醫(yī)療器械使用和維護培訓教材
- 醫(yī)療器械采購流程標準操作程序
- 移動應用開發(fā)項目計劃書及風險管理
- 高校班主任工作經(jīng)驗交流稿
- 機械制造企業(yè)安全操作規(guī)程大全
- 西安大地種苗有限公司種子加工儲備中心建設項目(固廢環(huán)保設施)竣工環(huán)境保護驗收監(jiān)測報告
- 不銹鋼管道安裝施工工藝
- 當代藝術(shù)賞析課件
- GB/T 6003.1-2022試驗篩技術(shù)要求和檢驗第1部分:金屬絲編織網(wǎng)試驗篩
- GB/T 96.1-2002大墊圈A級
- 印章證照外借申請登記表
- 2022年天津市津南創(chuàng)騰經(jīng)濟開發(fā)有限公司招聘筆試試題及答案解析
- 金屬非金屬露天礦山安全生產(chǎn)責任制(含安全手冊)
- 國家開放大學電大《外國文學專題(本)》期末題庫及答案
- 高壓線跨越鐵路跨越架搭設方案
- 電力設計收費標準
評論
0/150
提交評論