分布式與云計(jì)算系統(tǒng)第2章_第1頁(yè)
分布式與云計(jì)算系統(tǒng)第2章_第2頁(yè)
分布式與云計(jì)算系統(tǒng)第2章_第3頁(yè)
分布式與云計(jì)算系統(tǒng)第2章_第4頁(yè)
分布式與云計(jì)算系統(tǒng)第2章_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 22.1大規(guī)模并行集群l計(jì)算機(jī)集群(computer cluster)由相互聯(lián)系的個(gè)體計(jì)算機(jī)聚集組成,這些計(jì)算機(jī)之間相互聯(lián)系并且共同工作.l對(duì)于用戶來(lái)說(shuō),計(jì)算機(jī)集群如同一個(gè)獨(dú)立完整的計(jì)算資源池。l集群化實(shí)現(xiàn)作業(yè)級(jí)的大規(guī)模并行,并通過(guò)獨(dú)立操作實(shí)現(xiàn)高可用性。4計(jì)算機(jī)集群的設(shè)計(jì)宗旨:l可擴(kuò)展性:計(jì)算機(jī)集群化是基于模塊化增長(zhǎng)的概念. 將幾百個(gè)單處理器節(jié)點(diǎn)的集群擴(kuò)展為10 000個(gè)多核節(jié)點(diǎn)的超級(jí)集群。這一些因素限制: 如磁盤I/O瓶頸、集群拓?fù)浣Y(jié)構(gòu)、內(nèi)存墻、電力消耗和冷控制技術(shù)應(yīng)用。 l封裝:集群節(jié)點(diǎn)可以被封裝成緊湊或者松散的形式。封裝直接影響通信線路的長(zhǎng)度,需要選擇合適的互連技術(shù)。緊湊集群通常利用

2、專有的高帶寬、低延遲的通信網(wǎng)絡(luò),而松散集群節(jié)點(diǎn)一般由標(biāo)準(zhǔn)的局域網(wǎng)或廣域網(wǎng)連接。 5l控制:集群能夠以集中或分散的形式被控制或管理。緊湊集群通常集中控制,而松散集群可以采取另一種方式。在集中式集群中,中心管理者擁有、控制、管理和操作所有節(jié)點(diǎn)。在分散式集群中,節(jié)點(diǎn)有各自的擁有者。它同樣需要進(jìn)程調(diào)度、負(fù)載遷移、檢查點(diǎn)、記賬和其他類似任務(wù)的特殊技術(shù)。 l同構(gòu)性:同構(gòu)集群采用來(lái)自相同平臺(tái)的節(jié)點(diǎn),即節(jié)點(diǎn)具有相同處理器體系結(jié)構(gòu)和相同操作系統(tǒng)。異構(gòu)集群使用來(lái)自不同平臺(tái)的節(jié)點(diǎn)。互操作性是異構(gòu)集群的一個(gè)非常重要的問(wèn)題。在同構(gòu)集群中,二進(jìn)制進(jìn)程鏡像可以遷移到另一個(gè)節(jié)點(diǎn)并能夠繼續(xù)執(zhí)行。這在異構(gòu)集群中是不允許的,因?yàn)楫?dāng)

3、進(jìn)程遷移到不同平臺(tái)的節(jié)點(diǎn)上時(shí),二進(jìn)制代碼不繼續(xù)執(zhí)行。 6l安全性:集群內(nèi)通信可以是開放的或封閉的。開放集群外界機(jī)器可采用標(biāo)準(zhǔn)協(xié)議(如TCP/IP)訪問(wèn)通信路徑,從而訪問(wèn)單獨(dú)節(jié)點(diǎn)。有幾個(gè)缺點(diǎn):集群內(nèi)通信變得不安全; 標(biāo)準(zhǔn)通信協(xié)議往往具有巨大的開銷。l專用集群和企業(yè)集群:專用集群由相同類型的計(jì)算機(jī)節(jié)點(diǎn)同構(gòu)配置,被用于代替?zhèn)鹘y(tǒng)的大型機(jī)或超級(jí)計(jì)算機(jī),極大地提高了吞吐量,并且減少了響應(yīng)時(shí)間。企業(yè)集群主要利用節(jié)點(diǎn)的閑置資源,每個(gè)節(jié)點(diǎn)通常是一個(gè)完整的SMP、工作站或PC及其所有必要的外部設(shè)備。通常是由異構(gòu)計(jì)算機(jī)節(jié)點(diǎn)配置的。7基礎(chǔ)集群設(shè)計(jì)問(wèn)題:l可擴(kuò)展性能:資源擴(kuò)展(集群節(jié)點(diǎn)、內(nèi)存容量、I/O帶寬等)使性能成

4、比例增長(zhǎng) l單系統(tǒng)鏡像(SSI):集群是一個(gè)單一獨(dú)立的系統(tǒng)。 l可用性支持:集群能夠利用處理器、內(nèi)存、磁盤、I/O設(shè)備、網(wǎng)絡(luò)和操作系統(tǒng)鏡像的大量冗余提供低成本、高可用性的性能。 l集群作業(yè)管理:實(shí)現(xiàn)高系統(tǒng)利用率,作業(yè)管理軟件需要提供批量、負(fù)載均衡和并行處理等功能。 8l節(jié)點(diǎn)間通信:集群由于具有更高的節(jié)點(diǎn)復(fù)雜度,故不能被封裝得如MPP節(jié)點(diǎn)一樣的簡(jiǎn)潔。集群內(nèi)節(jié)點(diǎn)之間的物理網(wǎng)線長(zhǎng)度比MPP長(zhǎng)。 l容錯(cuò)和恢復(fù):機(jī)器集群能夠消除所有的單點(diǎn)失效。集群能在一定程度上容忍出錯(cuò)的情況。故障節(jié)點(diǎn)上運(yùn)行的關(guān)鍵作業(yè)可以被轉(zhuǎn)移到正常運(yùn)行的節(jié)點(diǎn)上?;貪L恢復(fù)機(jī)制通過(guò)周期性記錄檢查點(diǎn)來(lái)恢復(fù)計(jì)算結(jié)果。9集群分類:l計(jì)算集群:主

5、要用于單一大規(guī)模作業(yè)的集體計(jì)算。當(dāng)單一計(jì)算作業(yè)需要集群中節(jié)點(diǎn)間的頻繁通信,該集群必須共享一個(gè)專用網(wǎng)絡(luò),因而這些節(jié)點(diǎn)大多是同構(gòu)和緊耦合的。緊耦合計(jì)算集群用于超級(jí)計(jì)算應(yīng)用。 l高可用性集群:用于容錯(cuò)和實(shí)現(xiàn)服務(wù)的高可用性。高可用性集群中有很多冗余節(jié)點(diǎn)以容忍故障或失效。l負(fù)載均衡集群:通過(guò)使集群中所有節(jié)點(diǎn)的負(fù)載均衡而達(dá)到更高的資源利用??梢栽诓煌瑱C(jī)器間平衡負(fù)載,從而達(dá)到更高的資源利用或性能。 10Figure 2.1 Architectural share of the Top-500 systems (Courtesy of 25)11圖2-2 Top500

6、超級(jí)計(jì)算機(jī)的性能變化曲線(19932010) 121314圖2-3 前5名超級(jí)計(jì)算機(jī)的能耗和性能(2010年11月)152.2 計(jì)算機(jī)集群和MPP體系結(jié)構(gòu)基本集群體系結(jié)構(gòu)圖2-4 由商用硬件、軟件、中間件和網(wǎng)絡(luò)組件構(gòu)成的計(jì)算機(jī)體系結(jié)構(gòu)16Resource Sharing in Cluster of Computers圖2-5 連接集群節(jié)點(diǎn)的三種方式(P/C:處理器和緩存;M:內(nèi)存;D:磁盤;NIC:網(wǎng)卡;MIO:內(nèi)存-I/O橋)17節(jié)點(diǎn)結(jié)構(gòu)和節(jié)點(diǎn)結(jié)構(gòu)和MPPMPP封裝封裝:IBM BlueGeneIBM BlueGene/L Supercomputer:/L Supercomputer: Th

7、e World Fastest Message-Passing MPP built in 2005The World Fastest Message-Passing MPP built in 2005 18集群系統(tǒng)互連 19谷歌搜索引擎集群體系結(jié)構(gòu) 20圖2-8 Top500系統(tǒng)高帶寬互連的分布情況 21圖2-9 InfiniBand系統(tǒng)構(gòu)造在典型高性能計(jì)算機(jī)集群中的應(yīng)用( HCA 主機(jī)通道適配器)22硬件、軟件和中間件支持 23大規(guī)模并行GPU集群 圖2-11 實(shí)現(xiàn)Echelon系統(tǒng)的20Tflops和1.6TB/s內(nèi)存帶寬的GPU芯片設(shè)計(jì)(L2隨機(jī)處理器、SM流多核處理器、LP延處理器、N

8、I網(wǎng)絡(luò)接口)24圖2-12 由GPU層次網(wǎng)絡(luò)構(gòu)成的NVIDIA Echelon系統(tǒng)的體系結(jié)構(gòu),其中每個(gè)機(jī)柜可以提供2.6Pflops的性能,至少需要N=400個(gè)機(jī)柜才能實(shí)現(xiàn)所需的Eflops性能25CUDA并行編程nCUDA(Compute Unified Device Architecture,計(jì)算統(tǒng)一設(shè)備體系結(jié)構(gòu))由NVIDIA開發(fā),提供并行計(jì)算體系結(jié)構(gòu)。CUDA是NVIDIA GPU中的計(jì)算引擎,允許開發(fā)者通過(guò)標(biāo)準(zhǔn)程序語(yǔ)言訪問(wèn)。程序員可以使用NVIDIA擴(kuò)展和受限的CUDA C。CUDA C通過(guò)PathScale Open64 C編譯器編譯,可以在大量GPU核上并行執(zhí)行。262.3 計(jì)算

9、機(jī)集群的設(shè)計(jì)原則單系統(tǒng)鏡像特征:l單一系統(tǒng) 用戶將整個(gè)集群作為一個(gè)多處理器系統(tǒng)。l單一控制 邏輯上,一個(gè)終端用戶或系統(tǒng)用戶在一個(gè)地方只能通過(guò)單一的接口使用服務(wù)。l對(duì)稱性 用戶可以從任意節(jié)點(diǎn)使用集群服務(wù)。除了受到訪問(wèn)權(quán)限保護(hù)的部分,所有集群服務(wù)和功能對(duì)于所有節(jié)點(diǎn)和所有用戶是對(duì)稱的。l位置透明性 用戶并不了解什么位置的物流設(shè)備最后提供了服務(wù)。27單系統(tǒng)鏡像(SSI)包括單一入口、單文件層次、單一I/O空間、單一網(wǎng)絡(luò)機(jī)制、單一控制點(diǎn)、單一作業(yè)管理系統(tǒng)、單一內(nèi)存空間和單一進(jìn)程空間。 圖2-13 采用負(fù)載均衡的域名服務(wù)器(DNS)實(shí)現(xiàn)單一入口28圖2-14單文件層次中存儲(chǔ)的三種類型。實(shí)線表示進(jìn)程P可以訪

10、問(wèn),虛線表示P可能被允許訪問(wèn)29圖2-15具有單一網(wǎng)絡(luò)連接、單一I/O空間、單一內(nèi)存和單點(diǎn)控制的集群30圖2-16 在連接到集群中4個(gè)主機(jī)的12個(gè)分布式磁盤之上具有單一I/O空間的分布式RAID體系結(jié)構(gòu) 31SSI的最終目標(biāo)是使得集群如同臺(tái)式計(jì)算機(jī)一樣易于使用,SSI額外特征:l單一作業(yè)管理系統(tǒng) 所有集群作業(yè)能夠由任意節(jié)點(diǎn)提交到單一作業(yè)管理系統(tǒng)。l單一用戶接口 用戶通過(guò)單一圖形界面使用集群。l單一進(jìn)程空間 各節(jié)點(diǎn)的所有用戶進(jìn)程形成單一進(jìn)程空間,并且共享統(tǒng)一進(jìn)程認(rèn)證機(jī)制。lSSI集群化的中間件 在集群應(yīng)用的三個(gè)層次上,中間件支持各種SSI特征。32l管理級(jí) 該級(jí)處理用戶應(yīng)用程序,并且提供作業(yè)管理

11、系統(tǒng)。l編程級(jí) 該級(jí)提供單一文件層次(NFS、xFS、AFS、Proxy)和分布式共享內(nèi)存l實(shí)現(xiàn)級(jí) 該級(jí)支持單一進(jìn)程空間、檢查點(diǎn)機(jī)制、進(jìn)程遷移和單一I/O空間。33圖2-17 在作業(yè)管理、編程和實(shí)現(xiàn)級(jí)上集群化中間件的關(guān)系34冗余高可用性l可靠性根據(jù)系統(tǒng)不發(fā)生故障的運(yùn)行時(shí)間衡量。l可用性表示系統(tǒng)對(duì)用戶可用的時(shí)間百分比,即系統(tǒng)正常運(yùn)行的時(shí)間百分比。l可服務(wù)性與服務(wù)系統(tǒng)的容易程度相關(guān),包括硬件和軟件維護(hù)、修復(fù)、升級(jí)等。3536圖2-19 SMP和三個(gè)集群中的單點(diǎn)失效(SPF),由a到d,其中冗余越大,消除的單點(diǎn)失效也越多37容錯(cuò)集群配置l熱備份服務(wù)器集群 只有主要節(jié)點(diǎn)積極完成所有有用的工作。備份節(jié)點(diǎn)

12、啟動(dòng)(熱)和運(yùn)行一些監(jiān)控程序來(lái)發(fā)送與接收心跳信號(hào)以檢測(cè)主要節(jié)點(diǎn)的狀態(tài),但并不積極運(yùn)行其余有價(jià)值的工作。l主動(dòng)接管集群 多個(gè)服務(wù)器節(jié)點(diǎn)的體系結(jié)構(gòu)是對(duì)稱的。兩個(gè)服務(wù)器都是主要的,正常完成有價(jià)值的任務(wù)。兩個(gè)服務(wù)器節(jié)點(diǎn)通常都支持故障切換和恢復(fù)。l故障切換集群 當(dāng)一個(gè)組件失效時(shí),該技術(shù)允許剩余系統(tǒng)接管之前由失效組件提供的服務(wù)。故障切換機(jī)制必須提供一些功能,如失效診斷、失效通知和失效恢復(fù)。 38檢查點(diǎn)和恢復(fù)技術(shù)l檢查點(diǎn)和恢復(fù)這兩種技術(shù)必須共同發(fā)展,才能提高集群系統(tǒng)的可用性。l某個(gè)進(jìn)程周期性地保存執(zhí)行程序的狀態(tài)至穩(wěn)定存儲(chǔ)器,系統(tǒng)在失效后能夠根據(jù)這些信息得以恢復(fù)。l每一個(gè)被保存的程序狀態(tài)稱為檢查點(diǎn)。包含被保存

13、狀態(tài)的磁盤文件稱為檢查點(diǎn)文件。雖然目前所有的檢查點(diǎn)軟件在磁盤中保存程序狀態(tài),但是使用節(jié)點(diǎn)內(nèi)存替代穩(wěn)定存儲(chǔ)器來(lái)提高性能還處在研究階段。392.4 集群作業(yè)和資源管理集群作業(yè)調(diào)度方法l集群作業(yè)可能在一個(gè)指定的時(shí)間(日歷調(diào)度),或者在特定事件發(fā)生(事件調(diào)度)時(shí)被調(diào)度運(yùn)行。l根據(jù)提交時(shí)間、資源節(jié)點(diǎn)、執(zhí)行時(shí)間、內(nèi)存、磁盤、作業(yè)類型及用戶認(rèn)證的優(yōu)先級(jí),作業(yè)被調(diào)度。l靜態(tài)優(yōu)先級(jí)指的是根據(jù)預(yù)定的方案,作業(yè)被分配的優(yōu)先級(jí)。l為用戶分配不同的優(yōu)先級(jí),而作業(yè)的動(dòng)態(tài)優(yōu)先級(jí)可能會(huì)隨時(shí)間發(fā)生變化。4041圖2-22 用于集群節(jié)點(diǎn)上作業(yè)調(diào)度的瓷磚式覆蓋技術(shù)減少了整體時(shí)間,因此增加了作業(yè)吞吐量42集群作業(yè)管理系統(tǒng) 作業(yè)管理也

14、稱為負(fù)載管理或負(fù)載共享。作業(yè)管理系統(tǒng)(Job Management System,JMS)具有三部分:l用戶服務(wù)器:提交用戶作業(yè)至一個(gè)或多個(gè)隊(duì)列,為每個(gè)作業(yè)指定資源需求,將作業(yè)從隊(duì)列中刪除,以及詢問(wèn)作業(yè)或隊(duì)列的狀態(tài)。l作業(yè)調(diào)度器:根據(jù)作業(yè)類型、資源需求、資源可用性和調(diào)度策略,執(zhí)行任務(wù)調(diào)度和排隊(duì)。l資源管理器:分配和監(jiān)控資源,執(zhí)行調(diào)度策略,以及收集統(tǒng)計(jì)信息。43集群計(jì)算的負(fù)載共享設(shè)備(LSF)lLSF是平臺(tái)計(jì)算中的商用負(fù)載管理系統(tǒng)。l在并行作業(yè)和串行作業(yè)中,LSF強(qiáng)調(diào)作業(yè)管理和負(fù)載共享。l它還支持檢查點(diǎn)、可用性、負(fù)載遷移和單系統(tǒng)鏡像。lLSF具有高擴(kuò)展性,并且能夠支持上千個(gè)節(jié)點(diǎn)的集群。lLSF服

15、務(wù)于各種UNIX和Windows/NT平臺(tái)。目前,LSF不僅在集群中使用,也在網(wǎng)格和云中使用。 44MOSIX: Linux集群和云的操作系統(tǒng) MOSIX由希伯來(lái)大學(xué)在1977年開發(fā),是一個(gè)分布式操作系統(tǒng)。在1999年,該系統(tǒng)被重新設(shè)計(jì),運(yùn)行在x86平臺(tái)的Linux集群上l用戶可以從任何節(jié)點(diǎn)登錄l沒(méi)有必要修改應(yīng)用程序或鏈接應(yīng)用程序至特殊庫(kù)。l沒(méi)有必要復(fù)制文件至遠(yuǎn)程節(jié)點(diǎn)l用戶能夠平衡負(fù)載,從較慢節(jié)點(diǎn)遷移至快速節(jié)點(diǎn)l關(guān)于遷移進(jìn)程直接通信的套接字也是可遷移的。l該系統(tǒng)以客戶進(jìn)程的安全運(yùn)行時(shí)環(huán)境為特征。l該系統(tǒng)能夠運(yùn)行批量作業(yè),并可以通過(guò)檢查點(diǎn)恢復(fù)45Figure 2.4 Country share of the Top-500 supercomputers over time 252.5 頂尖超級(jí)計(jì)算機(jī)系統(tǒng)的個(gè)案研究46 Figure 2.5 Application-area share of Top-500 systems over time. (Courtesy of 25)Tianhe

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論