Hadoop相較于其他系統(tǒng)的優(yōu)勢(shì)——網(wǎng)格計(jì)算和志愿計(jì)算_第1頁(yè)
Hadoop相較于其他系統(tǒng)的優(yōu)勢(shì)——網(wǎng)格計(jì)算和志愿計(jì)算_第2頁(yè)
Hadoop相較于其他系統(tǒng)的優(yōu)勢(shì)——網(wǎng)格計(jì)算和志愿計(jì)算_第3頁(yè)
Hadoop相較于其他系統(tǒng)的優(yōu)勢(shì)——網(wǎng)格計(jì)算和志愿計(jì)算_第4頁(yè)
Hadoop相較于其他系統(tǒng)的優(yōu)勢(shì)——網(wǎng)格計(jì)算和志愿計(jì)算_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Hadoop相較于其他系統(tǒng)的優(yōu)勢(shì)網(wǎng)格計(jì)算和志愿計(jì)算2 參考文獻(xiàn):Hadoop權(quán)威指南(第權(quán)威指南(第3版版) 作者|Tom White 翻譯|華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院 清華大學(xué)出版社 引自|51CTO讀書(shū)頻道http:/ 版權(quán)說(shuō)明版權(quán)說(shuō)明 若作者對(duì)本資料使用持有異議,請(qǐng)及時(shí)聯(lián)系本網(wǎng)站,我們將在第一時(shí)間妥善處理。若作者對(duì)本資料使用持有異議,請(qǐng)及時(shí)聯(lián)系本網(wǎng)站,我們將在第一時(shí)間妥善處理。23一、網(wǎng)格計(jì)算一、網(wǎng)格計(jì)算4一、網(wǎng)格計(jì)算一、網(wǎng)格計(jì)算 高性能計(jì)算(High Performance Computing,HPC)和網(wǎng)格計(jì)算(Grid Computing)組織多年以來(lái)一直在研究大規(guī)模數(shù)據(jù)處理,

2、主要使用類(lèi)似于消息傳遞接口(Message Passing Interface,MPI)的API。從廣義上講,高性能計(jì)算采用的方法是將作業(yè)分散到集群的各臺(tái)機(jī)器上,這些機(jī)器訪問(wèn)存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)所組成的共享文件系統(tǒng)。這比較適用于計(jì)算密集型的作業(yè),但如果節(jié)點(diǎn)需要訪問(wèn)的數(shù)據(jù)量更龐大 (高達(dá)幾百GB,MapReduce開(kāi)始施展它的魔法),很多計(jì)算節(jié)點(diǎn)就會(huì)因?yàn)榫W(wǎng)絡(luò)帶寬的瓶頸問(wèn)題不得不閑下來(lái)等數(shù)據(jù)。5一、網(wǎng)格計(jì)算一、網(wǎng)格計(jì)算 MapReduc盡量在計(jì)算節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù),以實(shí)現(xiàn)數(shù)據(jù)的本地快速訪問(wèn)。數(shù)據(jù)本地化(data locality)特性是MapReduce的核心特征,并因此而獲得良好的性能。意識(shí)到網(wǎng)絡(luò)

3、帶寬是數(shù)據(jù)中心環(huán)境最珍貴的資源(到處復(fù)制數(shù)據(jù)很容易耗盡網(wǎng)絡(luò)帶寬)之后,MapReduce通過(guò)顯式網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來(lái)保留網(wǎng)絡(luò)帶寬。注意,這種排列方式并沒(méi)有降低MapReduce對(duì)計(jì)算密集型數(shù)據(jù)進(jìn)行分析的能力。6一、網(wǎng)格計(jì)算一、網(wǎng)格計(jì)算 雖然MPI賦予程序員很大的控制權(quán),但需要程序員顯式控制數(shù)據(jù)流機(jī)制,包括用C語(yǔ)言構(gòu)造底層的功能模塊(例如套接字)和高層的數(shù)據(jù)分析算法。而MapReduce則在更高層次上執(zhí)行任務(wù),即程序員僅從鍵值對(duì)函數(shù)的角度考慮任務(wù)的執(zhí)行,而且數(shù)據(jù)流是隱含的。7一、網(wǎng)格計(jì)算一、網(wǎng)格計(jì)算 在大規(guī)模分布式計(jì)算環(huán)境下,協(xié)調(diào)各個(gè)進(jìn)程的執(zhí)行是一個(gè)很大的挑戰(zhàn)。最困難的是合理處理系統(tǒng)的部分失效問(wèn)題在不

4、知道一個(gè)遠(yuǎn)程進(jìn)程是否掛了的情況下同時(shí)還需要繼續(xù)完成整個(gè)計(jì)算。有了MapReduce,程序員不必操心系統(tǒng)部分失效的問(wèn)題,因?yàn)樗约旱南到y(tǒng)實(shí)現(xiàn)能夠檢測(cè)到并重新執(zhí)行那些失敗的map或reduce任務(wù)。正因?yàn)椴捎玫氖菬o(wú)共享(shared-nothing)框架,MapReduce才能夠?qū)崿F(xiàn)失敗檢測(cè),這意味著各個(gè)任務(wù)之間是彼此獨(dú)立的。因此,從程序員的角度來(lái)看,任務(wù)的執(zhí)行順序無(wú)關(guān)緊要。相比之下,MPI程序必須顯式管理自己的檢查點(diǎn)和恢復(fù)機(jī)制,雖然賦予程序員的控制權(quán)加大了,但編程的難度也增加了。8一、網(wǎng)格計(jì)算一、網(wǎng)格計(jì)算 MapReduce聽(tīng)起來(lái)似乎是一個(gè)相當(dāng)嚴(yán)格的編程模型,而且在某種意義上看的確如此:限定用戶(hù)

5、使用有特定關(guān)聯(lián)的鍵值對(duì),mapper和reducer彼此間的協(xié)調(diào)非常有限(每個(gè)mapper將鍵值對(duì)傳給reducer)。由此,我們自然聯(lián)想到一個(gè)問(wèn)題:能用這個(gè)編程模型做一些有用或?qū)嶋H的事情嗎?9一、網(wǎng)格計(jì)算一、網(wǎng)格計(jì)算 答案是肯定的。MapReduce由谷歌的工程師開(kāi)發(fā),用于構(gòu)建搜索引擎的索引,而且,事實(shí)已經(jīng)證明它能夠一次又一次地解決這個(gè)問(wèn)題(MapReduce 的靈感來(lái)自于傳統(tǒng)的函數(shù)式編程、分布式計(jì)算和數(shù)據(jù)庫(kù)社區(qū)),但此后,該模型在其他行業(yè)還有著很多其他的應(yīng)用。我們欣喜地發(fā)現(xiàn),有很多算法都可以用 MapReduce來(lái)表達(dá),從圖像圖形分析到各種各樣基于圖像分析的問(wèn)題,再到機(jī)器學(xué)習(xí)算法。 Apa

6、che Mahout(/)是一個(gè)在Hadoop上運(yùn)行的機(jī)器學(xué)習(xí)類(lèi)庫(kù)(例如分類(lèi)和聚類(lèi)算法)。當(dāng)然,它也不是包治百病的靈丹妙藥,不能解決所有問(wèn)題,但它真的是一個(gè)很通用的數(shù)據(jù)處理工具。10二、二、志愿計(jì)算志愿計(jì)算 人們第一次聽(tīng)說(shuō)Hadoop和MapReduce的時(shí)候,經(jīng)常會(huì)問(wèn)這個(gè)問(wèn)題:“它們和SETIhome有什么不同?”SETI全稱(chēng)為Search for Extra-Terrestrial Intelligence(搜索外星智能),項(xiàng)目名稱(chēng)為SETIhome()。在該項(xiàng)目中,志愿者把自己計(jì)算機(jī)C

7、PU的空閑時(shí)間貢獻(xiàn)出來(lái)分析無(wú)線天文望遠(yuǎn)鏡的數(shù)據(jù),借此尋找外星智慧生命信號(hào)。SETIhome因?yàn)閾碛旋嫶蟮闹驹刚哧?duì)伍而非常出名,其他還有“搜索大素?cái)?shù)”(Great Internet Mersenne Prime Search)項(xiàng)目與Foldinghome項(xiàng)目(了解蛋白質(zhì)構(gòu)成及其與疾病之間的關(guān)系)。11二、二、志愿計(jì)算志愿計(jì)算 志愿計(jì)算項(xiàng)目將問(wèn)題分成很多塊,每一塊稱(chēng)為一個(gè)工作單元(work unit),發(fā)到世界各地的計(jì)算機(jī)上進(jìn)行分析。例如,SETIhome的工作單元是0.35 MB無(wú)線電望遠(yuǎn)鏡數(shù)據(jù),要對(duì)這等大小的數(shù)據(jù)量進(jìn)行分析,一臺(tái)普通計(jì)算機(jī)需要幾個(gè)小時(shí)或幾天時(shí)間才能完成。完成分析后,結(jié)果發(fā)送回服務(wù)器,客戶(hù)端隨后再獲得另一個(gè)工作單元。為防止欺騙,每個(gè)工作單元要發(fā)送到3臺(tái)不同的機(jī)器上執(zhí)行,而且收到的結(jié)果中至少有兩個(gè)相同才會(huì)被接受。12二、二、志愿計(jì)算志愿計(jì)算 從表面上看,SETIhome與MapReduce好像差不多(將問(wèn)題分解為獨(dú)立的小塊,然后并行進(jìn)行計(jì)算),但事實(shí)上還是有很多明顯的差異。SETIhome問(wèn)題是CPU高度密集的,比較適合在全球成千上萬(wàn)臺(tái)計(jì)算機(jī)上運(yùn)行,因?yàn)橛?jì)算所花的時(shí)間遠(yuǎn)遠(yuǎn)超過(guò)工作單元數(shù)據(jù)的傳輸時(shí)間。也就是說(shuō),志愿者貢獻(xiàn)的是CPU周期,而不是網(wǎng)絡(luò)帶寬。13二、二、志愿計(jì)算志愿計(jì)算 MapReduce有三大設(shè)計(jì)目標(biāo):(1)為只需要短短幾分鐘或幾個(gè)小時(shí)就可以完成的作業(yè)提供服

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論