版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)計(jì)算平臺(tái)《大數(shù)據(jù)導(dǎo)論》課程IntroductiontobigdataSpark的優(yōu)勢(shì)技術(shù)優(yōu)勢(shì)011.每一個(gè)作業(yè)獨(dú)立調(diào)度,可以把所有的作業(yè)做一個(gè)圖進(jìn)行調(diào)度,各個(gè)作業(yè)之間相互依賴,在調(diào)度過(guò)程中一起調(diào)度,速度快。2.所有過(guò)程都基于內(nèi)存,所以通常也將Spark稱作是基于內(nèi)存的迭代式運(yùn)算框架。3.spark提供了更豐富的算子,讓操作更方便。4.更容易的API:支持Python,Scala和JavaSparkSpark的優(yōu)勢(shì)在Map結(jié)束后會(huì)將數(shù)據(jù)落地HDFS中(如圖a、b、c、d標(biāo)記),Reduce端才從落地HDFS中拉取數(shù)據(jù),中間經(jīng)過(guò)復(fù)雜的shuffle階段。因此,這樣的計(jì)算框架每次shuffle階段都會(huì)有落地到磁盤,也是影響效率的一方面。MapReduce的一次基本運(yùn)行Map1Map2Reduce1b,dReduce2a,cabcdSpark計(jì)算是基于RDD的模型,對(duì)于簡(jiǎn)單的操作,比如map、reduce或是filter之類的操作,在數(shù)據(jù)量且內(nèi)存空間允許下是可以直接基于內(nèi)存進(jìn)行計(jì)算的,這樣也就是說(shuō)有些情況也會(huì)落到磁盤,所以Spark的計(jì)算速度可以比MapReduce、Hive計(jì)算速度快幾倍,甚至幾十倍。Spark的一次基本運(yùn)行RDD1RDD2RDD3Spark基于內(nèi)存依次計(jì)算轉(zhuǎn)換轉(zhuǎn)換Spark
SQLHiveSparkSQL并不是直接全部替換Hive,而只是替換了Hive的查詢引擎部分,通過(guò)SparkSQL的查詢引擎去操作表或是HDFS上的目錄文件,從而提高了查詢速度。又是Spark一站式生態(tài)圈的一員,這樣更加優(yōu)選Spark。...Hadoop的HDFS表分區(qū)目錄文件基于Hive的數(shù)據(jù)倉(cāng)庫(kù)Spark查詢引擎SQL語(yǔ)句查詢Hive查詢引擎基于HDFS的SQL文件查詢基于表的SQL查詢SparkStreaming與Storm比較比較內(nèi)容SparkStreamingStorm實(shí)時(shí)性屬于準(zhǔn)實(shí)時(shí),由于基于RDD計(jì)算,所以是對(duì)一個(gè)短時(shí)間內(nèi)的數(shù)據(jù)集,作為一個(gè)RDD進(jìn)行計(jì)算來(lái)處理屬于純實(shí)時(shí),逐條處理計(jì)算延遲度亞秒級(jí)秒級(jí)吞吐量高低事務(wù)機(jī)制支持不太完善支持好動(dòng)態(tài)調(diào)整并行度不支持支持Storm的簡(jiǎn)易框架Storm的計(jì)算模型是基于對(duì)每一條記錄的流式實(shí)時(shí)計(jì)算框架,如上圖所示,這可以算是一種非常純的實(shí)時(shí)計(jì)算框架。也就是這種基于來(lái)一條數(shù)據(jù)就計(jì)算處理,這將會(huì)大大的占用資源,從而降低整體的吞吐量。數(shù)據(jù)1Storm流式計(jì)算框架數(shù)據(jù)2數(shù)據(jù)nSparkStreaming的簡(jiǎn)易框架如果設(shè)置時(shí)間間隔為1秒,也就是會(huì)把1秒里面過(guò)來(lái)的數(shù)據(jù)收集起來(lái),然后一次性作為一個(gè)batch提交給SparkStreaming進(jìn)行計(jì)算處理。這樣基于batch的時(shí)間段收集數(shù)據(jù),所以就不能是純的實(shí)時(shí)計(jì)算框架了,只能算是一種準(zhǔn)實(shí)時(shí)計(jì)算框架,盡管這批量處理對(duì)集群資源效率下降了,但是增加了自身的吞吐量。數(shù)據(jù)1Sp
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鑄造碳化鎢制管工崗前沖突管理考核試卷含答案
- 鐵合金焙燒操作工安全管理測(cè)試考核試卷含答案
- 2025內(nèi)蒙古自治區(qū)公務(wù)員考試數(shù)量關(guān)系專項(xiàng)練習(xí)題完整參考答案
- 耐蝕混凝土工創(chuàng)新意識(shí)測(cè)試考核試卷含答案
- 營(yíng)銷員崗前流程優(yōu)化考核試卷含答案
- 農(nóng)機(jī)駕駛操作員誠(chéng)信道德能力考核試卷含答案
- 廢礦物油再生處置工安全應(yīng)急評(píng)優(yōu)考核試卷含答案
- 2024年湖南交通工程學(xué)院輔導(dǎo)員考試筆試題庫(kù)附答案
- 2024年湖北師范大學(xué)輔導(dǎo)員考試筆試真題匯編附答案
- 2024年遼寧地質(zhì)工程職業(yè)學(xué)院輔導(dǎo)員考試參考題庫(kù)附答案
- 六年級(jí)上冊(cè)數(shù)學(xué)教案-總復(fù)習(xí) 專題一 數(shù)與代數(shù)|北師大版
- 工業(yè)互聯(lián)網(wǎng)標(biāo)準(zhǔn)體系(版本3.0)
- 培養(yǎng)小學(xué)生的實(shí)驗(yàn)操作能力
- Unit-3-Reading-and-thinking課文詳解課件-高中英語(yǔ)人教版必修第二冊(cè)
- 氣動(dòng)回路圖與氣動(dòng)元件課件
- 《念奴嬌 赤壁懷古》《永遇樂(lè) 京口北固亭懷古》《聲聲慢》默寫練習(xí) 統(tǒng)編版高中語(yǔ)文必修上冊(cè)
- 婦產(chǎn)科病史采集臨床思維
- 眾辰變頻器z2400t-15gy-1說(shuō)明書
- DB63T 393-2002草地鼠蟲害、毒草調(diào)查技術(shù)規(guī)程
- 船體振動(dòng)的衡準(zhǔn)及減振方法
- 復(fù)議訴訟證據(jù)清單通用版
評(píng)論
0/150
提交評(píng)論