Spark的優(yōu)勢(shì)技術(shù)優(yōu)勢(shì)_第1頁(yè)
Spark的優(yōu)勢(shì)技術(shù)優(yōu)勢(shì)_第2頁(yè)
Spark的優(yōu)勢(shì)技術(shù)優(yōu)勢(shì)_第3頁(yè)
Spark的優(yōu)勢(shì)技術(shù)優(yōu)勢(shì)_第4頁(yè)
Spark的優(yōu)勢(shì)技術(shù)優(yōu)勢(shì)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)計(jì)算平臺(tái)《大數(shù)據(jù)導(dǎo)論》課程IntroductiontobigdataSpark的優(yōu)勢(shì)技術(shù)優(yōu)勢(shì)011.每一個(gè)作業(yè)獨(dú)立調(diào)度,可以把所有的作業(yè)做一個(gè)圖進(jìn)行調(diào)度,各個(gè)作業(yè)之間相互依賴,在調(diào)度過(guò)程中一起調(diào)度,速度快。2.所有過(guò)程都基于內(nèi)存,所以通常也將Spark稱作是基于內(nèi)存的迭代式運(yùn)算框架。3.spark提供了更豐富的算子,讓操作更方便。4.更容易的API:支持Python,Scala和JavaSparkSpark的優(yōu)勢(shì)在Map結(jié)束后會(huì)將數(shù)據(jù)落地HDFS中(如圖a、b、c、d標(biāo)記),Reduce端才從落地HDFS中拉取數(shù)據(jù),中間經(jīng)過(guò)復(fù)雜的shuffle階段。因此,這樣的計(jì)算框架每次shuffle階段都會(huì)有落地到磁盤,也是影響效率的一方面。MapReduce的一次基本運(yùn)行Map1Map2Reduce1b,dReduce2a,cabcdSpark計(jì)算是基于RDD的模型,對(duì)于簡(jiǎn)單的操作,比如map、reduce或是filter之類的操作,在數(shù)據(jù)量且內(nèi)存空間允許下是可以直接基于內(nèi)存進(jìn)行計(jì)算的,這樣也就是說(shuō)有些情況也會(huì)落到磁盤,所以Spark的計(jì)算速度可以比MapReduce、Hive計(jì)算速度快幾倍,甚至幾十倍。Spark的一次基本運(yùn)行RDD1RDD2RDD3Spark基于內(nèi)存依次計(jì)算轉(zhuǎn)換轉(zhuǎn)換Spark

SQLHiveSparkSQL并不是直接全部替換Hive,而只是替換了Hive的查詢引擎部分,通過(guò)SparkSQL的查詢引擎去操作表或是HDFS上的目錄文件,從而提高了查詢速度。又是Spark一站式生態(tài)圈的一員,這樣更加優(yōu)選Spark。...Hadoop的HDFS表分區(qū)目錄文件基于Hive的數(shù)據(jù)倉(cāng)庫(kù)Spark查詢引擎SQL語(yǔ)句查詢Hive查詢引擎基于HDFS的SQL文件查詢基于表的SQL查詢SparkStreaming與Storm比較比較內(nèi)容SparkStreamingStorm實(shí)時(shí)性屬于準(zhǔn)實(shí)時(shí),由于基于RDD計(jì)算,所以是對(duì)一個(gè)短時(shí)間內(nèi)的數(shù)據(jù)集,作為一個(gè)RDD進(jìn)行計(jì)算來(lái)處理屬于純實(shí)時(shí),逐條處理計(jì)算延遲度亞秒級(jí)秒級(jí)吞吐量高低事務(wù)機(jī)制支持不太完善支持好動(dòng)態(tài)調(diào)整并行度不支持支持Storm的簡(jiǎn)易框架Storm的計(jì)算模型是基于對(duì)每一條記錄的流式實(shí)時(shí)計(jì)算框架,如上圖所示,這可以算是一種非常純的實(shí)時(shí)計(jì)算框架。也就是這種基于來(lái)一條數(shù)據(jù)就計(jì)算處理,這將會(huì)大大的占用資源,從而降低整體的吞吐量。數(shù)據(jù)1Storm流式計(jì)算框架數(shù)據(jù)2數(shù)據(jù)nSparkStreaming的簡(jiǎn)易框架如果設(shè)置時(shí)間間隔為1秒,也就是會(huì)把1秒里面過(guò)來(lái)的數(shù)據(jù)收集起來(lái),然后一次性作為一個(gè)batch提交給SparkStreaming進(jìn)行計(jì)算處理。這樣基于batch的時(shí)間段收集數(shù)據(jù),所以就不能是純的實(shí)時(shí)計(jì)算框架了,只能算是一種準(zhǔn)實(shí)時(shí)計(jì)算框架,盡管這批量處理對(duì)集群資源效率下降了,但是增加了自身的吞吐量。數(shù)據(jù)1Sp

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論