Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用 課件 項(xiàng)目7 購物網(wǎng)站中的數(shù)據(jù)倉庫技術(shù) 任務(wù)2 Hive存儲(chǔ)和壓縮1_第1頁
Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用 課件 項(xiàng)目7 購物網(wǎng)站中的數(shù)據(jù)倉庫技術(shù) 任務(wù)2 Hive存儲(chǔ)和壓縮1_第2頁
Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用 課件 項(xiàng)目7 購物網(wǎng)站中的數(shù)據(jù)倉庫技術(shù) 任務(wù)2 Hive存儲(chǔ)和壓縮1_第3頁
Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用 課件 項(xiàng)目7 購物網(wǎng)站中的數(shù)據(jù)倉庫技術(shù) 任務(wù)2 Hive存儲(chǔ)和壓縮1_第4頁
Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用 課件 項(xiàng)目7 購物網(wǎng)站中的數(shù)據(jù)倉庫技術(shù) 任務(wù)2 Hive存儲(chǔ)和壓縮1_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

項(xiàng)目7購物網(wǎng)站中的數(shù)據(jù)倉庫技術(shù)

任務(wù)2Hive存儲(chǔ)和壓縮項(xiàng)目背景

隨著業(yè)務(wù)的不斷擴(kuò)展和用戶量的持續(xù)增長,購物網(wǎng)站每天都會(huì)產(chǎn)生海量的用戶行為數(shù)據(jù)、交易數(shù)據(jù)等。這些數(shù)據(jù)對于購物網(wǎng)站來說具有極高的價(jià)值,可以幫助網(wǎng)站更好地了解用戶需求、優(yōu)化商品推薦、提升用戶體驗(yàn)等。Hive數(shù)據(jù)倉庫技術(shù)應(yīng)運(yùn)而生,成為解決以上問題的首選。通過Hive數(shù)據(jù)倉庫技術(shù)可以構(gòu)建一個(gè)統(tǒng)一、高效的數(shù)據(jù)存儲(chǔ)和分析平臺(tái)。

知識目標(biāo)學(xué)會(huì)使用Hive進(jìn)行數(shù)據(jù)查詢、數(shù)據(jù)分析和數(shù)據(jù)挖掘;技能目標(biāo)

能夠編寫HiveQL查詢語句,實(shí)現(xiàn)對大數(shù)據(jù)的查詢和分析及存儲(chǔ);能夠利用Hive進(jìn)行復(fù)雜的數(shù)據(jù)處理,如連接、聚合、窗口函數(shù)等;。素質(zhì)目標(biāo)培養(yǎng)團(tuán)隊(duì)協(xié)作能力和有效溝通技巧。鼓勵(lì)探索Hive的新功能及其在不同場景下的應(yīng)用潛力,具備創(chuàng)新意識,并能夠通過解決實(shí)際問題提升動(dòng)手能力和創(chuàng)新能力。任務(wù)描述

Hive是一種數(shù)據(jù)倉庫技術(shù),它建立在Hadoop之上,提供了類似于SQL的查詢語言(HiveQL)來查詢和管理大型數(shù)據(jù)集。Hive的存儲(chǔ)和壓縮是處理大規(guī)模數(shù)據(jù)時(shí)需要考慮的重要方面。在進(jìn)行Hive存儲(chǔ)和壓縮配置時(shí),需要根據(jù)具體的業(yè)務(wù)需求和硬件環(huán)境進(jìn)行調(diào)整。

在實(shí)際工作中,Hive中的數(shù)據(jù)一般都需要經(jīng)過壓縮處理,以節(jié)省存儲(chǔ)空間和提高處理效率。通過合理配置Hive的存儲(chǔ)格式和壓縮參數(shù),可以顯著提高Hive的性能和可擴(kuò)展性。壓縮雖然可以提高性能,但也會(huì)增加一定的CPU開銷,因此需要權(quán)衡利弊,選擇合適的壓縮策略和格式。

任務(wù)分析

本任務(wù)主要介紹Hive存儲(chǔ)中的存儲(chǔ)模型、存儲(chǔ)格式和數(shù)據(jù)壓縮、壓縮格式等;闡述Hive存儲(chǔ)模型的選擇、壓縮算法的應(yīng)用以及相關(guān)的配置與優(yōu)化方法。content目錄01Hive存儲(chǔ)格式02Hive數(shù)據(jù)壓縮格式Hive數(shù)據(jù)存儲(chǔ)格式01知識與技能——Hive存儲(chǔ)格式Hive作為一種數(shù)據(jù)倉庫管理工具,被廣泛應(yīng)用于各行各業(yè)。而在日常的實(shí)際工作中,對于Hive存儲(chǔ)格式和壓縮方式的選擇和使用,關(guān)乎數(shù)據(jù)處理的效率和性能。存儲(chǔ)和壓縮需要綜合考慮存儲(chǔ)模型、壓縮算法以及配置與優(yōu)化等多個(gè)方面,因此,需要先了解和掌握Hive存儲(chǔ)模型、存儲(chǔ)模式和的選擇、壓縮格式和壓縮算法的應(yīng)用以及相關(guān)參數(shù)的配置等內(nèi)容。在使用Hive數(shù)據(jù)倉庫技術(shù)處理大數(shù)據(jù)的實(shí)際工作中經(jīng)常會(huì)遇到下面兩個(gè)問題:①Hive數(shù)據(jù)倉庫中維護(hù)的數(shù)據(jù)量太大,如何提高存儲(chǔ)空間的利用率?②要提高Hive的數(shù)據(jù)計(jì)算、處理效率,從數(shù)據(jù)壓縮格式層面應(yīng)該如何優(yōu)化?上述兩個(gè)問題的解決方案,對應(yīng)的就是在Hive中如何選擇合適的數(shù)據(jù)壓縮格式和數(shù)據(jù)存儲(chǔ)格式。HBase中的非關(guān)系型數(shù)據(jù)模型結(jié)構(gòu)

圖Hive默認(rèn)使用TextFile格式的數(shù)據(jù),這種格式的數(shù)據(jù)在存儲(chǔ)層面占用的空間比較大,影響存儲(chǔ)能力,也影響數(shù)據(jù)的計(jì)算和處理效率。因此,為了提高Hive中數(shù)據(jù)的存儲(chǔ)能力(存儲(chǔ)空間的利用率),以及計(jì)算性能,需要先詳細(xì)了解Hive的數(shù)據(jù)存儲(chǔ)格式。在具體學(xué)習(xí)Hive中的數(shù)據(jù)存儲(chǔ)格式之前,先來了解一下Hive中的數(shù)據(jù)壓縮格式。因?yàn)閿?shù)據(jù)存儲(chǔ)格式想要發(fā)揮最大性能,需要配合數(shù)據(jù)壓縮格式一起使用。說明:由于Hive任務(wù)底層實(shí)際是通過MapReduce運(yùn)行和處理數(shù)據(jù),所以Hive中的數(shù)據(jù)壓縮格式其實(shí)就是MapReduce中的數(shù)據(jù)壓縮格式。HBase中的非關(guān)系型數(shù)據(jù)模型結(jié)構(gòu)

圖知識與技能——Hive存儲(chǔ)格式Hive數(shù)據(jù)壓縮格式021.Hive中常見的數(shù)據(jù)壓縮格式Hive中常見的數(shù)據(jù)壓縮格式如下表1所示。知識與技能——Hive中常見的數(shù)據(jù)壓縮格式表1Hive中常見的數(shù)據(jù)壓縮格式

Hive數(shù)據(jù)壓縮格式說明:可以通過在Hadoop節(jié)點(diǎn)上執(zhí)行#hadoopchecknative命令來確認(rèn)一下當(dāng)前大數(shù)據(jù)系統(tǒng)支持的數(shù)據(jù)壓縮格式:其中主要包括:zlib、snappy、lz4、bzip2。說明:DEFLATE壓縮格式底層使用的是zlib,gzip是對DEFLATE進(jìn)行了封裝,所以只有l(wèi)zo沒有集成,其他壓縮格式都是可以正常使用的。為了支持多種壓縮/解壓縮算法,Hadoop引入了編碼/解碼器,如下表2。表2壓縮格式對應(yīng)的編碼/解碼器表Hive數(shù)據(jù)壓縮格式Hive壓縮參數(shù)配置可以通過配置參數(shù)(在mapred-site.xml文件中配置)在Hadoop中啟用壓縮,如下表3。表3壓縮參數(shù)配置表在MapReduce的整個(gè)數(shù)據(jù)處理過程中,可以在兩個(gè)地方設(shè)置數(shù)據(jù)壓縮格式,如圖所示。①對Map階段的輸出數(shù)據(jù)進(jìn)行壓縮。②對Reduce階段的輸出數(shù)據(jù)進(jìn)行壓縮。說明:(1)對Map階段的輸出數(shù)據(jù)進(jìn)行壓縮:建議選擇壓縮和解壓速度快的壓縮格式。Map階段的數(shù)據(jù)落盤后會(huì)通過Shuffle,也就是通過網(wǎng)絡(luò)傳輸?shù)絉educe端。壓縮Map的輸出是可以提高網(wǎng)絡(luò)傳輸效率的。但是,壓縮Map的輸出數(shù)據(jù)會(huì)增加CPU的消耗。Map階段在處理數(shù)據(jù)的時(shí)候自己本來就會(huì)消耗過多的CPU,所以此時(shí)應(yīng)該重點(diǎn)考慮使用壓縮和解壓速度比較快的LZO、Snappy壓縮方式。.(2)對Reduce階段的輸出數(shù)據(jù)進(jìn)行壓縮:根據(jù)實(shí)際需要又分為兩種情況:①

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論