細(xì)細(xì)品味Hadoop-Hadoop集群(第13期)-Hive簡介及安裝_第1頁
細(xì)細(xì)品味Hadoop-Hadoop集群(第13期)-Hive簡介及安裝_第2頁
細(xì)細(xì)品味Hadoop-Hadoop集群(第13期)-Hive簡介及安裝_第3頁
細(xì)細(xì)品味Hadoop-Hadoop集群(第13期)-Hive簡介及安裝_第4頁
細(xì)細(xì)品味Hadoop-Hadoop集群(第13期)-Hive簡介及安裝_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

——Hadoop集群(第13期)精華集錦csAxp蝦皮工作室ogscomxiapi河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮1Hadoop集群(第13期)Hive裝Hive是一個構(gòu)建在Hadoop上的數(shù)據(jù)倉庫平臺,其設(shè)計目標(biāo)是使Hadoop上的數(shù)據(jù)操HiveeHive是基于Hadoop文件系統(tǒng)上的數(shù)據(jù)倉庫架構(gòu)。它為數(shù)據(jù)倉庫的管理提供了許多功cecache不提供實時的查詢功能和記錄級的更新,但Hive能更好地處理不變的大規(guī)模數(shù)據(jù)集(例如網(wǎng)絡(luò)日志)上的批量任務(wù)。MapReduce和用戶定義的函數(shù)庫),并且擁有良好的容錯性和約束的數(shù)據(jù)輸入格式。QL河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮2圖2-2Hive的體系結(jié)構(gòu)(2)圖2-3Hive的體系結(jié)構(gòu)(3)河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮3圖2-4Hive的體系結(jié)構(gòu)(4)用戶接口WUI問Hive。Thrift服務(wù)器t元數(shù)據(jù)存儲(Metastore)解析器HDFSMapReduce調(diào)用執(zhí)行。HadoopeHDFSMapReduce河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮4Hive的存儲結(jié)構(gòu)apReduceHive。Hadoop系統(tǒng)中常用的文件存儲格式有支程師發(fā)表的RCFile:AFastandSpaceefficientDataPlacementStructureinMapReducebasedWarehouseSystems一文,介紹了一種高效的數(shù)據(jù)存儲結(jié)構(gòu)——RCFile(RecordColumnarRCFileMapReduceFastdataloading、Fastqueryprocessing、Highlyefficientstoragespaceutilization和Strongadaptivitytohighlydynamicworkloadpatterns。1)數(shù)據(jù)倉庫的需求FastdataloadingFacebook天大acebookFastqueryprocessing要求底層存儲結(jié)構(gòu)能夠隨著查詢數(shù)量的增加而保持高速的查詢處理。HighlyefficientstoragespaceutilizationStrongadaptivitytohighlydynamicworkloadpatterns)MapReduce存儲策略要想設(shè)計并實現(xiàn)一種基于MapReduce數(shù)據(jù)倉庫的高效數(shù)據(jù)存儲結(jié)構(gòu),關(guān)鍵挑戰(zhàn)是在這些數(shù)據(jù)庫導(dǎo)向的存儲結(jié)構(gòu)到基于MapReduce的數(shù)據(jù)倉庫系統(tǒng)并不行存儲高適應(yīng)能力,這是因為行存儲保證了相同記錄的所有域都在同一個集群節(jié)點(diǎn),即同一個碼和利用列相關(guān)性能夠獲得一個較好的壓縮比,但是復(fù)雜數(shù)據(jù)存儲實現(xiàn)會導(dǎo)致解壓開銷增河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮5列存儲CD的op河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮6PAX混合存儲際的頁內(nèi)容,該限制使得大規(guī)模數(shù)據(jù)掃描時不易實現(xiàn)快速查詢處理;再次,PAX用固定的le存儲;第二,RCFile在每個行組中利用一個列維度的數(shù)據(jù)壓縮,并提供一種Lazy解壓 (decompression)技術(shù)來在查詢執(zhí)行時避免不必要的列解壓;第三,RCFile支持彈性的行3)RCFile的設(shè)計與實現(xiàn)RCFile(RecordColumnarFile)存儲結(jié)構(gòu)遵循的是“先水平劃分,再垂直劃分”的設(shè)le數(shù)據(jù)格式河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮7個行組。對于一張表,所有行組大小都相同。一個HDFS塊會部分是行組頭部的同步標(biāo)識,主要用于分隔HDFS塊中壓縮方式e對于所有元數(shù)據(jù)頭部,RCFile使用RLE(RunLengthEncoding)算法來壓縮數(shù)據(jù)。由RLEzipRCFile用不同的算法來壓數(shù)據(jù)追加mnholderRCFile提供兩個參數(shù)來控制在刷寫到磁盤之前,內(nèi)存中緩存多少個記錄。一個參數(shù)是CFilecolumnholder數(shù)據(jù)讀取和Lazy解壓E行組大小河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮8k選擇使用小行組。需要注意的是,當(dāng)行組的大小超過4MB,數(shù)據(jù)的壓縮比BHive的數(shù)據(jù)存儲表(Table)所有的表數(shù)據(jù)(除了外部表)都保存在這個目錄中。分區(qū)(Partition)Hive中每個分區(qū)都對應(yīng)數(shù)據(jù)庫中相應(yīng)分區(qū)列的一個索引,但是分區(qū)的組織方式和傳統(tǒng)“/datawarehouse/htable/ds=20100301/city=Beijing”“/datawarehouse/htable/ds=20100301/city=Shanghai”桶(Bucket)桶對于指定列進(jìn)行哈希(hash)計算時,根據(jù)哈希值切分?jǐn)?shù)據(jù),每個桶對應(yīng)一個文件?!?datawarehouse/htable/ds=20100301/city=Beijing/part-00000”河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮9“/datawarehouse/htable/ds=20100301/city=Beijing/part-00010”外部表(ExternalTable)HDFS1)創(chuàng)建表的操作(CreateTable)包含兩個步驟:表創(chuàng)建過程和數(shù)據(jù)加載步驟(這兩個后的數(shù)據(jù)訪問將會直接在數(shù)據(jù)倉庫目錄中完成。刪除表時,表中的數(shù)據(jù)和元數(shù)據(jù)將會被同2)外部表的創(chuàng)建只有一個步驟,加載數(shù)據(jù)和創(chuàng)建表同時完成,實際數(shù)據(jù)存儲在創(chuàng)建語僅會刪除元數(shù)據(jù),表中數(shù)據(jù)不會被刪除。.3Hive的元數(shù)據(jù)存儲由于Hive的元數(shù)據(jù)可能要面臨不斷的更新、修改和讀取,所以它顯然不適合使用SingleUserMode接到一個In-memory(內(nèi)存)數(shù)據(jù)庫Derby,一般用于單元測試。MultiUserMode河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮10RemoteServerModeJava,在服務(wù)器啟動一個MetaStoreServer,客戶端Hive是一個客戶端工具,需要在哪臺機(jī)器上運(yùn)行就將其安裝在哪臺機(jī)器上,根據(jù)“元ve河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮113.1先決條件Hive的穩(wěn)定版本ebruaryreleaseavailableThisreleaseisthelatestreleaseofHiveanditworkswithHadoop0.20.1and0.20.2katthecompleteJIRAchangelogforthisreleaseHIVEPassinguseridentityfrommetastoreclienttoserverinnon-securemodeHIVEMakeasingleHivebinaryworkwithboth.20.xand0.23.0HIVEMakeHiveworkwithHadoop0.0VEInsertintotablewipesouttablecontentVEHiveMetaStoreisnotchangingfromDerbytoMySQLrcgihive元數(shù)據(jù)庫HiveDerby果要支持多用戶Hadoop安裝Hive,并設(shè)置了HADOOP_HOME環(huán)境變量,本實驗采用的3.2集群環(huán)境ipHadoop集群:稱IP地址ppp河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮12稱IP地址p3.2內(nèi)嵌模式安裝河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮13dusr/usr”目錄tar–zxvfhbase-0.8.1.tar.gzz“hive-0.8.1”文件夾重命名“hive”chown–Rhadoop:hadoophive#將文件夾“hive”權(quán)限分配給hadoop用戶rm–rfhive-0.8.1.tar.gz#刪除“hive-0.8.1.tar.gz”安裝包重命名為“hive”。河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮14河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮15在“/etc/profile”文件尾部添加以下內(nèi)容,并使其有效(source/etc/profile):sethiveenvironmentexportHIVEHOMEusrhive1)配置hive-conf.shsethiveenvironmentxportHADOOPHOMEusrhadoopexportHIVEHOMEusr/hive河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮162)配置hive-default.xml和hive-site.xml所以我們要復(fù)制兩個“hive-default.xml.template”,并分別命名為“hive-default.xml”和出現(xiàn)如下錯誤:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/hive/conf/HiveConf河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮17出現(xiàn)如下警告:解決的辦法就是在perties中將log4j.appender.EventCounter的值修改為表現(xiàn)正常:河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮183.3獨(dú)立模式安裝Hive倉庫規(guī)劃,我們將把ERhiveIDENTIFIEDBYhadoopive河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮19xmlversion="1.0"?>?xml-stylesheettype="text/xsl"href="configuration.xsl"?>nfigurationropertynamehivemetastorelocal</name>valuetrue</value>propertyropertyname>javax.jdo.option.ConnectionURL</name>erEncodingUTFvaluepropertyropertynamejavax.jdo.option.ConnectionDriverName</name>valuecommysqljdbc.Driver</value>propertyropertynamejavax.jdo.option.ConnectionUserName</name>valuehivevalue>propertyropertyname>javax.jdo.option.ConnectionPassword</name>valuehadoop/value>property>configuration里面的配置參數(shù)非常之多,但是并不是我們都需要的,我們知道,Hive系統(tǒng)會加載兩個配河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮20Windows行操作是非常方便的,弄好之后在上傳上去,覆蓋原來的即tables河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮21nltcharactersetlatinutf8。修改字段注釋字符集河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮22altertableCOLUMNSmodifycolumnCOMMENTvarcharcharactersetutf8;修改表注釋字符集1)在Hive上建立數(shù)據(jù)表2)從MySQL數(shù)據(jù)庫上查看元數(shù)據(jù)信息usehive;//使用hive數(shù)據(jù)庫庫ive表select*fromtbls;//查看hive的元數(shù)據(jù)信息從作圖中我們可以看出里面已經(jīng)存在很多3.4遠(yuǎn)程模式安裝lropertymehivemetastorelocalnamevaluelocalvalueproperty>ropertyamehivemetastoreurisnamedescriptionJDBCconnectstringforaJDBCmetastore</description>property河北工業(yè)大學(xué)——軟件工程與理論實驗室編輯:蝦皮23性民性民專男漢基本信息xieyaowei986@163.com河北工業(yè)大學(xué)(211工程)求職意向編程語編程語言個個人經(jīng)歷1)擔(dān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論