大數(shù)據(jù)存儲技術(shù)與應(yīng)用案例教程全套課件_第1頁
大數(shù)據(jù)存儲技術(shù)與應(yīng)用案例教程全套課件_第2頁
大數(shù)據(jù)存儲技術(shù)與應(yīng)用案例教程全套課件_第3頁
大數(shù)據(jù)存儲技術(shù)與應(yīng)用案例教程全套課件_第4頁
大數(shù)據(jù)存儲技術(shù)與應(yīng)用案例教程全套課件_第5頁
已閱讀5頁,還剩654頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)存儲技術(shù)與應(yīng)用案例項目一大數(shù)據(jù)存儲入門項目三列式數(shù)據(jù)庫HBase項目二數(shù)據(jù)倉庫Hive項目四文檔數(shù)據(jù)庫MongoDB項目五圖數(shù)據(jù)庫Neo4j項目六鍵值數(shù)據(jù)庫Redis項目七NewSQL數(shù)據(jù)庫CockroachDB大數(shù)據(jù)存儲入門項目一任務(wù)一

了解大數(shù)據(jù)存儲相關(guān)崗位的要求任務(wù)二部署Hadoop完全分布式集群在數(shù)字化時代背景下,互聯(lián)網(wǎng)的普及、物聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,以及社交媒體平臺的廣泛使用,共同推動了數(shù)據(jù)量的爆炸式增長。面對如此龐大和豐富的數(shù)據(jù),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已難以滿足數(shù)據(jù)存儲和管理的需求。因此,大數(shù)據(jù)存儲技術(shù)應(yīng)運(yùn)而生,并迅速成為信息技術(shù)領(lǐng)域的研究熱點。本項目將介紹大數(shù)據(jù)存儲的相關(guān)知識,部署Hadoop完全分布式集群。項目導(dǎo)讀項目目標(biāo)了解大數(shù)據(jù)的特征、技術(shù)體系,以及大數(shù)據(jù)存儲技術(shù)的發(fā)展歷程。了解分布式文件系統(tǒng)的特點和應(yīng)用場景。掌握大數(shù)據(jù)存儲技術(shù)的分類和分布式文件系統(tǒng)的架構(gòu)。掌握HDFS的架構(gòu)和存儲原理。能根據(jù)大數(shù)據(jù)存儲相關(guān)崗位的要求制訂具有針對性的學(xué)習(xí)計劃。能部署Hadoop完全分布式集群。加強(qiáng)基礎(chǔ)知識的學(xué)習(xí),實現(xiàn)從量變到質(zhì)變的轉(zhuǎn)化,為個人的長遠(yuǎn)發(fā)展打下基礎(chǔ)。了解我國的數(shù)據(jù)庫市場,緊跟時代發(fā)展。了解大數(shù)據(jù)存儲相關(guān)崗位的要求任務(wù)一大數(shù)據(jù)存儲技術(shù)是指用于有效地存儲和管理大規(guī)模數(shù)據(jù)集的技術(shù)和方法。這些技術(shù)廣泛應(yīng)用于多個行業(yè)內(nèi),促進(jìn)了不同行業(yè)的快速發(fā)展和不斷創(chuàng)新。了解大數(shù)據(jù)存儲相關(guān)崗位的要求有助于個人制訂具有針對性的學(xué)習(xí)計劃和更科學(xué)的職業(yè)發(fā)展規(guī)劃,提高自己在就業(yè)市場上的競爭力。了解大數(shù)據(jù)存儲相關(guān)崗位的要求之前,我們先來學(xué)習(xí)一下大數(shù)據(jù)的特征、大數(shù)據(jù)技術(shù)體系、大數(shù)據(jù)存儲技術(shù)的發(fā)展歷程和分類。任務(wù)準(zhǔn)備問題1:簡述關(guān)系型數(shù)據(jù)庫的優(yōu)缺點。全班學(xué)生以3~5人為一組,各組選出組長。組長組織組員掃碼觀看“關(guān)系型數(shù)據(jù)庫概述”視頻,討論并回答下列問題。問題2:簡述關(guān)系型數(shù)據(jù)庫的ACID特性。關(guān)系型數(shù)據(jù)庫概述一、大數(shù)據(jù)的特征定義:無法在一定時間范圍內(nèi)使用常規(guī)軟件工具(如傳統(tǒng)的數(shù)據(jù)庫管理工具或數(shù)據(jù)處理軟件)進(jìn)行獲取、存儲、管理和分析的數(shù)據(jù)集合。特征5V(1)數(shù)據(jù)規(guī)模大(volume)(2)數(shù)據(jù)種類多(variety)(3)數(shù)據(jù)產(chǎn)生和傳播速度快(velocity)(4)數(shù)據(jù)真實性低(veracity)(5)數(shù)據(jù)價值密度低(value)一、大數(shù)據(jù)的特征特征5V(1)數(shù)據(jù)規(guī)模大(volume)(2)數(shù)據(jù)種類多(variety)(3)數(shù)據(jù)產(chǎn)生和傳播速度快(velocity)(4)數(shù)據(jù)真實性低(veracity)(5)數(shù)據(jù)價值密度低(value)高手點拔在計算機(jī)中,通常使用字節(jié)(Byte,B)、千字節(jié)(Kilobyte,KB)、兆字節(jié)(Megabyte,MB)、吉字節(jié)(Gigabyte,GB)、太字節(jié)(Terabyte,TB)、拍字節(jié)(Petabyte,PB)、艾字節(jié)(Exabyte,EB)、澤字節(jié)(Zettabyte,ZB)、堯字節(jié)(Yottabyte,YB)表示存儲設(shè)備的容量或文件的大小,它們之間的換算關(guān)系如下。1KB=1024B

1MB=1024KB 1GB=1024MB

1TB=1024GB1PB=1024TB

1EB=1024PB 1ZB=1024EB

1YB=1024ZB世界正處于一個數(shù)據(jù)爆炸的時代,隨著數(shù)據(jù)采集技術(shù)和存儲技術(shù)的不斷發(fā)展,人們可以通過各種方式收集和存儲數(shù)據(jù),數(shù)據(jù)的規(guī)模達(dá)到了太字節(jié)甚至拍字節(jié)級別。一、大數(shù)據(jù)的特征結(jié)構(gòu)化數(shù)據(jù)遵循固定格式或有明確結(jié)構(gòu)的數(shù)據(jù)以二維表形式存儲在關(guān)系型數(shù)據(jù)庫中非結(jié)構(gòu)化數(shù)據(jù)沒有固定格式或明確結(jié)構(gòu)的數(shù)據(jù)無法直接以二維表形式存儲在關(guān)系型數(shù)據(jù)庫中主要特點是格式和標(biāo)準(zhǔn)的多樣性常見的非結(jié)構(gòu)化數(shù)據(jù)有辦公文檔、圖片、音頻和視頻等半結(jié)構(gòu)化數(shù)據(jù)介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù)不具備固定或一致的格式,但仍然包含了一定的結(jié)構(gòu)信息,如標(biāo)簽、屬性等,這些信息可以用于提取和理解數(shù)據(jù)內(nèi)容常見的半結(jié)構(gòu)化數(shù)據(jù)包括日志文件、網(wǎng)頁文件、XML文檔、JSON文檔和郵件等特征5V(1)數(shù)據(jù)規(guī)模大(volume)(2)數(shù)據(jù)種類多(variety)(3)數(shù)據(jù)產(chǎn)生和傳播速度快(velocity)(4)數(shù)據(jù)真實性低(veracity)(5)數(shù)據(jù)價值密度低(value)一、大數(shù)據(jù)的特征特征5V(1)數(shù)據(jù)規(guī)模大(volume)(2)數(shù)據(jù)種類多(variety)(3)數(shù)據(jù)產(chǎn)生和傳播速度快(velocity)(4)數(shù)據(jù)真實性低(veracity)(5)數(shù)據(jù)價值密度低(value)在大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生和傳播主要通過互聯(lián)網(wǎng)和云計算等數(shù)字技術(shù)實現(xiàn),這一過程的特點是速度極快,能夠在瞬間完成信息的全球傳播。例如,“雙十一”購物狂歡節(jié),活動開始的瞬間,海量的商品信息和促銷數(shù)據(jù)就會通過互聯(lián)網(wǎng)傳播到全球各地的消費(fèi)者手中,消費(fèi)者可以在第一時間了解到各種優(yōu)惠活動并進(jìn)行購物決策。一、大數(shù)據(jù)的特征特征5V(1)數(shù)據(jù)規(guī)模大(volume)(2)數(shù)據(jù)種類多(variety)(3)數(shù)據(jù)產(chǎn)生和傳播速度快(velocity)(4)數(shù)據(jù)真實性低(veracity)(5)數(shù)據(jù)價值密度低(value)刷單行為:在電商平臺上,一些商家為了提高店鋪的銷量和排名,會采用刷單的方式制造虛假交易。傳感器數(shù)據(jù)方面:在一些戶外環(huán)境監(jiān)測中,由于天氣條件惡劣,傳感器采集到的數(shù)據(jù)可能會受到干擾,導(dǎo)致數(shù)據(jù)的準(zhǔn)確性降低。數(shù)據(jù)可能存在噪聲和偏差,導(dǎo)致數(shù)據(jù)真實性和準(zhǔn)確性低。一、大數(shù)據(jù)的特征特征5V(1)數(shù)據(jù)規(guī)模大(volume)(2)數(shù)據(jù)種類多(variety)(3)數(shù)據(jù)產(chǎn)生和傳播速度快(velocity)(4)數(shù)據(jù)真實性低(veracity)(5)數(shù)據(jù)價值密度低(value)數(shù)據(jù)可能存在不完整、不準(zhǔn)確、過時、有歧義等質(zhì)量問題,使用數(shù)據(jù)分析技術(shù)和數(shù)據(jù)挖掘技術(shù)可以從大規(guī)模數(shù)據(jù)中提取有價值的信息。例如,在一個長達(dá)24小時的監(jiān)控視頻中,真正有價值的可能只是某一時刻發(fā)生的交通事故、違規(guī)行為等片段。所以從大量的監(jiān)控視頻數(shù)據(jù)整體來看,價值密度是很低的。二、大數(shù)據(jù)技術(shù)體系

大數(shù)據(jù)技術(shù)體系是指為了處理大規(guī)模數(shù)據(jù)而構(gòu)建的一套完整的技術(shù)架構(gòu)和使用的多種工具的集合。數(shù)據(jù)采集數(shù)據(jù)存儲資源管理與服務(wù)協(xié)調(diào)數(shù)據(jù)計算數(shù)據(jù)可視化二、大數(shù)據(jù)技術(shù)體系數(shù)據(jù)采集數(shù)據(jù)采集層主要負(fù)責(zé)從數(shù)據(jù)源中收集數(shù)據(jù)。常用的數(shù)據(jù)采集工具有Sqoop、Flume和Kafka等。二、大數(shù)據(jù)技術(shù)體系數(shù)據(jù)存儲數(shù)據(jù)存儲層主要負(fù)責(zé)存儲和管理不同類型的數(shù)據(jù),從而為后續(xù)的數(shù)據(jù)處理、分析和挖掘等提供數(shù)據(jù)存取服務(wù)。常用的數(shù)據(jù)存儲技術(shù)有分布式文件系統(tǒng)、數(shù)據(jù)倉庫、NoSQL數(shù)據(jù)庫、NewSQL數(shù)據(jù)庫和云存儲等。二、大數(shù)據(jù)技術(shù)體系資源管理與服務(wù)協(xié)調(diào)資源管理與服務(wù)協(xié)調(diào)層主要負(fù)責(zé)對系統(tǒng)中的各種資源進(jìn)行管理和協(xié)調(diào),以確保系統(tǒng)的高效運(yùn)行和任務(wù)的順利執(zhí)行。常用的資源管理與服務(wù)協(xié)調(diào)工具有ApacheHadoop的YARN(yetanotherresourcenegotiator)、Mesos和Zookeeper等。二、大數(shù)據(jù)技術(shù)體系數(shù)據(jù)計算數(shù)據(jù)計算層主要負(fù)責(zé)對大規(guī)模數(shù)據(jù)進(jìn)行處理、分析和挖掘等。常用的數(shù)據(jù)計算技術(shù)有MapReduce、Storm和Spark等。二、大數(shù)據(jù)技術(shù)體系數(shù)據(jù)可視化數(shù)據(jù)可視化層主要負(fù)責(zé)將大規(guī)模的、復(fù)雜的數(shù)據(jù)以直觀、易于理解的圖形化形式展示出來。常用的數(shù)據(jù)可視化技術(shù)有PowerBI(powerbusinessintelligence)、D3.js和ECharts等。三、大數(shù)據(jù)存儲技術(shù)的發(fā)展歷程手寫或印刷在計算機(jī)出現(xiàn)之前,主要通過手寫或印刷的方式將數(shù)據(jù)記錄在紙上面實體介質(zhì)計算機(jī)出現(xiàn)以后,數(shù)據(jù)存儲依賴于實體介質(zhì)(如打孔卡、磁帶和磁盤等)關(guān)系型數(shù)據(jù)庫隨著計算機(jī)科學(xué)的飛速發(fā)展,關(guān)系型數(shù)據(jù)庫成為主流的數(shù)據(jù)存儲和管理平臺廣泛應(yīng)用于各行業(yè)大數(shù)據(jù)技術(shù)分布式文件系統(tǒng)數(shù)據(jù)倉庫技術(shù)NoSQL數(shù)據(jù)庫NewSQL數(shù)據(jù)庫云存儲服務(wù)云存儲服務(wù)允許用戶將數(shù)據(jù)遠(yuǎn)程存儲在云端的服務(wù)器上,實現(xiàn)了數(shù)據(jù)的集中管理和高效訪問。四、大數(shù)據(jù)存儲技術(shù)的分類大數(shù)據(jù)存儲技術(shù)數(shù)據(jù)倉庫NoSQL數(shù)據(jù)庫NewSQL數(shù)據(jù)庫云存儲分布式文件系統(tǒng)四、大數(shù)據(jù)存儲技術(shù)的分類1、分布式文件系統(tǒng)(DFS)定義:通過網(wǎng)絡(luò)連接多臺計算機(jī)(節(jié)點),并將數(shù)據(jù)和數(shù)據(jù)的管理任務(wù)分散到這些計算機(jī)上。特點DFS具有位置透明性,確保了用戶不需要了解底層存儲細(xì)節(jié)即可訪問遠(yuǎn)程數(shù)據(jù)功能可以直接作為大數(shù)據(jù)存儲工具,還可以作為其他復(fù)雜大數(shù)據(jù)存儲技術(shù)的底層存儲架構(gòu)。例如,Hive數(shù)據(jù)倉庫和HBase列式數(shù)據(jù)庫均以分布式文件系統(tǒng)作為其底層存儲架構(gòu)。主流系統(tǒng)Hadoop完全分布式文件系統(tǒng)(Hadoopdistributedfilesystem,HDFS)谷歌文件系統(tǒng)(Googlefilesystem,GFS)淘寶文件系統(tǒng)(Taobaofilesystem,TFS)等。四、大數(shù)據(jù)存儲技術(shù)的分類2、數(shù)據(jù)倉庫定義:一個面向主題的、集成的、相對穩(wěn)定的、具有歷史性的數(shù)據(jù)集合。特點支持大規(guī)模數(shù)據(jù)的長期存儲,常用于存儲業(yè)務(wù)發(fā)展過程中產(chǎn)生的歷史數(shù)據(jù)。功能設(shè)計并構(gòu)建數(shù)據(jù)倉庫,可以幫助企業(yè)有效地整合、存儲、管理和分析大規(guī)模數(shù)據(jù),從而為企業(yè)規(guī)劃業(yè)務(wù)發(fā)展和制訂戰(zhàn)略決策等提供數(shù)據(jù)支持。主流技術(shù)HiveSnowflake四、大數(shù)據(jù)存儲技術(shù)的分類3、NoSQL數(shù)據(jù)庫定義:NoSQL(notnolystructuredquerylanguage)泛指非關(guān)系型數(shù)據(jù)庫,最初是為了滿足互聯(lián)網(wǎng)的業(yè)務(wù)需求而設(shè)計的。它旨在克服傳統(tǒng)關(guān)系型數(shù)據(jù)庫在處理大規(guī)模數(shù)據(jù)、實現(xiàn)高并發(fā)訪問等方面的局限性。性能優(yōu)質(zhì)的NoSQL數(shù)據(jù)庫產(chǎn)品列式數(shù)據(jù)庫(如HBase、Cassandra等)文檔數(shù)據(jù)庫(如MongoDB、CouchDB、Couchbase等)圖數(shù)據(jù)庫(如Neo4j、JanusGraph、OrientDB等)鍵值數(shù)據(jù)庫(如Redis、DynamoDB等)四、大數(shù)據(jù)存儲技術(shù)的分類數(shù)據(jù)模型靈活隨時存儲自定義格式的數(shù)據(jù)。靈活地存儲結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。易擴(kuò)展NoSQL數(shù)據(jù)庫是分布式的水平擴(kuò)展的,數(shù)據(jù)之間沒有關(guān)系特性。高性能能夠支持高并發(fā)請求和大規(guī)模。高可用保證數(shù)據(jù)庫在部分節(jié)點故障時仍能正常運(yùn)行。在實際應(yīng)用中,如果數(shù)據(jù)庫系統(tǒng)無法處理高并發(fā)請求和存儲大量的數(shù)據(jù),則可以通過水平擴(kuò)展在系統(tǒng)中增加多個節(jié)點,從而提升系統(tǒng)的性能。NoSQL數(shù)據(jù)庫的特點四、大數(shù)據(jù)存儲技術(shù)的分類4、NewSQL數(shù)據(jù)庫定義:NewSQL數(shù)據(jù)庫是對各種新的可擴(kuò)展、高性能數(shù)據(jù)庫的總稱。特點不僅具有NoSQL數(shù)據(jù)庫存儲和管理海量數(shù)據(jù)的能力還保留了傳統(tǒng)關(guān)系型數(shù)據(jù)庫的ACID特性和SQL查詢語言。主流NewSQL數(shù)據(jù)庫TiDBVoltDBCockroachDBNuoDB四、大數(shù)據(jù)存儲技術(shù)的分類5、云存儲定義:云存儲技術(shù)隨著云計算的普及而迅速發(fā)展,為用戶提供了彈性的、可擴(kuò)展的、安全的數(shù)據(jù)存儲解決方案。用戶可以通過互聯(lián)網(wǎng)將數(shù)據(jù)存儲在云端的服務(wù)器上,無須關(guān)注底層的硬件和管理細(xì)節(jié)。主流的云存儲服務(wù)百度云騰訊云天翼云阿里云四、大數(shù)據(jù)存儲技術(shù)的分類云存儲技術(shù)的特點彈性擴(kuò)展用戶可以根據(jù)需要隨時擴(kuò)展存儲容量,不需要預(yù)先規(guī)劃和投資大量硬件設(shè)備。高可靠采用分布式架構(gòu),數(shù)據(jù)會存儲在多個物理位置,即使發(fā)生硬件故障或自然災(zāi)害,數(shù)據(jù)仍能得到保護(hù)和恢復(fù)。強(qiáng)大的數(shù)據(jù)管理功能提供了數(shù)據(jù)備份、快照、版本控制等功能,方便用戶對數(shù)據(jù)進(jìn)行管理和保護(hù)。靈活的數(shù)據(jù)存儲模型支持多種數(shù)據(jù)存儲模型,如對象存儲、文件存儲和塊存儲,用戶可以根據(jù)需求選擇合適的模型。性價比高按需付費(fèi)的模式提供服務(wù),用戶只需根據(jù)實際使用的存儲容量和數(shù)據(jù)傳輸量支付費(fèi)用,無須承擔(dān)大量的硬件和維護(hù)成本。任務(wù)實施

任務(wù)分析

訪問BOSS直聘、智聯(lián)招聘、58同城等招聘網(wǎng)站,搜索并查看大數(shù)據(jù)存儲相關(guān)崗位的招聘信息,了解大數(shù)據(jù)存儲相關(guān)崗位的技術(shù)要求與崗位職責(zé)等。

實施步驟了解大數(shù)據(jù)存儲相關(guān)崗位的要求任務(wù)實施

實施步驟

實施步驟步驟1打開BOSS直聘官網(wǎng)首頁。步驟2在搜索框中輸入關(guān)鍵字“大數(shù)據(jù)存儲”,并按“Enter”鍵進(jìn)行搜索,頁面顯示多條關(guān)于大數(shù)據(jù)存儲崗位的招聘信息。步驟3單擊打開搜索結(jié)果中的招聘信息,查看企業(yè)對大數(shù)據(jù)存儲相關(guān)崗位的具體描述和要求等。步驟4打開其他招聘網(wǎng)站,搜索并查看大數(shù)據(jù)存儲相關(guān)崗位的招聘信息。步驟5根據(jù)查看的招聘信息,歸納總結(jié)大數(shù)據(jù)存儲相關(guān)崗位的技術(shù)要求與崗位職責(zé)等,并為自己制訂合理的學(xué)習(xí)計劃與職業(yè)規(guī)劃。部署Hadoop完全分布式集群任務(wù)二Hadoop完全分布式集群包括Hadoop分布式文件系統(tǒng)(HDFS)、YARN和MapReduce等組件。其中,HDFS是Hadoop生態(tài)系統(tǒng)中的核心組件之一,它為Hadoop平臺提供了強(qiáng)大的數(shù)據(jù)存儲和管理功能。部署Hadoop完全分布式集群之前,我們先來學(xué)習(xí)一下分布式文件系統(tǒng)的特點、應(yīng)用場景和架構(gòu),以及HDFS的架構(gòu)和存儲原理。任務(wù)準(zhǔn)備問題1:簡述分布式系統(tǒng)的概念和特點。全班學(xué)生以3~5人為一組,各組選出組長。組長組織組員掃碼觀看“分布式系統(tǒng)概述”視頻,討論并回答下列問題。問題2:簡述分布式系統(tǒng)的數(shù)據(jù)一致性原則。分布式系統(tǒng)概述一、分布式文件系統(tǒng)概述功能:將數(shù)據(jù)分散存儲在多個節(jié)點上,不僅大幅擴(kuò)充了存儲容量,還通過并行處理技術(shù)顯著提高了數(shù)據(jù)處理的速度。特征(1)跨網(wǎng)絡(luò)存儲(2)高伸縮性(3)高可用性(4)負(fù)載均衡(5)訪問控制與安全(6)高可擴(kuò)展性1、分布式文件系統(tǒng)的特征特征(1)跨網(wǎng)絡(luò)存儲(2)高伸縮性(3)高可用性(4)負(fù)載均衡(5)訪問控制與安全(6)高可擴(kuò)展性分布式文件系統(tǒng)將數(shù)據(jù)存儲在多個節(jié)點上,這些節(jié)點通過計算機(jī)網(wǎng)絡(luò)相連,形成一個邏輯上的樹形文件系統(tǒng)結(jié)構(gòu),以便用戶訪問分布存儲在網(wǎng)絡(luò)上的共享數(shù)據(jù)。一、分布式文件系統(tǒng)概述特征(1)跨網(wǎng)絡(luò)存儲(2)高伸縮性(3)高可用性(4)負(fù)載均衡(5)訪問控制與安全(6)高可擴(kuò)展性分布式文件系統(tǒng)不受本地存儲空間的限制,可以通過動態(tài)增刪節(jié)點來實現(xiàn)高伸縮性。一、分布式文件系統(tǒng)概述1、分布式文件系統(tǒng)的特征一、分布式文件系統(tǒng)概述特征(1)跨網(wǎng)絡(luò)存儲(2)高伸縮性(3)高可用性(4)負(fù)載均衡(5)訪問控制與安全(6)高可擴(kuò)展性分布式文件系統(tǒng)通常將數(shù)據(jù)備份在多個節(jié)點上,提高了數(shù)據(jù)的可靠性。即使某個節(jié)點出現(xiàn)故障,系統(tǒng)也可以從其他節(jié)點恢復(fù)數(shù)據(jù),保證了數(shù)據(jù)的持續(xù)可用性。例如,在一個跨地域的數(shù)據(jù)中心部署中,即使某個地區(qū)的機(jī)房因為自然災(zāi)害或其他原因出現(xiàn)故障,其他地區(qū)的數(shù)據(jù)中心仍然可以正常提供服務(wù)。用戶的數(shù)據(jù)仍然可以被訪問和使用,不會因為一個地方的故障而導(dǎo)致整個系統(tǒng)癱瘓。1、分布式文件系統(tǒng)的特征一、分布式文件系統(tǒng)概述特征(1)跨網(wǎng)絡(luò)存儲(2)高伸縮性(3)高可用性(4)負(fù)載均衡(5)訪問控制與安全(6)高可擴(kuò)展性分布式文件系統(tǒng)可以將總的工作負(fù)載分散到多個節(jié)點上,提高了系統(tǒng)的整體性能。1、分布式文件系統(tǒng)的特征一、分布式文件系統(tǒng)概述特征(1)跨網(wǎng)絡(luò)存儲(2)高伸縮性(3)高可用性(4)負(fù)載均衡(5)訪問控制與安全(6)高可擴(kuò)展性分布式文件系統(tǒng)通常支持多用戶訪問控制、存儲配額和文件加密等功能,保證了數(shù)據(jù)的安全性和隱私性。1、分布式文件系統(tǒng)的特征一、分布式文件系統(tǒng)概述特征(1)跨網(wǎng)絡(luò)存儲(2)高伸縮性(3)高可用性(4)負(fù)載均衡(5)訪問控制與安全(6)高可擴(kuò)展性分布式文件系統(tǒng)支持動態(tài)擴(kuò)展存儲容量,集群之外的計算機(jī)只需經(jīng)過簡單的配置就可以加入系統(tǒng)中。這使得系統(tǒng)可以輕松地適應(yīng)不斷增長的數(shù)據(jù)存儲需求。例如,一個科研機(jī)構(gòu)使用HDFS存儲大量的實驗數(shù)據(jù)。最初的HDFS集群有1個名稱節(jié)點和10個數(shù)據(jù)節(jié)點,存儲容量為500TB。隨著實驗項目的增多,數(shù)據(jù)量急劇增加。為了擴(kuò)展存儲容量,該機(jī)構(gòu)可以通過添加新的數(shù)據(jù)節(jié)點來實現(xiàn)。假設(shè)添加了20個數(shù)據(jù)節(jié)點,每個數(shù)據(jù)節(jié)點的存儲容量為10TB。新的數(shù)據(jù)節(jié)點加入后,HDFS會自動將新的數(shù)據(jù)分布到這些新的數(shù)據(jù)節(jié)點上。名稱節(jié)點會更新其元數(shù)據(jù),以記錄新的數(shù)據(jù)存儲位置。這樣,存儲容量可以快速擴(kuò)展到700TB以上,并且只要硬件資源允許,可以持續(xù)添加數(shù)據(jù)節(jié)點來滿足不斷增長的存儲需求。1、分布式文件系統(tǒng)的特征2、分布式文件系統(tǒng)的應(yīng)用場景一、分布式文件系統(tǒng)概述3、分布式文件系統(tǒng)的架構(gòu)

分布式文件系統(tǒng)架構(gòu)主要由客戶端、元數(shù)據(jù)服務(wù)器和數(shù)據(jù)服務(wù)器組成。一、分布式文件系統(tǒng)概述一、分布式文件系統(tǒng)概述分布式文件系統(tǒng)的架構(gòu)客戶端定義:通過網(wǎng)絡(luò)連接到元數(shù)據(jù)服務(wù)器并向其發(fā)送請求的應(yīng)用程序或計算機(jī)。功能:負(fù)責(zé)與分布式文件系統(tǒng)的各個組件(如元數(shù)據(jù)服務(wù)器、數(shù)據(jù)服務(wù)器等)進(jìn)行通信,以實現(xiàn)數(shù)據(jù)的讀取、寫入和管理操作。元數(shù)據(jù)服務(wù)器功能:負(fù)責(zé)管理文件系統(tǒng)的元數(shù)據(jù),包括文件和目錄的結(jié)構(gòu)、權(quán)限信息、位置信息等。數(shù)據(jù)服務(wù)器功能:負(fù)責(zé)存儲實際的文件數(shù)據(jù)。3、分布式文件系統(tǒng)的架構(gòu)二、

HDFS的架構(gòu)HDFS是Hadoop的分布式文件系統(tǒng)用于存儲大規(guī)模數(shù)據(jù)Hadoop是一個開源的分布式存儲和計算平臺旨在存儲和處理大規(guī)模數(shù)據(jù)MapReduce是Hadoop的計算框架用于并行處理大規(guī)模數(shù)據(jù)二、

HDFS的架構(gòu)功能:HDFS與MapReduce、Hive、Pig等大數(shù)據(jù)處理工具緊密集成,為復(fù)雜的數(shù)據(jù)處理和分析提供便利,使得用戶能夠輕松地進(jìn)行大規(guī)模數(shù)據(jù)計算。HDFS是最流行的分布式文件系統(tǒng)之一。開源就是開放源代碼,任何人都可以獲取并使用軟件的源代碼。在開源社區(qū)中,來自世界各地的開發(fā)人員互相分享知識和經(jīng)驗,協(xié)作研發(fā)同一個項目,共同創(chuàng)造出高質(zhì)量的軟件。目前,開源已經(jīng)成為軟件產(chǎn)業(yè)的重要組成部分,廣受歡迎的開源軟件有Linux操作系統(tǒng)、Apache服務(wù)器、MySQL數(shù)據(jù)庫等。正如開源已成為軟件行業(yè)的必然趨勢一樣,開放合作也是這個世界的必然趨勢。作為大學(xué)生,更要在學(xué)好專業(yè)課的同時,強(qiáng)化自己的合作意識和共享精神,為科技的不斷發(fā)展盡自己的一份力量。素窗養(yǎng)之提問:開源是什么意思?二、HDFS的架構(gòu)HDFS是一個典型的主從架構(gòu)。名稱節(jié)點第二名稱節(jié)點數(shù)據(jù)節(jié)點二、HDFS的架構(gòu)名稱節(jié)點又稱為主節(jié)點,負(fù)責(zé)管理文件系統(tǒng)的命名空間,并處理客戶端對文件的訪問請求。名稱節(jié)名稱節(jié)點存儲文件系統(tǒng)樹的結(jié)構(gòu)信息及所有文件和目錄的元數(shù)據(jù),但不存儲實際數(shù)據(jù)。其中,元數(shù)據(jù)包括文件的權(quán)限、創(chuàng)建時間、修改時間、結(jié)構(gòu)和數(shù)據(jù)塊的位置信息等。名稱節(jié)點中有兩個非常重要的文件,分別為“fsimage”文件(鏡像文件)和“editlog”文件(操作日志文件)。其中,“fsimage”文件中存儲的是文件和目錄的元數(shù)據(jù)信息;“editlog”文件中存儲的是日志信息,記錄了針對文件的所有操作,如創(chuàng)建、刪除和重命名等。高手點拔二、HDFS的架構(gòu)第二名稱節(jié)點輔助名稱節(jié)點,定期合并“fsimage”文件和“editlog”文件,減輕名稱節(jié)點的內(nèi)存壓力,并在系統(tǒng)重啟時加速恢復(fù)過程。第二名稱節(jié)點并不是真正意義上的名稱節(jié)點,也不是名稱節(jié)點的備份節(jié)點,而是名稱節(jié)點的輔助者。二、HDFS的架構(gòu)數(shù)據(jù)節(jié)點又稱為從節(jié)點或工作節(jié)點。主要負(fù)責(zé)存儲和管理數(shù)據(jù)塊,并處理客戶端對數(shù)據(jù)塊的讀寫請求。為了維護(hù)文件系統(tǒng)的一致性和可用性,每個數(shù)據(jù)節(jié)點會周期性地向名稱節(jié)點發(fā)送自己所管理的數(shù)據(jù)塊列表,同時通過心跳信號(heartbeats)向名稱節(jié)點報告這些數(shù)據(jù)塊的狀態(tài),以便名稱節(jié)點更新元數(shù)據(jù),并確保名稱節(jié)點可以獲取到最新的集群狀態(tài)信息。三、

HDFS的存儲原理HDFS通過分塊(block)存儲機(jī)制和副本(replication)存儲機(jī)制實現(xiàn)數(shù)據(jù)的高效存儲和確保數(shù)據(jù)的可靠性。分塊存儲實例副本存儲實例(1)分塊存儲

定義:HDFS的分塊存儲是指將數(shù)據(jù)切分成固定大小的數(shù)據(jù)塊,并將這些數(shù)據(jù)塊分別存儲在HDFS中的多個數(shù)據(jù)節(jié)點中。默認(rèn)情況下,一個數(shù)據(jù)塊的大小是64MB,用戶可以根據(jù)磁盤驅(qū)動器的傳輸性能設(shè)置更大的數(shù)據(jù)塊,但一般不超過256MB?!?usr/local/file”表示數(shù)據(jù)在HDFS中的存儲路徑;該數(shù)據(jù)分為4個數(shù)據(jù)塊(A、B、C、D),其中數(shù)據(jù)塊A和B存儲在數(shù)據(jù)節(jié)點1中,數(shù)據(jù)塊C存儲在數(shù)據(jù)節(jié)點2中,數(shù)據(jù)塊D存儲在數(shù)據(jù)節(jié)點3中。三、

HDFS的存儲原理(2)

副本存儲

定義:HDFS的副本存儲是指將數(shù)據(jù)塊的副本復(fù)制到HDFS中的多個數(shù)據(jù)節(jié)點中。默認(rèn)情況下,HDFS中數(shù)據(jù)塊的副本數(shù)為3每個數(shù)據(jù)塊的3個副本存儲在3個數(shù)據(jù)節(jié)點中。其中,數(shù)據(jù)塊A存儲在數(shù)據(jù)節(jié)點1、3和4中;數(shù)據(jù)塊B存儲在數(shù)據(jù)節(jié)點1、2和4中,數(shù)據(jù)塊C存儲在數(shù)據(jù)節(jié)點2、3和4中,數(shù)據(jù)塊D存儲在數(shù)據(jù)節(jié)點1、2和3中。三、

HDFS的存儲原理任務(wù)實施

任務(wù)分析部署Hadoop完全分布式集群至少需要3臺主機(jī),并且需要在每臺主機(jī)上安裝JDK和Hadoop;然后修改主機(jī)的配置文件設(shè)置主機(jī)的主機(jī)名、網(wǎng)絡(luò)和防火墻;接著設(shè)置SSH免密登錄,確保3臺主機(jī)可以無障礙通信;最后修改Hadoop的配置文件,設(shè)置Hadoop的配置信息。本書的實施操作均在虛擬機(jī)里完成,參考本書配套素材中的“前置環(huán)境的搭建”文檔,安裝和配置以下前置環(huán)境。VMware虛擬機(jī):VMwareWorkstationPro17.0.0。Linux操作系統(tǒng):RedHatEnterpriseLinux8.7.064位。序號主機(jī)名IP地址/子網(wǎng)掩碼軟件第一臺主機(jī)Master(名稱節(jié)點/數(shù)據(jù)節(jié)點)1/JDK、Hadoop第二臺主機(jī)Worker1(數(shù)據(jù)節(jié)點)2/JDK、Hadoop第三臺主機(jī)Worker2(數(shù)據(jù)節(jié)點)3/JDK、HadoopHadoop完全分布式集群中每個主機(jī)的詳細(xì)介紹部署Hadoop

完全分布式集群任務(wù)實施

實施步驟1.安裝JDK和Hadoop步驟1啟動第一臺主機(jī)的終端,執(zhí)行如下命令,在“/usr/lib”目錄中新建一個“jvm”文件夾,用于存放解壓后的JDK安裝文件。[hadoop@localhost~]$cd/usr/lib #切換到“/usr/lib”目錄[hadoop@localhostlib]$sudomkdirjvm #新建“jvm”文件夾步驟2執(zhí)行如下命令,下載JDK8安裝文件,并將其解壓到“/usr/lib/jvm”目錄中。[hadoop@localhostlib]$sudowgethttps:///java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz #下載JDK8安裝文件[hadoop@localhostlib]$sudotar-zxvfjdk-8u151-linux-x64.tar.gz-C/usr/lib/jvm #解壓JDK8安裝文件任務(wù)實施步驟3執(zhí)行如下命令,使用Vim編輯器打開“.bashrc”配置文件。[hadoop@localhostlib]$vim~/.bashrc步驟4配置信息添加完成后,按“esc”鍵退出編輯模式,然后輸入“:wq”并按“Enter”鍵,保存配置信息并關(guān)閉配置文件。exportJAVA_HOME=/usr/lib/jvm/jdk1.8.0_151exportPATH=${JAVA_HOME}/bin:$PATH步驟5按“i”鍵進(jìn)入編輯模式,然后使用“↑”鍵將光標(biāo)位置調(diào)整至文件首行,最后添加如下配置信息,將JDK的可執(zhí)行文件路徑添加到系統(tǒng)的PATH環(huán)境變量中,以便在任意路徑下使用Java。執(zhí)行如下命令,使配置信息生效。步驟6[hadoop@localhostlib]$source~/.bashrc任務(wù)實施步驟7執(zhí)行如下命令,驗證JDK是否安裝成功。若能輸出JDK的版本信息,則證明安裝成功。[hadoop@localhostlib]$java-version啟動第一臺主機(jī)的瀏覽器,訪問“/dist/hadoop”,在打開的頁面中單擊“common/”鏈接文字;然后在打開的版本頁面中單擊“hadoop-3.3.4/”鏈接文字;最后在打開的頁面中單擊“hadoop-3.3.4.tar.gz”鏈接文字,下載Hadoop安裝文件。步驟8JDK的版本信息任務(wù)實施步驟9執(zhí)行如下命令,將Hadoop安裝文件解壓到“/usr/local”目錄中;然后將“hadoop-3.3.4”目錄重命名為“hadoop”,使目錄名稱更簡潔,以便后續(xù)使用;最后將“hadoop”目錄的所有權(quán)限賦予hadoop用戶,使hadoop用戶有權(quán)限訪問和操作“hadoop”目錄中的文件。#解壓Hadoop安裝文件[hadoop@localhostlib]$sudotar-zxf~/下載/hadoop-3.3.4.tar.gz-C/usr/local[hadoop@localhostlib]$cd/usr/local #重命名[hadoop@localhostlocal]$sudomv./hadoop-3.3.4/./hadoop#賦予權(quán)限[hadoop@localhostlocal]$sudochown-Rhadoop./hadoop任務(wù)實施步驟10執(zhí)行如下命令,打開“.bashrc”配置文件;然后在文件首行添加如下配置信息,將Hadoop的可執(zhí)行文件路徑添加到系統(tǒng)的PATH環(huán)境變量中,以便在任意路徑下使用Hadoop;最后保存并關(guān)閉配置文件。[hadoop@localhostlocal]$vim~/.bashrc#配置信息exportHADOOP_HOME=/usr/local/hadoopexportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin步驟11執(zhí)行如下命令,使配置信息生效。[hadoop@localhostlocal]$source~/.bashrc任務(wù)實施步驟12執(zhí)行如下命令,打開“hadoop-env.sh”配置文件;然后在文件首行添加如下配置信息,以便快速找到并使用指定版本的JDK和Hadoop的配置文件,確保Hadoop正常運(yùn)行;最后保存并關(guān)閉配置文件。[hadoop@localhostlocal]$cd/usr/local/hadoop/etc/hadoop[hadoop@localhosthadoop]$vimhadoop-env.sh#配置信息exportJAVA_HOME=/usr/lib/jvm/jdk1.8.0_151exportHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop步驟13執(zhí)行如下命令,查看Hadoop的版本信息。若能輸出Hadoop的版本信息,則證明Hadoop安裝成功。[hadoop@localhosthadoop]$hadoopversionHadoop的版本信息任務(wù)實施步驟14在第二臺和第三臺主機(jī)上重復(fù)上述操作,安裝JDK和Hadoop。小提示讀者可以新建兩臺虛擬機(jī)并重復(fù)上述操作安裝JDK和Hadoop,也可以克隆安裝過JDK和Hadoop的第一臺主機(jī),得到另外兩臺主機(jī)。2.設(shè)置主機(jī)的主機(jī)名、網(wǎng)絡(luò)和防火墻步驟1[hadoop@localhost~]$sudovim/etc/hostname#配置信息Master啟動第一臺主機(jī)的終端,執(zhí)行如下命令,打開“hostname”配置文件;然后刪除文件中的所有內(nèi)容并添加如下配置信息,將主機(jī)名修改為Master;最后保存并關(guān)閉配置文件。任務(wù)實施步驟2執(zhí)行如下命令,打開“ifcfg-ens160”配置文件;然后在文件末尾添加如下配置信息,設(shè)置IP地址和子網(wǎng)掩碼;最后保存并關(guān)閉配置文件。使用同樣的方法修改其余兩臺主機(jī)的主機(jī)名、IP地址和子網(wǎng)掩碼。[hadoop@localhost~]$sudovim/etc/sysconfig/network-scripts

/ifcfg-ens160#配置信息IPADDR=1NETMASK=步驟3分別在3臺主機(jī)的終端執(zhí)行如下命令,打開“hosts”配置文件;然后在文件末尾添加如下配置信息,設(shè)置主機(jī)名與IP地址的映射關(guān)系,確保用戶可以直接使用主機(jī)名訪問相應(yīng)的IP地址;最后保存并關(guān)閉配置文件。步驟6任務(wù)實施[hadoop@localhost~]$sudovim/etc/hosts#配置信息1Master2Worker13Worker2步驟5啟動Master主機(jī)的終端,執(zhí)行如下命令,測試Master和Worker1主機(jī)之間的連通性。若出現(xiàn)“time=”,則證明Master和Worker1主機(jī)的IP地址和映射關(guān)系配置成功。步驟6小提示“hosts”文件中原有的內(nèi)容不要刪除,然后根據(jù)自己創(chuàng)建的3臺主機(jī)的主機(jī)名和IP地址添加配置信息。重啟3臺主機(jī)。任務(wù)實施[hadoop@Master~]$pingWorker1-c3步驟7在Master主機(jī)上執(zhí)行如下命令,關(guān)閉防火墻,保證Hadoop集群的節(jié)點之間能夠相互通信。關(guān)閉防火墻的過程中,如果打開認(rèn)證窗口,輸入密碼,然后單擊“認(rèn)證”按鈕。步驟8使用同樣的方法驗證Worker2主機(jī)的IP地址和映射關(guān)系是否配置成功。

測試Master和Worker1主機(jī)之間的連通性[hadoop@Master~]$systemctlstopfirewalld.service[hadoop@Master~]$systemctldisablefirewalld.service步驟9使用同樣的方法關(guān)閉Worker1和Worker2主機(jī)的防火墻。任務(wù)實施

實施步驟3.設(shè)置SSH免密登錄步驟1在Master主機(jī)上執(zhí)行如下命令,設(shè)置SSH免密登錄,以便操作主機(jī)。#登錄主機(jī),登錄過程中根據(jù)提示信息輸入“yes”或密碼[hadoop@Master~]$sshlocalhost [hadoop@Master~]$cd~/.ssh#生成SSH密鑰對,生成過程中根據(jù)提示信息按3次“Enter”鍵[hadoop@Master.ssh]$ssh-keygen-trsa#將生成的公鑰添加到“authorized_keys”文件中[hadoop@Master.ssh]$cat./id_rsa.pub>>./authorized_keys#設(shè)置“authorized_keys”文件的權(quán)限為600,保護(hù)私鑰的安全性[hadoop@Master.ssh]$chmod600~/.ssh/authorized_keys定義:SSH(secureshell)是一種用于計算機(jī)之間加密登錄的網(wǎng)絡(luò)協(xié)議,通過加密和身份驗證保證通信的機(jī)密性、完整性和安全性。功能:設(shè)置SSH免密登錄可以實現(xiàn)遠(yuǎn)程登錄、服務(wù)控制和數(shù)據(jù)傳輸?shù)裙δ?。任?wù)實施步驟2使用同樣的方法設(shè)置Worker1和Worker2主機(jī)的SSH免密登錄。步驟3在Worker1主機(jī)上執(zhí)行如下命令,將Master主機(jī)的公鑰添加到“authorized_keys”文件中,以便Master主機(jī)免密訪問Worker1主機(jī)。[hadoop@Master.ssh]$scp./id_rsa.pubhadoop@Worker1:/home/

hadoop/[hadoop@Master.ssh]$scp./id_rsa.pubhadoop@Worker2:/home/

hadoop/步驟4在Master主機(jī)上執(zhí)行如下命令,將Master主機(jī)的公鑰文件復(fù)制到Worker1和Worker2主機(jī)中。復(fù)制過程中根據(jù)提示信息輸入“yes”,以及Worker1或Worker2主機(jī)的密碼。[hadoop@Worker1.ssh]$cat/home/hadoop/id_rsa.pub>>~/.ssh/authorized_keys任務(wù)實施步驟5使用同樣的方法在Worker2主機(jī)中將Master主機(jī)的公鑰添加到“authorized_keys”文件中。步驟6在Master主機(jī)上執(zhí)行如下命令,退出Worker1主機(jī)。[hadoop@Master.ssh]$sshWorker1步驟7在Master主機(jī)上執(zhí)行如下命令,訪問Worker1主機(jī)。若不需要輸入密碼即可成功訪問,則證明SSH免密登錄設(shè)置成功。[hadoop@Worker1~]$exit使用同樣的方法驗證Master主機(jī)能否免密訪問Worker2主機(jī)。步驟8任務(wù)實施

實施步驟4.設(shè)置Hadoop的配置信息步驟1在Master主機(jī)上執(zhí)行如下命令,打開“workers”配置文件;然后刪除文件中的所有內(nèi)容并添加如下配置信息,指定Hadoop集群中所有的數(shù)據(jù)節(jié)點;最后保存并關(guān)閉配置文件。[hadoop@Master~]$cd/usr/local/hadoop/etc/hadoop[hadoop@Masterhadoop]$vimworkers#配置信息MasterWorker1Worker2步驟2在Master主機(jī)上執(zhí)行如下命令,打開“core-site.xml”配置文件;然后在<configuration></configuration>標(biāo)簽中添加如下配置信息;最后保存并關(guān)閉配置文件。任務(wù)實施[hadoop@Masterhadoop]$geditcore-site.xml#配置信息<property> <!--配置Hadoop集群的默認(rèn)文件系統(tǒng),其中Master為名稱節(jié)點的主機(jī)名--> <name>fs.defaultFS</name> <value>hdfs://Master:9000</value></property><property><!--配置Hadoop的臨時數(shù)據(jù)目錄--> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value></property>任務(wù)實施步驟3在Master主機(jī)上執(zhí)行如下命令,打開“hdfs-site.xml”配置文件;然后在<configuration></configuration>標(biāo)簽中添加如下配置信息;最后保存并關(guān)閉配置文件。[hadoop@Masterhadoop]$gedithdfs-site.xml#配置信息<property> <!--配置SecondaryNameNode的HTTP服務(wù)地址--> <name>node.secondary.http-address</name> <value>Master:50090</value></property><property>

<!--配置HDFS副本數(shù),與數(shù)據(jù)節(jié)點的數(shù)量一致--> <name>dfs.replication</name> <value>3</value>任務(wù)實施</property><property><!--配置名稱節(jié)點的元數(shù)據(jù)目錄--> <name>.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property> <!--配置數(shù)據(jù)節(jié)點的數(shù)據(jù)目錄--> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value></property><property><!--配置名稱節(jié)點,與“core-site.xml”配置文件中名稱節(jié)點的主機(jī)名一致-->任務(wù)實施<name>service</name> <value>Master</value></property><property><!--配置HDFSWeb網(wǎng)址--> <name>dfs.http.address</name> <value>:50070</value></property>步驟4在Master主機(jī)上執(zhí)行如下命令,打開“mapred-site.xml”配置文件;然后在<configuration></configuration>標(biāo)簽中添加如下配置信息,設(shè)置MapReduce運(yùn)行時使用的資源管理框架為YARN;最后保存并關(guān)閉配置文件。任務(wù)實施[hadoop@Masterhadoop]$geditmapred-site.xml#配置信息<property> <name></name> <value>yarn</value></property>步驟5在Master主機(jī)上執(zhí)行如下命令,打印當(dāng)前Hadoop環(huán)境的配置路徑。該配置路徑會作為配置信息的一部分添加到“yarn-site.xml”配置文件中。[hadoop@Masterhadoop]$hadoopclasspath

Hadoop環(huán)境的配置路徑任務(wù)實施步驟6在Master主機(jī)上執(zhí)行如下命令,打開“yarn-site.xml”配置文件;然后在<configuration></configuration>標(biāo)簽中添加如下配置信息;最后保存并關(guān)閉配置文件。[hadoop@Masterhadoop]$gedityarn-site.xml#配置信息<property> <!--配置YARN的ResourceManager的地址--> <name>yarn.resourcemanager.hostname</name> <value>Master</value></property><property><!--配置YARN的NodeManager的輔助服務(wù)--> <name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>任務(wù)實施</property><property> <name>yarn.application.classpath</name> <value>/usr/local/hadoop/etc/hadoop:/usr/local/hadoop/share/hadoop/common/lib/*:/usr/local/hadoop/share/hadoop/common/*:/usr/local/hadoop/share/hadoop/hdfs:/usr/local/hadoop/share/hadoop/hdfs/lib/*:/usr/local/hadoop/share/hadoop/hdfs/*:/usr/local/hadoop/share/hadoop/mapreduce/*:/usr/local/hadoop/share/hadoop/yarn:/usr/local/hadoop/share/hadoop/yarn/lib/*:/usr/local/hadoop/share/hadoop/yarn/*</value></property>步驟7在Master主機(jī)上執(zhí)行如下命令,將“/usr/local/hadoop/etc/hadoop”目錄中的所有配置文件復(fù)制到Worker1和Worker2主機(jī)的相應(yīng)目錄中,避免重復(fù)配置操作。任務(wù)實施[hadoop@Masterhadoop]$scp-r/usr/local/hadoop/etc/hadoop/*Worker1:/usr/local/hadoop/etc/hadoop #復(fù)制到Worker1主機(jī)中[hadoop@Masterhadoop]$scp-r/usr/local/hadoop/etc/hadoop/*Worker2:/usr/local/hadoop/etc/hadoop #復(fù)制到Worker2主機(jī)中步驟8在Master主機(jī)上執(zhí)行如下命令,格式化NameNode。[hadoop@Masterhadoop]$hdfsnamenode-format小提示格式化NameNode只需要在第一次啟動HDFS之前執(zhí)行一次。任務(wù)實施步驟9在Master主機(jī)上執(zhí)行如下命令,啟動HDFS和YARN。[hadoop@Masterhadoop]$start-dfs.sh[hadoop@Masterhadoop]$start-yarn.sh步驟10在Master主機(jī)上執(zhí)行如下命令,查看進(jìn)程。若顯示的進(jìn)程中含有NameNode、SecondaryNameNode、DataNode和NodeManager,則證明名稱節(jié)點啟動成功。[hadoop@Masterhadoop]$jps

名稱節(jié)點的進(jìn)程任務(wù)實施步驟11在Worker1主機(jī)上執(zhí)行如下命令,查看進(jìn)程。若顯示的進(jìn)程中含有DataNode、NodeManager,則證明數(shù)據(jù)節(jié)點啟動成功。[hadoop@Worker1~]$jps步驟12啟動Master主機(jī)的瀏覽器,訪問“http://Master:50070”,打開HDFS的Web頁面。

數(shù)據(jù)節(jié)點的進(jìn)程

HDFS的Web頁面項目實訓(xùn)

實訓(xùn)目標(biāo)hdfsdfs-mkdir/hdfs_test使用HDFS的相關(guān)命令創(chuàng)建目錄、上傳文件、查看文件列表、下載文件、刪除目錄和文件。①啟動Master主機(jī)的終端,執(zhí)行如下命令,在HDFS中創(chuàng)建“hdfs_test”目錄。熟練使用HDFS的相關(guān)命令操作文件。熟練在HDFSWeb頁面中操作文件。

實訓(xùn)內(nèi)容1hdfsdfs-put/usr/local/hadoop/README.txt/hdfs_test②執(zhí)行如下命令,將本地文件系統(tǒng)中的“/usr/local/hadoop/README.txt”文件上傳至HDFS中的“hdfs_test”目錄。項目實訓(xùn)

實訓(xùn)目標(biāo)hdfsdfs-ls/hdfs_test③執(zhí)行如下命令,查看HDFS中“hdfs_test”目錄的文件列表。

實訓(xùn)內(nèi)容hdfsdfs-get/hdfs_test/README.txt~/下載④執(zhí)行如下命令,將上傳的文件下載到本地文件系統(tǒng)的“~/下載”目錄中。hdfsdfs-rm-r/hdfs_test⑤執(zhí)行如下命令,刪除HDFS中的“hdfs_test”目錄。在HDFSWeb頁面中創(chuàng)建目錄、上傳文件、查看目錄結(jié)構(gòu)、下載文件、刪除目錄和文件。①打開HDFSWeb頁面,選擇“Utilities”/“Browsethefilesystem”選項可以查看HDFS中的文件及目錄。2項目實訓(xùn)

實訓(xùn)目標(biāo)

實訓(xùn)內(nèi)容②單擊對應(yīng)的按鈕即可創(chuàng)建目錄、上傳文件、查看目錄結(jié)構(gòu)、剪切和復(fù)制文件、刪除文件等。查看HDFS中的文件及目錄

HDFSWeb中操作文件的頁面項目評價

實訓(xùn)目標(biāo)

實訓(xùn)內(nèi)容請學(xué)生結(jié)合本項目的學(xué)習(xí)情況,對學(xué)習(xí)成果進(jìn)行自評和互評(組內(nèi)成員相互評分),請指導(dǎo)教師進(jìn)行師評和總評,并將評價結(jié)果填入表中。評價項目評價內(nèi)容評價分?jǐn)?shù)分值自評互評師評任務(wù)完成度

(20%)任務(wù)準(zhǔn)備階段,回答問題清晰準(zhǔn)確,緊扣主題,沒有明顯錯誤5分

任務(wù)實施階段,根據(jù)操作步驟完成本任務(wù)5分

項目實訓(xùn)階段,出色地完成實訓(xùn)內(nèi)容5分

項目考核階段,完成考核題目5分

知識

(35%)大數(shù)據(jù)的特征和技術(shù)體系5分

大數(shù)據(jù)存儲技術(shù)的發(fā)展歷程和分類10分

分布式文件系統(tǒng)的特點、應(yīng)用場景和架構(gòu)10分

HDFS的架構(gòu)和存儲原理10分

項目評價

實訓(xùn)目標(biāo)

實訓(xùn)內(nèi)容評價項目評價內(nèi)容評價分?jǐn)?shù)分值自評互評師評技能

(35%)根據(jù)大數(shù)據(jù)存儲相關(guān)崗位的要求制訂具有針對性的學(xué)習(xí)計劃15分

部署Hadoop完全分布式集群20分

素養(yǎng)

(10%)具有自主學(xué)習(xí)意識,做好課前準(zhǔn)備5分

腳踏實地,扎實掌握基本理論知識5分

合計100分

總評綜合得分:____________指導(dǎo)教師簽字:__________綜合等級:____________注:綜合得分可按照“自評(25%)+互評(25%)+師評(50%)”進(jìn)行計算;綜合等級可以“優(yōu)”(綜合得分≥90分)、“良”(80分≤綜合得分<90分)、“中”(60分≤綜合得分<80分)、“差”(綜合得分<60分)為標(biāo)準(zhǔn)進(jìn)行評價。大數(shù)據(jù)存儲技術(shù)與應(yīng)用案例項目一大數(shù)據(jù)存儲入門項目三列式數(shù)據(jù)庫HBase項目二數(shù)據(jù)倉庫Hive項目四文檔數(shù)據(jù)庫MongoDB項目五圖數(shù)據(jù)庫Neo4j項目六鍵值數(shù)據(jù)庫Redis項目七NewSQL數(shù)據(jù)庫CockroachDB數(shù)據(jù)倉庫Hive項目二任務(wù)一采用遠(yuǎn)程模式部署Hive任務(wù)二構(gòu)建網(wǎng)站流量數(shù)據(jù)倉庫任務(wù)三操作網(wǎng)站流量數(shù)據(jù)在數(shù)據(jù)倉庫在整合數(shù)據(jù)、提高數(shù)據(jù)質(zhì)量、支持實時決策和實現(xiàn)業(yè)務(wù)分析等方面發(fā)揮著重要作用。Hive是一個基于Hadoop生態(tài)系統(tǒng)的數(shù)據(jù)倉庫工具,它能夠有效處理大規(guī)模數(shù)據(jù)集,常用于構(gòu)建數(shù)據(jù)倉庫、處理和分析數(shù)據(jù)等。本項目將介紹數(shù)據(jù)倉庫和Hive的相關(guān)知識,采用遠(yuǎn)程模式部署Hive,構(gòu)建網(wǎng)站流量數(shù)據(jù)倉庫,操作網(wǎng)站流量數(shù)據(jù)。項目導(dǎo)讀項目目標(biāo)熟悉數(shù)據(jù)倉庫的特點、應(yīng)用場景和分層架構(gòu)。熟悉Hive的架構(gòu)、存儲結(jié)構(gòu)和表的存儲格式。掌握Hive中數(shù)據(jù)庫和表的基本操作。掌握Hive中導(dǎo)入數(shù)據(jù)、查詢數(shù)據(jù)和導(dǎo)出數(shù)據(jù)的基本操作。能采用遠(yuǎn)程模式部署Hive。能根據(jù)業(yè)務(wù)需求合理設(shè)計并構(gòu)建數(shù)據(jù)倉庫。能有效操作業(yè)務(wù)中的數(shù)據(jù),包括向數(shù)據(jù)倉庫導(dǎo)入數(shù)據(jù)、查詢數(shù)據(jù)和導(dǎo)出數(shù)據(jù)等。增強(qiáng)遵守規(guī)則的意識,養(yǎng)成按規(guī)矩行事的習(xí)慣。學(xué)習(xí)共享精神,實現(xiàn)資源的共同利用,從而推動社會的共同進(jìn)步和繁榮。采用遠(yuǎn)程模式部署Hive任務(wù)一Hive支持3種部署模式,分別為內(nèi)嵌模式、本地模式和遠(yuǎn)程模式。在實際開發(fā)中,通常采用遠(yuǎn)程模式部署Hive。采用這種模式部署Hive時,需要配置Hive的服務(wù)端和客戶端。服務(wù)端通常將元數(shù)據(jù)存儲在MySQL數(shù)據(jù)庫中,并通過HiveServer2服務(wù)管理元數(shù)據(jù)、處理來自客戶端的用戶請求、執(zhí)行查詢并返回結(jié)果??蛻舳送ㄟ^Beeline工具與Hive服務(wù)端進(jìn)行交互,允許用戶編寫并提交查詢語句到服務(wù)端執(zhí)行。采用遠(yuǎn)程模式部署Hive之前,我們先來學(xué)習(xí)一下數(shù)據(jù)倉庫的特點、應(yīng)用場景和分層架構(gòu),以及Hive的架構(gòu)、存儲結(jié)構(gòu)和表的存儲格式。任務(wù)準(zhǔn)備問題1:簡述Hive和關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)類型的異同。全班學(xué)生以3~5人為一組,各組選出組長。組長組織組員掃碼觀看“Hive和關(guān)系型數(shù)據(jù)庫的異同”視頻,討論并回答下列問題。問題2:簡述Hive和關(guān)系型數(shù)據(jù)庫中表存儲格式的異同。Hive和關(guān)系型數(shù)據(jù)庫的異同一、數(shù)據(jù)倉庫概述定義:數(shù)據(jù)倉庫是企業(yè)決策支持系統(tǒng)中不可或缺的一部分,它為企業(yè)提供了一個集中管理數(shù)據(jù)的平臺,用于存儲歷史數(shù)據(jù)、進(jìn)行復(fù)雜的查詢和分析,從而幫助企業(yè)做出更明智的商業(yè)決策。特征(1)主題性(2)集成性(3)穩(wěn)定性(4)歷史性1、數(shù)據(jù)倉庫的特點特征(1)主題性(2)集成性(3)穩(wěn)定性(4)歷史性數(shù)據(jù)倉庫是針對企業(yè)的某個特定主題或問題而設(shè)計的,其中的數(shù)據(jù)是按照主題進(jìn)行組織和存儲的。主題是一個抽象概念,每個主題通常對應(yīng)一個或多個表,這些表包含與主題相關(guān)的數(shù)據(jù)。一、數(shù)據(jù)倉庫概述一、數(shù)據(jù)倉庫概述特征(1)主題性(2)集成性(3)穩(wěn)定性(4)歷史性數(shù)據(jù)倉庫可以從多個數(shù)據(jù)源中獲取數(shù)據(jù),并將數(shù)據(jù)集成到一個統(tǒng)一的數(shù)據(jù)模型中,以確保數(shù)據(jù)的一致性和準(zhǔn)確性。1、數(shù)據(jù)倉庫的特點一、數(shù)據(jù)倉庫概述特征(1)主題性(2)集成性(3)穩(wěn)定性(4)歷史性數(shù)據(jù)倉庫中的數(shù)據(jù)一般以只讀格式保存,不可以修改,以確保數(shù)據(jù)的完整性和穩(wěn)定性。例如,在電信公司的數(shù)據(jù)倉庫存儲了用戶的通話記錄。這些通話記錄在存入數(shù)據(jù)倉庫后,一般不會被刪除或修改。當(dāng)需要分析用戶在過去幾個月或幾年的通話行為變化時,能夠保證數(shù)據(jù)的原始性和完整性,確保分析結(jié)果是基于穩(wěn)定的數(shù)據(jù)得到的。1、數(shù)據(jù)倉庫的特點一、數(shù)據(jù)倉庫概述特征(1)主題性(2)集成性(3)穩(wěn)定性(4)歷史性數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。例如,銀行的數(shù)據(jù)倉庫會記錄客戶賬戶余額的變化情況。每個月都會有新的賬戶交易數(shù)據(jù)添加到數(shù)據(jù)倉庫中,并且歷史的賬戶余額數(shù)據(jù)和交易記錄都會被保存。這樣可以分析客戶在不同時間段的資金流動情況,比如分析某個客戶過去一年的儲蓄趨勢或者消費(fèi)模式的變化。1、數(shù)據(jù)倉庫的特點一、數(shù)據(jù)倉庫概述2、數(shù)據(jù)倉庫的應(yīng)用場景一、數(shù)據(jù)倉庫概述定義:數(shù)據(jù)倉庫分層是一種用于管理數(shù)據(jù)倉庫的方法,它能將數(shù)據(jù)倉庫劃分為多個邏輯層次。每個層次都有特定的功能和作用,不同層次的數(shù)據(jù)具有不同的組織、存儲和管理方式。數(shù)據(jù)應(yīng)用層數(shù)據(jù)倉庫層源數(shù)據(jù)層3、數(shù)據(jù)倉庫分層架構(gòu)一、數(shù)據(jù)倉庫概述源數(shù)據(jù)層源數(shù)據(jù)層又稱ODS(operationdatastore)層,主要用于保存原始數(shù)據(jù),完成數(shù)據(jù)積存。源數(shù)據(jù)層通常采用ETL工具為數(shù)據(jù)倉庫提供數(shù)據(jù),使源數(shù)據(jù)和數(shù)據(jù)倉庫之間保持?jǐn)?shù)據(jù)同步。該層的數(shù)據(jù)通常保存在磁盤中,即使計算機(jī)突然停機(jī)或崩潰,數(shù)據(jù)也不會丟失。一、數(shù)據(jù)倉庫概述源數(shù)據(jù)層源數(shù)據(jù)層又稱ODS(operationdatastore)層,主要用于保存原始數(shù)據(jù),完成數(shù)據(jù)積存。源數(shù)據(jù)層通常采用ETL工具為數(shù)據(jù)倉庫提供數(shù)據(jù),使源數(shù)據(jù)和數(shù)據(jù)倉庫之間保持?jǐn)?shù)據(jù)同步。該層的數(shù)據(jù)通常保存在磁盤中,即使計算機(jī)突然停機(jī)或崩潰,數(shù)據(jù)也不會丟失。高手點拔ETL(extract-transform-load)工具是用于提取、轉(zhuǎn)換和加載數(shù)據(jù)的軟件工具。ETL工具能夠從各種數(shù)據(jù)源中提取數(shù)據(jù);然后轉(zhuǎn)換和整理提取到的數(shù)據(jù);最后將數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)倉庫或數(shù)據(jù)分析平臺。提問:ETL的作用是什么?一、數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫層數(shù)據(jù)倉庫層又稱DW(datawarehouse)層,存儲的數(shù)據(jù)是對源數(shù)據(jù)層中數(shù)據(jù)的輕度匯總,即按照一定的主題匯總的數(shù)據(jù)。數(shù)據(jù)倉庫層可以繼續(xù)劃分為明細(xì)(datawarehousedetail,DWD)層、中間(datawarehousemiddle,DWM)層和業(yè)務(wù)(datawarehouseservice,DWS)層。一、數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫層數(shù)據(jù)倉庫層又稱DW(datawarehouse)層,存儲的數(shù)據(jù)是對源數(shù)據(jù)層中數(shù)據(jù)的輕度匯總,即按照一定的主題匯總的數(shù)據(jù)。數(shù)據(jù)倉庫層可以繼續(xù)劃分為明細(xì)(datawarehousedetail,DWD)層、中間(datawarehousemiddle,DWM)層和業(yè)務(wù)(datawarehouseservice,DWS)層。一、數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫層數(shù)據(jù)倉庫層又稱DW(datawarehouse)層,存儲的數(shù)據(jù)是對源數(shù)據(jù)層中數(shù)據(jù)的輕度匯總,即按照一定的主題匯總的數(shù)據(jù)。數(shù)據(jù)倉庫層可以繼續(xù)劃分為明細(xì)(datawarehousedetail,DWD)層、中間(datawarehousemiddle,DWM)層和業(yè)務(wù)(datawarehouseservice,DWS)層。高手點拔①指標(biāo)是用于分析、衡量和評估業(yè)務(wù)性能的度量值。在銷售業(yè)務(wù)分析中,可以將指標(biāo)設(shè)置為銷售量、銷售額、銷售增長率等,以便從不同的角度分析業(yè)務(wù)數(shù)據(jù)。②粒度是指數(shù)據(jù)在數(shù)據(jù)倉庫中的組織層次和細(xì)節(jié)程度。在銷售業(yè)務(wù)分析中,可以對數(shù)據(jù)進(jìn)行細(xì)粒度匯總,如日銷售額;也可以對數(shù)據(jù)進(jìn)行粗粒度匯總,如月銷售額。③維度是對業(yè)務(wù)過程中的某方面進(jìn)行描述的屬性集合。在銷售業(yè)務(wù)分析中,可以從時間、地點、產(chǎn)品和客戶等維度描述訂單。④維度建模法是數(shù)據(jù)倉庫構(gòu)建過程中常用的一種邏輯設(shè)計手段,它通過維度表和事實表設(shè)計數(shù)據(jù)模型。其中,事實表用于存儲業(yè)務(wù)指標(biāo),維度表用于描述事實表的維度。在實際應(yīng)用中,用戶可以根據(jù)業(yè)務(wù)需求省略中間層,直接從明細(xì)層讀取數(shù)據(jù)并計算寬表的指標(biāo),然后將寬表存放在業(yè)務(wù)層。一、數(shù)據(jù)倉庫概述數(shù)據(jù)應(yīng)用層數(shù)據(jù)應(yīng)用層又稱DA(dataapplication)層,用于為數(shù)據(jù)挖掘、數(shù)據(jù)可視化、數(shù)據(jù)分析等實際業(yè)務(wù)場景提供數(shù)據(jù)。數(shù)據(jù)應(yīng)用層的數(shù)據(jù)通常來源于數(shù)據(jù)倉庫層。二、Hive的架構(gòu)定義:Hive是開源的數(shù)據(jù)倉庫工具,它提供了一種類似于SQL(structuredquerylanguage)的查詢語言(HiveQL),用于管理和查詢大規(guī)模數(shù)據(jù)。Hive使用MapReduce實現(xiàn)分布式計算Hive使用HDFS存儲數(shù)據(jù)用戶接口Thrift服務(wù)驅(qū)動器元數(shù)據(jù)庫二、Hive的架構(gòu)用戶接口Hive提供了CLI、編程接口(如JDBC、ODBC)和Web接口等用戶接口。通過用戶接口,用戶可以執(zhí)行查詢數(shù)據(jù)、管理表和管理數(shù)據(jù)庫等操作。CLI(commandlineinterface)是命令行界面,用戶可以在該界面上輸入命令或語句與計算機(jī)進(jìn)行交互。JDBC(Javadatabaseconnectivity)和ODBC(opendatabaseconnectivity)是用于連接數(shù)據(jù)庫和進(jìn)行數(shù)據(jù)庫交互的兩種標(biāo)準(zhǔn)接口。通過這些標(biāo)準(zhǔn)接口,用戶可以使用多種編程語言(如Java、Python、R等)訪問Hive。高手點拔二、Hive的架構(gòu)Thrift服務(wù)提供了訪問服務(wù)允許用戶使用不同的編程語言調(diào)用Hive接口。Thrift服務(wù)二、Hive的架構(gòu)驅(qū)動器用于完成HiveQL語句的解析、編譯、優(yōu)化和MapReduce任務(wù)的生成。驅(qū)動器二、Hive的架構(gòu)驅(qū)動器解析器將用戶輸入的HiveQL語句轉(zhuǎn)換成抽象語法樹(abstractsyntaxtree,AST)。解析器會進(jìn)行語法檢查、語義分析和轉(zhuǎn)換操作,確保查詢語句的正確性和合法性。編譯器將抽象語法樹轉(zhuǎn)換成查詢塊,然后將查詢塊轉(zhuǎn)換成邏輯執(zhí)行計劃。優(yōu)化器對邏輯執(zhí)行計劃進(jìn)行優(yōu)化,提高查詢的性能。執(zhí)行器將優(yōu)化后的邏輯執(zhí)行計劃轉(zhuǎn)換成物理執(zhí)行計劃(一系列MapReduce任務(wù))。二、Hive的架構(gòu)元數(shù)據(jù)庫中含有表名、字段名、字段的數(shù)據(jù)類型、分區(qū)、表的存儲位置等信息。Hive的元數(shù)據(jù)可以存儲在不同的數(shù)據(jù)庫中,如MySQL數(shù)據(jù)庫、Oracle數(shù)據(jù)庫和Hive內(nèi)置的Derby數(shù)據(jù)庫等。元數(shù)據(jù)庫三、Hive的存儲結(jié)構(gòu)數(shù)據(jù)庫(database)是一個目錄或命名空間,用于分類存儲表??梢员苊獠煌碇g的命名沖突,確保表名的唯一性??梢苑诸惔鎯哂邢嚓P(guān)性的表,以便管理和查詢數(shù)據(jù)。表(table)是存儲和管理數(shù)據(jù)的基本結(jié)構(gòu)。表名、表的存儲位置、字段名、字段的數(shù)據(jù)類型等元數(shù)據(jù)存儲在元數(shù)據(jù)庫中。表中的實際數(shù)據(jù)存儲在對應(yīng)的HDFS目錄中。分區(qū)(partition)在Hive中,可以根據(jù)一個或多個分區(qū)字段的值對表中數(shù)據(jù)進(jìn)行分區(qū)存儲,每個分區(qū)都對應(yīng)一個子目錄,每個分區(qū)的數(shù)據(jù)存儲在相應(yīng)的子目錄中。桶(bucket)在Hive中,可以根據(jù)一個或多個分桶字段的哈希值將表中數(shù)據(jù)分別存儲在固定數(shù)量的桶中。字段是指表中的一個列用于存儲一種特定類型的數(shù)據(jù)。字段的數(shù)據(jù)類型包括基本數(shù)據(jù)類型和復(fù)雜數(shù)據(jù)類型?;緮?shù)據(jù)類型包括數(shù)值類型、日期/時間類型、字符串類型和布爾類型等;復(fù)雜數(shù)據(jù)類型包括數(shù)組(ARRAY)、映射(MAP)和結(jié)構(gòu)體(STRUCT)。四、Hive表的存儲格式在Hive中,常用的表存儲格式包括TextFile、SequenceFile、ORC(optimizedrowcolumnar)和Parquet等。表存儲格式描述存儲方式適用場景TextFile以文本形式存儲數(shù)據(jù),每行數(shù)據(jù)都以換行符分隔。創(chuàng)建Hive表時,默認(rèn)使用該存儲格式存儲表中數(shù)據(jù)行式存儲適用于存儲和處理簡單的非結(jié)構(gòu)化文本數(shù)據(jù)SequenceFile二進(jìn)制文件格式,將鍵值對序列化后按順序存儲行式存儲適用于順序讀寫大規(guī)模數(shù)據(jù)ORC存儲大規(guī)模數(shù)據(jù)的文件格式列式存儲適用于存儲和分析大規(guī)模數(shù)據(jù)。查詢過程中訪問少量字段時性能較好Parquet針對分析型系統(tǒng)的高性能文件格式列式存儲適用于存儲和分析大規(guī)模數(shù)據(jù)。執(zhí)行并行查詢、字段裁剪等操作時性能較好任務(wù)實施

任務(wù)分析

Hive的運(yùn)行離不開Hadoop集群環(huán)境,因此本書在Hadoop完全分布式集群中采用遠(yuǎn)程模式部署Hive。采用遠(yuǎn)程模式部署Hive需要配置Hive的服務(wù)端和客戶端,然后驗證Hive是否配置成功。

實施步驟采用遠(yuǎn)程模式部署Hive任務(wù)實施

實施步驟1.配置Hive的服務(wù)端步驟1啟動Worker1主機(jī)的瀏覽器,訪問Hive的官方網(wǎng)站(),在首頁中選擇“Release”/“Release”選項;然后在打開的下載頁面中單擊“Downloadareleasenow!”鏈接文字;接著在打開的頁面中單擊“/hive/”鏈接文字;接著在打開的版本頁面中單擊“hive-3.1.3/”鏈接文字;最后在打開的下載頁面中單擊“apache-hive-3.1.3-bin.tar.gz”鏈接文字,下載Hive安裝文件。本書將Worker1主機(jī)作為Hive的服務(wù)端,服務(wù)端需要安裝Hive和MySQL,并配置MySQL保存Hive元數(shù)據(jù)。(1)安裝Hive下載Hive安裝文件任務(wù)實施步驟2[hadoop@Worker1~]$sudotar-zxf~/下載/apache-hive-3.1.3-bin.tar.gz-C/usr/local[hadoop@Worker1~]$sudomv/usr/local/apache-hive-3.1.3-bin//usr/local/hive[hadoop@Worker1~]$sudochown-Rhadoop/usr/local/hive啟動Worker1主機(jī)的終端,執(zhí)行如下命令,將Hive安裝文件解壓到“/usr/local”目錄中;然后將“apache-hive-3.1.3-bin”目錄重命名為“hive”;最后將該目錄的所有權(quán)限賦予hadoop用戶,使hadoop用戶有權(quán)限訪問和操作“hive”目錄中的文件。任務(wù)實施執(zhí)行如下命令,打開“.bashrc”配置文件;然后在文件首行添加如下配置信息,將Hive的可執(zhí)行文件路徑添加到系統(tǒng)的PATH環(huán)境變量中,以便在任意路徑下使用Hive;最后保存并關(guān)閉配置文件。步驟3[hadoop@Worker1~]$sudovim~/.bashrc#配置信息exportHIVE_HOME=/usr/local/hiveexportPATH=$PATH:$HIVE_HOME/bin執(zhí)行如下命令,使配置信息生效。[hadoop@Worker1~]$source~/.bashrc步驟4任務(wù)實施執(zhí)行如下命令,復(fù)制Hive安裝目錄中自帶的“hive-env.sh.template”配置文件,并將其重命名為“hive-env.sh”。步驟5[hadoop@W

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論