版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
單元1
大數(shù)據(jù)與Hadoop概述學(xué)習(xí)目標(biāo)知識目標(biāo)技能目標(biāo)1.了解大數(shù)據(jù)相關(guān)概念及發(fā)展情況2.熟悉大數(shù)據(jù)關(guān)鍵技術(shù)3.了解Hadoop生態(tài)圈及常用組件4.了解大數(shù)據(jù)的應(yīng)用領(lǐng)域及面臨的挑戰(zhàn)1.了解大數(shù)據(jù)的數(shù)據(jù)采集、存儲、分析和結(jié)果呈現(xiàn)等基本處理流程2.掌握Hadoop基礎(chǔ)三大核心組件相關(guān)功能,熟悉其他組件功能單元任務(wù)任務(wù)1.1認(rèn)識大數(shù)據(jù)任務(wù)1.2大數(shù)據(jù)關(guān)鍵技術(shù)任務(wù)1.3大數(shù)據(jù)處理架構(gòu)Hadoop任務(wù)1.4大數(shù)據(jù)產(chǎn)業(yè)技術(shù)和應(yīng)用領(lǐng)域任務(wù)1.1認(rèn)識大數(shù)據(jù)大數(shù)據(jù)定義大數(shù)據(jù)特征及存儲換算大數(shù)據(jù)發(fā)展現(xiàn)狀及助力因素通過本任務(wù)的學(xué)習(xí),了解大數(shù)據(jù)技術(shù)的起源,掌握大數(shù)據(jù)定義、5V特征、大數(shù)據(jù)存儲單位及其之間的換算關(guān)系。了解大數(shù)據(jù)發(fā)展現(xiàn)狀及助力要素等?!娟P(guān)鍵步驟】【任務(wù)描述】維基百科:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。百度百科:大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息。MBA智庫百科:是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù),是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫,數(shù)據(jù)挖掘流程,分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計算平臺,互聯(lián)網(wǎng),和可擴(kuò)展的存儲系統(tǒng)。Oracle:大數(shù)據(jù)指越來越龐大、越來越復(fù)雜的數(shù)據(jù)集,特別是來自全新數(shù)據(jù)源的數(shù)據(jù)集,其規(guī)模之大令傳統(tǒng)數(shù)據(jù)處理軟件束手無策,卻能幫助我們解決以往非常棘手的業(yè)務(wù)難題。1.1.1大數(shù)據(jù)是什么4V+1V:體量巨大(Volume)--業(yè)界處理速度(Velocity)
--業(yè)界類型繁多(Variety)--業(yè)界價值密度低(Value)
--業(yè)界真實性(Veracity)-----IBM1.1.2大數(shù)據(jù)特征大數(shù)據(jù)的5V特點
大數(shù)據(jù)的5V特征隨著當(dāng)前時代的高速發(fā)展和互聯(lián)網(wǎng)技術(shù)的普及,數(shù)據(jù)“大爆炸”時代已經(jīng)來臨,數(shù)據(jù)級從原先的TB級躍遷到PB、EB、ZB甚至更高。1)體量巨大Volume(容量大)存儲單位之間換算關(guān)系:1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,073,741,824KB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717.411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes1.1.2大數(shù)據(jù)特征
大數(shù)據(jù)的5V特征根據(jù)國際數(shù)據(jù)公司(IDC)的預(yù)測報告,全球數(shù)據(jù)量在2024年達(dá)到159.2ZB,預(yù)計到2028年將增至384.6ZB,年復(fù)合增長率為24.4%。數(shù)據(jù)的處理速度要快。價值是分子,那么時間就是分母,只有分母越小,單位價值就越大。2)處理速度Velocity(速度快)1.1.2大數(shù)據(jù)特征
大數(shù)據(jù)的5V特征2)處理速度Velocity(速度快)1.1.2大數(shù)據(jù)特征大容量數(shù)據(jù)來源主要有社交數(shù)據(jù)和機(jī)器數(shù)據(jù)
大數(shù)據(jù)的5V特征3)類型繁多Variety(種類多)大數(shù)據(jù)的數(shù)據(jù)種類從原先單一的文本數(shù)據(jù),發(fā)展到如今的文檔數(shù)據(jù)(txt、ppt、word、pdf等)、音頻、照片、視頻、震譜圖等。從單一的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變到結(jié)構(gòu)化(10%)+非結(jié)構(gòu)化數(shù)據(jù)(90%),數(shù)據(jù)的種類多種多樣,復(fù)雜性高。1.1.2大數(shù)據(jù)特征
大數(shù)據(jù)的5V特征大數(shù)據(jù)的信息由于數(shù)據(jù)的龐大和種類繁多,但是實際所需要的信息卻比較少,價值密度低。4)價值密度低Value1.1.2大數(shù)據(jù)特征
大數(shù)據(jù)的5V特征大數(shù)據(jù)的信息由于數(shù)據(jù)的龐大和種類繁多,但是實際所需要的信息卻比較少,價值密度低。5)數(shù)據(jù)準(zhǔn)確和可信賴Veracity1.1.2大數(shù)據(jù)特征
大數(shù)據(jù)的5V特征1.1.2大數(shù)據(jù)特征
大數(shù)據(jù)與數(shù)據(jù)庫處理數(shù)據(jù)的對比比較項目數(shù)據(jù)庫大數(shù)據(jù)數(shù)據(jù)規(guī)模小(以MB)為處理單位大(以GB、TB、PB為處理單位)數(shù)據(jù)類型單一(結(jié)構(gòu)化為主)繁多(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)模式和數(shù)據(jù)的關(guān)系現(xiàn)有模式后有數(shù)據(jù)先有數(shù)據(jù)后有模式,模式隨數(shù)據(jù)增多不斷演變處理對象數(shù)據(jù)(池塘中的魚)(“魚”,通過某些“魚”判斷其他種類的“魚”是否存在)處理工具OnesizefitsallNosizefitsall時代背景1.1.3大數(shù)據(jù)的發(fā)展助力從大的背景來看,第三次信息化浪潮涌動,催生了大數(shù)據(jù)時代全面到來。信息科技1.1.3大數(shù)據(jù)的發(fā)展助力信息科技的發(fā)展為大數(shù)據(jù)時代的到來提供了技術(shù)支撐新的生產(chǎn)技術(shù)和制造工藝使得硬件生產(chǎn)效率提高,生產(chǎn)成本降低物聯(lián)網(wǎng)、云計算和各種AI人工智能等行業(yè)技術(shù)的發(fā)展存儲設(shè)備容量不斷增加,CPU處理能力大幅提升,網(wǎng)絡(luò)帶寬不斷增加1.1.3.3理論引導(dǎo)1.1.3大數(shù)據(jù)的發(fā)展助力谷歌的三駕馬車:2003年發(fā)表《Google文件系統(tǒng)》2004年發(fā)表《MapReduce:超大集群的簡單數(shù)據(jù)處理》2006年發(fā)表《BigTable:結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)》這三篇論文奠定了大數(shù)據(jù),稱為大數(shù)據(jù)的始祖。1.1.3.4生態(tài)繁榮1.1.3大數(shù)據(jù)的發(fā)展助力由谷歌的三篇論文誕生了Hadoop,Hadoop是一個由Apache基金會所開發(fā)的開源的分布式系統(tǒng)基礎(chǔ)架構(gòu),最初只有HDFS和MapReduce兩個開源項目HDFS是受到了GFS的啟發(fā),成為Hadoop生態(tài)系統(tǒng)中的基石Hadoop的MapReduce框架是對谷歌的MapReduce模型的實現(xiàn)Hadoop的HBase是基于谷歌Bigtable的概念構(gòu)建的,是一個面向列的分布式的可擴(kuò)展的NoSQL數(shù)據(jù)庫1.1.3.5國家戰(zhàn)略1.1.3大數(shù)據(jù)的發(fā)展助力助推大數(shù)據(jù)發(fā)展還有一個重要因素,就是各個國家都很重視支持大數(shù)據(jù)的應(yīng)用,并將大數(shù)據(jù)確立為國家戰(zhàn)略:2012年,歐盟正式推出《數(shù)據(jù)價值鏈戰(zhàn)略計劃》,用大數(shù)據(jù)改造傳統(tǒng)治理模式,降低公共部門成本,并促進(jìn)經(jīng)濟(jì)增長和就業(yè)增長。2013年6月,美、英、法、德、意、加、日、俄在北愛爾蘭召開G8峰會,發(fā)布了《開放數(shù)據(jù)憲章》,提出要加快推動數(shù)據(jù)開放和利用。2013年6月,日本安倍內(nèi)閣發(fā)布了《創(chuàng)建最尖端IT國家宣言》,以開放大數(shù)據(jù)為核心的IT國家戰(zhàn)略。2013年11月,英國政府發(fā)布《英國數(shù)據(jù)能力發(fā)展戰(zhàn)略規(guī)劃》,旨在利用數(shù)據(jù)產(chǎn)生商業(yè)價值、提振經(jīng)濟(jì)增長,承諾開放交通、天氣、醫(yī)療方面的核心數(shù)據(jù)庫。2015年10月,我國提出實施國家大數(shù)據(jù)戰(zhàn)略,加快建設(shè)數(shù)字中國。黨的十八屆五中全會提出實施國家大數(shù)據(jù)發(fā)展戰(zhàn)略,明確把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實施促進(jìn)大數(shù)據(jù)發(fā)展行動,加快推動數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型。任務(wù)1.2大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)處理流程結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)理解常用大數(shù)據(jù)技術(shù),大數(shù)據(jù)的數(shù)據(jù)類型和計算模式,了解大數(shù)據(jù)相關(guān)產(chǎn)業(yè)技術(shù)?!娟P(guān)鍵步驟】【任務(wù)描述】1.2.1大數(shù)據(jù)處理流程大數(shù)據(jù)處理流程功能數(shù)據(jù)采集與預(yù)處理利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ);或者也可以把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入,進(jìn)行實時處理分析。數(shù)據(jù)存儲和管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫等,實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理。數(shù)據(jù)分析與結(jié)果呈現(xiàn)利用分布式并行編程模型和計算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實現(xiàn)對海量數(shù)據(jù)的處理和分析;對分析結(jié)果進(jìn)行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)。數(shù)據(jù)安全和隱私保護(hù)在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價值和學(xué)術(shù)價值的同時,構(gòu)建數(shù)據(jù)安全體系和隱私數(shù)據(jù)保護(hù)體系,有效保護(hù)數(shù)據(jù)安全和個人隱私。大數(shù)據(jù)流程及功能數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)存儲與管理數(shù)據(jù)分析結(jié)果呈現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)1.2.2數(shù)據(jù)類型(1)結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化的數(shù)據(jù)是指可以使用關(guān)系型數(shù)據(jù)庫表示和存儲,表現(xiàn)為二維形式的數(shù)據(jù)。(2)半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,雖不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔語義元素以及對記錄和字段進(jìn)行分層。(3)非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維表來表現(xiàn)的數(shù)據(jù)。序號姓名性別電話地址1張一女051783858300江蘇省淮安市開發(fā)區(qū)枚乘東路8號2王二男051783858200江蘇省淮安市清江浦區(qū)和平路2號3李三女051783858201江蘇省淮安市淮安區(qū)翔宇大道80號<person>
<name>A</name>
<age>13</age>
<gender>female</gender></person>常見的非結(jié)構(gòu)化數(shù)據(jù)包括視頻、音頻、圖片、圖像、文檔、文本等。任務(wù)1.3大數(shù)據(jù)處理架構(gòu)Hadoop
Hadoop平臺。Hadoop生態(tài)系統(tǒng)及部分組件功能。Hadoop計算模式了解Hadoop生態(tài)系統(tǒng)構(gòu)成,重點掌握基礎(chǔ)三大組件相關(guān)原理功能。通過對其他組件功能的了解,嘗試初步理解Hadoop的架構(gòu)。【關(guān)鍵步驟】【任務(wù)描述】Hadoop是什么1.3.1Hadoop簡介Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。它包含一個分布式計算框架MapRedeuce和分布式文件系統(tǒng)HDFS,Hadoop2.0版核心還包含一個分布式資源管理系統(tǒng)YARN。Hadoop是什么1.3.1Hadoop簡介HadoopApache的開源分布式計算平臺,底層細(xì)節(jié)對用戶透明,是分布式基礎(chǔ)架構(gòu)基于Java語言開發(fā),跨平臺特性好,可部署在廉價計算機(jī)集群中核心是分布式文件系統(tǒng)HDFS、MapReduce和YARN
行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,提供分布式海量數(shù)據(jù)處理能力主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù),如谷歌、雅虎、微軟、思科、淘寶、百度、網(wǎng)易、華為Hadoop特性1.3.2Hadoop特性支持多種語言高可靠性高效性高容錯性高可擴(kuò)展性低成本Linux平臺Hadoop的特性Hadoop是能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架進(jìn)行處理方式可靠、高效、可伸縮Hadoop版本演變1.3.3Hadoop版本ApacheHadoop版本分為兩代,第一代Hadoop稱為Hadoop1.0,第二代Hadoop稱為Hadoop2.0第一代Hadoop包含三個大版本,分別是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,變成了穩(wěn)定版,而0.21.x和0.22.x則增加了NameNodeHA等新的重大特性第二代Hadoop包含兩個版本,分別是0.23.x和2.x,它們完全不同于Hadoop1.0,是一套全新的架構(gòu),均包含HDFSFederation和YARN兩個系統(tǒng),相比于0.23.x,2.x增加了NameNodeHA和Wire-compatibility兩個重大特性Hadoop版本1.3.3Hadoop版本Hadoop版本演變Hadoop版本1.3.3Hadoop版本Hadoop版本演變Hadoop版本1.3.3Hadoop版本Hadoop版本演變Hadoop2.0是基于JDK1.7開發(fā)的,而JDK1.7在2015年4月已停止更新,于是Hadoop社區(qū)基于JDK1.8重新發(fā)布了一個新的Hadoop版本,也就是Hadoop3.0。Hadoop3.0以后,JDK版本的最低依賴從1.7變成了1.8。Hadoop3.0中引入了一些重要的功能和優(yōu)化,包括HDFS可擦除編碼、多名稱節(jié)點支持、任務(wù)級別的MapReduce本地優(yōu)化、基于cgroup(controlgroups)的內(nèi)存和磁盤IO隔離等。Hadoop其它版本1.3.3Hadoop版本主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù)1.3.3Hadoop版本Hadoop其它版本Cloudera:2008由來自Facebook、谷歌、雅虎、甲骨文4個工程師及高管創(chuàng)建.在Hadoop生態(tài)系統(tǒng)中,規(guī)模最大、知名度最高的公司則是ClouderaClouderaCDH:ClouderaDistributionHadoop1.3.3Hadoop版本Hadoop其它版本MapRMapR是MapRTechnologiesInc的一個產(chǎn)品,號稱下一代Hadoop,使Hadoop速度更快、可靠性更高、更易于管理、使用更加方便,性能不斷提高。2019年8月6日,被惠普企業(yè)收購1.3.3Hadoop版本Hadoop其它版本Hortonworks(/)基于Hadoop提供大數(shù)據(jù)服務(wù)致力于開發(fā)Hadoop框架內(nèi)軟件提升大數(shù)據(jù)的處理能力2011年7月由雅虎與VC機(jī)構(gòu)合資組建。1.3.3Hadoop版本Hadoop其它版本FusionInsightFusionInsight是平臺是華為開發(fā)是與Hadoop兼容的開源平臺FusionInsightHD是一個融合的大數(shù)據(jù)平臺,滿足各種用戶需求同時混合負(fù)載、開放應(yīng)用1.3.3Hadoop版本選擇Hadoop版本考慮因素選擇Hadoop版本考慮因素是否開源(即是否免費(fèi))1是否有穩(wěn)定版2是否經(jīng)實踐檢驗3是否有強(qiáng)大的社區(qū)支持21.3.3Hadoop版本Hadoop各種版本比較1.3.3Hadoop版本Hadoop其它版本Hadoop生態(tài)系統(tǒng)1.3.4Hadoop生態(tài)系統(tǒng)Hadoop的項目結(jié)構(gòu)不斷豐富發(fā)展,已經(jīng)形成一個豐富的Hadoop生態(tài)系統(tǒng)。Hadoop包含多個子項目:HDFS、MapReduce、YARN、HBase、Hive、Pig、Mahout、Zookeeper、Flume、Sqoop、Ambari等。Hadoop2.0中新增HDFSHA和YARN。1)HDFS1.3.4Hadoop生態(tài)系統(tǒng)HDFS是Hadoop項目的三大核心之一,具有處理超大數(shù)據(jù)、流式處理、可以運(yùn)行在廉價商用服務(wù)器上等優(yōu)點。HDFS基于Google發(fā)布的GFS論文設(shè)計開發(fā),其除具備其他分布式文件系統(tǒng)相同特性外,還有自己特有的特性:(1)高容錯。認(rèn)為硬件總是不可靠的。(2)高吞吐量。為有大量數(shù)據(jù)訪問的應(yīng)用提供高吞吐量支持。(3)大文件存儲。支持存儲TB-PB級別的數(shù)據(jù)。HDFS適合大文件存儲和流式數(shù)據(jù)訪問,不適合大量小文件處理、隨機(jī)寫入和低延遲讀寫等場景。2)MapReduce1.3.4Hadoop生態(tài)系統(tǒng)HadoopMapReduce也是Hadoop核心組件的三元組之一。用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算,它將復(fù)雜的、運(yùn)行于大規(guī)模集群上的并行計算過程高度抽象到了兩個函數(shù)——Map和Reduce上,允許用戶在不了解分布式文件系統(tǒng)底層細(xì)節(jié)的情況下開發(fā)并行應(yīng)用程序,并將其運(yùn)行于廉價計算機(jī)集群上,完成海量數(shù)據(jù)的處理。分布式并行編程模型,基于磁盤MapReduce把輸入的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊,分發(fā)給一個主節(jié)點管理下的各個分節(jié)點來共同并行完成;最后,通過整合各個節(jié)點的中中間結(jié)果得到最后結(jié)果。HadoopMapReduce特性:(1)易于編程(2)良好的擴(kuò)展性(3)高容錯性(4)能對PB級以上海量數(shù)據(jù)進(jìn)行離線處理3)YARN1.3.4Hadoop生態(tài)系統(tǒng)YARN也是Hadoop核心組件的三元組之一,用于作業(yè)調(diào)度和集群資源管理,為運(yùn)行于Hadoop上的程序提供服務(wù)器運(yùn)算資源。YARN框架是從Hadoop2.0版本引入的,彌補(bǔ)了Hadoop1.x版本中MapReduce框架的不足,解決了Hadoop1.x中JobTracker單點故障的問題,支持多種分布式運(yùn)算框架,如Storm、Spark等可以在YARN上運(yùn)行。YARN是一個通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。4)HBase1.3.4Hadoop生態(tài)系統(tǒng)HBase是一個提供高可靠性、高性能、可伸縮、實時讀寫、分布式的列式數(shù)據(jù)庫,一般采用HDFS作為其底層數(shù)據(jù)存儲。HBase與傳統(tǒng)關(guān)系數(shù)據(jù)庫的一個重要區(qū)別是,前者采用基于列的存儲,而后者采用基于行的存儲。HBase具有良好的橫向擴(kuò)展能力,可以通過不斷增加廉價的商用服務(wù)器來增加存儲能力。5)Hive1.3.4Hadoop生態(tài)系統(tǒng)Hive是一個基于Hadoop的數(shù)據(jù)倉庫工具,可以用于對Hadoop文件中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)整理、特殊查詢和分析存儲。Hive的學(xué)習(xí)門檻較低,因為它提供了類似于關(guān)系數(shù)據(jù)庫SQL語言的查詢語言一HiveQL,可以通過HiveQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,Hive自身可以將HiveQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行,而不必開發(fā)專門的MapReduce應(yīng)用,適合數(shù)據(jù)倉庫的統(tǒng)計分析。Hadoop上的數(shù)據(jù)倉庫6)Mahout1.3.4Hadoop生態(tài)系統(tǒng)Mahout提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含聚類、分類、推薦過濾、頻繁子項挖掘等許多實現(xiàn),也可通過使用ApacheHadoop庫,將Mahout有效擴(kuò)展到云中。7)Zookeeper1.3.4Hadoop生態(tài)系統(tǒng)Zookeeper是一個高效和可靠的協(xié)同工作系統(tǒng),提供分布式鎖之類的基本服務(wù),用于構(gòu)建分布式應(yīng)用,減輕分布式應(yīng)用程序所承擔(dān)的協(xié)調(diào)任務(wù)。Zookeeper使用Java編寫,很容易編程接入,它使用了一個和文件樹結(jié)構(gòu)相似的數(shù)據(jù)模型,可以使用Java或者C來進(jìn)行編程接入。提供分布式協(xié)調(diào)一致性服務(wù)8)Flume1.3.4Hadoop生態(tài)系統(tǒng)Flume是一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理并寫到各種數(shù)據(jù)接受方的能力。9)Sqoop1.3.4Hadoop生態(tài)系統(tǒng)Sqoop是SQL-to-Hadoop的縮寫,主要用來在Hadoop和關(guān)系數(shù)據(jù)庫之間交換數(shù)據(jù),可以改進(jìn)數(shù)據(jù)的互操作性。通過Sqoop可以方便地將數(shù)據(jù)從MySQL、Oracle、PostgreSQL等關(guān)系數(shù)據(jù)庫中導(dǎo)入Hadoop(可以導(dǎo)人HDFS、HBase或Hive),或者將數(shù)據(jù)從Hadoop導(dǎo)出到關(guān)系數(shù)據(jù)庫,使得傳統(tǒng)關(guān)系數(shù)據(jù)庫和Hadoop之間的數(shù)據(jù)遷移變得非常方便。Sqoop主要通過JDBC(JavaDataBaseConnectivity)和關(guān)系數(shù)據(jù)庫進(jìn)行交互,理論上,支持JDBC的關(guān)系數(shù)據(jù)庫都可以使Sqoop和Hadoop進(jìn)行數(shù)據(jù)交互。Sqoop是專門為大數(shù)據(jù)集設(shè)計的,支持增量更新,可以將新記錄添加到最近一次導(dǎo)出的數(shù)據(jù)源上,或者指定上次修改的時間戳。在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)傳遞10)Ambari1.3.4Hadoop生態(tài)系統(tǒng)ApacheAmbari是由Apache軟件基金會維護(hù)的開源項目。ApacheAmbari是一個開源的工具,專為簡化Hadoop集群的部署、管理和監(jiān)控而設(shè)計。它由Apache軟件基金會維護(hù),并在大數(shù)據(jù)生態(tài)系統(tǒng)中占據(jù)核心地位,尤其是在HDP(HortonworksDataPlatform)中。Ambari是一種基于Web的工具,支持Hadoop集群的安裝、部署、配置和管理。Ambari目前已支持大多數(shù)Hadoop組件,包括HDFS、MapReduce、Hive、Pig、HBase、ZooKeeper、Sqoop等。離線批處理1.3.5Hadoop計算模式離線批處理是指對海量歷史數(shù)據(jù)進(jìn)行處理和分析,生成結(jié)果數(shù)據(jù),供下一步業(yè)務(wù)應(yīng)用使用的過程。批處理計算主要解決針對大規(guī)模數(shù)據(jù)的批量處理問題,是數(shù)據(jù)分析工作中常見的一類數(shù)據(jù)處理需求。MapReduce是具有代表性和影響力的大數(shù)據(jù)批處理技術(shù),可以并行執(zhí)行大規(guī)模數(shù)據(jù)處理任務(wù),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。Spark是一個針對超大數(shù)據(jù)集合的低延遲的集群分布式計算系統(tǒng),比MapReduce的處理速度快許多。實時流處理1.3.5Hadoop計算模式實時流處理,是指對實時數(shù)據(jù)進(jìn)行快速分析,迅速觸發(fā)下一步動作的場景。實時數(shù)據(jù)對分析處理速度要求極高,數(shù)據(jù)處理規(guī)模巨大,對CPU和內(nèi)存要求很高,但是通常數(shù)據(jù)不落地,對存儲能力要求不高。流數(shù)據(jù)(或數(shù)據(jù)流)是指在時間分布和數(shù)量上無限的一系列動態(tài)數(shù)據(jù)集合體,數(shù)據(jù)的價值隨著時間的流逝而降低,必須采用實時計算的方式給出秒級響應(yīng)。流式計算可以實時處理來自不同數(shù)據(jù)源的、連續(xù)到達(dá)的流數(shù)據(jù),經(jīng)過實時分析處理,給出有價值的分析結(jié)果。交互式查詢1.3.5Hadoop計算模式交互式查詢,是指對數(shù)據(jù)進(jìn)行交互式分析和查詢的過程,查詢響應(yīng)要求較高,能夠?qū)崿F(xiàn)人機(jī)之間的交互,查詢通常比較復(fù)雜。交互式查詢的數(shù)據(jù)通常已經(jīng)被預(yù)處理過,按照適合交互式查詢的數(shù)據(jù)模型進(jìn)行組織。交互式查詢的數(shù)據(jù)量巨大,對CPU和內(nèi)存要求很高,對存儲要求也很高。谷歌公司開發(fā)的Dremel是一種可擴(kuò)展的、交互式的實時查詢系統(tǒng),用于只讀嵌套數(shù)據(jù)的分析。通過結(jié)合多級樹狀執(zhí)行過程和列式數(shù)據(jù)結(jié)構(gòu),它能在幾秒內(nèi)完成對萬億張表的聚合查詢。實時檢索1.3.5Hadoop計算模式實時檢索就是根據(jù)關(guān)鍵詞對系統(tǒng)內(nèi)的一些信息進(jìn)行快速搜索,實現(xiàn)即搜即得的效果,強(qiáng)調(diào)的是實時、低延遲實時檢索能夠方便人們快速獲得搜索的結(jié)果,而這些結(jié)果往往才是人們真正關(guān)心的、可用的數(shù)據(jù)。實時檢索通常對實時寫入的海量數(shù)據(jù)基于索引主鍵進(jìn)行實時查詢,對查詢響應(yīng)要求較高,查詢條件相對比較簡單。任務(wù)1.4大數(shù)據(jù)產(chǎn)業(yè)技術(shù)和應(yīng)用領(lǐng)域大數(shù)據(jù)產(chǎn)業(yè)技術(shù)。大數(shù)據(jù)的應(yīng)用案例大數(shù)據(jù)時代企業(yè)面臨的挑戰(zhàn)。了解大數(shù)據(jù)在各行各業(yè)中的具體應(yīng)用;理解大數(shù)據(jù)在蓬勃發(fā)展的同時企業(yè)所面臨的各種挑戰(zhàn)?!娟P(guān)鍵步驟】【任務(wù)描述】大數(shù)據(jù)產(chǎn)業(yè)鏈1.4.1大數(shù)據(jù)產(chǎn)業(yè)技術(shù)產(chǎn)業(yè)鏈環(huán)節(jié)包含內(nèi)容IT基礎(chǔ)設(shè)施層包括提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務(wù)的企業(yè),比如,提供數(shù)據(jù)中心解決方案的IBM、惠普和戴爾等,提供存儲解決方案的EMC,提供虛擬化管理軟件的微軟、思杰、SUN、RedHat等數(shù)據(jù)源層包括但不限于交易數(shù)據(jù)、傳感器數(shù)據(jù)、社交媒體數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、傳統(tǒng)數(shù)據(jù)和地理空間數(shù)據(jù)等。交易數(shù)據(jù)如POS機(jī)數(shù)據(jù)、信用卡刷卡數(shù)據(jù)等;傳感器采集的溫度、濕度、壓力等數(shù)據(jù);社交媒體平臺(如微博、微信、Facebook等)每天產(chǎn)生海量的數(shù)據(jù),包括用戶發(fā)布的文字、圖片、視頻等內(nèi)容;互聯(lián)網(wǎng)的網(wǎng)頁、博客、論壇等可以用于分析用戶行為、推薦系統(tǒng)等;傳統(tǒng)數(shù)據(jù)(如企業(yè)數(shù)據(jù)庫、政府?dāng)?shù)據(jù)等)規(guī)模龐大、多樣化;GPS定位數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)等地理空間數(shù)據(jù)。數(shù)據(jù)管理層包括數(shù)據(jù)抽取、轉(zhuǎn)換、存儲和管理等服務(wù)的各類企業(yè)或產(chǎn)品,比如分布式文件系統(tǒng)(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、數(shù)據(jù)庫和數(shù)據(jù)倉庫(Oracle、MySQL、SQLServer、HBase、GreenPlum等)數(shù)據(jù)分析層包括提供分布式計算、數(shù)據(jù)挖掘、統(tǒng)計分析等服務(wù)的各類企業(yè)或產(chǎn)品,比如,分布式計算框架MapReduce、統(tǒng)計分析軟件SPSS和SAS、數(shù)據(jù)挖掘工具Weka、數(shù)據(jù)可視化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等數(shù)據(jù)平臺層包括提供數(shù)據(jù)分享平臺、數(shù)據(jù)分析平臺、數(shù)據(jù)租售平臺等服務(wù)的企業(yè)或產(chǎn)品,比如阿里巴巴、谷歌、中國電信、百度等數(shù)據(jù)應(yīng)用層包括提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應(yīng)用的企業(yè)、機(jī)構(gòu)或政府部門,比如交通主管部門、各大醫(yī)療機(jī)構(gòu)、菜鳥網(wǎng)絡(luò)、國家電網(wǎng)等大數(shù)據(jù)產(chǎn)業(yè)范圍1.4.1大數(shù)據(jù)產(chǎn)業(yè)技術(shù)大數(shù)據(jù)在政治選舉中的應(yīng)用1.4.2大數(shù)據(jù)應(yīng)用案例大數(shù)據(jù)心理學(xué)分析幫助特朗普贏得美國大選●特朗普聘用CA公司對美國選民進(jìn)行性格和需求分析,掌握了2.2億美國人的個性?!窭眠x民在Facebook上的點贊行為,分析出他的性格特征及政治取向,將選民分為三類:共和黨支持者、民主黨支持者、搖擺者,重點拉攏搖擺不定的選民?!裉乩势找郧皬臎]發(fā)過電子郵件,甚至在參加總統(tǒng)選舉后才第一次購買智能手機(jī),并迷上了發(fā)推特,而且他發(fā)出的每一條推特都是數(shù)據(jù)驅(qū)動的。針對不同的選民,都會有不同的微調(diào)版本。●針對非洲裔美國人,他們可以看到希拉里把黑人稱為捕食者的視頻,從而遠(yuǎn)離希拉里的投票箱,這些黑暗的帖子都是只有特定用戶可見。大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用1.4.2大數(shù)據(jù)應(yīng)用案例大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用已覆蓋風(fēng)險管理、智能營銷、信用評估、智能交易等多個核心場景典型案例包括工商銀行智能對話交易系統(tǒng)、淘寶信用貸款精準(zhǔn)授信、IBM股價預(yù)測模型等。淘寶的千人千面系統(tǒng)1.4.2大數(shù)據(jù)應(yīng)用案例淘寶系統(tǒng)中儲存的數(shù)據(jù)量是巨大的,淘寶的千人千面系統(tǒng)滿足了不同用戶在淘寶上購物時的不同需求,它將用戶進(jìn)行畫像和分類,以精準(zhǔn)的人群標(biāo)簽來區(qū)分每個用戶,并為這些用戶推薦符合其喜好的商品,極大地提升了用戶的購物體驗。正是靠著大數(shù)據(jù)的魔力,淘寶才能開發(fā)出千人千面系統(tǒng),為用戶提供更好的購物體驗。大數(shù)據(jù)在滴滴出行車輛調(diào)度系統(tǒng)中應(yīng)用1.4.2大數(shù)據(jù)應(yīng)用案例滴滴的后臺數(shù)據(jù)庫中儲存著數(shù)千萬條車輛信息,能夠從海量車輛信息中迅速找到距離用戶最近的車輛,并結(jié)合周邊路況和路程的遠(yuǎn)近,篩選出最佳選擇。被選中的滴滴司機(jī)能夠及時看到訂單需求,快速接單并抵達(dá)用戶所在位置,這大大縮短了用戶的等待時間,提升了乘車體驗。依托于用戶、司機(jī)、車輛信息以及周邊路況和路程等大數(shù)據(jù),滴滴才能為用戶提供更為出色的乘車服務(wù)。
01前沿趨勢大數(shù)據(jù)前沿趨勢及挑戰(zhàn)1.4.3
01前沿趨勢大數(shù)據(jù)前沿趨勢及挑戰(zhàn)AI時代GoogleBrain(谷歌大腦項目),始于2011年,專注最先進(jìn)的深度學(xué)習(xí)技術(shù),以拓展感知和語言理解可能性的邊界。谷歌研發(fā)的AI智能機(jī)器人(AlphaGo)通過人機(jī)大戰(zhàn),獲得了巨大的品牌效應(yīng),也大大推動了AI進(jìn)程。1.4.3
01前沿趨勢大數(shù)據(jù)前沿趨勢及挑戰(zhàn)大數(shù)據(jù)云將云計算和大數(shù)據(jù)結(jié)合在一-起,將大數(shù)據(jù)的存儲和分析處理全部遷移到云上,讓大數(shù)據(jù)分析更任性。2017年雙11又創(chuàng)造了新紀(jì)錄,全天,交易額1682億,交易峰值32.5萬筆/秒,支付峰值25.6W筆/秒。1.4.3
02企業(yè)面臨的挑戰(zhàn)大數(shù)據(jù)前沿趨勢及挑戰(zhàn)挑戰(zhàn)一業(yè)務(wù)部門無清晰的大數(shù)據(jù)需求很多企業(yè)業(yè)務(wù)部門不了大數(shù)據(jù),也不了解大數(shù)據(jù)的應(yīng)用場景和價值,因此難以提出大數(shù)據(jù)的準(zhǔn)確需求。由于業(yè)務(wù)部]需求不清晰,大數(shù)據(jù)部門又是非盈利部門,企業(yè)決策層擔(dān)心投入產(chǎn)出比不高,在搭建大數(shù)據(jù)部門]時猶豫不決,甚至由于暫時沒有應(yīng)用場景,刪除了很多有價值的歷史數(shù)據(jù)。1.4.3
02企業(yè)面臨的挑戰(zhàn)大數(shù)據(jù)前沿趨勢及挑戰(zhàn)挑戰(zhàn)二企業(yè)內(nèi)部數(shù)據(jù)孤島嚴(yán)重企業(yè)啟動大數(shù)據(jù)最重要的挑戰(zhàn)就是數(shù)據(jù)的碎片化。在大型企業(yè)中,不同類型的數(shù)據(jù)常常散落在不同部門],使得同一企業(yè)內(nèi)部數(shù)據(jù)無法共享,無法發(fā)揮大數(shù)據(jù)的價值。1.4.3
02企業(yè)面臨的挑戰(zhàn)大數(shù)據(jù)前沿趨勢及挑戰(zhàn)挑戰(zhàn)三
數(shù)據(jù)可用性低,質(zhì)量差很多大中型企業(yè)每天會產(chǎn)生大量的數(shù)據(jù),但很多企業(yè)在大數(shù)據(jù)的預(yù)處理階段很不重視,導(dǎo)致數(shù)據(jù)處理很不規(guī)范。大數(shù)據(jù)預(yù)處理階段需要抽取數(shù)據(jù)把數(shù)據(jù)轉(zhuǎn)化為方便處理的數(shù)據(jù)類型,對數(shù)據(jù)進(jìn)行清洗和去噪,以提取有效的數(shù)據(jù)等操作。Sybase的數(shù)據(jù)表明,高質(zhì)量的數(shù)據(jù)可用性提高10%,企業(yè)效益提高10%以上。。1.4.3
02企業(yè)面臨的挑戰(zhàn)大數(shù)據(jù)前沿趨勢及挑戰(zhàn)挑戰(zhàn)四
數(shù)據(jù)相關(guān)管理技術(shù)和架構(gòu)傳統(tǒng)的數(shù)據(jù)庫部署不能處理TB級別的數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)庫沒有考慮數(shù)據(jù)的多樣性,尤其對結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的兼容。傳統(tǒng)的數(shù)據(jù)庫對數(shù)據(jù)處理時間要求不高,而大數(shù)據(jù)需要實時處理數(shù)據(jù)。海量數(shù)據(jù)運(yùn)維需要保證數(shù)據(jù)穩(wěn)定,支持高并發(fā)的同時減少服務(wù)器負(fù)載。1.4.3
02企業(yè)面臨的挑戰(zhàn)大數(shù)據(jù)前沿趨勢及挑戰(zhàn)挑戰(zhàn)五
數(shù)據(jù)安全網(wǎng)絡(luò)化生活使得犯罪分子更容易獲得關(guān)于人的信息,也有了更多不易被追蹤和防范的犯罪手段。如何保證用戶的信息安全成為大數(shù)據(jù)時代非常重要的課題。此外,大數(shù)據(jù)的不斷增加,對數(shù)據(jù)存儲的物理安全性要求會越來越高,從而對數(shù)據(jù)的多副本與容災(zāi)機(jī)制也提出更高的要求。1.4.3
02企業(yè)面臨的挑戰(zhàn)大數(shù)據(jù)前沿趨勢及挑戰(zhàn)挑戰(zhàn)六
大數(shù)據(jù)人才缺乏大數(shù)據(jù)建設(shè)的每一個環(huán)節(jié)都需要依靠專業(yè)人員完成,因此必須培養(yǎng)和造就一支掌握大數(shù)據(jù),懂管理,有大數(shù)據(jù)應(yīng)用經(jīng)驗的大數(shù)據(jù)建設(shè)專業(yè)隊伍。全球每年將新增數(shù)十萬個大數(shù)據(jù)相關(guān)的工作崗位,未來將會出現(xiàn)100萬以上的人才缺口。因此高校和企業(yè)共同努力去培養(yǎng)和挖掘人才。1.4.3
02企業(yè)面臨的挑戰(zhàn)大數(shù)據(jù)前沿趨勢及挑戰(zhàn)挑戰(zhàn)七
數(shù)據(jù)開放與隱私的權(quán)衡在大數(shù)據(jù)應(yīng)用日益重要的今天,數(shù)據(jù)資源的開放共享已經(jīng)成為在數(shù)據(jù)大戰(zhàn)中保持優(yōu)勢的關(guān)鍵。但是數(shù)據(jù)的開放不可避免的會侵害一些用戶的隱私。如何在推動數(shù)據(jù)全面開放,應(yīng)用和共享的同時有效地保護(hù)公民,企業(yè)隱私,逐步加強(qiáng)隱私立法,將是大數(shù)據(jù)時代的一個重大挑戰(zhàn)。1.4.3
02企業(yè)面臨的挑戰(zhàn)大數(shù)據(jù)前沿趨勢及挑戰(zhàn)挑戰(zhàn)七
數(shù)據(jù)開放與隱私的權(quán)衡在大數(shù)據(jù)應(yīng)用日益重要的今天,數(shù)據(jù)資源的開放共享已經(jīng)成為在數(shù)據(jù)大戰(zhàn)中保持優(yōu)勢的關(guān)鍵。但是數(shù)據(jù)的開放不可避免的會侵害一些用戶的隱私。如何在推動數(shù)據(jù)全面開放,應(yīng)用和共享的同時有效地保護(hù)公民,企業(yè)隱私,逐步加強(qiáng)隱私立法,將是大數(shù)據(jù)時代的一個重大挑戰(zhàn)。1.4.3思考題1.以下哪些是hadoop生態(tài)圈組件?()HDFS
B.HiveC.RedisD.Hbase2.大數(shù)據(jù)的數(shù)據(jù)特點主要有()。A.容量大,種類多B.價值密度低C.數(shù)據(jù)增長率低D.
數(shù)據(jù)可以是采集的,也可以是憑空捏造的思考題單元總結(jié)本單元介紹了大數(shù)據(jù)的相關(guān)概念,描述了大數(shù)據(jù)的特征,簡述了大數(shù)據(jù)的相關(guān)技術(shù),以及Hadoop大數(shù)據(jù)生態(tài)圈和部分技術(shù)組件,以大數(shù)據(jù)常見的四類場景為例,介紹各組件在離線批處理、實時流處理、交互式查詢、實時檢索場景的應(yīng)用,并分享了大數(shù)據(jù)的典型應(yīng)用案例,最后介紹了大數(shù)據(jù)時代企業(yè)面臨的挑戰(zhàn)。小結(jié)大數(shù)據(jù)的相關(guān)概念,大數(shù)據(jù)的特點,并分享了大數(shù)據(jù)的應(yīng)用在生活中的各行各業(yè)的案例。介紹當(dāng)前大數(shù)據(jù)技術(shù)的趨勢和給我們帶來的挑戰(zhàn)。思考題1.以下哪些是hadoop生態(tài)圈組件?(ABD
)HDFS
B.HiveC.RedisD.Hbase2.大數(shù)據(jù)的數(shù)據(jù)特點主要有(AB)。A.容量大,種類多B.價值密度低C.數(shù)據(jù)增長率低
D.數(shù)據(jù)可以是采集的,也可以是憑空捏造的3.什么叫大數(shù)據(jù)?4.大數(shù)據(jù)容量單位有哪些?5.簡述大數(shù)據(jù)的5V特征。單元2大數(shù)據(jù)處理平臺Hadoop的安裝與配置大數(shù)據(jù)處理平臺Hadoop的安裝與配置學(xué)習(xí)目標(biāo)知識目標(biāo)技能目標(biāo)1.了解虛擬機(jī)VMware的作用。2.了解CentOS7系統(tǒng)的功能和優(yōu)點。3.掌握CentOS7常用操作命令的功能。4.了解WinSCP工具的功能。5.了解Xshell工具的功能。6.了解Hadoop的安裝模式。7.掌握Hadoop的目錄結(jié)構(gòu)。8.掌握Hadoop命令的功能1.掌握虛擬機(jī)VMware的安裝方法。2.掌握CentOS7系統(tǒng)的安裝與配置方法。3.掌握CentOS7常用操作命令的使用方法。4.掌握WinSCP工具的安裝與使用方法。5.掌握Xshell工具的安裝與使用方法。6.掌握J(rèn)DK的安裝與配置方法。7.掌握Hadoop的本地模式、偽分布模式、分布模式和HadoopHA的安裝與配置方法。8.掌握Hadoop命令的運(yùn)用方法單元任務(wù)任務(wù)2.1虛擬機(jī)VMware安裝
任務(wù)2.2CentOS7安裝與配置任務(wù)2.3WinSCP的安裝與使用任務(wù)2.4Xshell安裝與使用任務(wù)2.5Hadoop的安裝模式
任務(wù)2.6JDK的安裝和配置
任務(wù)2.7hadoop的本地安裝
任務(wù)2.8hadoop的偽分布式安裝任務(wù)2.9hadoop的完全分布式安裝
任務(wù)2.10hadoopHA的完全分布式安裝任務(wù)2.1虛擬機(jī)Vmware的安裝本任務(wù)要在Windows系統(tǒng)中安裝虛擬機(jī)VMware,為安裝CentOS7做好準(zhǔn)備?!救蝿?wù)描述】2.1.1
認(rèn)識虛擬機(jī)2.1.2安裝虛擬機(jī)【關(guān)鍵步驟】2.1.1認(rèn)識虛擬機(jī)虛擬機(jī)概述
虛擬機(jī)(VirtualMachine,VM)是指通過軟件模擬的具有完整硬件系統(tǒng)功能的、運(yùn)行在一個完全隔離環(huán)境中的完整計算機(jī)系統(tǒng)。物理機(jī)能夠完成的工作在虛擬機(jī)中都能夠?qū)崿F(xiàn)。在物理機(jī)中創(chuàng)建虛擬機(jī)時,需要將物理機(jī)的部分硬盤和內(nèi)存容量作為虛擬機(jī)的硬盤和內(nèi)存容量。每臺虛擬機(jī)都有獨立的CPU、內(nèi)存、網(wǎng)卡、硬盤和操作系統(tǒng),用戶可以像使用物理機(jī)一樣對虛擬機(jī)進(jìn)行操作。虛擬機(jī)的實現(xiàn)方法是在一臺物理機(jī)上安裝多臺虛擬機(jī),一臺虛擬機(jī)上可以運(yùn)行多個程序2.1.1認(rèn)識虛擬機(jī)使用虛擬機(jī)的好處
(1)操作靈活性。可以從同一個控制臺操作多個顯示器或者系統(tǒng),如Linux和Windows。虛擬機(jī)允許用戶在操作系統(tǒng)之間切換,滿足用戶同時使用多臺計算機(jī)的體驗。(2)減少開銷/節(jié)省成本。服務(wù)器虛擬化的直接好處就是用戶無須購買那么多物理服務(wù)器,從而可以節(jié)省成本。借助虛擬化,對硬件要求較低的操作系統(tǒng)和應(yīng)用程序可以在同一臺服務(wù)器上運(yùn)行,從而節(jié)省服務(wù)器硬件成本。可以更高效地使用服務(wù)器,從而減少服務(wù)器的開銷。(3)災(zāi)難恢復(fù)。虛擬機(jī)會定期制作其操作歷史的副本,因此在發(fā)生硬件故障時,數(shù)據(jù)丟失的風(fēng)險很小。此外,由于虛擬環(huán)境中的硬件開銷可以忽略不計,因此服務(wù)器一開始就具有較低的系統(tǒng)故障風(fēng)險。任務(wù)2.1虛擬機(jī)Vmware的安裝本任務(wù)要在Windows系統(tǒng)中安裝虛擬機(jī)VMware,為安裝CentOS7做好準(zhǔn)備?!救蝿?wù)描述】2.1.1
認(rèn)識虛擬機(jī)2.1.2安裝虛擬機(jī)【關(guān)鍵步驟】2.1.2安裝虛擬機(jī)安裝工具準(zhǔn)備
1)VMware安裝軟件/products/workstation-pro/workstation-pro-evaluation.html。配套資源VMware10.7z,讀者可下載使用。2)WinSCP。https://winsCP.net/eng/index.php。3)CentOS系統(tǒng)iso鏡像。CentOS-7-x86_64-DVD-2009.iso,官網(wǎng)下載地址為/download/。國內(nèi)阿里云下載地址:/centos/7.9.2009/isos/x86_64/?spm=a2c6h.256038084f5adBiTi7u。2.1.2安裝虛擬機(jī)安裝步驟
雙擊VMware-workstation-full-10.0.1-1379776.exe開始安裝2.1.2安裝虛擬機(jī)安裝步驟
任務(wù)2.2
CentOS7的安裝與配置2.2.1CentOS7的安裝2.2.2CentOS7的配置2.2.3CentOS7常用操作命令本任務(wù)要在虛擬機(jī)VMware中安裝CentOS7系統(tǒng),并介紹CentOS7命令的用法【關(guān)鍵步驟】【任務(wù)描述】2.2.1
CentOS7的安裝CentOS7的安裝步驟
(1)
打開VMware,點擊“創(chuàng)建新的虛擬機(jī)”或“文件”-“新建虛擬機(jī)”,按向?qū)瓿砂惭b(2)找到CentOS-7-x86_64-DVD-2009.iso鏡像文件,選擇Linux客戶機(jī)操作系統(tǒng),給虛擬機(jī)命名CentOS64位,設(shè)置安裝位置。(3)選擇磁盤大小,默認(rèn)20G(4)點擊“開啟此虛擬機(jī)”,開始安裝“CentOS”(5)選擇“中文”—“簡體中文”(6)選擇“安裝位置”、設(shè)置root用戶密碼如root123(7)安裝完成后“重啟”(8)輸入用戶名root和密碼root123,完成CentOS安裝與啟動。2.2.1
CentOS7的安裝雙擊桌面上的“VMwareWorkstation”圖標(biāo),打開虛擬機(jī),進(jìn)入Vmware主界面
2.2.1
CentOS7的安裝2.2.1
CentOS7的安裝2.2.1
CentOS7的安裝任務(wù)2.2
CentOS7的安裝與配置2.2.1CentOS7的安裝2.2.2CentOS7的配置2.2.3CentOS7常用操作命令本任務(wù)要在虛擬機(jī)VMware中安裝CentOS7系統(tǒng),并介紹CentOS7命令的用法【關(guān)鍵步驟】【任務(wù)描述】2.2.2
CentOS7的配置關(guān)于Linux的一些基礎(chǔ)知識Shell:接收用戶命令,然后調(diào)用相應(yīng)的應(yīng)用程序。sudo命令:是權(quán)限管理機(jī)制,管理員可授權(quán)給普通用戶去執(zhí)行一些需要root權(quán)限執(zhí)行的操作。使用sudo時,需要輸入當(dāng)前用戶的密碼。輸入密碼:輸入密碼時終端不會顯示任何你當(dāng)前輸入的密碼,也不會提示你已經(jīng)輸入了多少字符密碼,讀者不要誤以為鍵盤沒有響應(yīng)。輸入法中英文切換:使用鍵盤“shift”鍵來切換,也可以點擊頂部菜單的輸入法按鈕進(jìn)行切換。Linux終端復(fù)制粘貼快捷鍵:在Linux終端窗口中,復(fù)制粘貼的快捷鍵需要加上shift,即粘貼是ctrl+shift+v。CentOS7自帶vi編輯器,vim是vi的升級版本,兼容vi的所有指令,還有多級撤銷、易用性、語法加亮、可視化操作等新特性,可以把vim當(dāng)成vi來使用。2.2.2
CentOS7的配置修改主機(jī)名第1步:下載vim編輯器。在CentOS7命令行中下載vim編輯器:
yum
search
vim第2步:安裝vim編輯器。在安裝vim編輯器:yum
install
-y
vim*第3步:修改主機(jī)名。命令如下:hostnamectl
set-hostname
masterbash2.2.2
CentOS7的配置
配置IP地址IP地址包括兩種,即動態(tài)IP地址和靜態(tài)IP地址。動態(tài)IP地址不需要用戶記住IP地址,路由器等網(wǎng)絡(luò)設(shè)備可以自動獲取IP地址以供用戶上網(wǎng)靜態(tài)IP地址則是一個分配給用戶的固定上網(wǎng)IP地址。大部分情況下兩者基本沒有區(qū)別,但是當(dāng)動態(tài)IP地址與其他人的IP地址發(fā)生沖突時,就需要使用靜態(tài)IP地址來維持網(wǎng)絡(luò)的穩(wěn)定性。1)配置動態(tài)IP地址
2.2.2
CentOS7的配置第1步
查看主機(jī)網(wǎng)卡名稱和IP地址:ipaddress注意:可以用命令的縮寫格式,如ipa、ipad、ipadd、ipaddr等,查看網(wǎng)卡名稱及網(wǎng)卡地址可見網(wǎng)卡名稱為ens33,剛安裝好的CentOS7虛擬機(jī)未發(fā)現(xiàn)有IP地址。1)配置動態(tài)IP地址
2.2.2
CentOS7的配置第2步
配置主機(jī)動態(tài)IP地址cd/etc/sysconfig/network-scripts#設(shè)置當(dāng)前目錄viifcfg-ens33#修改網(wǎng)卡配置文件修改ens33的參數(shù),在插入“Insert”模式下,修改如下代碼:BOOTPROTO=dhcpONBOOT=yes在Insert狀態(tài)下,按ESC鍵,鍵入“:wq!”,保存回到之前的命令行1)配置動態(tài)IP地址
2.2.2
CentOS7的配置第3步
重啟網(wǎng)絡(luò)systemctlrestartnetwork第4步
連網(wǎng)測試ping2)配置靜態(tài)IP地址
2.2.2
CentOS7的配置第1步
用虛擬網(wǎng)絡(luò)編輯器配置VMnet8地址選擇VMnet8行,選擇“NAT設(shè)置”按鈕,再點擊“確定”打開NAT設(shè)置窗口,設(shè)置網(wǎng)關(guān)IP地址。注意:將子網(wǎng)IP(I)和子網(wǎng)掩碼(M)設(shè)置成Windows系統(tǒng)中VMnet8同一網(wǎng)段IP地址和子網(wǎng)掩碼2)配置靜態(tài)IP地址
2.2.2
CentOS7的配置第2步
配置Windows系統(tǒng)的VMnet8地址在Windows系統(tǒng)中打開“開始”菜單--“控制面板”—“網(wǎng)絡(luò)和Internet”—“網(wǎng)絡(luò)和共享中心”—“更改適配器設(shè)置”窗口圖2.2.38
適配器設(shè)置窗口右擊“VMwareNetworkAdapterVMnet8”—“屬性”,打開“屬性”設(shè)置窗口,查看“Internet協(xié)議版本4(TCP/IPv4)”,IP地址和IP子網(wǎng)掩碼與虛擬機(jī)中VMnet8同一網(wǎng)段圖2.2.39
打開VMnet8屬性圖2.2.40
查看Windows系統(tǒng)中VMnet8網(wǎng)段和子網(wǎng)掩碼2)配置靜態(tài)IP地址
2.2.2
CentOS7的配置第3步
查看Windows系統(tǒng)DNS服務(wù)器配置右擊“開始”—“運(yùn)行”,輸入cmd命令,打開Windows的命令行窗口,執(zhí)行命令:
ipconfig/all查看到DNS服務(wù)器地址為:
2)配置靜態(tài)IP地址
2.2.2
CentOS7的配置第4步
設(shè)置虛擬機(jī)靜態(tài)IP地址vi
/etc/sysconfig/network-scripts/ifcfg-ens33
修改內(nèi)容如下:bootproto=staticonboot=yes再添加IP地址、子網(wǎng)掩碼、網(wǎng)關(guān)和DNS服務(wù)器,與VMnet8網(wǎng)段相同,域名服務(wù)器DNS與Windows系統(tǒng)中的DNS相同,具體設(shè)置根據(jù)自己的系統(tǒng)確定:IPADDR=29NETWORK=GATEWAY=DNS1=DNS2=2)配置靜態(tài)IP地址
2.2.2
CentOS7的配置第5步
重啟網(wǎng)絡(luò)systemctlrestartnetworkipaddrping可見靜態(tài)地址已設(shè)置為29,子網(wǎng)掩碼為,能訪問,說明DNS設(shè)置正確。配置主機(jī)名和IP地址的映射關(guān)系
2.2.2
CentOS7的配置第1步
修改主機(jī)名hostnamectlset-hostnamemasterbash第2步
配置主機(jī)名和IP地址的映射關(guān)系vi/etc/hosts添加一行代碼:29master第3步:測試主機(jī)名和IP地址的映射關(guān)系pingmaster關(guān)閉防火墻#檢查防火墻狀態(tài)systemctlstatusfirewalld#設(shè)置開機(jī)啟用防火墻systemctlenablefirewalld.service#設(shè)置開機(jī)禁用防火墻systemctldisablefirewalld.service#啟動防火墻systemctlstartfirewalld#關(guān)閉防火墻systemctlstopfirewalld防火墻開啟后集群內(nèi)部通信會出現(xiàn)各種問題。用systemctlstopfirewalld語句關(guān)閉防火墻。在Centos7常用的防火墻操作命令如下:配置SSH免密碼登錄2.2.2
CentOS7的配置Hadoop的啟動和運(yùn)行過程中涉及遠(yuǎn)程過程調(diào)用,以及登錄遠(yuǎn)程服務(wù)器執(zhí)行相關(guān)的命令和功能。為了使Hadoop能夠自主完成啟動并運(yùn)行MapReduce等程序,需要配置服務(wù)器的SSH免密碼登錄。ssh-keygen-trsa#生成密鑰cp~/.ssh/id_rsa.pub~/.ssh/authorized_keyssshmaster退出通過ssh登錄的服務(wù)器,執(zhí)行命令:
exit至此,大數(shù)據(jù)平臺Hadoop環(huán)境的準(zhǔn)備工作就已經(jīng)完成了。任務(wù)2.2
CentOS7的安裝與配置2.2.1CentOS7的安裝2.2.2CentOS7的配置2.2.3CentOS7常用操作命令本任務(wù)要在虛擬機(jī)VMware中安裝CentOS7系統(tǒng),并介紹CentOS7命令的用法【關(guān)鍵步驟】【任務(wù)描述】LinuxShell簡介2.2.3Centos7常用操作命令1)文件與目錄操作命令命令解析cd/home進(jìn)入
‘/home’目錄cd..返回上一級目錄cd../..返回上兩級目錄cd-返回上次所在目錄cpfile1file2將file1復(fù)制為file2cp-adir1dir2復(fù)制一個目錄cp-a/tmp/dir1.復(fù)制一個目錄到當(dāng)前工作目錄(.代表當(dāng)前目錄)ls查看目錄中的文件ls-a顯示隱藏文件ls-l顯示詳細(xì)信息ls-lrt按時間顯示文件(l表示詳細(xì)列表,r表示反向排序,t表示按時間排序)pwd顯示工作路徑mkdirdir1創(chuàng)建
‘dir1’目錄mkdirdir1dir2同時創(chuàng)建兩個目錄mkdir-p/tmp/dir1/dir2創(chuàng)建一個目錄樹mvdir1dir2移動/重命名一個目錄rm-ffile1刪除
‘file1’rm-rfdir1刪除
‘dir1’目錄及其子目錄內(nèi)容LinuxShell簡介2.2.3Centos7常用操作命令2)文件內(nèi)容查看命令命令解析catfile1從第一個字節(jié)開始正向查看文件的內(nèi)容head-2file1查看一個文件的前兩行morefile1查看一個長文件的內(nèi)容tacfile1從最后一行開始反向查看一個文件的內(nèi)容tail-3file1查看一個文件的最后三行3)文件內(nèi)容處理命令命令解析grepstr/tmp/test在文件
‘/tmp/test’中查找“str”grep^str/tmp/test在文件
‘/tmp/test’中查找以“str”開始的行g(shù)rep[0-9]/tmp/test查找
‘/tmp/test’文件中所有包含數(shù)字的行g(shù)repstr-r/tmp/*在目錄
‘/tmp’及其子目錄中查找“str”difffile1file2找出兩個文件的不同處sdifffile1file2以對比的方式顯示兩個文件的不同vifile操作解析i進(jìn)入編輯文本模式Esc退出編輯文本模式:w保存當(dāng)前修改:q不保存退出vi:wq保存當(dāng)前修改并退出viLinuxShell簡介2.2.3Centos7常用操作命令4)查詢操作命令解析find/-namefile1從
‘/’開始進(jìn)入根文件系統(tǒng)查找文件和目錄find/-useruser1查找屬于用戶
‘user1’的文件和目錄find/home/user1-name*.bin在目錄
‘/home/user1’中查找以‘.bin’結(jié)尾的文件find/usr/bin-typef-atime+100查找在過去100天內(nèi)未被使用過的執(zhí)行文件find/usr/bin-typef-mtime-10查找在10天內(nèi)被創(chuàng)建或者修改過的文件locate*.ps尋找以
‘.ps’結(jié)尾的文件,先運(yùn)行‘updatedb’命令find-name‘*.[ch]’|xargsgrep-E‘expr’在當(dāng)前目錄及其子目錄所有.c和.h文件中查找‘expr’find-typef-print0|xargs-r0grep-F‘expr’在當(dāng)前目錄及其子目錄的常規(guī)文件中查找
‘expr’find-maxdepth1-typef|xargsgrep-F‘expr’在當(dāng)前目錄中查找
‘expr’LinuxShell簡介2.2.3Centos7常用操作命令5)壓縮、解壓命令命令解析bzip2file1壓縮
file1bunzip2file1.bz2解壓
file1.bz2gzipfile1壓縮
file1gzip-9file1最大程度壓縮
file1gunzipfile1.gz解壓
file1.gztar-cvfarchive.tarfile1把file1打包成archive.tar(-c:建立壓縮檔案;-v:顯示所有過程;-f:使用檔案名字,是必須的,是最后一個參數(shù))tar-cvfarchive.tarfile1dir1把
file1,dir1打包成archive.tartar-tfarchive.tar顯示一個包中的內(nèi)容tar-xvfarchive.tar釋放一個包tar-xvfarchive.tar-C/tmp把壓縮包釋放到
/tmp目錄下zipfile1.zipfile1創(chuàng)建一個zip格式的壓縮包zip-rfile1.zipfile1dir1把文件和目錄壓縮成一個zip格式的壓縮包unzipfile1.zip解壓一個zip格式的壓縮包到當(dāng)前目錄unziptest.zip-d/tmp/解壓一個zip格式的壓縮包到/tmp目錄LinuxShell簡介2.2.3Centos7常用操作命令6)軟件包管理rpm命令及其功能命令解析rpm
[OPTIONS]
PACHAGE_FILE命令格式rpm-ivhyour-package直接安裝rpmrpm-force-ivhyour-package.rpm忽略報錯,強(qiáng)制安裝rpm-ql查詢出所有安裝過的包rpm-q包名獲得某個軟件包的全名rpm-ql包名獲得rpm包中文件安裝的位置rpm-e包名卸載yum命令及其功能命令解析yum-yinstall[package]下載并安裝一個rpm包yumlocalinstall[package.rpm]安裝一個rpm包,使用你自己的軟件倉庫解決所有依賴關(guān)系yum-yupdate更新當(dāng)前系統(tǒng)中安裝的所有rpm包yumupdate[package]更新一個rpm包yumremove[package]刪除一個rpm包yumlist列出當(dāng)前系統(tǒng)中安裝的所有包yumsearch[package]在rpm倉庫中搜尋軟件包yumclean[package]清除緩存目錄(/var/cache/yum)下的軟件包yumcleanheaders刪除所有頭文件yumcleanall刪除所有緩存的包和頭文件7)網(wǎng)絡(luò)相關(guān)操作命令命令解析ifconfigeth0顯示一個以太網(wǎng)卡的配置ifconfigeth0netmask配置網(wǎng)卡的IP地址ifdowneth0禁用
‘eth0’網(wǎng)絡(luò)設(shè)備ifupeth0啟用
‘eth0’網(wǎng)絡(luò)設(shè)備iwconfigeth1顯示一個無線網(wǎng)卡的配置iwlistscan顯示無線網(wǎng)絡(luò)ipaddrshow顯示網(wǎng)卡的IP地址(1)下載WinSCP安裝文件。(2)安裝WinSCP。(3)操作應(yīng)用WinScp。本任務(wù)要在Windows操作系統(tǒng)中安裝WinSCP,遠(yuǎn)程連接Linux服務(wù)器,實現(xiàn)Windows操作系統(tǒng)與Linux操作系統(tǒng)的文件上傳與下載功能,為后續(xù)安裝工具傳遞到Centos7做好準(zhǔn)備。
【任務(wù)描述】【關(guān)鍵步驟】任務(wù)2.3WinSCP的安裝與使用2.3.1下載WinSCP安裝文件2.3.2WinSCP安裝2.3.3WinScp應(yīng)用
任務(wù)2.3WinSCP的安裝與使用2.3.1下載WinSCP安裝文件WinSCP官網(wǎng)下載地址:/eng/docs/lang:chs點擊左下方“DOWNLOADWINSCP6.3.1(11MB)”選項,下載該軟件2.3.1下載WinSCP安裝文件2.3.2WinSCP安裝2.3.3WinScp應(yīng)用
任務(wù)2.3WinSCP的安裝與使用2.3.2WinSCP安裝將WinSCP-6.3.1-Setup.exe下載到磁盤后,雙擊安裝文件,選擇開始模式為“為所有用戶安裝”開始安裝WinSCP,首先打開“許可協(xié)議”頁面,點擊“接受(A)”按鈕。打開“安裝類型”選擇頁面,選擇“典型安裝(I)(推薦)”。2.3.2WinSCP安裝完成WinScp安裝,桌面上出現(xiàn)WinScp圖標(biāo)2.3.1下載WinSCP安裝文件2.3.2WinSCP安裝2.3.3WinScp應(yīng)用
任務(wù)2.3WinSCP的安裝與使用2.3.3WinScp應(yīng)用雙擊WinScp圖標(biāo),開始使用WinScp,將Windows中的Hadoop安裝軟件hadoop-3.1.3.tar.gz上傳到Centos虛擬機(jī)上,默認(rèn)上傳到/root中主機(jī)名(H):29用戶名(U):root密碼(P):root123點擊“登錄”按鈕,打開連接警告頁面,第一次登錄,會彈出提示是否緩存到本機(jī)2.3.3WinScp應(yīng)用連接建立成功,左側(cè)窗口顯示W(wǎng)indows本地目錄,右側(cè)顯示Censtos虛擬機(jī)當(dāng)前目錄(/root)點擊左上“我的文檔”圖標(biāo),打開“打開目錄”,點擊“瀏覽”按鈕,選擇要上傳到虛擬機(jī)中的文件置左側(cè)窗口切換到D:/tools,顯示了該目錄下的所有文件,找到了hadoop-2.7.7.tar.gz右鍵單擊hadoop-2.7.7.tar.gz,打開快捷菜單,選擇“上傳”,或直接選中hadoop-2.7.7.tar.gz拖到右側(cè)窗口,將文件傳輸?shù)紺entos虛擬機(jī)的/root目錄中(1)下載Xshell安裝包。(2)安裝Xshell5。(3)使用Xshell5。本任務(wù)要在Windows操作系統(tǒng)中安裝Xshell,對linux主機(jī)進(jìn)行遠(yuǎn)程管理,達(dá)到遠(yuǎn)程控制終端的目的,為后續(xù)方便操作Centos7系統(tǒng)做好準(zhǔn)備。
【任務(wù)描述】【關(guān)鍵步驟】任務(wù)2.4Xshell安裝與使用2.4.1Xshell安裝包準(zhǔn)備下載2.4.2Xshell5安裝2.4.3Xshell5使用
任務(wù)2.4Xshell安裝與使用2.4.1Xshell安裝包準(zhǔn)備下載XShell官網(wǎng)地址:在課程資源配套Xshell5安裝包Xshell_5.0.1044.exe注意,XShell在商業(yè)環(huán)境使用下是需要買許可的。2.4.1Xshell安裝包準(zhǔn)備下載2.4.2Xshell5安裝2.4.3Xshell5使用
任務(wù)2.4Xshell安裝與使用2.4.2Xshell安裝下載Xshell_5.0.1044.exe后雙擊該文件,按照安裝向?qū)瓿砂惭b即可。2.4.1Xshell安裝包準(zhǔn)備下載2.4.2Xshell5安裝2.4.3Xshell5使用
任務(wù)2.4Xshell安裝與使用2.4.3Xshell5使用雙擊桌面上的Xshell5圖標(biāo)點擊“新建”—“會話”點擊“連接”按鈕,打開“新建會話屬性”錄入常規(guī)名稱、主機(jī)地址等信息2.4.3Xshell5使用
點擊“連接”按鈕,打開“SSH安全警告”點擊“接受并保存”按鈕,打開“SSH用戶名”,在“請輸入登錄的用戶名(E)”中錄入root點擊“確定”按鈕,打開“SSH用戶身份驗證”頁面,在“Password(P)密碼(W)”中錄入密碼root123點擊“確定”按鈕,完成了Xshell會話連接建立工作【任務(wù)描述】【關(guān)鍵步驟】本任務(wù)學(xué)習(xí)Hadoop的三種安裝模式,即本地模式、偽分布模式和分布模式,為選擇適合自己PC環(huán)境和工作特點的安裝模式提供理論支撐。
【任務(wù)描述】任務(wù)2.5Hadoop的安裝模式3.1.1本地模式3.1.2偽分布模式3.1.3分布模式任務(wù)2.5Hadoop的安裝模式2.5.1本地模式任務(wù)2.5Hadoop的安裝模式2.5.2偽分布模式以hadoopjar命令運(yùn)行Hadoop程序,將運(yùn)行結(jié)果直接輸出到本地磁盤中。只需要在Hadoop的hadoop-env.sh文件中配置JAVA_HOME即可。2.5.3分布模式偽分布模式能夠在邏輯上提供與分布模式一樣的運(yùn)行環(huán)境,部署在單臺服務(wù)器上,以hadoopjar命令運(yùn)行Hadoop程序,將運(yùn)行結(jié)果輸出到HDFS中。需要配置hadoop-env.sh、文件系統(tǒng)、HDFS的副本數(shù)量和YARN地址,以及服務(wù)器的SSH免密碼登錄功能等。分布模式是在物理服務(wù)器上實現(xiàn)的完全分布式集群,部署在多臺物理服務(wù)器上。以hadoopjar命令運(yùn)行hadoop程序,將運(yùn)行結(jié)果輸出到HDFS中。要配置Hadoop文件系統(tǒng)、HDFS的副本數(shù)量和YARN地址、服務(wù)器之間的SSH免密碼登錄、節(jié)點之間的RPC通信等。(1)下載JDK安裝包。(2)上傳JDK安裝包到CentOS7系統(tǒng)。(3)安裝并配置JDK。Hadoop是基于Java語言開發(fā)的,在安裝Hadoop之前,首先要安裝Java。本任務(wù)通過實際操作JDK的下載、安裝和環(huán)境配置過程,訓(xùn)練讀者的JDK安裝與配置技能。
【任務(wù)描述】【關(guān)鍵步驟】任務(wù)2.6JDK的安裝和配置2.6.1下載JDK2.6.2上傳JDK到CentOS7虛擬機(jī)2.6.3安裝并配置JDK任務(wù)2.6JDK的安裝和配置2.6.1下載JDK首先,從Oracle官網(wǎng)下載JDK(JavaJDK是Sun公司開發(fā)的,2010年Oracle公司收購了Sun公司)。本書中使用的JDK版本是JDK1.8,JDK1.8的下載地址為/technetwork/javase/downloads/jdk8-downloads-2133151.html。課程資源:jdk-8u221-linux-x64.tar.gz2.6.1下載JDK2.6.2上傳JDK到CentOS7虛擬機(jī)2.6.3安裝并配置JDK任務(wù)2.6JDK的安裝和配置2.6.2上傳JDK到CentOS7虛擬機(jī)打開WinSCP,使用root用戶身份登錄CentOS7虛擬機(jī),將下載的JDK安裝文件jdk-8u221-linux-x64.tar.gz上傳到CentOS7虛擬機(jī)的/root目錄下打開Xshell連接登錄到CentOS7虛擬機(jī),在命令行中將目錄切換到/root下,命令如下:[root@master~]#cd/root[root@master~]#pwd[root@master~]#ll[root@master~]#ls
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 46961-2025專利密集型產(chǎn)品評價方法
- 2025江蘇徐州市泉山國有資產(chǎn)投資經(jīng)營有限公司投后管理崗招聘考試(第二輪)考試備考試題及答案解析
- 2026福建泉州幼兒師范高等??茖W(xué)校招聘15人考試備考題庫及答案解析
- exo介紹英語教學(xué)課件
- 2026山東淄博市淄川區(qū)事業(yè)單位招聘教師20人考試參考試題及答案解析
- 2026湖南常德市西洞庭食品工業(yè)園投資開發(fā)有限公司招聘人員筆試備考試題及答案解析
- 德陽經(jīng)濟(jì)技術(shù)開發(fā)區(qū)第四幼兒園2026年春期面向社會 公開招聘“兩自一包”非在編教職工招聘考試參考試題及答案解析
- 2026河北興冀人才資源開發(fā)有限公司外包人員招聘49人考試備考試題及答案解析
- 2026重慶智匯人才開發(fā)有限公司永川分公司招聘2人考試備考題庫及答案解析
- 2025-2026廣東中山南區(qū)街道招聘公辦幼兒園臨聘教職工7人考試參考試題及答案解析
- 2026年國有企業(yè)金華市軌道交通控股集團(tuán)招聘備考題庫有答案詳解
- 2025年電子工程師年度工作總結(jié)
- 2026年吉林司法警官職業(yè)學(xué)院單招職業(yè)技能筆試備考題庫帶答案解析
- 健康中國2030規(guī)劃綱要考試題庫含答案全套
- 產(chǎn)房與兒科交接登記表
- 韓國語topik單詞-初級+中級
- 克林頓1993年就職演講+(中英文)
- 四川省房屋建筑工程和市政基礎(chǔ)設(shè)施工程竣工驗收報告
- 商業(yè)倫理與會計職業(yè)道德(第四版)第五章企業(yè)對外經(jīng)營道德規(guī)范
- DB13 5161-2020 鍋爐大氣污染物排放標(biāo)準(zhǔn)
- 安全隱患排查工作檢查表
評論
0/150
提交評論