版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
Hadoop環(huán)境的搭建Hadoop環(huán)境的搭建1主講內(nèi)容Hadoop項目簡介搭建Hadoop的偽分布環(huán)境Hadoop常見命令主講內(nèi)容Hadoop項目簡介2
Hadoop是什么?適合大數(shù)據(jù)的分布式存儲與計算平臺作者:DougCutting受Google三篇論文的啟發(fā)
Hadoop是什么?適合大數(shù)據(jù)的分布式存儲與計算平臺3版本Apache
官方版本(1.1.2)Cloudera
使用下載最多的版本,穩(wěn)定,有商業(yè)支持,在Apache的基礎上打上了一些patch。推薦使用。YahooYahoo內(nèi)部使用的版本,發(fā)布過兩次,已有的版本都放到了Apache上,后續(xù)不在繼續(xù)發(fā)布,而是集中在Apache的版本上。版本Apache4Hadoop核心項目HDFS:HadoopDistributedFileSystem分布式文件系統(tǒng)MapReduce:并行計算框架Hadoop核心項目HDFS:HadoopDistrib5HDFS的架構(gòu)主從結(jié)構(gòu)主節(jié)點,只有一個:namenode從節(jié)點,有很多個:datanodesnamenode負責:維護集群內(nèi)的元數(shù)據(jù),對外提供創(chuàng)建、打開、刪除和重命名文件或目錄的功能接收用戶操作請求維護文件系統(tǒng)的目錄結(jié)構(gòu)管理文件與block之間關系,block與datanode之間關系datanode負責:存儲數(shù)據(jù),并提負責處理數(shù)據(jù)的讀寫請求存儲文件文件被分成block存儲在磁盤上為保證數(shù)據(jù)安全,文件會有多個副本DataNode定期向NameNode上報心跳,NameNode通過響應心跳來控制DataNode。
HDFS的架構(gòu)主從結(jié)構(gòu)6MapReduce的架構(gòu)Map負責將數(shù)據(jù)打散,Reduce負責對數(shù)據(jù)進行聚集,用戶只需要實現(xiàn)map和reduce兩個接口,即可完成TB級數(shù)據(jù)的計算。MapReduce的實現(xiàn)也采用了Master/Slave結(jié)構(gòu)。Master叫做JobTracker,而Slave叫做TaskTracker。用戶提交的計算叫做Job,每一個Job會被劃分成若干個Tasks。JobTracker負責Job和Tasks的調(diào)度,而TaskTracker負責執(zhí)行Tasks。MapReduce的架構(gòu)Map負責將數(shù)據(jù)打散,Reduce7MapReduce的架構(gòu)主從結(jié)構(gòu)主節(jié)點,只有一個:JobTracker從節(jié)點,有很多個:TaskTrackersJobTracker負責:接收客戶提交的計算任務把計算任務分給TaskTrackers執(zhí)行監(jiān)控TaskTracker的執(zhí)行情況
TaskTrackers負責:執(zhí)行JobTracker分配的計算任務MapReduce的架構(gòu)主從結(jié)構(gòu)89Hadoop的特點擴容能力(Scalable):能可靠地(reliably)存儲和處理千兆字節(jié)(PB)數(shù)據(jù)。成本低(Economical):可以通過普通機器組成的服務器群來分發(fā)以及處理數(shù)據(jù)。這些服務器群總計可達數(shù)千個節(jié)點。高效率(Efficient):通過分發(fā)數(shù)據(jù),hadoop可以在數(shù)據(jù)所在的節(jié)點上并行地(parallel)處理它們,這使得處理非常的快速??煽啃裕≧eliable):hadoop能自動地維護數(shù)據(jù)的多份副本,并且在任務失敗后能自動地重新部署(redeploy)計算任務。9Hadoop的特點擴容能力(Scalable):能可靠地(9Hadoop集群的物理分布Hadoop集群的物理分布10單節(jié)點物理結(jié)構(gòu)單節(jié)點物理結(jié)構(gòu)11Hadoop部署方式本地模式偽分布模式集群模式Hadoop部署方式本地模式12本地模式本地模式是Hadoop的默認模式。當首次解壓Hadoop的源碼包時,Hadoop無法了解硬件安裝環(huán)境,便保守地選擇了最小配置。在這種默認模式下所有3個XML文件均為空。當配置文件為空時,Hadoop會完全運行在本地。因為不需要與其他節(jié)點交互,單機模式就不使用HDFS,也不加載任何Hadoop的守護進程。該模式主要用于開發(fā)調(diào)試MapReduce程序的應用邏輯。本地模式本地模式是Hadoop的默認模式。當首次解壓Hado13偽分布模式偽分布模式是在一臺機器上模擬分布式部署,方便學習和調(diào)試。偽分布模式偽分布模式是在一臺機器上模擬分布式部署,方便學習14集群模式集群模式是在多個機器上配置hadoop,是真正的“分布式”。集群模式集群模式是在多個機器上配置hadoop,是真正的“分15安裝前準備軟件必備軟件:VitualVox或vmwarecentosjdk-6u24-linux-xxx.binhadoop-1.1.2.tar.gz其他軟件:Xfp4XShell安裝前準備軟件必備軟件:其他軟件:16偽分布模式安裝步驟安裝虛擬機軟件創(chuàng)建一個虛擬機,安裝linux操作系統(tǒng)設置虛擬機的網(wǎng)絡、修改ip安裝Xfp4與Xshell修改hostname設置ssh自動登錄安裝jdk安裝hadoop偽分布模式安裝步驟安裝虛擬機軟件17第一步:安裝虛擬機軟件VMwareVirtualBox第一步:安裝虛擬機軟件VMware18安裝VMware后打開安裝VMware后打開19第二步:創(chuàng)建虛擬機,安裝linux點擊該按鈕第二步:創(chuàng)建虛擬機,安裝linux點擊該按鈕20第二步:創(chuàng)建虛擬機,安裝linux第二步:創(chuàng)建虛擬機,安裝linux21第二步:創(chuàng)建虛擬機,安裝linux第二步:創(chuàng)建虛擬機,安裝linux22第二步:創(chuàng)建虛擬機,安裝linux第二步:創(chuàng)建虛擬機,安裝linux23第二步:創(chuàng)建虛擬機,安裝linux第二步:創(chuàng)建虛擬機,安裝linux24第二步:創(chuàng)建虛擬機,安裝linux第二步:創(chuàng)建虛擬機,安裝linux25第三步:設置虛擬機的網(wǎng)絡、修改ip對虛擬機網(wǎng)絡進行配置,以便于遠程登錄到虛擬機,方便文件的傳輸。VMWare提供了三種工作模式,它們是bridged(橋接模式)、NAT(網(wǎng)絡地址轉(zhuǎn)換模式)和host-only(主機模式)第三步:設置虛擬機的網(wǎng)絡、修改ip對虛擬機網(wǎng)絡進行配置,以便26第三步:設置虛擬機的網(wǎng)絡、修改ip第三步:設置虛擬機的網(wǎng)絡、修改ip27第三步:設置虛擬機的網(wǎng)絡、修改ip第三步:設置虛擬機的網(wǎng)絡、修改ip28第三步:設置虛擬機的網(wǎng)絡、修改ip安裝完VMwareworkstation之后,網(wǎng)絡連接里會多出兩個虛擬網(wǎng)卡:VMwareNetworkAdapterVMnet1和VMwareNetworkAdapterVMnet8.
虛擬機里安裝的系統(tǒng)就是靠這兩個虛擬網(wǎng)卡來聯(lián)網(wǎng)的.VMnet1是host-only聯(lián)網(wǎng)需要的虛擬網(wǎng)卡,VMnet8是NAT聯(lián)網(wǎng)需要的虛擬網(wǎng)卡。第三步:設置虛擬機的網(wǎng)絡、修改ip安裝完VMwarewor29第三步:設置虛擬機的網(wǎng)絡、修改ip第三步:設置虛擬機的網(wǎng)絡、修改ip30橋接方式(Bridged)
在橋接方式下,VMware模擬一個虛擬的網(wǎng)卡給客戶系統(tǒng),主系統(tǒng)對于客戶系統(tǒng)來說相當于是一個橋接器??蛻粝到y(tǒng)好像是有自己的網(wǎng)卡一樣,自己直接連上網(wǎng)絡,也就是說客戶系統(tǒng)對于外部直接可見。簡單地說,虛擬主機和物理主機在同一個網(wǎng)段,就相當于局域網(wǎng)里多出來了一臺電腦在上網(wǎng),而這臺電腦就是虛擬機里的系統(tǒng)。物理主機和虛擬主機的IP處于同一網(wǎng)段,DNS和網(wǎng)關是一樣的,這樣就實現(xiàn)了物理主機和虛擬主機,虛擬主機和外網(wǎng)的相互通信。橋接方式(Bridged)在橋接方式下,VMware模擬一31橋接方式(Bridged)
橋接方式(Bridged)32網(wǎng)絡地址轉(zhuǎn)換方式(NAT)
在這種方式下,客戶系統(tǒng)不能自己連接網(wǎng)絡,而必須通過主系統(tǒng)對所有進出網(wǎng)絡的客戶系統(tǒng)收發(fā)的數(shù)據(jù)包做地址轉(zhuǎn)換。在這種方式下,客戶系統(tǒng)對于外部不可見。網(wǎng)絡地址轉(zhuǎn)換方式(NAT)在這種方式下,客戶系統(tǒng)不能自己連33Host-Only聯(lián)網(wǎng)方式
與NAT唯一的不同的是,此種方式下,沒有地址轉(zhuǎn)換服務,因此,默認情況下,虛擬機只能到主機訪問而不能訪問Internet,這也是hostonly的名字的意義。Host-Only聯(lián)網(wǎng)方式與NAT唯一的不同的是,此種方式34常見的linux命令1.命令cd(changedirectory):跳轉(zhuǎn)到其他目錄2.命令ls:查看目錄下包含什么東西
ls-l:顯示詳細信息
ls-a:顯示隱藏文件3.命令pwd:顯示當前所處位置的4.命令clear:清屏5.命令mkdir:創(chuàng)建文件夾
mkdir-p:遞歸創(chuàng)建上級文件夾6.命令touch:創(chuàng)建空白文件7.命令more:查看文件內(nèi)容常見的linux命令1.命令cd(changedirect35常見的linux命令8.命令rm:刪除文件命令rmdir:刪除文件夾命令rm-rf:刪除文件(夾),不論層級多深,一概刪除,并且不給出提示9.命令cp(copy):復制文件,還有一個功能是創(chuàng)建新文件10.命令mv(move):移動文件,還有個功能是重命名11.ifconfig-a命令:查看IP地址12.解壓縮文件:tar–xzvfxxx常見的linux命令8.命令rm:刪除文件36常見的linux命令*********************************VI操作:(1)當使用命令vif1回車時,進入了vi編輯器內(nèi),處于只讀狀態(tài)(只能看不能寫);(2)按字母”i“(insert)或者”a“(append)就可以進入編輯狀態(tài);(3)按鍵盤上的”Esc“鍵,再按Shift+:,進入命令狀態(tài) 如果輸入命令wq,意味著保存退出; 如果輸入命令q!,意味著不保存退出;*********************************linux的權(quán)限使用9位字符表示,rwxrwxrwx這里面r表示讀權(quán)限,w表示寫權(quán)限,x表示執(zhí)行權(quán)限,-表示沒有權(quán)限這9位字符,每3位一組,分為3組。第一組表示創(chuàng)建者的權(quán)限;第二組表示創(chuàng)建者所在組的權(quán)限;第三組表示其他人的權(quán)限;常見的linux命令********************37第四步:安裝Xfp4與Xshell用Xshell
4連接到linux服務器用Xfp4連接到linux服務器第四步:安裝Xfp4與Xshell38第五步:修改hostname1、修改/etc/hosts文件(root用戶操作),添加:
ip主機名稱5oracle2、更改主機名編輯/etc/sysconfig/network把主機名改為oracle
第五步:修改hostname1、修改/etc/hosts文件39第六步:SSH互信配置
rsa加密方法,公鑰和私鑰1、生成公鑰和私鑰在命令行執(zhí)行ssh-keygen,然后回車,然后會提示輸入內(nèi)容,什么都不用寫,一路回車在oracle用戶根目錄下,有一個.ssh目錄id_rsa 私鑰id_rsa.pub公鑰known_hosts 通過SSH鏈接到本主機,都會在這里有記錄第六步:SSH互信配置
rsa加密方法,公鑰和私鑰在orac40第六步:SSH互信配置
2、把公鑰給信任的主機(本機)在命令行輸入ssh-copy-id主機名稱ssh-copy-idoracle復制的過程中需要輸入信任主機的密碼3、驗證,在命令行輸入:ssh信任主機名稱sshoracle如果沒有提示輸入密碼,則配置成功第六步:SSH互信配置
2、把公鑰給信任的主機(本機)41第七步:安裝jdk把文件jdk-8u65-linux-x64.tar.gz上傳在oracle用戶的根目錄,Jdk解壓,(oracle用戶操作)tar-zxvfjdk-8u65-linux-x64.tar.gzz代表gzip的壓縮包;x代表解壓;v代表顯示過程信息;f代表后面接的是文件解壓完成后,在oracle用戶的根目錄有一個jdk1.8.0_65目錄第七步:安裝jdk把文件jdk-8u65-linux-x6442第七步:安裝jdk第七步:安裝jdk43第七步:安裝jdk配置環(huán)境變量,需要修改/etc/profile文件(root用戶操作)切到root用戶,輸入su命令vi/etc/profile(Vi是Unix世界里極為普遍的全屏幕文本編輯器,其命令可參考資料,包括游標控制、內(nèi)容編輯、文件操作三類命令)
進去編輯器后,輸入i,進入vi編輯器的插入模式 在profile文件最后添加JAVA_HOME=/home/oracle/jdk1.8.0_65exportPATH=$PATH:$JAVA_HOME/bin (export功能說明:設置或顯示環(huán)境變量)編輯完成后,按下esc退出插入模式 輸入:,這時在左下角有一個冒號的標識
q退出不保存
wq保存退出
q!強制退出第七步:安裝jdk配置環(huán)境變量,需要修改/etc/profi44第七步:安裝jdk把修改的環(huán)境變量生效(oracle用戶操作)執(zhí)行source/etc/profilesource命令用法:sourceFileName作用:在當前bash環(huán)境下讀取并執(zhí)行FileName中的命令。查看java版本命令:java–version第七步:安裝jdk把修改的環(huán)境變量生效(oracle用戶操作45第八步:安裝hadoop1、上傳hadoop-2.6.0.tar.gz文件2、在oracle用戶的根目錄,解壓(oracle用戶操作)tar-zxvfhadoop-2.6.0.tar.gz解壓完成在oracle用戶的根目錄下有一個hadoop-2.6.0目錄第八步:安裝hadoop1、上傳hadoop-2.6.0.t46第八步:安裝hadoop3、修改配置文件hadoop-2.6.0/etc/hadoop/hadoop-env.sh(oracle用戶操作)配置文件1:hadoop-env.sh該文件是hadoop運行基本環(huán)境的配置,需要修改的為java虛擬機的位置。故在該文件中修改JAVA_HOME值為本機安裝位置:exportJAVA_HOME=/home/oracle/jdk1.8.0_65第八步:安裝hadoop3、修改配置文件hadoop-2.647第八步:安裝hadoop4、修改配置文件hadoop-2.6.0/etc/hadoop/core-site.xml,添加(oracle用戶操作)<configuration><property><name>hadoop.tmp.dir</name><value>/home/hadoop/tmp</value><description>hadoop的運行臨時文件的主目錄</description></property><property><name></name><value>hdfs://oracle:9000</value><description>HDFS的訪問路徑</description></property></configuration>fs.default配置了hadoop的HDFS系統(tǒng)的命名,位置為主機的9000端口;第八步:安裝hadoop4、修改配置文件hadoop-2.648第八步:安裝hadoop5、修改配置文件hadoop-2.6.0/etc/hadoop/hdfs-site.xml,添加(oracle用戶操作)<configuration><property><name>dfs.replication</name><value>1</value><description>存儲副本數(shù)</description></property></configuration>這個是hdfs的配置文件,dfs.http.address配置了hdfs的http的訪問位置;dfs.replication配置了文件塊的副本數(shù),一般不大于從機的個數(shù)。第八步:安裝hadoop5、修改配置文件hadoop-2.649第八步:安裝hadoop6、修改修改配置文件hadoop-2.6.0/etc/hadoop/mapred-site.xml(oracle用戶操作)這個是mapreduce任務的配置,由于hadoop2.x使用了yarn框架,所以要實現(xiàn)分布式部署,必須在屬性下配置為yarn這個文件沒有,需要復制一份cpetc/hadoop/mapred-site.xml.templateetc/hadoop/mapred-site.xml添加<configuration><property><name>mapred.job.tracker</name><value>oracle:9001</value><description>JobTracker的訪問路徑</description></property><property><name></name><value>yarn</value></property></configuration>第八步:安裝hadoop6、修改修改配置文件hadoop-250第八步:安裝hadoop7、修改配置文件hadoop-2.6.0/etc/hadoop/yarn-site.xml,添加(oracle用戶操作)該文件為yarn框架的配置,主要是一些任務的啟動位置<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>第八步:安裝hadoop7、修改配置文件hadoop-2.651第八步:安裝hadoop格式化HDFS,在hadoop解壓目錄下,執(zhí)行如下命令:bin/hdfsnamenode–format注意:格式化只能操作一次,如果因為某種原因,集群不能用,需要再次格式化,需要把上一次格式化的信息刪除,在/tmp目錄里執(zhí)行rm–rf*第八步:安裝hadoop格式化HDFS,在hadoop解壓目52第八步:安裝hadoop啟動集群,在hadoop解壓目錄下,執(zhí)行如下命令:啟動集群:sbin/start-all.sh需要輸入四次當前用戶的密碼(通過配置ssh互信解決)
啟動后,在命令行輸入jps有以下輸出[oracle@oraclehadoop-2.6.0]$jps32033Jps31718SecondaryNameNode31528DataNode31852ResourceManager31437NameNode31949NodeManager關閉集群:sbin/stop-all.sh需要輸入四次當前用戶的密碼(通過配置ssh互信解決)第八步:安裝hadoop啟動集群,在hadoop解壓目錄下,53啟動hadoop再執(zhí)行start-all.sh啟動hadoop再執(zhí)行start-all.sh54瀏覽hadoop瀏覽hadoop55
56練習:搭建偽分布環(huán)境練習:搭建偽分布環(huán)境57集群環(huán)境搭建過程1.確定集群環(huán)境2.在偽分布基礎上搭建3.集群各節(jié)點之間必須ssh免密碼登錄ssh-copy-id-islavenode4.刪除hadoop中的tmp5.把jdk、hadoop復制到其他節(jié)點scp-rqsourcedestination6.修改主節(jié)點的slaves文件集群環(huán)境搭建過程1.確定集群環(huán)境58Hadoop常見命令HDFS文件系統(tǒng)和Linux系統(tǒng)的文件系統(tǒng)不是一回事。HDFS文件系統(tǒng):目前只能通過bin/hadoopfs命令的方式來訪問Linux系統(tǒng)的文件系統(tǒng):直接在命令行里就能直接訪問cd這兩個系統(tǒng)的根目錄都是“/”HDFS集群信息及文件信息可以通過50070這個端口進行訪問:localhost:50070Hadoop常見命令HDFS文件系統(tǒng)和Linux系統(tǒng)的文件系59Hadoop常見命令HDFS的shell操作,是在bin/hadoopfs命令下進行操作HDFS常用shell操作:bin/hadoopfs顯示所有的命令信息Hadoop常見命令HDFS的shell操作,是在bin/h60Hadoop常見命令1、查看某個目錄下的文件及文件夾:bin/hadoopfs-lsHDFS目錄
bin/hadoopfs-ls/(查看HDFS根目錄下的文件目錄)2、上傳文件:bin/hadoopfs-put本機目錄HDFS目錄
bin/hadoopfs-put~/jdk-7u25-linux-i586.gz/(當前根目錄下的文件上傳到HDFS根目錄下)3、下載文件:bin/hadoopfs-getHDFS目錄本機目錄
bin/hadoopfs-get/jdk-7u25-linux-i586.gz~/Desktop(將HDFS根目錄下的文件下載到當前根目錄下的Desktop)Hadoop常見命令1、查看某個目錄下的文件及文件夾:bi61Hadoop常見命令4、創(chuàng)建目錄:bin/hadoopfs–mkdirHDFS目錄
bin/hadoopfs-mkdir/test
只能創(chuàng)建一級目錄
bin/hadoopfs-mkdir-p/aaa/bbb/ccc一次創(chuàng)建多級目錄5、查看某個文件:bin/hadoopfs–catHDFS里文件的路徑
bin/hadoopfs-mkdir/test(在HDFS根目錄下創(chuàng)建文件夾test)
bin/hadoopfs-put~/hadoop-2.4.1/LICENSE.txt/test
(將當前根目錄下hadoop-2.4.1文件夾下的LICENSE.txt文件上傳到HDFS根目錄下的文件夾test下)
bin/hadoopfs-cat/test/LICENSE.txt(查看HDFS根目錄下的文件夾test下的LICENSE.txt文件)Hadoop常見命令4、創(chuàng)建目錄:bin/hadoopfs62Hadoopbin/hadoopjarwordcount.jarcom.wrodcount.test.WCRunner/wordcount/data/wordcount/outputHadoop63演講完畢,謝謝觀看!演講完畢,謝謝觀看!64Hadoop環(huán)境的搭建Hadoop環(huán)境的搭建65主講內(nèi)容Hadoop項目簡介搭建Hadoop的偽分布環(huán)境Hadoop常見命令主講內(nèi)容Hadoop項目簡介66
Hadoop是什么?適合大數(shù)據(jù)的分布式存儲與計算平臺作者:DougCutting受Google三篇論文的啟發(fā)
Hadoop是什么?適合大數(shù)據(jù)的分布式存儲與計算平臺67版本Apache
官方版本(1.1.2)Cloudera
使用下載最多的版本,穩(wěn)定,有商業(yè)支持,在Apache的基礎上打上了一些patch。推薦使用。YahooYahoo內(nèi)部使用的版本,發(fā)布過兩次,已有的版本都放到了Apache上,后續(xù)不在繼續(xù)發(fā)布,而是集中在Apache的版本上。版本Apache68Hadoop核心項目HDFS:HadoopDistributedFileSystem分布式文件系統(tǒng)MapReduce:并行計算框架Hadoop核心項目HDFS:HadoopDistrib69HDFS的架構(gòu)主從結(jié)構(gòu)主節(jié)點,只有一個:namenode從節(jié)點,有很多個:datanodesnamenode負責:維護集群內(nèi)的元數(shù)據(jù),對外提供創(chuàng)建、打開、刪除和重命名文件或目錄的功能接收用戶操作請求維護文件系統(tǒng)的目錄結(jié)構(gòu)管理文件與block之間關系,block與datanode之間關系datanode負責:存儲數(shù)據(jù),并提負責處理數(shù)據(jù)的讀寫請求存儲文件文件被分成block存儲在磁盤上為保證數(shù)據(jù)安全,文件會有多個副本DataNode定期向NameNode上報心跳,NameNode通過響應心跳來控制DataNode。
HDFS的架構(gòu)主從結(jié)構(gòu)70MapReduce的架構(gòu)Map負責將數(shù)據(jù)打散,Reduce負責對數(shù)據(jù)進行聚集,用戶只需要實現(xiàn)map和reduce兩個接口,即可完成TB級數(shù)據(jù)的計算。MapReduce的實現(xiàn)也采用了Master/Slave結(jié)構(gòu)。Master叫做JobTracker,而Slave叫做TaskTracker。用戶提交的計算叫做Job,每一個Job會被劃分成若干個Tasks。JobTracker負責Job和Tasks的調(diào)度,而TaskTracker負責執(zhí)行Tasks。MapReduce的架構(gòu)Map負責將數(shù)據(jù)打散,Reduce71MapReduce的架構(gòu)主從結(jié)構(gòu)主節(jié)點,只有一個:JobTracker從節(jié)點,有很多個:TaskTrackersJobTracker負責:接收客戶提交的計算任務把計算任務分給TaskTrackers執(zhí)行監(jiān)控TaskTracker的執(zhí)行情況
TaskTrackers負責:執(zhí)行JobTracker分配的計算任務MapReduce的架構(gòu)主從結(jié)構(gòu)7273Hadoop的特點擴容能力(Scalable):能可靠地(reliably)存儲和處理千兆字節(jié)(PB)數(shù)據(jù)。成本低(Economical):可以通過普通機器組成的服務器群來分發(fā)以及處理數(shù)據(jù)。這些服務器群總計可達數(shù)千個節(jié)點。高效率(Efficient):通過分發(fā)數(shù)據(jù),hadoop可以在數(shù)據(jù)所在的節(jié)點上并行地(parallel)處理它們,這使得處理非常的快速??煽啃裕≧eliable):hadoop能自動地維護數(shù)據(jù)的多份副本,并且在任務失敗后能自動地重新部署(redeploy)計算任務。9Hadoop的特點擴容能力(Scalable):能可靠地(73Hadoop集群的物理分布Hadoop集群的物理分布74單節(jié)點物理結(jié)構(gòu)單節(jié)點物理結(jié)構(gòu)75Hadoop部署方式本地模式偽分布模式集群模式Hadoop部署方式本地模式76本地模式本地模式是Hadoop的默認模式。當首次解壓Hadoop的源碼包時,Hadoop無法了解硬件安裝環(huán)境,便保守地選擇了最小配置。在這種默認模式下所有3個XML文件均為空。當配置文件為空時,Hadoop會完全運行在本地。因為不需要與其他節(jié)點交互,單機模式就不使用HDFS,也不加載任何Hadoop的守護進程。該模式主要用于開發(fā)調(diào)試MapReduce程序的應用邏輯。本地模式本地模式是Hadoop的默認模式。當首次解壓Hado77偽分布模式偽分布模式是在一臺機器上模擬分布式部署,方便學習和調(diào)試。偽分布模式偽分布模式是在一臺機器上模擬分布式部署,方便學習78集群模式集群模式是在多個機器上配置hadoop,是真正的“分布式”。集群模式集群模式是在多個機器上配置hadoop,是真正的“分79安裝前準備軟件必備軟件:VitualVox或vmwarecentosjdk-6u24-linux-xxx.binhadoop-1.1.2.tar.gz其他軟件:Xfp4XShell安裝前準備軟件必備軟件:其他軟件:80偽分布模式安裝步驟安裝虛擬機軟件創(chuàng)建一個虛擬機,安裝linux操作系統(tǒng)設置虛擬機的網(wǎng)絡、修改ip安裝Xfp4與Xshell修改hostname設置ssh自動登錄安裝jdk安裝hadoop偽分布模式安裝步驟安裝虛擬機軟件81第一步:安裝虛擬機軟件VMwareVirtualBox第一步:安裝虛擬機軟件VMware82安裝VMware后打開安裝VMware后打開83第二步:創(chuàng)建虛擬機,安裝linux點擊該按鈕第二步:創(chuàng)建虛擬機,安裝linux點擊該按鈕84第二步:創(chuàng)建虛擬機,安裝linux第二步:創(chuàng)建虛擬機,安裝linux85第二步:創(chuàng)建虛擬機,安裝linux第二步:創(chuàng)建虛擬機,安裝linux86第二步:創(chuàng)建虛擬機,安裝linux第二步:創(chuàng)建虛擬機,安裝linux87第二步:創(chuàng)建虛擬機,安裝linux第二步:創(chuàng)建虛擬機,安裝linux88第二步:創(chuàng)建虛擬機,安裝linux第二步:創(chuàng)建虛擬機,安裝linux89第三步:設置虛擬機的網(wǎng)絡、修改ip對虛擬機網(wǎng)絡進行配置,以便于遠程登錄到虛擬機,方便文件的傳輸。VMWare提供了三種工作模式,它們是bridged(橋接模式)、NAT(網(wǎng)絡地址轉(zhuǎn)換模式)和host-only(主機模式)第三步:設置虛擬機的網(wǎng)絡、修改ip對虛擬機網(wǎng)絡進行配置,以便90第三步:設置虛擬機的網(wǎng)絡、修改ip第三步:設置虛擬機的網(wǎng)絡、修改ip91第三步:設置虛擬機的網(wǎng)絡、修改ip第三步:設置虛擬機的網(wǎng)絡、修改ip92第三步:設置虛擬機的網(wǎng)絡、修改ip安裝完VMwareworkstation之后,網(wǎng)絡連接里會多出兩個虛擬網(wǎng)卡:VMwareNetworkAdapterVMnet1和VMwareNetworkAdapterVMnet8.
虛擬機里安裝的系統(tǒng)就是靠這兩個虛擬網(wǎng)卡來聯(lián)網(wǎng)的.VMnet1是host-only聯(lián)網(wǎng)需要的虛擬網(wǎng)卡,VMnet8是NAT聯(lián)網(wǎng)需要的虛擬網(wǎng)卡。第三步:設置虛擬機的網(wǎng)絡、修改ip安裝完VMwarewor93第三步:設置虛擬機的網(wǎng)絡、修改ip第三步:設置虛擬機的網(wǎng)絡、修改ip94橋接方式(Bridged)
在橋接方式下,VMware模擬一個虛擬的網(wǎng)卡給客戶系統(tǒng),主系統(tǒng)對于客戶系統(tǒng)來說相當于是一個橋接器??蛻粝到y(tǒng)好像是有自己的網(wǎng)卡一樣,自己直接連上網(wǎng)絡,也就是說客戶系統(tǒng)對于外部直接可見。簡單地說,虛擬主機和物理主機在同一個網(wǎng)段,就相當于局域網(wǎng)里多出來了一臺電腦在上網(wǎng),而這臺電腦就是虛擬機里的系統(tǒng)。物理主機和虛擬主機的IP處于同一網(wǎng)段,DNS和網(wǎng)關是一樣的,這樣就實現(xiàn)了物理主機和虛擬主機,虛擬主機和外網(wǎng)的相互通信。橋接方式(Bridged)在橋接方式下,VMware模擬一95橋接方式(Bridged)
橋接方式(Bridged)96網(wǎng)絡地址轉(zhuǎn)換方式(NAT)
在這種方式下,客戶系統(tǒng)不能自己連接網(wǎng)絡,而必須通過主系統(tǒng)對所有進出網(wǎng)絡的客戶系統(tǒng)收發(fā)的數(shù)據(jù)包做地址轉(zhuǎn)換。在這種方式下,客戶系統(tǒng)對于外部不可見。網(wǎng)絡地址轉(zhuǎn)換方式(NAT)在這種方式下,客戶系統(tǒng)不能自己連97Host-Only聯(lián)網(wǎng)方式
與NAT唯一的不同的是,此種方式下,沒有地址轉(zhuǎn)換服務,因此,默認情況下,虛擬機只能到主機訪問而不能訪問Internet,這也是hostonly的名字的意義。Host-Only聯(lián)網(wǎng)方式與NAT唯一的不同的是,此種方式98常見的linux命令1.命令cd(changedirectory):跳轉(zhuǎn)到其他目錄2.命令ls:查看目錄下包含什么東西
ls-l:顯示詳細信息
ls-a:顯示隱藏文件3.命令pwd:顯示當前所處位置的4.命令clear:清屏5.命令mkdir:創(chuàng)建文件夾
mkdir-p:遞歸創(chuàng)建上級文件夾6.命令touch:創(chuàng)建空白文件7.命令more:查看文件內(nèi)容常見的linux命令1.命令cd(changedirect99常見的linux命令8.命令rm:刪除文件命令rmdir:刪除文件夾命令rm-rf:刪除文件(夾),不論層級多深,一概刪除,并且不給出提示9.命令cp(copy):復制文件,還有一個功能是創(chuàng)建新文件10.命令mv(move):移動文件,還有個功能是重命名11.ifconfig-a命令:查看IP地址12.解壓縮文件:tar–xzvfxxx常見的linux命令8.命令rm:刪除文件100常見的linux命令*********************************VI操作:(1)當使用命令vif1回車時,進入了vi編輯器內(nèi),處于只讀狀態(tài)(只能看不能寫);(2)按字母”i“(insert)或者”a“(append)就可以進入編輯狀態(tài);(3)按鍵盤上的”Esc“鍵,再按Shift+:,進入命令狀態(tài) 如果輸入命令wq,意味著保存退出; 如果輸入命令q!,意味著不保存退出;*********************************linux的權(quán)限使用9位字符表示,rwxrwxrwx這里面r表示讀權(quán)限,w表示寫權(quán)限,x表示執(zhí)行權(quán)限,-表示沒有權(quán)限這9位字符,每3位一組,分為3組。第一組表示創(chuàng)建者的權(quán)限;第二組表示創(chuàng)建者所在組的權(quán)限;第三組表示其他人的權(quán)限;常見的linux命令********************101第四步:安裝Xfp4與Xshell用Xshell
4連接到linux服務器用Xfp4連接到linux服務器第四步:安裝Xfp4與Xshell102第五步:修改hostname1、修改/etc/hosts文件(root用戶操作),添加:
ip主機名稱5oracle2、更改主機名編輯/etc/sysconfig/network把主機名改為oracle
第五步:修改hostname1、修改/etc/hosts文件103第六步:SSH互信配置
rsa加密方法,公鑰和私鑰1、生成公鑰和私鑰在命令行執(zhí)行ssh-keygen,然后回車,然后會提示輸入內(nèi)容,什么都不用寫,一路回車在oracle用戶根目錄下,有一個.ssh目錄id_rsa 私鑰id_rsa.pub公鑰known_hosts 通過SSH鏈接到本主機,都會在這里有記錄第六步:SSH互信配置
rsa加密方法,公鑰和私鑰在orac104第六步:SSH互信配置
2、把公鑰給信任的主機(本機)在命令行輸入ssh-copy-id主機名稱ssh-copy-idoracle復制的過程中需要輸入信任主機的密碼3、驗證,在命令行輸入:ssh信任主機名稱sshoracle如果沒有提示輸入密碼,則配置成功第六步:SSH互信配置
2、把公鑰給信任的主機(本機)105第七步:安裝jdk把文件jdk-8u65-linux-x64.tar.gz上傳在oracle用戶的根目錄,Jdk解壓,(oracle用戶操作)tar-zxvfjdk-8u65-linux-x64.tar.gzz代表gzip的壓縮包;x代表解壓;v代表顯示過程信息;f代表后面接的是文件解壓完成后,在oracle用戶的根目錄有一個jdk1.8.0_65目錄第七步:安裝jdk把文件jdk-8u65-linux-x64106第七步:安裝jdk第七步:安裝jdk107第七步:安裝jdk配置環(huán)境變量,需要修改/etc/profile文件(root用戶操作)切到root用戶,輸入su命令vi/etc/profile(Vi是Unix世界里極為普遍的全屏幕文本編輯器,其命令可參考資料,包括游標控制、內(nèi)容編輯、文件操作三類命令)
進去編輯器后,輸入i,進入vi編輯器的插入模式 在profile文件最后添加JAVA_HOME=/home/oracle/jdk1.8.0_65exportPATH=$PATH:$JAVA_HOME/bin (export功能說明:設置或顯示環(huán)境變量)編輯完成后,按下esc退出插入模式 輸入:,這時在左下角有一個冒號的標識
q退出不保存
wq保存退出
q!強制退出第七步:安裝jdk配置環(huán)境變量,需要修改/etc/profi108第七步:安裝jdk把修改的環(huán)境變量生效(oracle用戶操作)執(zhí)行source/etc/profilesource命令用法:sourceFileName作用:在當前bash環(huán)境下讀取并執(zhí)行FileName中的命令。查看java版本命令:java–version第七步:安裝jdk把修改的環(huán)境變量生效(oracle用戶操作109第八步:安裝hadoop1、上傳hadoop-2.6.0.tar.gz文件2、在oracle用戶的根目錄,解壓(oracle用戶操作)tar-zxvfhadoop-2.6.0.tar.gz解壓完成在oracle用戶的根目錄下有一個hadoop-2.6.0目錄第八步:安裝hadoop1、上傳hadoop-2.6.0.t110第八步:安裝hadoop3、修改配置文件hadoop-2.6.0/etc/hadoop/hadoop-env.sh(oracle用戶操作)配置文件1:hadoop-env.sh該文件是hadoop運行基本環(huán)境的配置,需要修改的為java虛擬機的位置。故在該文件中修改JAVA_HOME值為本機安裝位置:exportJAVA_HOME=/home/oracle/jdk1.8.0_65第八步:安裝hadoop3、修改配置文件hadoop-2.6111第八步:安裝hadoop4、修改配置文件hadoop-2.6.0/etc/hadoop/core-site.xml,添加(oracle用戶操作)<configuration><property><name>hadoop.tmp.dir</name><value>/home/hadoop/tmp</value><description>hadoop的運行臨時文件的主目錄</description></property><property><name></name><value>hdfs://oracle:9000</value><description>HDFS的訪問路徑</description></property></configuration>fs.default配置了hadoop的HDFS系統(tǒng)的命名,位置為主機的9000端口;第八步:安裝hadoop4、修改配置文件hadoop-2.6112第八步:安裝hadoop5、修改配置文件hadoop-2.6.0/etc/hadoop/hdfs-site.xml,添加(oracle用戶操作)<configuration><property><name>dfs.replication</name><value>1</value><description>存儲副本數(shù)</description></property></configuration>這個是hdfs的配置文件,dfs.http.address配置了hdfs的http的訪問位置;dfs.replication配置了文件塊的副本數(shù),一般不大于從機的個數(shù)。第八步:安裝hadoop5、修改配置文件hadoop-2.6113第八步:安裝hadoop6、修改修改配置文件hadoop-2.6.0/etc/hadoop/mapred-site.xml(oracle用戶操作)這個是mapreduce任務的配置,由于hadoop2.x使用了yarn框架,所以要實現(xiàn)分布式部署,必須在屬性下配置為yarn這個文件沒有,需要復制一份cpetc/hadoop/mapred-site.xml.templateetc/hadoop/mapred-site.xml添加<configuration><property><name>mapred.job.tracker</name><value>oracle:9001</value><description>JobTracker的訪問路徑</description></property><property><name></name><value>yarn</value></property></configuration>第八步:安裝hadoop6、修改修改配置文件hadoop-2114第八步:安裝hadoop7、修改配置文件hadoop-2.6.0/etc/hadoop/yarn-site.xml,添加(oracle用戶操作)該文件為yarn框架的配置,主要是一些任務的啟動位置<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>第八步:安裝hadoop7、修改配置文件hadoop-2.6115第八步:安裝hadoop格式化HDFS,在hadoop解壓目錄下,執(zhí)行如下命令:bin/hdfsnamenode–format注意:格式化只能操作一次,如果因為某種原因,集群不能用,需要再次格式化,需要把上一次格式化的信息刪除,在/tmp目錄里執(zhí)行rm–rf*第八步:安裝hadoop格式化H
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全國青少年禁毒知識競賽題庫與答案(中學組)
- 公共安全監(jiān)管人員安全知識測試題庫及答案
- 營銷調(diào)研考試題及答案
- LG(中國)招聘面試題及答案
- 大學語文考研試題及答案
- 中建東孚2026屆校園招聘考試備考題庫附答案
- 關于南昌市灣里管理局2025年度公開選調(diào)事業(yè)單位工作人員的【24人】考試備考題庫附答案
- 四川文理學院2025年下半年公開選調(diào)工作人員(2人)考試備考題庫附答案
- 廣發(fā)證券分支機構(gòu)“星·起點”培訓生2026屆校招參考題庫附答案
- 昆侖集團2026屆大學畢業(yè)生招聘參考題庫必考題
- 傳染病學-病毒性肝炎
- 電氣試驗報告模板
- 重慶市沙坪壩小學小學語文五年級上冊期末試卷
- 陶瓷巖板應用技術規(guī)程
- 中藥制劑技術中職PPT完整全套教學課件
- 龍虎山正一日誦早晚課
- WORD版A4橫版密封條打印模板(可編輯)
- 1比較思想政治教育
- 藝術課程標準(2022年版)
- JJF 1654-2017平板電泳儀校準規(guī)范
- 上海市工業(yè)用水技術中心-工業(yè)用水及廢水處理課件
評論
0/150
提交評論