2022年大數(shù)據(jù)平臺用戶操作手冊(模板)_第1頁
2022年大數(shù)據(jù)平臺用戶操作手冊(模板)_第2頁
2022年大數(shù)據(jù)平臺用戶操作手冊(模板)_第3頁
2022年大數(shù)據(jù)平臺用戶操作手冊(模板)_第4頁
2022年大數(shù)據(jù)平臺用戶操作手冊(模板)_第5頁
已閱讀5頁,還剩95頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)平臺用戶操作手冊大數(shù)據(jù)平臺用戶操作手冊(此文檔為word格式,下載后您可任意修改編輯!)TOC\o"1-5"\h\z\o"CurrentDocument"概述 41」 犬數(shù)據(jù)簡介 4\o"CurrentDocument"某某大數(shù)據(jù)平臺簡介 4\o"CurrentDocument"基本壞境配置 52」 配置主機名 6\o"CurrentDocument"修改hosts文件 6\o"CurrentDocument"修改yum源 6\o"CurrentDocument"配置ntp 7\o"CurrentDocument"配置SSH 8\o"CurrentDocument"禁用TransparentHugePages 9\o"CurrentDocument"安裝配置JDK 9\o"CurrentDocument"配置ambari-server 10\o"CurrentDocument"3」 安裝MariaDB數(shù)據(jù)庫 10\o"CurrentDocument"安裝配置ambari-server 11\o"CurrentDocument"配置ambari-agent 13\o"CurrentDocument"部署管理Hadoop集群 14\o"CurrentDocument"部署Hadoop集群 14HDFS運維管理 20\o"CurrentDocument"MapReduce 31\o"CurrentDocument"部署Hive數(shù)據(jù)倉庫 33\o"CurrentDocument"6」 部署Hive 33\o"CurrentDocument"6」 Hive用戶指南 36\o"CurrentDocument"部署Hbase分布式列數(shù)據(jù)庫 51\o"CurrentDocument"7」 部署HBase 51\o"CurrentDocument"測試驗證 53\o"CurrentDocument"HBase用戶指南 53\o"CurrentDocument"部署Mahout數(shù)據(jù)挖據(jù)工具 61

&1部署&1部署Mahout 61錯誤!未定義書簽。8.2測試驗證錯誤!未定義書簽。TOC\o"1-5"\h\z\o"CurrentDocument"9部署Pig數(shù)據(jù)分析平臺 669」 部署Pig 66\o"CurrentDocument"Pig簡介 67\o"CurrentDocument"運行案例 701概述1.1大數(shù)據(jù)簡介'‘大數(shù)據(jù)”是一個體量特別大,數(shù)據(jù)類別特別龐雜的數(shù)據(jù)集合,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具或常規(guī)軟件工具抓取、管理和處理其內(nèi)容。大數(shù)據(jù)技術(shù)是指從各種各樣類型的龐雜數(shù)據(jù)中,快速的獲取有價值的信息的能力。適用于大數(shù)據(jù)的技術(shù)包括大規(guī)模并行處理數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計算平臺和可擴展的存儲系統(tǒng)。Apache的Hadoop項目是可靠的、可擴展的、開源的、分布式計算軟件。Apache的Hadoop軟件庫是允許通過相對簡單的程序模型構(gòu)建計算集群為龐大的數(shù)據(jù)集進行分布式計算的框架。Hadoop的設(shè)計思想可以將計算模式從單節(jié)點服務(wù)器擴展為數(shù)以千計的計算集群,每一個單獨的服務(wù)器都提供自主的本地計算及存儲能力。對于高可用指標而言,Hadoop軟件庫自身可以通過檢測和故障調(diào)試從應(yīng)用層來實現(xiàn)高可用而不需要關(guān)心硬件底層的高可用性。所以提供一個計算集群上層的高可用服務(wù)對于集群故障修復而言就顯得至關(guān)重要。1.2某某大數(shù)據(jù)平臺簡介某某大數(shù)據(jù)平臺是基于Ambari進行二次開發(fā)的Hadoop分布式集群配置管理工具,該平臺通過安裝向?qū)磉M行集群的搭建,簡化了集群供應(yīng)。同時,他還有一個監(jiān)控組件,叫做Ambari-Metrics,可以提前配置好關(guān)鍵的運維指標(metrics),然后收集集群的中服務(wù)、主機等運行狀態(tài)等信息,通過WEB的方式顯示出來。我們可以直接查看HadoopCore(HDFS和MapReduce)及相關(guān)項目(如HBase、Hive和HCatalog)是否健康。它的用戶界面非常直觀,用戶可以輕松有效地查看信息并控制集群。某某大數(shù)據(jù)平臺支持作業(yè)與任務(wù)執(zhí)行的可視化與分析,能夠更好地查看依賴和性能。通過一個完整的RESTfulAPI把監(jiān)控信息暴露出來,集成了現(xiàn)有的運維工具。平臺使用Ganglia收集度量指標,用Nagios支持系統(tǒng)報警。

圖1.1Ambari結(jié)構(gòu)圖其中Ambari是一個分布式架構(gòu)的軟件,主要由兩部分組成:AmbariServer和AmbariAgent,如圖1?1所示。AmbariServer會讀取Stack和Service的配置文件。當用Ambari創(chuàng)建集群的時候,AmbariServer傳送Stack和Service的配置文件以及Service生命周期的控制腳本到AmbariAgentoAgent拿到配置文件后,會下載安裝公共源里軟件包(Redhat,就是使用yum服務(wù))。安裝完成后,AmbariServer會通知Agent去啟動Serviceo之后AmbariServer會定期發(fā)送命令到Agent檢查Service的狀態(tài),Agent上報給Server,并呈現(xiàn)在Ambari的GUI上,方便用戶了解到集群的各種狀態(tài),并進行相應(yīng)的維護。圖1-1Ambari架構(gòu)圖下載軟件包心跳連接圖1-1Ambari架構(gòu)圖下載軟件包心跳連接2基本環(huán)境配置以兩臺節(jié)點為例來組件Hadoop分布式集群,這里采用的系統(tǒng)版本為Centos7,如下表所示:主機名內(nèi)存硬盤IP地址角色master8192M100G31Ambari-ServerBslaverl4096MB100G33Ambari-Agent2.1配置主機名masterhostnamectlset-hostnamemasterhostnamemasterslaver1hostnamectlset-hostnameslaverlhostnameslaverl2.2修改hosts文件#master&slaverl#vi/etc/hosts31master33slaverl2.3修改yum源#master將XianDian-BigData-v2.0.2-BASE.iso掛在到/mnt目錄下,將其中的ambari解壓到/opt目錄下,并在master節(jié)點配置ftp服務(wù)。注意:因為安裝大數(shù)據(jù)相關(guān)軟件包時,可能會用到相關(guān)依賴軟件包,所以需要配置Centos7Yum源,這里可以采用IAAS中的Centos7Yum源。#master&slaverlcd/etc/yum.repos.d/rm-vf*配置Yum源viambari.repo[centos7]baseurl=ftp://l92」68.2.10/centos7/(注:具體的yum源根據(jù)真實環(huán)境配置,本次為實驗室測試環(huán)境)gpgcheck=Oenabled=Iname=centos[ambari]name=ambaribaseurl=1/ambari(注:具體的yum源根據(jù)真實環(huán)境配置,本次為實驗室測試環(huán)境)enabled=Igpgcheck=Omasteryum?yinstallhttpd將/mnt/文件夾中HDP?2.4?BASE和HDP?UTILS-1」.0.20兩個文件夾拷貝到/var/www/html/目錄下。啟動httpd服務(wù)。systemctlenablehttpd.servicesystemctlstatushttpd.service2.4配置ntpmaster#yum?yinstallntpvi/etc/ntp.conf注釋或者刪除以下四行serverO.iburstserver1.iburstserver2.iburstserver3.iburst添加以下兩行serverfudgestratum1()#systemctlenablentpd#systemctlstartntpdslaver1yum?yinstallntpdatentpdatemastersystemctlenablentpdate2.5配置SSHmaster&slaverl檢查2個節(jié)點是否可以通過無密鑰相互訪問,如果未配置,則進行SSH無密碼公鑰認證配置。如下:yuminstallopenssh-clientsssh-keygenssh-copy-idmaste匚hadoopssh-copy-idslaverl.hadoopssh登錄遠程主機查看是否成功sshmaste匚hadoopexit#sshslaverl.hadoop#exit2.6禁用TransparentHugePages操作系統(tǒng)后臺有一個叫做khugepaged的進程,它會一直掃描所有進程占用的內(nèi)存,在可能的情況下會把4kpage交換為HugePages,在這個過程中,對于操作的內(nèi)存的各種分配活動都需要各種內(nèi)存鎖,直接影響程序的內(nèi)存訪問性能,并且,這個過程對于應(yīng)用是透明的,在應(yīng)用層面不可控制,對于專門為4kpage優(yōu)化的程序來說,可能會造成隨機的性能下降現(xiàn)象。master&slaverlcat/sys/kernel/mm/transparent_hugepage/enabled[always]madviseneverechonever>/sys/kemel/mm/transparent_hugepage/enabledechonever>/sys/kemel/mm/transparent_hugepage/defragcat/sys/kernel/mm/transparent_hugepage/enabledalwaysmadvise[never]重啟后失效,需要再次執(zhí)行2.7安裝配置JDKmastermkdir/usr/jdk64/mount-oloopXianDian-BigData-v2.0.2-BASE.iso/mnt/cd/mnt/tar-zxvfjdk-8u77-linux-x64.tar.gz-C/usr/jdk64/vi/etc/profileexportJAVA_HOME=/usr/jdk64/jdkI,8.0_77exportPATH=$JAVA_HOME/bin:$PATHsource/etc/profile#java-versionjavaversionT.8.0_77”Java(TM)SERuntimeEnvironment(build1.8.0_77-b()3)JavaHotSpot(TM)64-BitServerVM(build25.77-b()3,mixedmode)slaver1#mkdir/usr/jdk64/#scp()6:〃mnt/jdk?8u77?linux?x64.tar.gz.tar-zxvfjdk-8u77-linux-x64.tar.gz-C/usi7jdk64/vi/etc/profileexportJAVA_HOME=/usi7jdk64/jdk1.&0_77exportPATH=$JAVA_HOME/bin:$PATHsource/etc/profile#java-versionjavaversionT.8.0_77”Java(TM)SERuntimeEnvironment(build1.&()_77?b()3)JavaHotSpot(TM)64-BitServerVM(build25.77-b()3,mixedmode)3配置ambari-servermasteryum-yinstallambari-server3.1安裝MariaDB數(shù)據(jù)庫masteryuminstallmariadbmariadb-servermysql-connector-java啟動服務(wù)systemctlenablemariadbsystemctlstartmariadb配置MySQL#mysql_secure_installation按enter確認后設(shè)置數(shù)據(jù)庫root密碼,我們這里設(shè)置為“bigdata”Removeanonymoususers?[Y/n]yDisallowrootloginremotely?[Y/n]nRemovetestdatabaseandaccesstoit?[Y/n]yReloadprivilegetablesnow?[Y/n]y創(chuàng)建ambari數(shù)據(jù)庫mysql-uroot-pbigdataMariaDB[(none)]>createdatabaseambari;MariaDB[(none)]>grantallprivilegesonambari.*to'ambari'@'localhosl,identifiedby'bigdata*;MariaDB[(none)]>grantallprivilegesonambari.*to'ambari'@'%'identifiedby'bigdata*;MariaDB[(none)]>useambari;MariaDB[ambari]>source/var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sqlMariaDB[ambari]>Bye3.2安裝配置ambari-server#masterambari-serversetupWARNING:SELinuxissetto'permissive'modeandtemporarilydisabled.OKtocontinue[y/n](y)?Customizeuseraccountforambari-serverdaemon[y/n](n)?nCheckingJDK...OracleJDK1.8+JavaCryptographyExtension(JCE)PolicyFiles8OracleJDK1.7+JavaCryptographyExtension(JCE)PolicyFiles7CustomJDKEnterchoice(1):3PathtoJAVA_HOME:/usr/jdk64/jdkl.&0_77ValidatingJDKonAmbariServer...done.Completingsetup...Configuringdatabase...Enteradvanceddatabaseconfiguration[y/n](n)?yConfiguringdatabase...Chooseoneofthefollowingoptions:[1]-PostgreSQL(Embedded)⑵.Oracle?MySQL?PostgreSQL⑸?MicrosoftSQLServer(TechPreview)[6]?SQLAnywhereEnterchoice(1):3Hostname(localhost):Port(3306):Databasename(ambari):Username(ambari):EnterDatabasePassword(bigdata):Proceedwithconfiguringremotedatabaseconnectionproperties[y/n](y)?AmbariServer'setup*completedsuccessfully.啟動ambari-server服務(wù)#ambari-serverstart登陸界面http://192」68.2()().131:8080/登錄用戶名密碼為admin:admin登錄譽看*用三方工■加軌CUS自的皿I?4配置ambari-agent#master&slaverlyum-yinstallambari-agentvi/etc/ambari-agent/conl7ambari-agent.ini[server]hostname=masterambari-agentrestarttail-f/var/log/ambari-agent/ambari-agent.logINFO2017-01-1209:44:20,919Controller.py:265-Heartbeatresponsereceived(id=1340)INFO2017-01-1209:44:30,820Heartbeat.py:78-BuildingHeartbeat:{responseld=1340,timestamp=1484214270820,commandsInProgress=False,componentsMapped=True)

5部署管理Hadoop集群5.1部署Hadoop集群登陸界面http://{IPAddress):8080/,用戶名密碼為admin:admin。接下來就可以啟動安裝向?qū)?,?chuàng)建集群,安裝服務(wù)。SASSASJL用戶ffiP歡迎使用先電大數(shù)據(jù)平臺e過里,個平臺*思用戶.的乂一個集髀便用安衆(zhòng)pi髓t?砂;《郵:8測》■■■開始部署首先?給1FW?個濟TtTR#HOPHHApacftdEinifm^.?V20?f?wwEHia^x54?u.aftarraai??a ?a 選擇安裝?!鏊涂駜园茶bgopjwYa場枝?心24OMDP23?-HDP224)?StovnKlCiHmesN”wm曲開恰井借廳序泳?虹56柬禪觀itdasxjMutTtttMfffs.an王機相上九舷%■一彳?mhi壬譏誡mssuw處環(huán)理績飴反時? 在刪t出的圭斑時??8*?軸且“交件.QdetM?n7QMMM^re<ff?!T0?uwi1HOP2lHDP^JTXS-11020HOP?4MOP-UDL^11020MDP-24MOP-UTM.S-11020HOP-24M0P5211.020MMtnflp.*>puMc-<Qpo?inoftonwodoco?aTiDPHMan7/2jpupmev?4Onnpi>pcjt>k-repo-lhortonwortocom.TCP-uniS-11aRtepovoOW"puMc^Whirwtonmco(TVHDP?ren?tWwvpoaiev24OntJp/4M*-<epo-ihortonwodawcwWOP-uniS-110ZEpowOnnpjima?e(/HDP-24-^seimpmaiiw/HDPUTiLS-1102Qnnp/TpuDfecrepo-1hortonwortscomiHOP^use11sp3QcvgMeFOnnpiMonwodacomHOPAHUS-Y1omepowO0先電大數(shù)播干臺ISA-:*r,*CWtrMqR*241曲理MH安裝選項WPJW王!HP協(xié).鞅卻鞅卻AJWftHSmmumSJM?MBBim?A王眥名1t碌金舷Hlg(F8N〉?每懺一個王口名?PatternExpressionsmasttfyavetiIVUtJMKft?- 王fib??*pnv?Ttre>SSHRPWF 哦?斷手曲甥zn,不佚用ssh?跡心坊4跡心坊4正左始■王ineawaw.確認主機心!4w10)i5?i■■mlai?i 遴用 狀空 ftffOniattet 期 CMqsewi MQ) BOtt開詢r選擇服務(wù)?U三機tt*■述1出訶斗€(wěn)K)FS2?124ApxheZgp兮布式文佟砲€yarn?MapReOuce227124AoxneHdtloopiB二代MapAeoucc(YARN)iCtenhQTez07024說8PWI處it皮耐序BW分右式如亍.口Hve111Z4姻匕&羽統(tǒng)ft科點刈旬2也&MtSMK礎(chǔ)據(jù)禾H僑&有暮?<?勞G?MC11224I淡務(wù)SW布IE1W?加上moeno?AW&3用的霸fWJSQUK?W9口E01502A加i析大血Muwnu床平臺□SqoopWTApKheeoocpiaa恂化tm令剛d茨幫mmNiw次懊■工貝DOOZie42024ftiiApecneHdooop|ot>sKI^^IW?B.色jSSMOcaeweossofe細疾.它制1“us逵IlZG將舎KExus.?Zootteeper34624可?的対柘式幼un■申式■芬0Ftlcon001140Slorm010024i_?Flmne1^224離鳥砌,富鳥■的.分布日科■?歎宕和他的爲純匚Accumulo17054■冊筑可tr???富性5?旳布式鋤吃w?電AmoanMetncs010-*WFMl*?r)W?.謬*1蜩佻從■?中蠟W的存蔽Ogg力關(guān)于XianDian-BigData的軟件包進行了分開打包。XianDian-BigData-v2.0.2-BASE.iso軟件包包含HDFS、MapReduce2>YARN、Tez、Hive、HBase、Pig、Sqoop、Zookeeper、Storm、Flume、AmbariMetrics、KerberosMahou>Spark等服務(wù)組件。XianDian-BigData-v2.0.2-EXT.iso軟件包包含了accumulo、atlas、falcon、kafka、knox、oozie、rangerslider等服務(wù)組件。這里如果需要這些服務(wù)組件,則需要添加一個yum配置文件,如下:#viHDP-EXTEND.repo2929[HDP-2.4-EXTEND]name=HDP-2.4EXTENDbaseurl=http://master/HDP-2.4-EXTENDenabled=1gpgcheck=()分配MasterABWIH■認王機SNamef^xSesttvert(39GafS)ABWIH■認王機SNamef^xSesttvert(39GafS)mwtef<76GBIff)MwneMooemasser(76681MigocySetve*slaveri09G8IB>AppTwnemeSetverslawl(39G619)R9$ourx*Mvidg?rtlavert(99G81BF)a?Mi1(39GB.IfglZooKetperSefverslaverlQ9G81f5>ZooKeepefSe<v?rmaslet(/6GB1R)MetricsCotector masier(76GS1M)GrMna maMec(76G81??? 堀平臺分配Slaves和Clientsawwioc?onugiPHswenim.PteM*處斑HDFScaenc.MapReouce2Ci,yarnCtenttQZocKceperOem倔MMe?4jftSIMSioClemsirwwter.*DaUNodeu-NFSGalewav療ModeMan^ger無DsiaNotieNF9Gateway迂.NodeMarager?caent無Caent@七電大雜站臺 @七電大雜站臺 TH?u王機MKMMter>)£S?YMndentsRS?u王機MKMMter>)£S?YMndentsRS義”W^nsfUfta,n9GraTdnAAdfnnPassword|繃a.W?辰 ~~|[羸!曲?人耶 ~~]Thearequireo門定義服務(wù)ttmff 7mw?b?抵弦休Bg?Q飆aaw合amam?tt?HDFSLUpAeAKe2YARNZooKeepeAnbanMetres(>Mac?§Dera■⑵ ?G?rwiraiQ▲…r-"竇吸▲…r-"竇吸9斤砂Ia?wmsum4HUMU10HttSkivesiaCMBm?畤Q23(m.gi■*!!;」?drumi込血inMmaster13% 葦?shù)胙bAwNodeSUWft13% ■MWtAopTrntmeSe(vc<BT.? ▼ 1-2-t.M>b??■nA{MiirEfiT?*?S£-4B這里要設(shè)置GrafanaAdmin的密碼。0化電大贈辛臺安裝開始并進行測試■財象您iffP?■?心轉(zhuǎn)恂?■ 3■題0先電大冊軍臺安裝開始并進行測試■爍簞鮒中?MvVH?too%?w■2血I■色| ISlQ主《lnustef100%sUverl100%■丹注Bf.MWn;2% ?114-.MM- N?4N■昜安HZOWI??n?篁五才斤左n冷二sirti?用的萌三芳工息'占??uj?.fia<3a?部署成功后,便可成功進入界面。在主界面中,可以查看集群狀態(tài)監(jiān)控信息。@先電大咖F白HOP■■■■王輯1?務(wù) 王01 8VAdmen建控舸SU!歷史£1?如? 1J<7?DauNodtsm2/2OW?Na@先電大咖F白HOP■■■■王輯1?務(wù) 王01 8VAdmen建控舸SU!歷史£1?如? 1J<7?DauNodtsm2/2OW?NataOrtweOHBMeOZooKrepmOAneanMetnaaM4lbOU!HDFS0IBid—

teccmlatv

XMNnOv??z_RHamtNo^RFCMV^ttManwNodtHeap23.0min<%NanwNod*CFUWO0.17msa?H8*MAV?CMHBawM3SUr?W^22.2min在HadoopMaster的終端執(zhí)行jps命令,在打印結(jié)果中會看到master上運行的進程,這些進程表示主節(jié)點進程啟動成功。[root^master~]#jps17360NameNode17120QuorumPeerMain23412―processinformafionunavailable18917App1icationHistoryserver12310Ambariserver20263NodeManager18889HMaster18106HMaster18620HRegionserver29870Jps16831DataNode在HadoopSlave的終端執(zhí)行jps命令,也會看到相應(yīng)的進程:Slaver1:[root@slaverl~]#jps12801ApplicationHistoryServer10065DataNode15586HRegionServer10419SecondaryNameNode16790RunJar11542JobHistoryServer13414ResourceManager13080NodeManager18220RunJar18956RunJar17565Jps7565QuorumPeerMain5.2HDFS運維管理5.2.1HDFS命令手冊1.概述切換到hdfs用戶,可以通過“hadoopfs■”命令來查看HDFS文件系統(tǒng)的幫助命令,通過提示的命令來對文件系統(tǒng)進行管理。命令如下:$hadoopfs?執(zhí)行結(jié)果如下:Usage:hadoopfs(genericoptions]i-appcndToFile<localsrc>???<dst>]-cat[-ignoreCrc]<sro???][-checksum<src>???][-chgrp[-R]GROUPPATH..[■Chfliod[-R]<MODG[.MODE)...IOCTALMODE>PATH???][-chown[-R][OWNERH:[GROUP]]PATH..f-copyFromLocal[-fl[-p][-1J<localsrc>???<dst>]r-copyTolocal[-□)(-ignoreCrc)[-crc]<src>???<locald$t>]f-count[-a][-hj(-v)(-t[<storagctypo]]<path>???]l-cp('fjL-pI-pltopax]]<src>???<dst>J[-crcatcSnapshot<snapshotDir>[<snapshotName>]]E-deleteSnapshot<snapshotDir><snapshotName>][-df[-h][<path>...]][-du[-s][-h]<path>…][-expunge]f-find<path> <expression>???]get[-p][-ignoreCrc][?crc]<$rc>???<localdst>](-getfaei[-R]<path>)l-gctfattr[R]{-nnameI?d)[-een)<path>]getmerge[-nl]<src><localdst>][-help[emd...]][-Is[?d][-h][-R][<path>???]][-mkdir[-p]<oath>...][-moverromLocal<localsrc>...<dst>]「moveTolocal<$rc><localdst>]L-mv<src>—L-put[-f][-p][-1]<localsrc>???<dst>][rcnamcSnapshot<snapshotOir><oldNamc><ncwKamc>][-rm[-rI-R][-skipTrash][-safely]<src>???)rmdir[??ignore-fail?on?non-empty]<dir>???][-setfacl[-R][{-b|-k}{-ml-x<aci_spec>}<path>]I[■-set<acl_spec><path>]][-setfattr{-nname[-vvalue]Iname}<path>]F-setrep[?R]F-w]<rep><path>...]L-$tat[formatj<path>???)[-tailf-f][-test-[defsz)<path>][-text[-ignoreCrcJ<src>???][-touch?<path>???][-truncate[?w]<length><path>???][-usage[c?d???]]Genericoptionssupportedare-conf<configurationf<le>specifyanapplicationconfigurationfile-0<property*value> usevaIucforgivenproperty<local|namcnodc:port>specifyanamcnodc<localIresourcemanager:port>specifyaRcsourceManagcr?files<commaseparatedlistoffiles>specifycommaseparatedfilestobecopiedtothemapreducecluster?libiars<commaseparatedlistofjars>specifycomoaaseparatedjarfilestoincludeintheclasspath??archives<commaseparatedlistofarchives>specifycommaseparatedarchivestobeunarchivedonthecomputemachines?Thegeneralcomandlinesyntaxis所有的hadoop命令均由bin/hadoop腳本引發(fā)。不指定參數(shù)運行hadoop腳本會打卬所有命令的描述。用法:hadoop[-configconfdir][COMMAND][GENERIC_OPTIONS][COMMAND_OPTIONS]Hadoop有一個選項解析框架用于解析一般的選項和運行類。命令選項描述—configconfdir覆蓋缺省配置目錄。缺省是${HADOOP_HOME}/confGENERIC_OPTIONS多個命令都支持的通用選項COMMAND命令選項S各種各樣的命令和它們的選項會在下面提到。這些命令被分為用戶命令管理命令兩組。權(quán)限管理在Hadoop集群中,只有hdfs用戶才有對HDFS文件系統(tǒng)的管理權(quán)限,當其它用戶對文件系統(tǒng)進行操作,需要給其賦予相應(yīng)的權(quán)限,這里為了方便操作,將所有用戶的讀寫執(zhí)行權(quán)限全部放開,命令如下:#suhdfs$hadoopfs-chmod-R7力/[root@master[hdfs餉asterFound8iternsdrwxrwxrwxdrwxr-xr-xdrwxr-xr-xdrwxr-xr-xdrwxr-xr-xdrwxrwxrwxdrwxrwxrwxdrwxr-xr-x[hdfs(&master[hdfs(&masterFound8iternsdrwxrwxrwxdrwxrwxrwxdrwxrwxrwxdrwxrwxrwxdrwxrwxrwxdrwxrwxrwxdrwxrwxrwxdrwxrwxrwx[hdfs@master3?常規(guī)選項hadoop-mapreducej#hadoop-mapreduce]$suhdfshadoopfsyarnhadoophdfshdfsyarnhdfshadoophdfsmapredhdfsmapredhadoophdfshdfs[root@master[hdfs餉asterFound8iternsdrwxrwxrwxdrwxr-xr-xdrwxr-xr-xdrwxr-xr-xdrwxr-xr-xdrwxrwxrwxdrwxrwxrwxdrwxr-xr-x[hdfs(&master[hdfs(&masterFound8iternsdrwxrwxrwxdrwxrwxrwxdrwxrwxrwxdrwxrwxrwxdrwxrwxrwxdrwxrwxrwxdrwxrwxrwxdrwxrwxrwx[hdfs@master3?常規(guī)選項hadoop-mapreducej#hadoop-mapreduce]$suhdfshadoopfsyarnhadoophdfshdfsyarnhdfshadoophdfsmapredhdfsmapredhadoophdfshdfshdfshdfsnadoop-mapreduce]$hadoopnadoop-mapreduce]$hadoopyarnhdfsyarnhdfsmapredmapredhdfshdfshadoophdfshadoophdfshdfshadoophdfshdfshadoop-mapreduce]$exitoooooooooooooooo7777777711111111oooooooo222222227777777711111111oooooooo22222222ololololololololmo/01010101010101011206:451208:371206:421206:421206:421206:421208:171208:14-R7771206:451208:371206:421206:421206:421206:421208:171208:14/app-logs/apps/ats/hdp/mapred/mr-history/tmp/user/app-logs/apps/ats/hdp/mapred/mr-history/tmp/userGENERIC_OPTION描述?confConfigurationfile>指定應(yīng)用程序的配置文件。-D<property=value>為指定property指定值value。-fs<local|namenode:port>指定namenodeo-jt<Iocal|jobtracker:port>指定jobtrackero只適用于job。?files<逗號分隔的文件列表〉指定要拷貝到mapreduce集群的文件的逗號分隔的列表。只適用于job。-libjarsv逗號分隔的jar列表〉指定要包含到classpath中的jar文件的逗號分隔的列表。只適用于job。-archivesv逗號分隔的archive列表〉指定要被解壓到計算節(jié)點上的檔案文件的逗號分割的列表。只適用于job。下面的選項被dfsadmin,fs,fsck和job支持。應(yīng)用程序要實現(xiàn)Tool來支持常規(guī)選項。4.用戶命令hadoop集群用戶的常用命令。archive創(chuàng)建一個hadoop檔案文件。參考HadoopArchives.用法:hadooparchive?archiveNameNAME?pvparenlpath〉<src>*<dest>命令選項描述-archiveNameNAME要創(chuàng)建的檔案的名字。-p<parentpath>父路徑,格式與正則表達式一致。src父路徑下面需要創(chuàng)建檔案的文件名(可多個)dest保存檔案文件的目標目錄。distcp遞歸地拷貝文件或目錄。參考DistCp指南以獲取等多信息。用法:hadoopdistcp<srcurl><desturl>命令選項描述srcurl源Urldesturl目的Urlfs用法:hadoopfs[GENERIC_OPTIONS][COMMAND_OPTIONS]運行一個常規(guī)的文件系統(tǒng)客戶端。fsck運行HDFS文件系統(tǒng)檢查工具。參考FsckT解更多。用法:hadoopfsck[GENERIC_OPTIONS]<path>[-move|-delete|-openforwrite][-files[-blocks[-locations|-racks]]]

命令選項描述<path>檢查的起始目錄。-move移動受損文件到/lost+found-delete刪除受損文件。?openforwrite打印出寫打開的文件。-files打印出正被檢查的文件。-blocks打印出塊信息報告。-locations打印出每個塊的位置信息。-racks打印出data-node的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。jar運行jar文件。用戶可以把他們的MapReduce代碼捆綁到j(luò)ar文件中,使用這個命令執(zhí)行。用法:hadoopjar<jar>[mainClass]args...job用于和MapReduce作業(yè)交互和命令。用法:hadoopjob[GENERIC_OPTIONS][-submit<job-file>]|[-status<job-id>]|[-counter<job-id><group-name><counter-name>]|[-kill<job-id>]|[-events<job-id><from-event-#><#-of-events>]|[-history[all]<jobOutputDir>]|[-list[all]]|[-kill-task<task-id>]|[-fail-task<task-id>]命令選項描述?submit<job-file>提交作業(yè)-status<job-id>打印map和reduce完成百分比和所有計數(shù)器。

?counter<job-id><group-name〉<counter-name>打印計數(shù)器的值。-kill<job-id>殺死指定作業(yè)。?events<job-id><from-event-#><#-of-events>打印給定范圍內(nèi)jobtracker接收至!)的事件細節(jié)。-history[all]<jobOutputDir>-history<jobOutputDir>打印作業(yè)的細節(jié)、失敗及被殺死原因的細節(jié)。更多的關(guān)于一個作業(yè)的細節(jié)比如成功的任務(wù),做過的任務(wù)嘗試等信息可以通過指定[all]選項查看。?list[all]-listall顯示所有作業(yè)。-list只顯示將要完成的作業(yè)。-kill-task<task-id>殺死任務(wù)。被殺死的任務(wù)不會不利于失敗嘗試。-fail-task<task-id>使任務(wù)失敗。被失敗的任務(wù)會對失敗嘗試不利。pipes運行pipes作業(yè)。用法:hadooppipes[-conf<path>][-jobconf<key=value>,<key=value>,...][-input<path>][-output<path>][-jar<jarfilo][-inputformat<class>][-map<class>][-partitioner<class>][-reduce<class>][-writer<class>][-program<executable>][-reduces<num>]命令選項描述■conf<path>作業(yè)的配置-jobconf<key二value〉,<key=value>,.增加/覆蓋作業(yè)的配置項

■input<path>輸入目錄-output<path>輸岀目錄-jar<jarfile〉Jar?文件名■inputformat<class>InputFormat類?map<class>JavaMap類-partitioner<class>JavaPartitioner-reduce<class>JavaReduce類?writer<class>JavaRecordWriter-program<executable>可執(zhí)行程序的URI-reducesvnum>reduce個數(shù)version打印版本信息。用法:hadoopversionCLASSNAMEhadoop腳本可用于調(diào)調(diào)用任何類。用法:hadoopCLASSNAME運行名字為CLASSNAME的類。5.管理命令hadoop集群管理員常用的命令。balancer運行集群平衡工具。管理員可以簡單的按Ctrl-C來停止平衡過程。參考Rebalancer

了解更多。用法:hadoopbalancer[-threshold<threshold>]命令選項描述-threshold<threshold>磁盤容量的百分比。這會覆蓋缺省的閥值。daemonlog獲取或設(shè)置每個守護進程的口志級別。用法:hadoopdaemonlog-getlevel<host:port><classname>用法:hadoopdaemonlog-setlevel<host:port><classname><level>命令選項描述-getlevel<host:port><classname>打印運行在<host:port>的守護進程的日志級別。這個命令內(nèi)部會連接http://<host:port>/logLevel?log=<name>-setlevel<host:port><classname><level>設(shè)置運行在Vhoscpon>的守護進程的日志級別。這個命令內(nèi)部會連接http://<host:port>/logLevel?log=<name>datanode運行一個HDFS的datanodeo用法:hadoopdatanode[-rollback]命令選項描述-report報告文件系統(tǒng)的基本信息和統(tǒng)計信息。-safemodeenter|leave|get|wait安全模式維護命令。安全模式是Namcnodc的一個狀態(tài),這種狀態(tài)下,Namenode不接受對名字空間的更改(只讀)不復制或刪除塊Namenode會在啟動時自動進入安全模式,當配置的塊最小百分比數(shù)滿足最小的副本數(shù)條件時,會自動離開安全模式。安全模式可以手動進入,但是這樣的話也必須手動關(guān)閉安全模式。-refreshNodes重新讀取hosts和exclude文件,更新允許連到Namenode的或

那些需要退出或入編的Datanode的集合。-finalizeUpgrade終結(jié)HDFS的升級操作。Datanode刪除前一個版本的工作目錄,之后Namenode也這樣做。這個操作完結(jié)整個升級過程。-upgradeProgressstatus|details|force請求當前系統(tǒng)的升級狀態(tài),狀態(tài)的細節(jié),或者強制升級操作進行。-metasavefilename保存Namenode的主要數(shù)據(jù)結(jié)構(gòu)到hadoop.log.dir屬性指定的目錄下的<filename>文件。對于下面的每一項,vfilenamc>中都會一行內(nèi)容與之對應(yīng)Namenode收到的Datanode的心跳信號等待被復制的塊正在被復制的塊等待被刪除的塊-setQuota <quota><dimame>...<dirname>為每個目錄<dirname>設(shè)定配額<quota>o目錄配額是一個長整型整數(shù),強制限定了目錄樹下的名字個數(shù)。命令會在這個目錄上工作良好,以下情況會報錯:N不是一個正整數(shù),或者用戶不是管理員,或者這個目錄不存在或是文件,或者目錄會馬上超出新設(shè)定的配額。?clrQuota<dimame>...<dirname>為每一個目錄<dirname>清除配額設(shè)定。命令會在這個目錄上工作良好,以下情況會報錯:這個目錄不存在或是文件,或者用戶不是管理員。如果目錄原來沒有配額不會報錯。-help[cmd]顯示給定命令的幫助信息,如果沒有給定命令,則顯示所有命令的幫助信息。secondarynamenode運行HDFS的secondarynamenode□用)去:hadoopsecondarynamenode[-checkpoint[force]]|[-geteditsize]命令選項描述-checkpoint[force]如果EditLog的人小>=fs.checkpoint.size,啟動Secondarynamenode的檢查點過程。如果使用了-force,將不考慮EditLog的大小。-geteditsize打印EditLog大小。5.2.2進程管理查看當前系統(tǒng)中啟動的進程命令如下:jps執(zhí)行結(jié)果如下:1445AmbariServer13606RunJar22313HMaster27226Jps21483Historyserver22334ApplicationHistoryServer13871DataNode28431NameNode重啟NameNode和DateNode進程hadoop-daemon.sh腳本是啟動和停止hadoop后臺程序,“—config"參數(shù)指定啟動程序時用到的配置文件目錄。命令如下:/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh--config/usr/hdp/current/hadoop-client/confstop{namenode/datenode)/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh—config/usr/hdp/current/hadoop-client/confstart{namenode/datenode}5.2.3可靠性管理Hadoop集群中的主機在某些情況下會出現(xiàn)宕機或者系統(tǒng)損壞的問題,?旦遇到這些問題,HDFS文件系統(tǒng)中的數(shù)據(jù)文件難免會產(chǎn)生損壞或者丟失,為了保證HDFS文件系統(tǒng)的可靠性,可以采取以下策略:1.冗余副本策略更改集群冗余副本的復制因子為5,從而避免某臺節(jié)點主機損壞導致數(shù)據(jù)丟失的情況,這里我們有兩種方式來設(shè)置復制因子。第一種是通過WEB界面,進入到HDFS配置中修改Blockreplication的參數(shù)值?!鯣eneralWebHDFSenabted &Ac第:種方式是在Shell命令行模式下,修改hdfs-site.xml配置文件,將"dfs.replication”的值設(shè)置為5,然后重啟NameNode和DataNode進程。#vi/etc/hadoop/-379仏)/hdfs-site.xml<property><name>dfs.replication</name〉<value>5</value></property>2.安全模式當在進行系統(tǒng)維護或者集群維護時,不希望用戶進行再去操作HDFS文件系統(tǒng)中文件,這時候需要手動將NameNode設(shè)置成安全模式的狀態(tài)。該操作需要HDFS管理用戶來進行實現(xiàn),即hdfs用戶。命令如下:$hadoopdfsadmin?safemodeenter$hadoopdfsadmin-safemodeget執(zhí)行結(jié)果如下:

SafemodeisON3.回收站設(shè)置HDFS文件系統(tǒng)回收站中的文件徹底刪除的時間間隔為7天。進入到HDFS配置中修改“erval”的值為1(X)&)(分鐘)。注:當該值為0時,表示禁用回收站的功能。高級core-sitefs.derauitFSh(ns//master.hadoop:8020 aoCfstrashinterval110080 aoOC4.快照管理為HDFS文件系統(tǒng)中“/ldaoyun”目錄創(chuàng)建快照,首先需要設(shè)置該目錄可進行快照功能,然后再進行創(chuàng)建快照。[root^masterT#hadoopfs-Is/ldaoyunFound1items-rw-rw-r-- 3hdfshdfs 152016-11-0919:09/ldaoyun/bigdata.txt[root@masterT#hadoopdfsadmin-allowsnapshot/ldaoyunDEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.Allowingsnaphot[root@masterT#on/ldaoyunsucceededAllowingsnaphot[root@masterT#hadoopfs-createSnapshot/ldaoyunsOCreatedsnapshot/ldaoyun/.snapshot/sO[root?master創(chuàng)建完成后,創(chuàng)建一個恢復文件夾,通過cp命令可以恢復快照,如下:[rootCmasterhadoopfs-Is/ldaoyun/.snapshotFound1itemsdrwxrwxr-x-hdfshdfs(root0masterdrwxrwxr-x-hdfshdfs(root0master?]#hadoopfs(root^master-]#hadoopfs[root@master~]#hadoopfsFound1items-rw-r——r-- 3roothdfs-mkdir/ldaoyun/recover-cp/ldaoyun/.snapshot/sO/bigdata.txt/ldaoyun/recover-Is/ldaoyun/recover/152016-11-1408:52/ldaoyun/recover/bigdata.txt5.3MapReduce5.3.1運行案例進入/usr/hdp/-227/hadoop-mapreduce/目錄中,存在一個hadoop-mapreduce-exampIes-.4.3.0-227.jar的案例JAR包,其所自帶的案例如下:

[root?masterhadoop-mapreduce]#hadoopjarhadoop-mapreduce-examples-2?7?l?2?4?3?0-227.jarWARNING:Use"yarnjartolaunchYARNapplications?Anexampleprogrammustbegivenasthefirstargument?Validprogramnamesare:aggregatewordcount:AnAggregatebasedmap/reduceprogramthatcountsthewordsintheinputfiles?aggregatewordhist:AnAggregatebasedmap/reduceprogramthatcomputesthehistogramofthewordsintheinputfiles.bbp:Amap/reduceprogramthatuses8ailey?Borwein-P1ouffetocomputeexactdigitsofPi?dbcount:Anexamplejobthatcountthepageviewcountsfromadatabase?distbbp:Amap/reduceprogramthatusesaBBP-typeformulatocomputeexactbitsofPi?grep:Amap/reduceprogramthatcountsthematchesofaregexintheinput?join:Ajobthateffectsajoinoversorted,equallypartitioneddatasetsmultifilewc:Ajobthatcountswordsfromseveralfiles?pentomino:Amap/reducetile1ayingprogramtofindsolutionstopentominoproblems?pi:Amap/reduccprogramthatestimatesPiusingaquasi-MonteCarlomethod?randomtextwriter:Amap/reduceprogramthatwrites10GBofrandomtextualdatapernode,randomwriter:Amap/reduceprogramthatwrites10GBofrandomdatapernode?secondarysort:Anexampledefiningasecondarysorttothereduce?sort:Amap/reduceprogramthatsortsthedatawrittenbytherandomwriter.sudoku:Asudokusolver?teragen:Generatedatafortheterasortterasort:Runtheterasortteravalidate:Checkingresultsofterasortwordcount:Amap/reduceprogramthatcountsthewordsintheinputfiles?wordmean:Amap/reduceprogramthatcountstheaverage1engthofthewordsintheinputfiles?wordmedian:Amap/reduceprogramthatcountsthemedianlengthofthewordsintheinputfiles?wordstandarddeviation:Amap/reduceprogramthatcountsthestandarddeviationofthelengthofthewordsintheinputfiles?這里,我們以運行一個圓周率的計算為例:#cd/usr/hdp/-227/hadoop-mapreduce/#hadoopjarhadoop-mapreduce-examples-2.7」.?227.jarpi55[luifs€slaverlhadoop?ntapr€du"]$haEARNING:Use"yarnjar**tolaunchYNumberofMaps■5Samplesper八 ’WroteinputWroteinputWroteinputWroteinputwroteinputStartina''16/10/3116/10/3116/10/3116/10/3116/10/3116/10/3116/10/3138_OOO1/16/10/3116/10/3116/10/3116/10/3116/10/3116/10/3116/10/3116/10/3116/10/31Map=5forMap#0forMap#1forMapforMap#3forMap#4Job03:13:4103:13:4103:13:4603:13:4903:13:5003:13:5203:13:52INFOIKFOINFOIKFOINFOINFOINFOhadoop-mapreduce-examples?2?7?1.?2?3.6?0-3796?jarpi55ications.impl.TiiBelineClicntlwp):Timcl-ineserviceaddress:http://s1aver1.hadoop:8188/ws/vl/fi?elinc/client.RMProxy:ConnectingtoRcsourceManagerats1averl.hadoop/82:8050input.FilelnputFormat:Totalinputpathstoprocess:5mapreduce?JooSubeitter:numberofsplit$:5miiprcducc.JobSub?ittcr:Submittingtokensforjob:iob-1477853518438_OOOiimpl.YarnClientlwpl:SubmittedapplicationappIicat100^1477853518438.0001mapreduce.Job:_'亠一?J-???一八、??? — ?- "一__ ^plicationapplication.1477853518438.0001Theurltotrackthejob:http://slaverl.hadoop:8088/proxy/applicatiot\.1^778535184L03:13:52L03:14:13L03:14:13L03:14:35L03:15:18L03:15:43L03:16:00 L03:16:01INFOL03:16:02INFOFileSystemFILE:FILE:FILE:FILE:FILE:HOPS:HOPS:MDFS:HOPS:HOPS:JobCountersLaunchedmaptasks=5Launchedreducetasks?lDatamaptasks?5Total? 'TotalTotalTotalTotalTotalTotal亠Total_Map?ReduceFrameworkMapinputrecords=5Mapoutputrecords?10Mapoutputbytes=90Mapoutputmaterializedbytes=140Runningjob:iob-1477853518438?0001Jobjoo_i477853518438.0001runninginuberMode:falsemap0%reduce0%■ap4OXreduce0%wap80%reduceOXmap100%

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論