《Hadoop大數(shù)據(jù)平臺構建與應用教程》教案全套_第1頁
《Hadoop大數(shù)據(jù)平臺構建與應用教程》教案全套_第2頁
《Hadoop大數(shù)據(jù)平臺構建與應用教程》教案全套_第3頁
《Hadoop大數(shù)據(jù)平臺構建與應用教程》教案全套_第4頁
《Hadoop大數(shù)據(jù)平臺構建與應用教程》教案全套_第5頁
已閱讀5頁,還剩190頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

4江蘇財會職業(yè)學院教案課程名稱:Hadoop大數(shù)據(jù)平臺構建與應用教程所在學院:信息工程學院授課班級:23大數(shù)據(jù)授課教師:丁永波建議學時48-76(2024至2025學年第二學期)

目錄TOC\o"1-9"\h\u39121.1大數(shù)據(jù)技術概述 450151.2虛擬機安裝 10257971.3Linux操作系統(tǒng)配置 14281282.1Hadoop本地模式搭建 19224792.2Hadoop偽分布式集群搭建1 23227032.3Hadoop偽分布式集群搭建2 28283422.4Hadoop完全分布式集群搭建1 3393702.5Hadoop完全分布式搭建2 395429項目三Hadoop分布式文件系統(tǒng)操作 48240653.1HDFS簡介 48326253.2HDFS命令行操作 5511773.3HDFSJavaAPI操作 6125063項目四Mapreduce分布式計算編程實戰(zhàn) 66184604.1Mapreduce概述及工作原理 6635414.2Mapreduce編程組件 72152464.3Mapreduce經典案例——倒排索引 76158454.4Mapreduce經典案例——數(shù)據(jù)去重 82153034.5Mapreduce經典案例——TopN 8732029項目五Zookeeper分布式協(xié)調服務操作 9227417項目七HBase數(shù)據(jù)庫操作 1278801項目八Hive數(shù)據(jù)倉庫操作 144295108.1hive簡介 144279218.2hive安裝和管理 15020948.3hive數(shù)據(jù)庫操作 157295768.4hive內部表和外部表 161145528.5hive分區(qū)表 165231658.6hive桶表 169188778.7hive數(shù)據(jù)操作 17217568項目九Sqoop數(shù)據(jù)遷移操作 178272689.1sqoop安裝和指令 17891879.2MySql表數(shù)據(jù)導入HDFS 182272829.3MySql表數(shù)據(jù)導入Hive 18787879.4sqoop數(shù)據(jù)導出 190項目一Linux操作系統(tǒng)配置1.1大數(shù)據(jù)技術概述教學項目(單元)項目一Linux操作系統(tǒng)配置1.1大數(shù)據(jù)技術概述授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.2.13選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析本次課是大數(shù)據(jù)技術與應用專業(yè)職業(yè)能力核心課程《Hadoop大數(shù)據(jù)大數(shù)據(jù)開發(fā)技術》課程中的概述部分。根據(jù)高等職業(yè)教育“專業(yè)目錄及專業(yè)簡介”以及專業(yè)課程標準,本次課程針對大數(shù)據(jù)及Hadoop的相關入門概念進行詳細地講解。學情分析授課對象為信息系三年制高職大數(shù)據(jù)技術與應用專業(yè)二年級學生;學生已經學完前置課程Linux和python的學習,有一定的大數(shù)據(jù)專業(yè)理論基礎和實踐基礎,但是學生自主學習能力差別大,解決問題能力有待提高。教學目標知識目標了解大數(shù)據(jù)特征、典型應用、發(fā)展歷史、Hadoop版本及生態(tài)體系。能力目標掌握Hadoop的演變歷史及生態(tài)體系。素質目標培養(yǎng)學生嚴密的邏輯思維能力以及嚴謹細致的工匠精神;教學重難點1、重點:Hadoop典型應用、Hadoop版本及生態(tài)體系;2、難點:Hadoop生態(tài)體系。教學策略本次課為課程概述部分,理論型課。本次設計以PPT講授為主,使用講故事,講案例方式開展,并結合多媒體、職教云等信息化手段進行,通過分享演示、自主探究、小組合作、翻轉課堂等多樣化的教學手段有效促進學生自主學習,并輔以課堂在線討論、課堂測試、課后在線自評互評等方式。工匠精神、技術報國等思政元素貫穿整個教學活動。教學設計流程

教學過程實施課前導學環(huán)節(jié)教師活動學生活動設計意圖1.通過班級學習群發(fā)布課程預習任務。2.通過職教云平臺上傳PPT等文檔和微課等視頻資源:=1\*GB3①大數(shù)據(jù)特征及典型應用;=2\*GB3②Hadoop的發(fā)展歷史及生態(tài)特征;3.將學生按學習能力正態(tài)分布進行分組。1.通過班級學習群接收課前預習任務。2.根據(jù)預習任務的要求,自主預習網絡教學平臺上的微課和文檔資料。1.通過課前任務,學生初識教學內容;教師依據(jù)預習任務完成情況調整教學重難點,根據(jù)導學案明確教學過程。課中教學環(huán)節(jié)教學內容教師活動學生活動設計意圖具體課中環(huán)節(jié)及時間分配課程介紹(5’)1、授課計劃:《Hadoop大數(shù)據(jù)開發(fā)技術》,總計96課時,分2個學期完成學習,每個學期48個課時,4*12W。2、課程地位:Hadoop作為處理大數(shù)據(jù)的最主流工具,其作用地位不言而喻。本課程作為大數(shù)據(jù)技術入門課程,為學生搭建起通向“大數(shù)據(jù)知識空間”的橋梁和紐帶,以“構建知識體系、闡明基本原理、引導初級實踐、了解相關應用”為原則,為學生在大數(shù)據(jù)領域“深耕細作”奠定基礎、指明方向。3、課程內容:本課程的前導課程有Java程序設計、Linux操作系統(tǒng)、MySQL數(shù)據(jù)庫技術,后續(xù)課程有Spark大數(shù)據(jù)快速運算、畢業(yè)論文等。本課程核心內容包括初識Hadoop大數(shù)據(jù)技術,Hadoop環(huán)境配置,分布式文件系統(tǒng)HDFS,資源調度框架YARN,分布式并行編程模型MapReduce,面向列的分布式數(shù)據(jù)庫HBase,數(shù)據(jù)倉庫Hive,數(shù)據(jù)查詢與分析平臺Pig,分布式海量日志采集、聚合和傳輸系統(tǒng)Flume,在傳統(tǒng)數(shù)據(jù)庫與分布式數(shù)據(jù)庫之間進行數(shù)據(jù)傳遞的工具Sqoop,提供分布式協(xié)調一致性服務的ZooKeeper,Hadoop快速部署工具Ambari,機器學習領域經典算法庫Mahout等內容。本學期主要學習內容是hadoop平臺搭建、HDFS、HBASE、Zookeerper。3、課堂紀律要求、作業(yè)要求。4、考核要求:平時30%+期中30%+期末40%,缺勤3次以上算曠課。教師講授、提問學生聽講、互動小組討論(5’)問題:什么是大數(shù)據(jù)?學生分組討論,每組討論出一個答案并起立分享情景導入(5’)通過舉例,引出大數(shù)據(jù)的概念。大數(shù)據(jù)的快速發(fā)展在無時無刻影響著我們的生活。在醫(yī)療方面,大數(shù)據(jù)能夠幫助醫(yī)生預測疾病;在電商方面,大數(shù)據(jù)能夠向顧客個性化推薦商品;在交通方面,大數(shù)據(jù)能幫助人們選擇最佳出行方案。學生聽講小組討論(5’)問題:大數(shù)據(jù)有什么特征?學生分組討論,每組討論出一個答案并起立分享講授新課(15’)大數(shù)據(jù)1、大數(shù)據(jù)定義。最早提出“大數(shù)據(jù)”這一概念的是全球知名咨詢公司麥肯錫,他是這樣定義大數(shù)據(jù)的:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型以及價值密度四大特征。研究機構Gartner是這樣定義大數(shù)據(jù)的:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流轉優(yōu)化能力來適應海量、高增長率和多樣化的信息資產。2、大數(shù)據(jù)的特征。3、研究大數(shù)據(jù)的意義。研究大數(shù)據(jù),最重要的意義是預測。因為數(shù)據(jù)從根本上講,是對過去和現(xiàn)在的歸納和總結,其本身不具備趨勢和方向性的特征,但是我們可以應用大數(shù)據(jù)去了解事物發(fā)展的客觀規(guī)律、了解人類行為,并且能夠幫助我們改變過去的思維方式,建立新的數(shù)據(jù)思維模型,從而對未來進行預測和推測。知名互聯(lián)網公司谷歌對其用戶每天頻繁搜索的詞匯進行數(shù)據(jù)挖掘,從而進行相關的廣告推廣和商業(yè)研究。學生聽講、互動小組討論(5’)問題:大數(shù)據(jù)有哪些應用呢?學生分組討論,每組討論出一個答案并起立分享翻轉課堂(15’)大數(shù)據(jù)應用場景精準營銷。風險管控。決策支持。服務創(chuàng)新。產品創(chuàng)新。教師主持、點評總結學生查閱資料開展自主學習。每組學生代表上臺講授、組間互評小組討論(5’)問題:Hadoop的前世今生是怎么樣的?學生分組討論,每組討論出一個答案并起立分享講授新課(10’)Hadoop演變歷史學生聽講、互動小組討論(5’)問題:Hadoop的生態(tài)體系?學生分組討論,每組討論出一個答案并起立分享講授新課(10’)Hadoop生態(tài)體系學生聽講、互動課堂小結(5’)大數(shù)據(jù)的定義特征應用,Hadoop演變歷史、生態(tài)體系課后環(huán)節(jié)教師活動學生活動設計意圖評價答疑1.教師評價2.答疑指導3、教師適時在QQ群、微信群、職教云教學平臺上面開展在線答疑活動。技術型理論課較枯燥,需要多跟學生互動交流,激發(fā)學生興趣。1.2虛擬機安裝教學項目(單元)項目一Linux操作系統(tǒng)配置1.2虛擬機安裝授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.2.15選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析本次課內容為虛擬機安裝和克隆,學生動手操作為主。學情分析授課對象為信息系三年制高職大數(shù)據(jù)技術與應用專業(yè)二年級學生;學生已經學完前置課程Linux和python的學習,有一定的大數(shù)據(jù)專業(yè)理論基礎和實踐基礎,但是學生自主學習能力差別大,解決問題能力有待提高。教學目標知識目標熟悉理解虛擬機概念和應用場景。能力目標掌握虛擬機安裝和克隆。素質目標培養(yǎng)實踐動手能力以及嚴謹細致的工匠精神。教學重難點1、重點:虛擬機安裝、克??;2、難點:虛擬機克隆。教學策略本次課為實訓型課,通過講師演示、學生練習、自主探究、小組合作、翻轉課堂等多樣化的教學手段有效促進學生自主學習,并輔以課堂在線討論、課堂測試、課后在線自評互評等方式。工匠精神、技術報國等思政元素貫穿整個教學活動。教學設計流程學過程實施課前導學環(huán)節(jié)教師活動學生活動設計意圖1.通過班級學習群發(fā)布課程預習任務。2.通過職教云平臺上傳文檔和視頻等自主預習資源:=1\*GB3①虛擬機安裝步驟;=2\*GB3②虛擬機克隆步驟;3.將學生按學習能力正態(tài)分布進行分組。1.通過班級學習群接收課前預習任務。2.根據(jù)預習任務的要求,自主預習網絡教學平臺上的微課和文檔資料。1.通過課前任務,學生初識教學內容;教師依據(jù)預習任務完成情況調整教學重難點,根據(jù)導學案明確教學過程。課中教學環(huán)節(jié)教學內容教師活動學生活動設計意圖具體課中環(huán)節(jié)及時間分配舊知回顧(5’)大數(shù)據(jù)特征、應用場景,Hadoop生態(tài)體系及演變歷史。學生回答新課導入(5’)Hadoop集群的搭建要涉及到多臺機器,而在日常學習和個人開發(fā)測試過程中,這顯然是不可行的,為此,可以使用虛擬機軟件(例如VMwareWorkstation)在同一臺電腦上構建多個Linux虛擬機環(huán)境,從而進行Hadoop集群的學習和個人測試。問題1:哪些同學使用過虛擬機?問題2:虛擬機有哪幾種?學生聽講互動講授新課(15’)虛擬機安裝1、 進入VMware官網(地址:/cn.html),點擊上方導航欄中的下載,再點擊圖中標記的WorkstationPro。2、下載成功后,放到指定目錄下,雙擊打開,不斷點擊下一步。3、輸入許可證。學生邊聽邊實踐學生實踐(20’)學生實踐講授新課(10’)虛擬機克隆1、完整克隆。是對原始虛擬機完全獨立的一個拷貝,它不和原始虛擬機共享任何資源,可以脫離原始虛擬機獨立使用。2、鏈接克隆。需要和原始虛擬機共享同一虛擬磁盤文件,不能脫離原始虛擬機獨立運行。但是采用共享磁盤文件可以極大縮短創(chuàng)建克隆虛擬機的時間,同時還節(jié)省物理磁盤空間。學生邊聽邊實踐學生實踐(15’)1、關閉Hadoop01虛擬機,在VMware工具左側系統(tǒng)資源庫中右鍵單擊Hadoop01,選擇“管理”列表下的“克隆”選項,彈出克隆虛擬機向導。2、選擇克隆類型和克隆方式。學生實踐學生分享(15’)學生分享安裝心得學生分享任務小結(5’)小結虛擬機安裝和克隆課后環(huán)節(jié)教師活動學生活動設計意圖評價答疑1.教師評價2.答疑指導3、教師適時在QQ群、微信群、職教云教學平臺上面開展在線答疑活動。技術型操作課需要教師邊演示邊操作并且及時答疑,關注學生進度。

1.3Linux操作系統(tǒng)配置教學項目(單元)項目一Linux操作系統(tǒng)配置1.3Linux系統(tǒng)配置授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.2.17選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析本次課內容為虛擬機三種網絡模式的設置以及l(fā)inux系統(tǒng)網絡配置。學情分析授課對象為信息系三年制高職大數(shù)據(jù)技術與應用專業(yè)二年級學生;學生已經學完前置課程Linux和python的學習,有一定的linux理論基礎和實踐基礎,但是學生自主學習能力差別大,解決問題能力有待提高。教學目標知識目標理解虛擬機橋接模式、NAT模式、僅主機模式。能力目標掌握linux不同網絡配置方法。素質目標培養(yǎng)實踐動手能力以及嚴謹細致的工匠精神。教學重難點1、重點:虛擬機三種聯(lián)網模式、linux網絡配置方法;2、難點:虛擬機三種聯(lián)網模式。教學策略本次課為實訓型課,通過講師演示、學生練習、自主探究、小組合作、翻轉課堂等多樣化的教學手段有效促進學生自主學習,并輔以課堂在線討論、課堂測試、課后在線自評互評等方式。工匠精神、技術報國等思政元素貫穿整個教學活動。教學設計流程教學過程實施課前導學環(huán)節(jié)教師活動學生活動設計意圖1.通過班級學習群發(fā)布課程預習任務。2.通過職教云平臺上傳文檔和視頻等自主預習資源:=1\*GB3①虛擬機三種聯(lián)網模式;=2\*GB3②linux網絡配置;3.將學生按學習能力正態(tài)分布進行分組。1.通過班級學習群接收課前預習任務。2.根據(jù)預習任務的要求,自主預習網絡教學平臺上的微課和文檔資料。1.通過課前任務,學生初識教學內容;教師依據(jù)預習任務完成情況調整教學重難點,根據(jù)導學案明確教學過程。課中教學環(huán)節(jié)教學內容教師活動學生活動設計意圖具體課中環(huán)節(jié)及時間分配舊知回顧(5’)虛擬機的安裝和克隆。學生回答小組討論(5’)問題1:哪些同學采用多種聯(lián)網方式配置過虛擬機?學生聽講互動講授新課(15’)虛擬機三種聯(lián)網方式虛擬機的網絡連接方式分為三種,分別是橋接模式、NAT模式、和僅主機模式,三種連接模式存在著一定的差異,那么我們該如何選擇適合自己的連接模式呢?1.橋接模式:在此模式下,虛擬機相當于一臺獨立的電腦,分配到獨立的IP(和主機的IP同段),此時局域網可以互相ping通,可以聯(lián)網。2.NAT模式:把你的本機當作路由器給你的虛擬機分配一個IP,此時是可以聯(lián)網的,但是局域網里的其他電腦是不能ping通虛擬機的,反過來是可以的,這個就適合在ip地址緊張的時候用了。3.僅主機模式:自己和自己玩,虛擬機只能和主機互相通訊,適合自己做一些學習、研究(研究?)等方面的事情哈。學生聽講回答講授新課(15’)虛擬機克隆1、主機名和IP映射配置。配置3臺虛擬機主機名分別為hadoop01、hadoop02、hadoop03。2、hosts配置文件Linux主機名的相關配置文件就是/etc/hosts;這個文件告訴本主機哪些域名對應那些IP,哪些主機名對應哪些IP,比如文件中有這樣的定義00linumu100test100假設00是一臺網站服務器,在網頁中輸入http://linumu100或http://test100就會打開00的網頁。hosts文件的格式如下:IP地址主機名/域名主機名別名第一部份:網絡IP地址第二部份:主機名或域名第三部份:主機名別名2、網絡參數(shù)配置(1)配置網卡設備的Mac地址。臨時修改MAC地址:1)閉網卡設備/sbin/ifconfigeth0down2)修改MAC地址/sbin/ifconfigeth0hwetherMAC地址3)重啟網卡/sbin/ifconfigeth0up4)查看修改是否生效:ifconfigeth0|grepHWaddr。永久修改mac地址:#ifconfigeth0down#cd/etc/sysconfig/network-scripts#viifcfg-eth0修改其中的"HWADDR=xx:xx:xx:xx:xx:xx"為"MACADDR=xx:xx:xx:xx:xx:xx"#ifconfigeth0up#servicenetworkstart注意:關鍵詞HWADDR和MACADDR是有區(qū)別的。(2)配置靜態(tài)IP地址(3)配置效果驗證學生邊聽邊實踐學生實踐(30’)1、配置主機名,具體指令如下。vi/etc/sysconfig/network2、查看IP地址可選范圍,并配置IP映射3、配置靜態(tài)IP地址學生實踐學生分享(15’)學生分享linux網絡配置心得學生分享任務小結(5’)小結虛擬機三種聯(lián)網模式課后環(huán)節(jié)教師活動學生活動設計意圖評價答疑1.教師評價2.答疑指導3、教師適時在QQ群、微信群、職教云教學平臺上面開展在線答疑活動。技術型操作課需要教師邊演示邊操作并且及時答疑,關注學生進度。

項目二Hadoop集群搭建2.1Hadoop本地模式搭建教學項目(單元)項目二Hadoop集群搭建2.1Hadoop本地模式搭建授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.2.20選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析Hadoop本地運行模式學情分析授課對象為信息系三年制高職大數(shù)據(jù)技術與應用專業(yè)二年級學生;學生已經學完了虛擬機相關知識以及hadoop的安裝,但是學生自主學習能力差別大,解決問題能力有待提高。教學目標知識目標熟悉Hadoop本地運行模式機制能力目標掌握Hadoop本地運行模式安裝素質目標培養(yǎng)實踐動手能力、嚴謹細致的工匠精神、不驕不躁的調試心態(tài)。教學重難點1、重點:Hadoop本地運行模式的安裝。2、難點:Hadoop本地運行模式的安裝。教學策略本次課為實訓型課,通過教師演示、學生練習、自主探究、小組合作、翻轉課堂等多樣化的教學手段有效促進學生自主學習,并輔以課堂在線討論、課堂測試、課后在線自評互評等方式。工匠精神、技術報國等思政元素貫穿整個教學活動。教學設計流程教學過程實施課前導學環(huán)節(jié)教師活動學生活動設計意圖1.通過班級學習群發(fā)布課程預習任務。2.通過職教云平臺上傳文檔和視頻等自主預習資源:=2\*GB3②Hadoop安裝;3.將學生按學習能力正態(tài)分布進行分組。1.通過班級學習群接收課前預習任務。2.根據(jù)預習任務的要求,自主預習網絡教學平臺上的微課和文檔資料。1.通過課前任務,學生初識教學內容;教師依據(jù)預習任務完成情況調整教學重難點,根據(jù)導學案明確教學過程。課中教學環(huán)節(jié)教學內容教師活動學生活動設計意圖具體課中環(huán)節(jié)及時間分配舊知回顧(10’)復習Hadoop環(huán)境安裝步驟學生回答任務導入(5’)1、獨立模式即本地運行模式(standalone或localmode)無需運行任何守護進程(daemon),所有程序都在單個JVM上執(zhí)行。由于在本機模式下測試和調試MapReduce程序較為方便,因此,這種模式適宜用在開發(fā)階段。學生聽講互動講練結合(40’)進入官網:/docs/r2.7.3/hadoop-project-dist/hadoop-common/SingleCluster.html1、在Hadoop目錄中,配置Java環(huán)境etc/hadoop/hadoop-env.sh編輯這個文件在這個字段中,修改為自己Java配置的路徑2、創(chuàng)建在hadoop-2.7.3文件下面創(chuàng)建一個input文件夾mkdirinput3、將Hadoop的xml配置文件復制到inputcpetc/hadoop/*.xmlinput4、執(zhí)行share目錄下的MapReduce程序bin/Hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jargrepinputoutput'dfs[a-z.]+'5、查看輸出結果catoutput/*官方本地WordCount案例1、創(chuàng)建在hadoop-2.7.3文件下面創(chuàng)建一個wcinput文件夾mkdirwcinput2、在wcinput文件下創(chuàng)建一個wc.input文件cdwcinputtouchwc.input3、編輯wc.input文件vimwc.input在文件中輸入如下內容hadoopyarnhadoopmapreducenihaonihao保存退出::wq4、回到Hadoop目錄5、執(zhí)行程序hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jarwordcountwcinputwcoutput6、查看結果catwcoutput/part-r-00000nihao2hadoop2mapreduce1yarn1學生先聽后動手實踐學生分享(35’)Hadoop本地運行模式安裝心得代表學生分享經驗和失誤任務小結(5’)Hadoop本地運行模式安裝步驟流程課后環(huán)節(jié)教師活動學生活動設計意圖評價答疑1.教師評價2.答疑指導3、教師適時在QQ群、微信群、職教云教學平臺上面開展在線答疑活動。敲命令需要仔細認真,嚴謹細致。

2.2Hadoop偽分布式集群搭建1教學項目(單元)第2章搭建Hadoop集群2.2Hadoop偽分布式集群搭建1授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.2.22選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析Hadoop偽分布式運行模式部署學情分析授課對象為信息系三年制高職大數(shù)據(jù)技術與應用專業(yè)二年級學生;學生已經學完前置課程Linux和python的學習,已有Hadoop本地運行模式基礎,但是學生自主學習能力差別大,解決問題能力有待提高。教學目標知識目標Hadoop偽分布式運行模式部署能力目標掌握Hadoop偽分布式運行模式部署素質目標培養(yǎng)實踐動手能力、嚴謹細致的工匠精神、不驕不躁的調試心態(tài)。教學重難點1、重點:Hadoop偽分布式運行模式。2、難點:Hadoop偽分布式運行模式。教學策略本次課為實訓型課,通過教師演示、學生練習、自主探究、小組合作、翻轉課堂等多樣化的教學手段有效促進學生自主學習,并輔以課堂在線討論、課堂測試、課后在線自評互評等方式。工匠精神、技術報國等思政元素貫穿整個教學活動。教學設計流程教學過程實施課前導學環(huán)節(jié)教師活動學生活動設計意圖1.通過班級學習群發(fā)布課程預習任務。2.通過職教云平臺上傳文檔和視頻等自主預習資源:=1\*GB3①Hadoop偽分布式運行模式;3.將學生按學習能力正態(tài)分布進行分組。1.通過班級學習群接收課前預習任務。2.根據(jù)預習任務的要求,自主預習網絡教學平臺上的微課和文檔資料。1.通過課前任務,學生初識教學內容;教師依據(jù)預習任務完成情況調整教學重難點,根據(jù)導學案明確教學過程。課中教學環(huán)節(jié)教學內容教師活動學生活動設計意圖具體課中環(huán)節(jié)及時間分配舊知回顧(5’)Hadoop本地運行模式學生回答講授新課(5’)Hadoop集群部署模式偽分布模式在偽分布式模式下,Hadoop程序的守護進程都運行在一臺節(jié)點上,該模式主要用于調試Hadoop分布式程序的代碼,以及程序執(zhí)行是否正確。偽分布式模式是完全分布式模式的一個特例。學生聽講回答講練結合(30’)配置啟動的集群(1)配置集群(a)配置:hadoop-env.sh(上一個本地已配置過)Linux系統(tǒng)中獲取JDK的安裝路徑:修改JAVA_HOME路徑:exportJAVA_HOME=/home/master/apps/jdk1.8.0_221(b)配置:core-site.xml<!--指定HDFS中NameNode的地址--><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><!--指定Hadoop運行時產生文件的存儲目錄--><property><name>hadoop.tmp.dir</name><value>/home/master/apps/hadoop-2.7.3/data/tmp</value></property>(c)配置:hdfs-site.xml<!--指定HDFS副本的數(shù)量--><property> <name>dfs.replication</name> <value>1</value></property>(2)啟動集群(a)格式化NameNode(第一次啟動時格式化,以后就不要總格式化)[master@masterhadoop-2.7.3]$bin/hdfsnamenode-format(b)啟動hadoop:sbin/start-dfs.sh(3)查看集群(a)查看是否啟動成功(b)web端查看HDFS文件系統(tǒng)http://master:50070/dfshealth.html#tab-overview注意:如果不能查看,看如下帖子處理/zlslch/p/6604189.html(c)查看產生的Log日志。當前目錄:/opt/module/hadoop-2.7.3/logs學生先聽后動手實踐講練結合(30’)HDFS操作(a)在HDFS文件系統(tǒng)上創(chuàng)建一個input文件夾[master@masterhadoop-2.7.3]$bin/hdfsdfs-mkdir-p/user/master/input(b)將測試文件內容上傳到文件系統(tǒng)上[master@masterhadoop-2.7.3]$bin/hdfsdfs-putwcinput/wc.input/user/master/input/(c)查看上傳的文件是否正確[master@masterhadoop-2.7.3]$bin/hdfsdfs-ls/user/master/input/[master@masterhadoop-2.7.3]$bin/hdfsdfs-cat/user/master/input/wc.input(d)運行MapReduce程序[master@masterhadoop-2.7.3]$bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jarwordcount/user/master/input//user/master/output(e)查看輸出結果命令行查看:[master@masterhadoop-2.7.3]$bin/hdfsdfs-cat/user/master/output/*瀏覽器查看,如下圖所示:(f)將測試文件內容下載到本地[master@masterhadoop-2.7.3]$hdfsdfs-get/user/master/output/part-r-00000./wcoutput/(g)刪除輸出結果[master@masterhadoop-2.7.3]$hdfsdfs-rm-r/user/master/output學生先聽后實踐學生分享(15’)Hadoop本地運行模式安裝部署心得代表學生分享經驗和失誤任務小結(5’)Hadoop本地運行模式安裝部署步驟流程課后環(huán)節(jié)教師活動學生活動設計意圖評價答疑1.教師評價2.答疑指導3、教師適時在QQ群、微信群、職教云教學平臺上面開展在線答疑活動。代碼編寫需要有良好的風格,遵循縮進規(guī)律;

2.3Hadoop偽分布式集群搭建2教學項目(單元)項目二Hadoop集群搭建2.2搭建Hadoop偽分布式運行模式2授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.2.24選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析Hadoop偽分布式運行模式部署之yarn學情分析授課對象為信息系三年制高職大數(shù)據(jù)技術與應用專業(yè)二年級學生;學生已經學完前置課程Linux和python的學習,已有Hadoop本地運行模式基礎,但是學生自主學習能力差別大,解決問題能力有待提高。教學目標知識目標熟悉理解Hadoop偽分布式運行模式部署yarn能力目標掌握Hadoop偽分布式運行模式y(tǒng)arn部署素質目標培養(yǎng)實踐動手能力、嚴謹細致的工匠精神、不驕不躁的調試心態(tài)。教學重難點1、重點:Hadoop偽分布式運行模式y(tǒng)arn。2、難點:Hadoop偽分布式運行模式y(tǒng)arn。教學策略本次課為實訓型課,通過教師演示、學生練習、自主探究、小組合作、翻轉課堂等多樣化的教學手段有效促進學生自主學習,并輔以課堂在線討論、課堂測試、課后在線自評互評等方式。工匠精神、技術報國等思政元素貫穿整個教學活動。教學設計流程教學過程實施課前導學環(huán)節(jié)教師活動學生活動設計意圖1.通過班級學習群發(fā)布課程預習任務。2.通過職教云平臺上傳文檔和視頻等自主預習資源:=1\*GB3①Hadoop偽分布式運行模式y(tǒng)arn;3.將學生按學習能力正態(tài)分布進行分組。1.通過班級學習群接收課前預習任務。2.根據(jù)預習任務的要求,自主預習網絡教學平臺上的微課和文檔資料。1.通過課前任務,學生初識教學內容;教師依據(jù)預習任務完成情況調整教學重難點,根據(jù)導學案明確教學過程。課中教學環(huán)節(jié)教學內容教師活動學生活動設計意圖具體課中環(huán)節(jié)及時間分配舊知回顧(5’)Hadoop偽分布式運行模式概念機制學生回答學生實訓(30’)Hadoop本地運行模式搭建(1)配置集群(a)配置:hadoop-env.sh(上一個本地已配置過)Linux系統(tǒng)中獲取JDK的安裝路徑:修改JAVA_HOME路徑:exportJAVA_HOME=/home/master/apps/jdk1.8.0_221(b)配置:core-site.xml<!--指定HDFS中NameNode的地址--><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><!--指定Hadoop運行時產生文件的存儲目錄--><property><name>hadoop.tmp.dir</name><value>/home/master/apps/hadoop-2.7.3/data/tmp</value></property>(c)配置:hdfs-site.xml<!--指定HDFS副本的數(shù)量--><property> <name>dfs.replication</name> <value>1</value></property>(2)啟動集群(a)格式化NameNode(第一次啟動時格式化,以后就不要總格式化)[master@masterhadoop-2.7.3]$bin/hdfsnamenode-format(b)啟動hadoop:sbin/start-dfs.sh(3)查看集群(a)查看是否啟動成功(b)web端查看HDFS文件系統(tǒng)http://master:50070/dfshealth.html#tab-overview注意:如果不能查看,看如下帖子處理/zlslch/p/6604189.html(c)查看產生的Log日志。當前目錄:/opt/module/hadoop-2.7.3/logs學生先聽后動手實踐講練結合(30’)Yarn1. 分析 (1)配置集群在YARN上運行MR (2)啟動、測試集群增、刪、查 (3)在YARN上執(zhí)行WordCount案例2. 執(zhí)行步驟 (1)配置集群(a)配置yarn-env.sh配置一下JAVA_HOMEexportJAVA_HOME=/opt/module/jdk1.8.0_144(b)配置yarn-site.xml<!--Reducer獲取數(shù)據(jù)的方式--><property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value></property><!--指定YARN的ResourceManager的地址--><property><name>yarn.resourcemanager.hostname</name><value>master</value></property> (c)配置:mapred-env.sh配置一下JAVA_HOMEexportJAVA_HOME=/opt/module/jdk1.8.0_144 (d)配置:(對mapred-site.xml.template重新命名為)mapred-site.xml[master@masterhadoop]$mvmapred-site.xml.templatemapred-site.xml[master@masterhadoop]$vimapred-site.xml<!--指定MR運行在YARN上--><property> <name></name> <value>yarn</value></property>(2)啟動集群(a)啟動前確保NameNode和DataNode已啟動(b)啟動ResourceManager[master@masterhadoop-2.7.3]$sbin/yarn-daemon.shstartresourcemanager(c)啟動NodeManager[master@masterhadoop-2.7.3]$sbin/yarn-daemon.shstartnodemanager (3)集群操作(a)YARN的瀏覽器頁面查看,如下圖所示http://master:8088/cluster(b)刪除文件系統(tǒng)上的output文件[master@masterhadoop-2.7.3]$bin/hdfsdfs-rm-R/user/master/output(c)執(zhí)行MapReduce程序[master@masterhadoop-2.7.3]$bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jarwordcount/user/master/input/user/master/output(d)查看運行結果,如圖2-36所示[master@masterhadoop-2.7.3]$bin/hdfsdfs-cat/user/master/output/*學生先聽后實踐學生分享(15’)Hadoop偽分布式運行模式安裝部署錯誤點代表學生分享經驗和失誤任務小結(5’)Hadoop偽分布式運行模式安裝部署步驟流程課后環(huán)節(jié)教師活動學生活動設計意圖評價答疑1.教師評價2.答疑指導3、教師適時在QQ群、微信群、職教云教學平臺上面開展在線答疑活動。配置文件編寫需要養(yǎng)成良好的風格,降低出錯率;

2.4Hadoop完全分布式集群搭建1

教學項目(單元)項目二Hadoop集群搭建2.4Hadoop完全分布式集群搭建1授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.2.27選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析Hadoop完全分布式運行模式部署學情分析授課對象為信息系三年制高職大數(shù)據(jù)技術與應用專業(yè)二年級學生;學生已經學完前置課程Linux和python的學習,已經完成Hadoop本地運行模式、偽分布式模式的學習,但是學生自主學習能力差別大,解決問題能力有待提高。教學目標知識目標熟悉Hadoop完全分布式運行模式機制和部署步驟能力目標掌握Hadoop完全分布式運行模式素質目標培養(yǎng)實踐動手能力、嚴謹細致的工匠精神、不驕不躁的調試心態(tài)。教學重難點1、重點:Hadoop完全分布式運行模式。2、難點:Hadoop完全分布式運行模式。教學策略本次課為實訓型課,通過教師演示、學生練習、自主探究、小組合作、翻轉課堂等多樣化的教學手段有效促進學生自主學習,并輔以課堂在線討論、課堂測試、課后在線自評互評等方式。工匠精神、技術報國等思政元素貫穿整個教學活動。教學設計流程教學過程實施課前導學環(huán)節(jié)教師活動學生活動設計意圖1.通過班級學習群發(fā)布課程預習任務。2.通過職教云平臺上傳文檔和視頻等自主預習資源:=1\*GB3①Hadoop完全分布式運行模式;3.將學生按學習能力正態(tài)分布進行分組。1.通過班級學習群接收課前預習任務。2.根據(jù)預習任務的要求,自主預習網絡教學平臺上的微課和文檔資料。1.通過課前任務,學生初識教學內容;教師依據(jù)預習任務完成情況調整教學重難點,根據(jù)導學案明確教學過程。課中教學環(huán)節(jié)教學內容教師活動學生活動設計意圖具體課中環(huán)節(jié)及時間分配舊知回顧(10’)Hadoop偽分布式運行模式學生回答新課導入(5’)1、完全分布式模式概念在完全分布式模式下,Hadoop的守護進程分別運行在由多個主機搭建的集群上,不同節(jié)點擔任不同的角色,在實際工作應用開發(fā)中,通常使用該模式構建企業(yè)級Hadoop系統(tǒng)。完全分布式模式集群部署規(guī)劃學生聽講回答講練結合(15’)配置core-site1、配置core-site.xml[root@masterhadoop]$vicore-site.xml在該文件中編寫如下配置<!--指定HDFS中NameNode的地址--><property> <name>fs.defaultFS</name><value>hdfs://hadoop01:9000</value></property><!--指定Hadoop運行時產生文件的存儲目錄--><property> <name>hadoop.tmp.dir</name> <value>/home/master/apps/hadoop-2.7.3/data/tmp</value></property>學生先聽后動手實踐講練結合(20’)配置HDFS文件(2)HDFS配置文件配置hadoop-env.sh[root@masterhadoop]$vimhadoop-env.shexportJAVA_HOME=/home/master/apps/jdk1.8.0_221以上兩個步驟在偽分布式和單機模式已經配置。配置hdfs-site.xml[root@masterhadoop]$vimhdfs-site.xml在該文件中編寫如下配置<!--指定副本的數(shù)量--><property> <name>dfs.replication</name> <value>3</value></property><!--指定Hadoop輔助名稱節(jié)點主機配置--><property><name>node.secondary.http-address</name><value>hadoop02:50090</value></property><!—存儲fsimage文件的地方--><property><name>.dir</name><value>/home/master/apps/hadoop-2.7.3/data/tmp/dfs/name</value></property><!—HDFS數(shù)據(jù)存放block的地方--><property><name>dfs.datanode.data.dir</name><value>/home/master/apps/hadoop-2.7.3/data/tmp/dfs/data</value></property>學生先聽后實踐講練結合(15’)配置YARN文件配置yarn-env.sh[root@masterhadoop]$vimyarn-env.shexportJAVA_HOME=/home/master/apps/jdk1.8.0_221配置yarn-site.xml[root@masterhadoop]$vimyarn-site.xml在該文件中增加如下配置<!--Reducer獲取數(shù)據(jù)的方式--><property> <name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!--指定YARN的ResourceManager的地址--><property> <name>yarn.resourcemanager.hostname</name> <value>hadoop01</value></property>學生先聽后實踐講練結合(20’)配置MapReduce文件(4)MapReduce配置文件1.配置mapred-env.sh[root@masterhadoop]$vimmapred-env.shexportJAVA_HOME=/home/master/apps/jdk1.8.0_2212.配置mapred-site.xml。修改名字。[root@masterhadoop]$cpmapred-site.xml.templatemapred-site.xml[root@masterhadoop]$vimmapred-site.xml在該文件中增加如下配置<!--指定MR運行在Yarn上--><property> <name></name> <value>yarn</value></property><!--歷史服務器端地址--><property><name>mapreduce.jobhistory.address</name><value>hadoop1:10020</value></property><!--歷史服務器web端地址--><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop1:19888</value></property><property><name>yarn.application.classpath</name><value>hadoop的classpath,使用hadoopclasspath</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>2048</value></property><property><name>yarn.scheduler.minimum-allocation-mb</name><value>2048</value></property><property><name>yarn.nodemanager.resource.cpu-vcores</name><value>1</value></property>學生先聽后實踐任務小結(5’)Hadoop完全分布式配置文件小結課后環(huán)節(jié)教師活動學生活動設計意圖評價答疑1.教師評價2.答疑指導3、教師適時在QQ群、微信群、職教云教學平臺上面開展在線答疑活動。配置文件編寫需要養(yǎng)成良好的風格,降低出錯率;

2.5Hadoop完全分布式搭建2

教學項目(單元)項目二Hadoop集群搭建2.5Hadoop完全分布式搭建2授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.2.29選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析Hadoop完全分布式運行模式部署學情分析授課對象為信息系三年制高職大數(shù)據(jù)技術與應用專業(yè)二年級學生;學生已經學完前置課程Linux和python的學習,已經完成Hadoop本地運行模式、偽分布式模式的學習,但是學生自主學習能力差別大,解決問題能力有待提高。教學目標知識目標熟悉Hadoop完全分布式運行模式機制和部署步驟能力目標掌握Hadoop完全分布式運行模式素質目標培養(yǎng)實踐動手能力、嚴謹細致的工匠精神、不驕不躁的調試心態(tài)。教學重難點1、重點:Hadoop完全分布式運行模式。2、難點:Hadoop完全分布式運行模式。教學策略本次課為實訓型課,通過教師演示、學生練習、自主探究、小組合作、翻轉課堂等多樣化的教學手段有效促進學生自主學習,并輔以課堂在線討論、課堂測試、課后在線自評互評等方式。工匠精神、技術報國等思政元素貫穿整個教學活動。教學設計流程教學過程實施課前導學環(huán)節(jié)教師活動學生活動設計意圖1.通過班級學習群發(fā)布課程預習任務。2.通過職教云平臺上傳文檔和視頻等自主預習資源:=1\*GB3①Hadoop完全分布式運行模式;3.將學生按學習能力正態(tài)分布進行分組。1.通過班級學習群接收課前預習任務。2.根據(jù)預習任務的要求,自主預習網絡教學平臺上的微課和文檔資料。1.通過課前任務,學生初識教學內容;教師依據(jù)預習任務完成情況調整教學重難點,根據(jù)導學案明確教學過程。課中教學環(huán)節(jié)教學內容教師活動學生活動設計意圖具體課中環(huán)節(jié)及時間分配舊知回顧(5’)Hadoop完全分布式運行模式的幾個配置文件學生回答講練結合(10’)slaves文件配置1、配置slaves文件[root@masterhadoop]$vimslaves在該文件中增加如下內容:Hadoop01Hadoop02Hadoop03注意:該文件中添加的內容結尾不允許有空格,文件中不允許有空行。刪除之前運行偽分布式時創(chuàng)建的臨時文件和日志文件,文件路徑是自己配的/data/tmp輸入命令:rm–rftmp rm–rflogs/*學生先聽后動手實踐講練結合(30’)克隆虛擬機一臺機器上的配置完畢,下面進行克隆兩臺機器,完成分布式配置。1、在vmware中,點擊上方的菜單欄。在克隆機器上:1. 修改克隆機上的主機名稱2. 修改克隆機上的IP地址3. 刪除hadoop01,hadoop02,hadoop03,上的ssh秘鑰,重新生成:(1)首先在hadoop01機器上: suroot cd.ssh看是否有這個文件夾,如果沒有,執(zhí)行sshlocalhost,如果有,刪除里面的所有數(shù)據(jù),重新生成。rm–rfid_rsa*ssh-keygen–trsassh-copy-idmasterssh-copy-idhadoop1ssh-copy-idhadoop2并測試:sshmaster,看是否可以免密登錄(2)在hadoop02、hadoop03上,執(zhí)行和hadoop01一樣的步驟。ssh文件夾下(~/.ssh)文件功能解釋查看sshd的安裝狀態(tài):yuminstallopenssh-server查看sshd的啟動狀態(tài):systemctlstatussshd.service啟動sshd:systemctlstartsshd.service重啟sshd:systemctlrestartsshd.service設置開機自啟:systemctlenablesshd.service學生先聽后實踐講練結合(15’)集群單點啟動1)如果集群是第一次啟動,需要格式化NameNode[root@masterhadoop-2.7.3]$hadoopnamenode-format(2)在master上啟動NameNode[root@masterhadoop-2.7.3]$hadoop-daemon.shstartnamenode[root@masterhadoop-2.7.3]$jps3461NameNode(3)在hadoop01、hadoop02以及hadoop03等等上分別啟動DataNode[root@masterhadoop-2.7.3]$hadoop-daemon.shstartdatanode[root@masterhadoop-2.7.3]$jps3461NameNode3608Jps3561DataNode[root@hadoop1hadoop-2.7.3]$hadoop-daemon.shstartdatanode[root@hadoop1hadoop-2.7.3]$jps3190DataNode3279Jps[root@hadoop2hadoop-2.7.3]$hadoop-daemon.shstartdatanode[root@hadoop2hadoop-2.7.3]$jps3237Jps3163DataNode(4)思考:每次都一個一個節(jié)點啟動,如果節(jié)點數(shù)增加到1000個怎么辦? 早上來了開始一個一個節(jié)點啟動,到晚上下班剛好完成,下班?學生先聽后實踐講練結合(15’)群起集群1. 啟動集群 (1)如果集群是第一次啟動,需要格式化NameNode(注意格式化之前,一定要先停止上次啟動的所有namenode和datanode進程,然后再刪除data和log數(shù)據(jù))[root@masterhadoop-2.7.3]$bin/hdfsnamenode-format(2)啟動HDFS[root@masterhadoop-2.7.3]$sbin/start-dfs.sh[root@masterhadoop-2.7.3]$jps4166NameNode4482Jps4263DataNode另外一臺[root@hadoop101hadoop-2.7.3]$jps3218DataNode3288Jps另外一臺[root@hadoop102hadoop-2.7.3]$jps3221DataNode3283SecondaryNameNode3364Jps(3)啟動YARN和歷史服務器(在hadoop01上)[root@hadoop1hadoop-2.7.3]$sbin/start-yarn.sh[root@hadoop1hadoop-2.7.3]$sbin/mr-jobhistory-daemon.shstarthistoryserver注意:NameNode和ResourceManger如果不是同一臺機器,不能在NameNode上啟動YARN,應該在ResouceManager所在的機器上啟動YARN。根據(jù)我們的配置,在hadoop1上了,所以要在hadoop1上啟動學生先聽后實踐學生分享(10’)配置成功的學生分享演示最終配置成功狀態(tài)任務小結(5’)Hadoop完全分布式配置文件小結課后環(huán)節(jié)教師活動學生活動設計意圖評價答疑1.教師評價2.答疑指導3、教師適時在QQ群、微信群、職教云教學平臺上面開展在線答疑活動。敲命令需要仔細認真,嚴謹細致。

教學項目(單元)第2章搭建Hadoop集群2.10Hadoop集群應用初體驗授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.3.3選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析Hadoop完全分布式運行模式部署學情分析授課對象為信息系三年制高職大數(shù)據(jù)技術與應用專業(yè)二年級學生;學生已經學完前置課程Linux和python的學習,已經完成Hadoop本地運行模式、偽分布式模式的學習,但是學生自主學習能力差別大,解決問題能力有待提高。教學目標知識目標熟悉Hadoop完全分布式運行模式機制和部署步驟能力目標掌握Hadoop完全分布式運行模式素質目標培養(yǎng)實踐動手能力、嚴謹細致的工匠精神、不驕不躁的調試心態(tài)。教學重難點1、重點:Hadoop完全分布式運行模式。2、難點:Hadoop完全分布式運行模式。教學策略本次課為實訓型課,通過教師演示、學生練習、自主探究、小組合作、翻轉課堂等多樣化的教學手段有效促進學生自主學習,并輔以課堂在線討論、課堂測試、課后在線自評互評等方式。工匠精神、技術報國等思政元素貫穿整個教學活動。教學設計流程教學過程實施課前導學環(huán)節(jié)教師活動學生活動設計意圖1.通過班級學習群發(fā)布課程預習任務。2.通過職教云平臺上傳文檔和視頻等自主預習資源:=1\*GB3①Hadoop完全分布式運行模式;3.將學生按學習能力正態(tài)分布進行分組。1.通過班級學習群接收課前預習任務。2.根據(jù)預習任務的要求,自主預習網絡教學平臺上的微課和文檔資料。1.通過課前任務,學生初識教學內容;教師依據(jù)預習任務完成情況調整教學重難點,根據(jù)導學案明確教學過程。課中教學環(huán)節(jié)教學內容教師活動學生活動設計意圖具體課中環(huán)節(jié)及時間分配舊知回顧(20’)群起集群1. 啟動集群 (1)如果集群是第一次啟動,需要格式化NameNode(注意格式化之前,一定要先停止上次啟動的所有namenode和datanode進程,然后再刪除data和log數(shù)據(jù))[root@masterhadoop-2.7.3]$bin/hdfsnamenode-format(2)啟動HDFS[root@masterhadoop-2.7.3]$sbin/start-dfs.sh[root@masterhadoop-2.7.3]$jps4166NameNode4482Jps4263DataNode另外一臺[root@hadoop101hadoop-2.7.3]$jps3218DataNode3288Jps另外一臺[root@hadoop102hadoop-2.7.3]$jps3221DataNode3283SecondaryNameNode3364Jps(3)啟動YARN和歷史服務器(在hadoop01上)[root@hadoop1hadoop-2.7.3]$sbin/start-yarn.sh[root@hadoop1hadoop-2.7.3]$sbin/mr-jobhistory-daemon.shstarthistoryserver注意:NameNode和ResourceManger如果不是同一臺機器,不能在NameNode上啟動YARN,應該在ResouceManager所在的機器上啟動YARN。根據(jù)我們的配置,在hadoop1上了,所以要在hadoop1上啟動學生練習講練結合(20’)測試測試:在瀏覽器輸入:http://hadoop01:50070/dfshealth.html#tab-overview2. 查看yarn,在瀏覽器輸入:http://hadoop1:8088/cluster測試:(1) 在集群上創(chuàng)建一個文件:hdfsdfs-mkdir–pceshi/或者hadoopfs(2) 上傳文件到集群:hdfsdfs–putwcinput/(3) 測試運行單詞統(tǒng)計程序:hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jarwordcount/wcinput/wcoutput學生先聽后動手實踐學生實踐(40’)自行復習本章內容,自行搭建hadoop的3種集群模式學生實踐任務小結(10’)Hadoop完全分布式配置文件小結,講解教材本章課后習題課后環(huán)節(jié)教師活動學生活動設計意圖評價答疑1.教師評價2.答疑指導3、教師適時在QQ群、微信群、職教云教學平臺上面開展在線答疑活動。代碼編寫需要有良好的風格,遵循縮進規(guī)律;

項目三Hadoop分布式文件系統(tǒng)操作3.1HDFS簡介教學項目(單元)項目三Hadoop分布式文件系統(tǒng)操作3.1HDFS簡介授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.3.6選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析Hadoop的核心是HDFS和MapReduce。其中,HDFS是解決海量大數(shù)據(jù)文件存儲的問題,是目前應用最廣泛的分布式文件系統(tǒng)。本次課從HDFS的演變開始,引導學生逐步學習HDFS的架構、工作原理。學情分析授課對象為信息系三年制高職大數(shù)據(jù)技術與應用專業(yè)二年級學生;學生已經學完前置課程Linux和python的學習,同時也以及學完hadoop集群搭建,但是學生自主學習能力差別大,解決問題能力有待提高。教學目標知識目標1、了解HDFS演變;2、掌握HDFS特點;3、掌握HDFS的架構和原理。能力目標掌握HDFS的架構和原理素質目標培養(yǎng)學生嚴密的邏輯思維能力;教學重難點1、重點:HDFS的特點、架構、原理;2、難點:HDFS的架構、原理。教學策略本次課為課程概述部分,理論型課。本次設計以PPT講授為主,使用講故事,講案例方式開展,并結合多媒體、職教云等信息化手段進行,通過分享演示、自主探究、小組合作、翻轉課堂等多樣化的教學手段有效促進學生自主學習,并輔以課堂在線討論、課堂測試、課后在線自評互評等方式。工匠精神、技術報國等思政元素貫穿整個教學活動。教學設計流程

教學過程實施課前導學環(huán)節(jié)教師活動學生活動設計意圖1.通過班級學習群發(fā)布課程預習任務。2.通過職教云平臺上傳PPT等文檔和微課等視頻資源:=1\*GB3①HDFS演變、HDFS特點、HDFS的架構和原理。3.將學生按學習能力正態(tài)分布進行分組。1.通過班級學習群接收課前預習任務。2.根據(jù)預習任務的要求,自主預習網絡教學平臺上的微課和文檔資料。1.通過課前任務,學生初識教學內容;教師依據(jù)預習任務完成情況調整教學重難點,根據(jù)導學案明確教學過程。課中教學環(huán)節(jié)教學內容教師活動學生活動設計意圖具體課中環(huán)節(jié)及時間分配舊知回顧小組討論(5’)簡單復習hadoop集群搭建知識點。學生聽課,分組討論,每組討論出一個答案并起立分享新課導入(5’)HDFS源于Google在2003年10月份發(fā)表的GFS(GoogleFileSystem)論文,接下來,我們從傳統(tǒng)的文件系統(tǒng)入手,開始學習分布式文件系統(tǒng),以及分布式文件系統(tǒng)是如何演變而來?學生聽講講授新課(15’)HDFS演變HDFS演變。學生聽講、互動小組討論(5’)問題:傳統(tǒng)的文件系統(tǒng)有哪些?學生分組討論,每組討論出一個答案并起立分享講授新課(15’)HDFS的基本概念HDFS(HadoopDistributedFilesystem)是一個易于擴展的分布式文件系統(tǒng),運行在成百上千臺低成本的機器上。它與現(xiàn)有的分布式文件系統(tǒng)有許多相似之處,都是用來存儲數(shù)據(jù)的系統(tǒng)工具,而區(qū)別于HDFS具有高度容錯能力,旨在部署在低成本機器上。HDFS主要用于對海量文件信息進行存儲和管理,也就是解決大數(shù)據(jù)文件(如TB乃至PB級)的存儲問題。1.NameNode(名稱節(jié)點)NameNode是HDFS集群的主服務器,通常稱為名稱節(jié)點或者主節(jié)點。一旦NameNode關閉,就無法訪問Hadoop集群。NameNode主要以元數(shù)據(jù)的形式進行管理和存儲,用于維護文件系統(tǒng)名稱并管理客戶端對文件的訪問;NameNode記錄對文件系統(tǒng)名稱空間或其屬性的任何更改操作;HDFS負責整個數(shù)據(jù)集群的管理,并且在配置文件中可以設置備份數(shù)量,這些信息都由NameNode存儲。2.DataNode(數(shù)據(jù)節(jié)點)DataNode是HDFS集群中的從服務器,通常稱為數(shù)據(jù)節(jié)點。文件系統(tǒng)存儲文件的方式是將文件切分成多個數(shù)據(jù)塊,這些數(shù)據(jù)塊實際上是存儲在DataNode節(jié)點中的,因此DataNode機器需要配置大量磁盤空間。它與NameNode保持不斷的通信,DataNode在客戶端或者NameNode的調度下,存儲并檢索數(shù)據(jù)塊,對數(shù)據(jù)塊進行創(chuàng)建、刪除等操作,并且定期向NameNode發(fā)送所存儲的數(shù)據(jù)塊列表。3.Block(數(shù)據(jù)塊)每個磁盤都有默認的數(shù)據(jù)塊大小,這是磁盤進行數(shù)據(jù)讀/寫的最小單位,HDFS同樣也有塊(block)的概念,它是抽象的塊,而非整個文件作為存儲單元,在Hadoop2.x版本下,默認大小是128M,且備份3份,每個塊盡可能地存儲于不同的DataNode中。按塊存儲的好處主要是屏蔽了文件的大小,提供數(shù)據(jù)的容錯性和可用性。4.Rack(機架)Rack是用來存放部署Hadoop集群服務器的機架,不同機架之間的節(jié)點通過交換機通信,HDFS通過機架感知策略,使NameNode能夠確定每個DataNode所屬的機架ID,使用副本存放策略,來改進數(shù)據(jù)的可靠性、可用性和網絡帶寬的利用率。5.Metadata(元數(shù)據(jù))元數(shù)據(jù)從類型上分可分三種信息形式,一是維護HDFS文件系統(tǒng)中文件和目錄的信息,例如文件名、目錄名、父目錄信息、文件大小、創(chuàng)建時間、修改時間等;二是記錄文件內容存儲相關信息,例如文件分塊情況、副本個數(shù)、每個副本所在的DataNode信息等;三是用來記錄HDFS中所有DataNode的信息,用于DataNode管理。學生聽講、互動講授新課(10’)HDFS的特點1、之所以選擇HDFS存儲數(shù)據(jù),是因為HDFS具有以下優(yōu)點:(1)高容錯性1)數(shù)據(jù)自動保存多個副本。它通過增加副本的形式,提高容錯性。2)某一個副本丟失以后,它可以自動恢復,這是由HDFS內部機制實現(xiàn)的,我們不必關心。(2)適合批處理1)它是通過移動計算而不是移動數(shù)據(jù)。2)它會把數(shù)據(jù)位置暴露給計算框架。(3)適合大數(shù)據(jù)處理1)數(shù)據(jù)規(guī)模:能夠處理數(shù)據(jù)規(guī)模達到GB、TB、甚至PB級別的數(shù)據(jù)。2)文件規(guī)模:能夠處理百萬規(guī)模以上的文件數(shù)量,數(shù)量相當之大。3)節(jié)點規(guī)模:能夠處理10K節(jié)點的規(guī)模。(4)流式數(shù)據(jù)訪問1)一次寫入,多次讀取,不能修改,只能追加。2)它能保證數(shù)據(jù)的一致性。(5)可構建在廉價機器上1)它通過多副本機制,提高可靠性。2)它提供了容錯和恢復機制。比如某一個副本丟失,可以通過其它副本來恢復。2、HDFS缺點:(1)不適合低延時數(shù)據(jù)訪問;1)比如毫秒級的來存儲數(shù)據(jù),這是不行的,它做不到。2)它適合高吞吐率的場景,就是在某一時間內寫入大量的數(shù)據(jù)。但是它在低延時的情況下是不行的,比如毫秒級以內讀取數(shù)據(jù),這樣它是很難做到的。學生聽講、互動講授新課(10’)HDFS的架構HDFS是一個分布式的文件系統(tǒng),相比普通的文件系統(tǒng)來說更加復雜,因此在學習HDFS的操作之前有必要先來學習一下HDFS的存儲架構。HDFS采用主從架構(Master/Slave架構)。HDFS集群是由一個NameNode和多個的DataNode組成。學生聽講、互動講授新課(20’)HDFS原理1.HDFS寫數(shù)據(jù)原理2.HDFS讀數(shù)據(jù)原理從HDFS中查找數(shù)據(jù),即為Read(讀)數(shù)據(jù)。學生聽講、互動課堂小結(5’)HDFS演變和架構原理課后環(huán)節(jié)教師活動學生活動設計意圖評價答疑1.教師評價2.答疑指導3、教師適時在QQ群、微信群、職教云教學平臺上面開展在線答疑活動。技術型理論課較枯燥,需要多跟學生互動交流,激發(fā)學生興趣。

3.2HDFS命令行操作

教學項目(單元)項目三HDFS分布式文件系統(tǒng)操作3.2HDFS命令行操作授課班級21大數(shù)據(jù)授課學時2授課地點D506授課時間2023.3.8選定及參考教材《Hadoop大數(shù)據(jù)技術原理與應用》(2019年5月第1版)黑馬程序員清華大學出版社教學資源智慧職教、中國大學慕課、黑馬程序員網站教學內容分析先介紹HDFS的shell基本操

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論